このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220723となっている論文です。

PDF登録状況(公開日: 20220723)

TitleAuthorsAbstract論文公表日・翻訳日
# 一次視覚野における蝶効果

The Butterfly Effect in Primary Visual Cortex ( http://arxiv.org/abs/2104.07257v2 )

ライセンス: Link先を確認
Jizhao Liu, Jing Lian, J C Sprott, Qidong Liu, Yide Ma(参考訳) 電気生理学的特性と高い計算効率を備えたニューラルネットワークの探索と確立は、コンピュータビジョンの分野で人気のあるトピックである。 一次視覚野の作用機構に触発されて、パルス結合ニューラルネットワーク(PCNN)は同期振動、屈折周期、指数減衰の特性を示す。 しかし、電気生理学的な証拠は、ニューロンが外部周期信号によって刺激されると、非常に複雑な非線形ダイナミクスを示すことを示している。 このカオス現象は「蝶効果」としても知られ、全てのPCNNモデルでは説明できない。 本研究では,PCNNモデルが実際の一次視覚野を模倣するのを防ぐ主要な障害を解析する。 我々は神経細胞の興奮を確率過程と考える。 次に、連続結合ニューラルネットワーク(CCNN)と呼ばれる新しいニューラルネットワークを提案する。 理論的解析から, CCNNの動的挙動はPCNNとは異なることが示唆された。 数値的な結果から、CCNNモデルは直流刺激下での周期的挙動を示し、実際のニューロンの結果と一致する交流刺激下でのカオス的挙動を示す。 さらに,CCNNモデルの映像処理機構と映像処理機構を解析した。 画像分割実験の結果、CCNNモデルは視覚野ニューラルネットの最先端モデルよりも優れた性能を示した。

Exploring and establishing artificial neural networks with electrophysiological characteristics and high computational efficiency is a popular topic in the field of computer vision. Inspired by the working mechanism of primary visual cortex, pulse-coupled neural network (PCNN) can exhibit the characteristics of synchronous oscillation, refractory period, and exponential decay. However, electrophysiological evidence shows that the neurons exhibit highly complex non-linear dynamics when stimulated by external periodic signals. This chaos phenomenon, also known as the " butterfly effect", cannot be explained by all PCNN models. In this work, we analyze the main obstacle preventing PCNN models from imitating real primary visual cortex. We consider neuronal excitation as a stochastic process. We then propose a novel neural network, called continuous-coupled neural network (CCNN). Theoretical analysis indicates that the dynamic behavior of CCNN is distinct from PCNN. Numerical results show that the CCNN model exhibits periodic behavior under DC stimulus, and exhibits chaotic behavior under AC stimulus, which is consistent with the results of real neurons. Furthermore, the image and video processing mechanisms of the CCNN model are analyzed. Experimental results on image segmentation indicate that the CCNN model has better performance than the state-of-the-art of visual cortex neural network models.
翻訳日:2023-04-03 18:34:27 公開日:2022-07-23
# 量子高調波発振器の非定常・圧縮コヒーレント状態を用いたフルループゲルラッハ干渉計におけるスピンコヒーレンスの全解析

A complete analysis of spin coherence in the full-loop Stern Gerlach interferometer using non-squeezed and squeezed coherent states of the Quantum harmonic oscillator ( http://arxiv.org/abs/2105.03785v2 )

ライセンス: Link先を確認
Yash Lokare(参考訳) 長年にわたり、stern-gerlach効果を利用してミクロンサイズの中性試験質量間の安定なマクロ空間的重ね合わせを作成する様々なグループによって、かなり多くの提案がなされてきた。 ボースらが2017年に提唱したそのような提案の1つは、量子コヒーレントメディエーターの存在がなければ、2つの質量が重力的に絡み合うことができないことを示すためにこのアイデアを使用している。 このアプローチの重要な側面は、SG干渉計の可視性を測定することである。これは、波束が位置と運動量空間の両方で結合された後の全干渉時間で保存されるスピンコヒーレンスの度合いを推定する量である。 しかし、このアイデアの実装に成功するには、いくつかの実験パラメータの知識が必要である。 そこで本研究では,量子調和振動子の非定常・圧縮熱コヒーレント状態に対する一般SG干渉計の可視性に関する厳密な数学的解析を行った。 さらに, 初期調製した試験質量の波束温度, 非粘着状態および圧縮コヒーレント状態の制約を導出する。 マイクロンのオーダーのウェーブ・パケット分割サイズについては,1.0e-14 - 1.0e-15 kgの質量を用いて,0.5秒以内の時間間隔を提案する。 その結果, 圧縮の場合, 初期準備波束の運動量空間のスクイーズを考えると, 所要の温度は数桁(非スクイーズの場合とは対照的に)に拡大できることがわかった。

Over the years, quite a few proposals have been put forward by various groups to exploit the Stern-Gerlach effect to create stable macroscopic spatial superpositions between micron-sized neutral test masses over appreciably long time scales. One such proposal put forward by Bose et al. and co-workers in 2017 uses this idea to show that two masses cannot be gravitationally entangled if not for the presence of a quantum coherent mediator. A key aspect of this approach involves the measure of the visibility of the SG-interferometer, a quantity that provides an estimate of the degree of spin coherence that is conserved over the total interferometric time after the wave-packets are combined in both, position and momentum space. A successful implementation of this idea however requires the knowledge of several experimental parameters. To this end, we present a rigorous mathematical analysis for the visibility in a general SG interferometer for non-squeezed and squeezed thermal coherent states of the Quantum harmonic oscillator. Additionally, we derive constraints on the temperature of the initially prepared wave-packet of the test mass required for both, the non-squeezed and squeezed coherent states. We show that for wave-packet split sizes of the order of microns, masses of the order of 1.0e-14 - 1.0e-15 kg can be used to realize such a proposal for time intervals as high as 0.5 seconds. Our results show that for the squeezed case, the temperatures required can be scaled up by several orders of magnitude (as opposed to the non-squeezed case) if one considers a squeezing in the momentum space of the initially prepared wave-packet.
翻訳日:2023-04-01 03:20:06 公開日:2022-07-23
# 現代における脳構造障害

Brain Structural Saliency Over The Ages ( http://arxiv.org/abs/2202.11690v3 )

ライセンス: Link先を確認
Daniel Taylor, Jonathan Shock, Deshendran Moodley, Jonathan Ipser, Matthias Treder(参考訳) 深層学習による脳年齢推定は、脳の健康にとって強力で信頼性の高いバイオマーカーとなっているが、ニューラルネットワークのブラックボックス的性質は、脳の老化の特徴について簡単には理解できない。我々は、524人の小さな断面コホートからt1構造mriボリュームのbaレグレッサーとしてresnetモデルを訓練した。 層間相関伝播 (lrp) とdeeplift saliency mapping (deeplift saliency mapping) 法を用いて, 学習したモデルを用いて, ネットワークの脳老化に最も関連する構造を同定し, これらを塩分マッピング法と比較した。 老化過程を通じて異なる脳領域への関連性の帰属の変化を示す。 脳領域に関連する三部構成パターンが出現する。 地域によっては、年齢(例えば、右横側側頭回)、年齢(例えば、右第4心室)との関連性が増大し、その他の地域は、年齢を通じて一貫して関連している。 また,脳年齢ギャップ(bag)が脳体積内の関連性分布に及ぼす影響についても検討した。 これらの知見は、正常な脳老化のための臨床的に関連する領域的軌跡と、脳老化軌跡を比較するための基準となることを期待されている。

Brain Age (BA) estimation via Deep Learning has become a strong and reliable bio-marker for brain health, but the black-box nature of Neural Networks does not easily allow insight into the features of brain ageing.We trained a ResNet model as a BA regressor on T1 structural MRI volumes from a small cross-sectional cohort of 524 individuals. Using Layer-wise Relevance Propagation (LRP) and DeepLIFT saliency mapping techniques, we analysed the trained model to determine the most relevant structures for brain ageing for the network, and compare these between the saliency mapping techniques. We show the change in attribution of relevance to different brain regions through the course of ageing. A tripartite pattern of relevance attribution to brain regions emerges. Some regions increase in relevance with age (e.g. the right Transverse Temporal Gyrus); some decrease in relevance with age (e.g. the right Fourth Ventricle); and others are consistently relevant across ages. We also examine the effect of the Brain Age Gap (BAG) on the distribution of relevance within the brain volume. It is hoped that these findings will provide clinically relevant region-wise trajectories for normal brain ageing, and a baseline against which to compare brain ageing trajectories.
翻訳日:2023-03-01 08:31:14 公開日:2022-07-23
# すべての分割にまたがる最大絡み合いを持つ$n$-qubit状態:グラフ状態アプローチ

$n$-qubit states with maximum entanglement across all bipartitions: A graph state approach ( http://arxiv.org/abs/2201.05622v2 )

ライセンス: Link先を確認
Sowrabh Sudevan and Sourin Das(参考訳) 我々は、$k$対$n-k$二分割選択の最大二部交絡を持つ$n$-qubit純状態の構成について議論し、この状態に対応するすべての$k$-qubit還元密度行列のフォン・ノイマンエントロピーが$k \ln 2 $であることを示す。 このような状態は、$k$-uniform、$k$-mm 状態と呼ばれる。 グラフ状態」の部分集合がこの条件を満たすことを示し、従って$k$-uniform状態を構築するためのレシピを提供する。 すべてのグラフ状態は制御された$z$ゲートのみを使用して製品状態から構築できるため、グラフ状態を使って$k$一様状態を構築するためのレシピを見つけることは有用である。 しかし、前もって、任意の$k$-一様状態に対応するグラフをどのように構築するかは明確ではないが、特に孤立頂点を持たないグラフは$$-uniformであることを示す。 円線型連鎖として整理されたグラフは、そのような状態をホストするのに必要となる最小の量子ビット数が$n=5$であることを示す2$ユニフォーム状態に対応する。 3$一様状態は、各層に$n/2$ qubits$n=2\mathbb{Z}$) の2層グラフを形成し、各層が完全に連結されたグラフを形成し、一方の層内の頂点が他方の層に1対1の接続を持つように構成することができる。 4ドルの一様状態は、2次元格子グラフ(または2次元クラスタイジング状態とも呼ばれる)と周期的境界条件を両次元および両次元に少なくとも5$の頂点を持つことによって形成することができる。

We discuss the construction of $n$-qubit pure states with maximum bipartite entanglement across all possible choices of $k$ vs $n-k$ bi-partitioning, which implies that the Von Neumann entropy of every $k$-qubit reduced density matrix corresponding to this state should be $k \ln 2 $. Such states have been referred to as $k$-uniform, $k$-MM states. We show that a subset of the 'graph states' satisfy this condition, hence providing a recipe for constructing $k$-uniform states. Finding recipes for construction of $k$-uniform states using graph states is useful since every graph state can be constructed starting from a product state using only controlled-$Z$ gates. Though, a priori it is not clear how to construct a graph which corresponds to an arbitrary $k$-uniform state, but in particular, we show that graphs with no isolated vertices are $1$-uniform. Graphs organized as a circular linear chain corresponds to the case of $2$-uniform state, where we show that the minimum number of qubits required to host such a state is $n=5$. $3$-uniform states can be constructed by forming bi-layer graphs with $n/2$ qubits ($n=2\mathbb{Z}$) in each layer, such that each layer forms a fully connected graph while inter-layer connections are such that the vertices in one layer has a one to one connectivity to the other layer. $4$-uniform states can be formed by taking 2D lattice graphs( also referred elsewhere as a 2D cluster Ising state ) with periodic boundary conditions along both dimensions and both dimensions having at least $5$ vertices.
翻訳日:2023-03-01 04:22:16 公開日:2022-07-23
# 散逸量子系におけるシフト格子対称性によって保護される位相位相

Topological phases protected by shifted sublattice symmetry in dissipative quantum systems ( http://arxiv.org/abs/2201.09283v2 )

ライセンス: Link先を確認
Makio Kawasaki, Ken Mochizuki, Hideaki Obuse(参考訳) 量子系の散逸力学は、ゴリニ・コサコフスキ・スダールシャン・リンドブラド方程式におけるリンドブラジアンとシュル\"{o}dinger方程式における非エルミートハミルトニアンとの対応に基づいて位相的に分類することができる。 一般の非エルミート・ハミルトニアンは38の対称性クラスに分類されるが、リンドブラジアンは物理的制約のために10の対称性クラスに分類されている。 しかし,本研究では,リンドブラジアンの対称性クラス数を増加させるsls(shifted sublattice symmetry)に基づくリンドブラジアンの位相的分類を明らかにした。 シフトSLSを導入し、リンドブラディアンがこの対称性を保ち、トポロジカル分類においてSLSと同じ役割を果たすようにした。 検証のために、シフトSLSを維持した散逸量子系のモデルを構築し、シフトSLSによって保護されたエッジ状態の存在を確認する。 さらに、シフトSLS保護エッジ状態の存在と観測可能な量のダイナミクスとの関係についても論じる。

Dissipative dynamics of quantum systems can be classified topologically based on the correspondence between the Lindbladian in the Gorini-Kossakowski-Sudarshan-Lindblad equation and the non-Hermitian Hamiltonian in the Schr\"{o}dinger equation. While general non-Hermitian Hamiltonians are classified into 38 symmetry classes, previous studies have shown that the Lindbladians are classified into 10 symmetry classes due to a physical constraint. In this work, however, we unveil a topological classification of Lindbladians based on shifted sublattice symmetry (SLS), which can increase the number of symmetry classes for the Lindbladians. We introduce shifted SLS so that the Lindbladian can retain this symmetry and take on the same role as SLS for the topological classification. For verification, we construct a model of a dissipative quantum system retaining shifted SLS and confirm the presence of edge states protected by shifted SLS. Moreover, the relationship between the presence of shifted SLS protected edge states and the dynamics of an observable quantity is also discussed.
翻訳日:2023-02-28 02:28:13 公開日:2022-07-23
# 変動量子アルゴリズムのためのハードウェア効率な絡み合い測定

Hardware-efficient entangled measurements for variational quantum algorithms ( http://arxiv.org/abs/2202.06979v3 )

ライセンス: Link先を確認
Francisco Escudero, David Fern\'andez-Fern\'andez, Gabriel Jaum\`a, Guillermo F. Pe\~nas, and Luciano Pereira(参考訳) 近年,ノイズの多い中間規模量子(NISQ)デバイスにおける現実的な問題を解く可能性から,変分アルゴリズムは注目されている。 これらのアルゴリズムの基本的なステップは、ハミルトニアンの期待値の評価であり、そのため、このタスクを実行するための効率的なスキームが必要である。 標準的アプローチはポーリ演算子の局所的測定を採用し、多数の回路を必要とする。 もう一つの方法は、回路の数を著しく減少させるが、非物理的に連結された量子ビット間のゲートの絡み合いを伴い、回路の深さを増大させる中間の絡み合い操作を導入することである。 この問題に対する解決策として,ハードウェア効率の高い絡み合い測定(heem),すなわち物理的に接続されたキュービット間の絡み合いのみを許容する測定を提案する。 この戦略により、NISQデバイスにおける分子ハミルトニアンの評価が向上し、その深さを増大させることなく必要な回路数を減らすことができる。 我々は、局所的な測定と任意に絡み合った測定よりも、このアプローチがよりよい結果をもたらす方法の定量的指標を提供する。 我々はH$2$O分子の基底状態エネルギーをHEEMを用いた変分量子固有解法により古典シミュレータと量子ハードウェアで推定する。

Variational algorithms have received significant attention in recent years due to their potential to solve practical problems in noisy intermediate-scale quantum (NISQ) devices. A fundamental step of these algorithms is the evaluation of the expected value of Hamiltonians, and hence, efficient schemes to perform this task are required. The standard approach employs local measurements of Pauli operators and requires a large number of circuits. An alternative is to make use of entangled measurements, which significantly reduces the number of circuits but involves entangling gates between non-physically connected qubits, introducing intermediate entangling operations that increase the depth of the circuits. As a solution to this problem we propose hardware-efficient entangled measurements (HEEM), that is, measurements that only permit entanglement between physically connected qubits. We show that this strategy enhances the evaluation of molecular Hamiltonians in NISQ devices, reducing the number of circuits required without increasing their depth. We provide quantitative metrics of how this approach offers better results than only local measurements and arbitrarily entangled ones. We estimate with classical simulators and quantum hardware the ground state energy of the H$_2$O molecule by the variational quantum eigensolver using HEEM.
翻訳日:2023-02-25 20:48:20 公開日:2022-07-23
# 急激なエントロピー指数量子熱力学フレームワークを用いた超伝導量子デバイスにおけるデコヒーレンス予測

Decoherence predictions in a superconductive quantum device using the steepest-entropy-ascent quantum thermodynamics framework ( http://arxiv.org/abs/2203.08329v2 )

ライセンス: Link先を確認
J. A. Montanez-Barrera, M. R. von Spakovsky, C. E. Damian-Ascencio, S. Cano-Andrade(参考訳) ノイズのある中間スケール量子(NISQ)技術と呼ばれる量子コンピューティング技術の現在の段階は、実際のアプリケーションでの使用を禁じる大きなエラーが特徴である。 これらの装置において、デコヒーレンス(decoherence)は、一般的にリンドブラッドマスター方程式のようなマルコフマスター方程式によってモデル化される。 この研究は、ノイズが部分的にシステムの内部と見なされる最も急激なエントロピーの量子熱力学(SEAQT)フレームワークの観点から、デコヒーレンス現象に対処する。 この枠組みは環境相互作用に関連するエネルギーの変化を記述するのにも用いられる。 逆リカバリ実験、ラムゼー実験、および2量子ビットエンタングルメント偏角実験の3つのシナリオは、このフレームワークの適用性を示すために使用され、実験とリンドブラッド方程式に対して良好な結果を与えるが、デコヒーレンスの原因については異なる視点からである。 これらの実験はIBMの超伝導量子デバイスibmq_bogota上で行われる。

The current stage of quantum computing technology, called noisy intermediate-scale quantum (NISQ) technology, is characterized by large errors that prohibit it from being used for real applications. In these devices, decoherence, one of the main sources of error, is generally modeled by Markovian master equations such as the Lindblad master equation. In this work, the decoherence phenomena are addressed from the perspective of the steepest-entropy-ascent quantum thermodynamics (SEAQT) framework in which the noise is in part seen as internal to the system. The framework is as well used to describe changes in the energy associated with environmental interactions. Three scenarios, an inversion recovery experiment, a Ramsey experiment, and a two-qubit entanglement-disentanglement experiment, are used to demonstrate the applicability of this framework, which provides good results relative to the experiments and the Lindblad equation, It does so, however, from a different perspective as to the cause of the decoherence. These experiments are conducted on the IBM superconductive quantum device ibmq_bogota.
翻訳日:2023-02-21 23:16:36 公開日:2022-07-23
# 散逸系に対する効率的な流れ方程式

Efficient flow equations for dissipative systems ( http://arxiv.org/abs/2203.15532v2 )

ライセンス: Link先を確認
Gary Schmiedinghoff and G\"otz S. Uhrig(参考訳) オープン量子システムは、あらゆる実量子システムが必然的にその環境と相互作用するため、新しい量子技術の発展に不可欠な理論的基盤を提供する。 リンドブラッドマスター方程式はマルコフ環境の効果を捉える。 閉量子系は粒子保存生成器を備えた流れ方程式を用いて扱うことができる。 我々は、この生成器を非エルミート行列やリンドブラジアンが支配する開量子系に一般化し、rossoらによって最近提案された生成器との比較を行った(arxiv:2007.12044)。 比較して,提案する生成器は,断続性に拘わらず,高い精度で効率的な流れを提供することがわかった。

Open quantum systems provide an essential theoretical basis for the development of novel quantum technologies, since any real quantum system inevitably interacts with its environment. Lindblad master equations capture the effect of Markovian environments. Closed quantum systems can be treated using flow equations with the particle conserving generator. We generalize this generator to non-Hermitian matrices and open quantum systems governed by Lindbladians, comparing our results with recently proposed generators by Rosso et al. (arXiv:2007.12044). In comparison, we find that our advocated generator provides an efficient flow with good accuracy in spite of truncations.
翻訳日:2023-02-20 09:24:50 公開日:2022-07-23
# あなたはこのTLS証明書を信頼しますか? ITで働く人々の知覚(拡張版)

Will You Trust This TLS Certificate? Perceptions of People Working in IT (Extended Version) ( http://arxiv.org/abs/2207.11610v1 )

ライセンス: Link先を確認
Martin Ukrop, Lydia Kraus, Vashek Matyas(参考訳) 不正なTLS証明書はインターネット上では珍しくない。 潜在的な問題を示しているが、ほとんどの場合、良性の原因(例えば、設定ミスや意図的なデプロイメント)がある。 これにより、接続を信頼するかどうかの決定に曖昧さが加わります。 IT専門家による欠陥証明書の認識についてはほとんど分かっていないが、その決定はエンドユーザーの数に影響を与える。 さらに、エラーメッセージやドキュメントの内容がこれらの認識にどの程度影響するかは不明だ。 これらの問題を明らかにするために,産業ITカンファレンスの参加者75名を対象に,異なる検証エラーを調査した。 また、リワードされたエラーメッセージと再設計されたドキュメントの影響も分析した。 ITで働く人々は、信頼決定がバイナリから遠く離れているため、非常に曖昧な意見を持っています。 自己署名と名前制限の証明書は、過度に信頼されているようだ(後者も理解されていない)。 既存のエラーメッセージの小さな変更でさえ、リソースの使用、理解、信頼評価に肯定的な影響を及ぼすことを示す。 この記事の最後には、IT専門家による有用なセキュリティ研究の実施から学んだ教訓を要約する。

Flawed TLS certificates are not uncommon on the Internet. While they signal a potential issue, in most cases they have benign causes (e.g., misconfiguration or even deliberate deployment). This adds fuzziness to the decision on whether to trust a connection or not. Little is known about perceptions of flawed certificates by IT professionals, even though their decisions impact high numbers of end users. Moreover, it is unclear how much the content of error messages and documentation influences these perceptions. To shed light on these issues, we observed 75 attendees of an industrial IT conference investigating different certificate validation errors. We also analyzed the influence of reworded error messages and redesigned documentation. We find that people working in IT have very nuanced opinions, with trust decisions being far from binary. The self-signed and the name-constrained certificates seem to be over-trusted (the latter also being poorly understood). We show that even small changes in existing error messages can positively influence resource use, comprehension, and trust assessment. At the end of the article, we summarize lessons learned from conducting usable security studies with IT professionals.
翻訳日:2023-02-19 10:03:06 公開日:2022-07-23
# 組込みシステムの遠隔教育への突発的移行の経験

Experience with Abrupt Transition to Remote Teaching of Embedded Systems ( http://arxiv.org/abs/2207.11603v1 )

ライセンス: Link先を確認
Jan Koniarik, Daniel Dlhopolcek, Martin Ukrop(参考訳) 新型コロナウイルス(covid-19)のパンデミックのため、多くの大学コースは突然変身し、遠隔教育を可能にしなければならなかった。 組み込みシステムとマイクロコントローラのコースの調整は、実際のハードウェアとのインタラクションが重要な部分であるため、非常に難しい。 まず、組み込みシステムを教えるための基本的な4つの選択肢を比較します。 1)学校におけるハードウェアとの交流 2 ハードウェアへの遠隔アクセスを有すること。 3)自宅での作業のために学生にハードウェアを貸与すること 4)ハードウェアの仮想化。 その後、従来のオフラインのハードウェアプログラミングコースから、研究室にある実際のハードウェアへのリモートアクセスへの移行に関する私たちの経験を詳細に評価した。 やや特異なリモートハードウェアアクセスアプローチは、組み込みシステムを教えるための完全な代替手段であることが判明した。 当社のセットアップは既存のソリューションと安定したオープン技術に基づいており、高いメンテナンスを必要とするカスタム開発アプリケーションを必要としない。 今後の授業では,学生と教員の両方の体験とコンデンステイクアウトの体験を評価した。 特定の環境設定は、他の人のインスピレーションとしてオンラインで利用可能です。

Due to the pandemic of COVID-19, many university courses had to abruptly transform to enable remote teaching. Adjusting courses on embedded systems and micro-controllers was extra challenging since interaction with real hardware is their integral part. We start by comparing our experience with four basic alternatives of teaching embedded systems: 1) interacting with hardware at school, 2) having remote access to hardware, 3) lending hardware to students for at-home work and 4) virtualizing hardware. Afterward, we evaluate in detail our experience of the fast transition from traditional, offline at-school hardware programming course to using remote access to real hardware present in the lab. The somewhat unusual remote hardware access approach turned out to be a fully viable alternative for teaching embedded systems, enabling a relatively low-effort transition. Our setup is based on existing solutions and stable open technologies without the need for custom-developed applications that require high maintenance. We evaluate the experience of both the students and teachers and condense takeaways for future courses. The specific environment setup is available online as an inspiration for others.
翻訳日:2023-02-19 10:02:51 公開日:2022-07-23
# ヨーロッパにおけるコンピュータサイエンス教育におけるアシスタントの課題

Challenges Faced by Teaching Assistants in Computer Science Education Across Europe ( http://arxiv.org/abs/2207.11602v1 )

ライセンス: Link先を確認
Emma Riese, Madeleine Lor{\aa}s, Martin Ukrop, Tom\'a\v{s} Effenberger(参考訳) 教師アシスタント(TA)は、コンピュータサイエンスのコースで高学歴を処理し、学生に個別の指導と詳細な評価を提供する手段として広く使われている。 TAは、同じ機関で自身の研究と並行して、この追加的な役割を担っている学生である。 これまでの研究では、TAであることは難しいが、主に1つの機関または1つのコース内のTAで行われていることが示されている。 本稿では,コンピュータサイエンスにおけるTAの課題に対する多制度的多国籍的視点を提供する。 これは、ヨーロッパ各地の3機関のTAによって書かれた180のリフレクティブエッセイのテーマ分析によって行われた。 テーマ分析の結果、専門的なtaになること、学生が焦点を絞った課題、評価、ベストプラクティスの定義と利用、ベストプラクティスへの脅威の5つの大きな課題が生じた。 さらに、これらの課題はすべて3つの機関のエッセイの中で特定され、特定された課題は特に文脈に依存しないことを示している。 これらの結果に基づき,tasとコンピュータサイエンスコースのコーディネータとtaトレーニングに携わる教育者への示唆についても概説する。

Teaching assistants (TAs) are heavily used in computer science courses as a way to handle high enrollment and still being able to offer students individual tutoring and detailed assessments. TAs are themselves students who take on this additional role in parallel with their own studies at the same institution. Previous research has shown that being a TA can be challenging but has mainly been conducted on TAs from a single institution or within a single course. This paper offers a multi-institutional, multi-national perspective of challenges that TAs in computer science face. This has been done by conducting a thematic analysis of 180 reflective essays written by TAs from three institutions across Europe. The thematic analysis resulted in five main challenges: becoming a professional TA, student focused challenges, assessment, defining and using best practice, and threats to best practice. In addition, these challenges were all identified within the essays from all three institutions, indicating that the identified challenges are not particularly context-dependent. Based on these findings, we also outline implications for educators involved in TA training and coordinators of computer science courses with TAs.
翻訳日:2023-02-19 10:02:39 公開日:2022-07-23
# ボトメーターを用いた社会ボット研究の妥当性の検討

Investigating the Validity of Botometer-based Social Bot Studies ( http://arxiv.org/abs/2207.11474v1 )

ライセンス: Link先を確認
Florian Gallwitz and Michael Kreil(参考訳) twitterのようなソーシャルメディアプラットフォームには膨大な数のソーシャルボットが住んでいるという考えは近年広く受け入れられている。 ソーシャルボットは、世論を操作する目的で悪意のある俳優が運営する自動ソーシャルメディアアカウントであると仮定されている。 彼らは、コンテンツを自律的に制作し、人間のユーザーと対話する能力を持っている。 社会ボットの活動は、アメリカ合衆国大統領選挙、移民に関する議論、気候変動、COVID-19など、さまざまな政治的文脈で報告されている。 しかし、関連する出版物は粗雑で疑わしいヒューリスティックを使用して、推定されたソーシャルボットと人間を区別するか、または、ほとんどの場合、ボット検出ツールの出力に完全に依存している。 本稿では,ソーシャルボットの普及率を推定するために広く用いられている研究デザインの根本的な理論的欠陥を指摘する。 さらに,ソーシャルボットとして数えられる数百のアカウントを密に,体系的に調査することで,ピアレビューボトメーターに基づく研究の有効性を実証的に検証した。 一つのソーシャルボットを見つけることができなかった。 その代わり、ほとんどのアカウントは、間違いなく人間のユーザーによって運営されており、その大多数は、ほんのわずかな自動化の痕跡なしに、目立たず、目立たない方法でtwitterを使っている。 ボットメータに基づくソーシャルボットの有病率、特性、影響について調査する研究は、事実、このアプローチの偽陽性と成果物を調査しただけだと結論づけた。

The idea that social media platforms like Twitter are inhabited by vast numbers of social bots has become widely accepted in recent years. Social bots are assumed to be automated social media accounts operated by malicious actors with the goal of manipulating public opinion. They are credited with the ability to produce content autonomously and to interact with human users. Social bot activity has been reported in many different political contexts, including the U.S. presidential elections, discussions about migration, climate change, and COVID-19. However, the relevant publications either use crude and questionable heuristics to discriminate between supposed social bots and humans or -- in the vast majority of the cases -- fully rely on the output of automatic bot detection tools, most commonly Botometer. In this paper, we point out a fundamental theoretical flaw in the widely-used study design for estimating the prevalence of social bots. Furthermore, we empirically investigate the validity of peer-reviewed Botometer-based studies by closely and systematically inspecting hundreds of accounts that had been counted as social bots. We were unable to find a single social bot. Instead, we found mostly accounts undoubtedly operated by human users, the vast majority of them using Twitter in an inconspicuous and unremarkable fashion without the slightest traces of automation. We conclude that studies claiming to investigate the prevalence, properties, or influence of social bots based on Botometer have, in reality, just investigated false positives and artifacts of this approach.
翻訳日:2023-02-19 10:02:19 公開日:2022-07-23
# 線形変換を伴う量子多値決定図

Quantum Multiple-Valued Decision Diagrams with Linear Transformations ( http://arxiv.org/abs/2207.11395v1 )

ライセンス: Link先を確認
Yonghong Li, Hao Miao(参考訳) 量子コンピューティングの急速な発展により、決定図に基づく量子演算のコンパクトな表現がますます注目を集めている。 変数順序は決定図のサイズに大きな影響を与えるため、優れた変数順序を特定することが最重要となる。 本稿では、線形変換を量子コンピューティングの効率的かつ正準形式に統合する:量子多重値決定図(QMDD)と、線形変換QMDD(LTQMDD)という新しい正準表現を開発する。 我々は、よりコンパクトな量子関数を得るために、優れた線形変換を求めるLTQMDDに対する線形シフティングアルゴリズムを設計する。 実験の結果,線形siftingアルゴリズムは,従来のsiftingアルゴリズムに比べて有意に改善された決定図を生成することができた。 さらに、ある種の回路では、線形シフティングアルゴリズムは優れた性能を持つ一方、シフティングアルゴリズムはQMDDのサイズを小さくしない。

Due to the rapid development of quantum computing, the compact representation of quantum operations based on decision diagrams has been received more and more attraction. Since variable orders have a significant impact on the size of the decision diagram, identifying a good variable order is of paramount importance. In this paper, we integrate linear transformations into an efficient and canonical form of quantum computing: Quantum Multiple-Valued Decision Diagrams (QMDDs) and develop a novel canonical representation, namely linearly transformed QMDDs (LTQMDDs). We design a linear sifting algorithm for LTQMDDs that search a good linear transformation to obtain a more compact form of quantum function. Experimental results show that the linear sifting algorithm is able to generate decision diagrams that are significantly improved compared with the original sifting algorithm. Moreover, for certain types of circuits, linear sifting algorithm have good performance whereas sifting algorithm does not decrease the size of QMDDs.
翻訳日:2023-02-04 00:31:32 公開日:2022-07-23
# 位置スパイクニューロンを用いたイベント駆動触覚学習

Event-Driven Tactile Learning with Location Spiking Neurons ( http://arxiv.org/abs/2209.01080v1 )

ライセンス: Link先を確認
Peng Kang, Srutarshi Banerjee, Henry Chopp, Aggelos Katsaggelos, Oliver Cossairt(参考訳) タッチ感は、日々のさまざまなタスクに欠かせないものです。 イベントベースの触覚センサとスパイキングニューラルネットワーク(SNN)の新たな進歩は、イベント駆動触覚学習の研究を加速させる。 しかし、SNNによるイベント駆動触覚学習は、既存のスパイキングニューロンの限られた代表能力と、データの時空間的複雑さのために、まだ初期段階にある。 本稿では,既存のスパイキングニューロンの代表的な機能を改善するために,イベントベースデータの特徴を新たな方法で抽出できる「位置スパイキングニューロン」と呼ばれる新しいニューロンモデルを提案する。 さらに、従来の時間スパイク応答モデル(TSRM)に基づいて、SNNの新たなビルディングブロックとして機能する特定の位置スパイクニューロンモデル(LSRM)を開発する。 さらに,SNNをTSRMニューロンとSNNをLSRMニューロンと組み合わせ,複雑な時空間依存性を捉えるハイブリッドモデルを提案する。 広範囲にわたる実験は、イベント駆動触覚学習に関する他の研究よりもモデルの大幅な改善を示し、我々のモデルと位置スパイクニューロンの優れたエネルギー効率を示し、ニューロモルフィックハードウェアのポテンシャルを解き放つ可能性がある。

The sense of touch is essential for a variety of daily tasks. New advances in event-based tactile sensors and Spiking Neural Networks (SNNs) spur the research in event-driven tactile learning. However, SNN-enabled event-driven tactile learning is still in its infancy due to the limited representative abilities of existing spiking neurons and high spatio-temporal complexity in the data. In this paper, to improve the representative capabilities of existing spiking neurons, we propose a novel neuron model called "location spiking neuron", which enables us to extract features of event-based data in a novel way. Moreover, based on the classical Time Spike Response Model (TSRM), we develop a specific location spiking neuron model - Location Spike Response Model (LSRM) that serves as a new building block of SNNs. Furthermore, we propose a hybrid model which combines an SNN with TSRM neurons and an SNN with LSRM neurons to capture the complex spatio-temporal dependencies in the data. Extensive experiments demonstrate the significant improvements of our models over other works on event-driven tactile learning and show the superior energy efficiency of our models and location spiking neurons, which may unlock their potential on neuromorphic hardware.
翻訳日:2023-02-04 00:29:32 公開日:2022-07-23
# 量子コンピューティングのアーキテクチャとしてのトラップイオン

Trapped Ions as an Architecture for Quantum Computing ( http://arxiv.org/abs/2207.11619v1 )

ライセンス: Link先を確認
Gabriel P. L. M. Fernandes, Alexandre C. Ricardo, Fernando R. Cardoso, Celso J. Villas-Boas(参考訳) 本稿では,高調波ポテンシャルに閉じ込められたn$ ionsの鎖からなり,内部状態が量子ビットとして作用し,鎖の集団振動モードと結合した,普遍量子コンピュータ構築のための最も有望なプラットフォームについて述べる。 このような結合から、鎖の異なるイオン間の相互作用、すなわち量子ビット-量子ビット相互作用を構築することができ、イオンの個々の操作とともに、1990年代にciracとzollerによって初めて提案された量子コンピュータを構築することができる(phys. rev. lett. 74, 4091 (1995))。 ここでは、電磁気ポテンシャルのイオンをトラップする物理学から、より複雑な量子アルゴリズムの実行の基礎となる論理ゲートの普遍的な集合を生成するのに必要なハミルトン工学まで議論する。 最後に、捕捉されたイオンシステムにおける量子コンピューティングの現状について、IonQやAQTIONといったそのようなアーキテクチャを使用する企業や政府プロジェクトによる最近の進歩に注目した。

In this paper we describe one of the most promising platforms for the construction of a universal quantum computer, which consists of a chain of $N$ ions trapped in a harmonic potential, whose internal states work out as qubits, and are coupled to collective vibrational modes of the chain. From such coupling, it is possible to build interactions between different ions of the chain, that is, qubit-qubit interactions that, together with individual operations on the ions, allow building a quantum computer as first proposed by Cirac and Zoller in the 1990s [Phys. Rev. Lett. 74, 4091 (1995)]. Here we discuss from the physics involved in trapping ions in electromagnetic potentials to the Hamiltonian engineering needed to generate a universal set of logic gates, fundamental for the execution of more complex quantum algorithms. Finally, we present the current state of the art of quantum computing in trapped ion systems, highlighting recent advances made by companies and government projects that use such architecture, such as IonQ and AQTION.
翻訳日:2023-02-04 00:29:08 公開日:2022-07-23
# 超伝導トランスモン量子ビットにおけるNb薄膜の準粒子分光、輸送、磁気特性

Quasiparticle spectroscopy, transport, and magnetic properties of Nb films used in superconducting transmon qubits ( http://arxiv.org/abs/2207.11616v1 )

ライセンス: Link先を確認
Kamal R. Joshi, Sunil Ghimire, Makariy A. Tanatar, Amlan Datta, Jin-Su Oh, Lin Zhou, Cameron J. Kopas, Jayss Marshall, Josh Y. Mutus, Julie Slaughter, Matthew J. Kramer, James A. Sauls, Ruslan Prozorov(参考訳) 超伝導量子ビットの作製に用いられるシリコン基板上のニオブ薄膜は、走査型および透過型電子顕微鏡、電気輸送、磁化、準粒子分光、リアルタイム磁気光学イメージングを用いて特徴づけられている。 量子コンピュータなどで使用される超伝導回路に有利な包括的な解析セットの例を示すために,ニオブ膜の研究を行った。 超伝導転移温度は 9.35$ k であり、超伝導ギャップは清浄であり、超流動密度は中間温度で高められている。 これらの観測は最近のNbの異方性強結合超伝導の理論と一致している。 しかし、磁場に対する応答は複雑であり、非常に不可逆的な挙動と熱伝導性が不十分であり、熱-磁気不安定性をもたらす。 これらはトランスモン量子コヒーレンスをさらに改善するための問題となるかもしれない。 緩和戦略について論じる。

Niobium thin films on silicon substrate used in the fabrication of superconducting qubits have been characterized using scanning and transmission electron microscopy, electrical transport, magnetization, quasiparticle spectroscopy, and real-space real-time magneto-optical imaging. We study niobium films to provide an example of a comprehensive analytical set that may benefit superconducting circuits such as those used in quantum computers. The films show outstanding superconducting transition temperature of $T_{c}=9.35$ K and a fairly clean superconducting gap, along with superfluid density enhanced at intermediate temperatures. These observations are consistent with the recent theory of anisotropic strong-coupling superconductivity in Nb. However, the response to the magnetic field is complicated, exhibiting significantly irreversible behavior and insufficient heat conductance leading to thermo-magnetic instabilities. These may present an issue for further improvement of transmon quantum coherence. Possible mitigation strategies are discussed.
翻訳日:2023-02-04 00:28:49 公開日:2022-07-23
# ゲルマニウムホール型量子プロセッサのマルチスケールシミュレーション手法

A Multiscale Simulation Approach for Germanium-Hole-Based Quantum Processor ( http://arxiv.org/abs/2207.11525v1 )

ライセンス: Link先を確認
Tong Wu and Jing Guo(参考訳) 量子計算のためのゲルマニウム(ge)ホールの量子ドット(qd)配列をモデル化するマルチスケールシミュレーション法を開発した。 qd構造の3次元数値量子デバイスシミュレーションにより、隣接する穴qds間のトンネル結合の解析モデルを得る。 次に、qdアレイプロセッサの2量子ビットの量子ゲート演算と量子回路特性をモデル化する。 2量子ビットのgeホール量子ゲートのデバイス分析は、シリコンと比べ、より速いゲート速度、より小さなプロセス可変性、そして特徴サイズの厳密な要件を示す。 マルチスケールシミュレーション手法は、ボトムアップな物理形の観点から量子プロセッサ回路の性能評価を可能にする。 シミュレーション法のGe QDアレイプロセッサへの応用は、量子化学シミュレーションにおける高忠実度アンサッツ状態の生成の可能性を示している。

A multiscale simulation method is developed to model a quantum dot (QD) array of germanium (Ge) holes for quantum computing. Guided by three-dimensional numerical quantum device simulations of QD structures, an analytical model of the tunnel coupling between the neighboring hole QDs is obtained. Two-qubit entangling quantum gate operations and quantum circuit characteristics of the QD array processor are then modeled. Device analysis of two-qubit Ge hole quantum gates demonstrates faster gate speed, smaller process variability, and less stringent requirement of feature size, compared to its silicon counterpart. The multiscale simulation method allows assessment of the quantum processor circuit performance from a bottom-up, physics-informed perspective. Application of the simulation method to the Ge QD array processor indicates its promising potential for preparing high-fidelity ansatz states in quantum chemistry simulations.
翻訳日:2023-02-04 00:28:34 公開日:2022-07-23
# マックスk色化のためのQAOAを用いたミキサーハミルトン : 数値評価

Mixer Hamiltonian with QAOA for Max k-coloring : numerical evaluations ( http://arxiv.org/abs/2207.11520v1 )

ライセンス: Link先を確認
Eric Bourreau, G\'erard Fleury, Philippe Lacomme(参考訳) 本稿では,特定の部分空間の研究を制限するミキサーハミルトニアンに基づく量子ヒューリスティックスについて述べる。 mixer hamiltonian ベースのアプローチは qaoa アルゴリズムに含めることができ、mixer hamiltonian は qubit-string の集合から解の集合への写像関数であることを述べることができる。 Mixer Hamiltonianは、ルーティングやスケジューリングコミュニティで数十年にわたってよく使われる間接表現と非常によく似たアプローチを提供する。 1996年のcheng et al. (cheng et al., 1996) の初版以降、あるtsp解をvrp解に変換する分割アルゴリズムを含む1対nマッピング関数に関する多くの提案がなされた。 当初の目的は、ORコミュニティの慣行と量子場の間に存在する機能的な類似性を考慮して、これらの混合ハミルトン多様体のコンパクトで可読なプレゼンテーションを行うことである。 本実験では,IBMのQiskitライブラリを用いて回路の数値評価を行い,理論的考察を行った。

This paper concerns quantum heuristics based on Mixer Hamiltonians that allow to restrict investigation on a specific subspace. Mixer Hamiltonian based approaches can be included in QAOA algorithm and we can state that Mixer Hamiltonians are mapping functions from the set of qubit-strings to the set of solutions. Mixer Hamiltonian offers an approach very similar to indirect representations commonly used in routing or in scheduling community for decades. After the initial publication of Cheng et al. in 1996 (Cheng et al., 1996), numerous propositions in OR lies on 1-to-n mapping functions, including the split algorithm that transform one TSP solution into a VRP solution. The objective is at first to give a compact and readable presentation of these Mixer Hamiltonians considering the functional analogies that exist between the OR community practices and the quantum field. Our experiments encompass numerical evaluations of circuit using the Qiskit library of IBM meeting the theoretical considerations.
翻訳日:2023-02-04 00:28:21 公開日:2022-07-23
# 非局所ハミルトニアンに対する絡み合いの容量

Capacity of Entanglement for Non-local Hamiltonian ( http://arxiv.org/abs/2207.11459v1 )

ライセンス: Link先を確認
Divyansh Shrimali, Swapnil Bhowmick, Vivek Pandey and Arun Kumar Pati(参考訳) エンタングルメントの容量の概念は、エンタングルメントスペクトルの第2の積として定義される熱容量の量子情報理論の対応するものである。 任意の双分項純状態が与えられたとき、エンタングルメントのキャパシティは、任意の部分系の還元状態におけるモジュラーハミルトニアンの分散として定義できる。 ここでは、この量の力学を非局所ハミルトニアンの下で研究する。 任意の非局所ハミルトニアンが与えられたとき、そのシステムが持つ絡み合いの能力は何でしょうか。 有用な応用として、エンタングルメントを作成するための量子速度制限は、非局所ハミルトニアンのゆらぎによって制御されるだけでなく、エンタングルメントの容量の平方根の時間平均に依存することを示した。 さらに、一般自己逆ハミルトニアンに対してこの量について議論し、絡み合いの容量の速度に制限を与える。 最後に,二成分混合状態に対する絡み合いの容量を、絡み合いの相対エントロピーに基づいて一般化し、上記の定義が純二成分状態の絡み合いの容量に還元されることを示す。 我々の結果は物理学の様々な分野に応用できる。

The notion of capacity of entanglement is the quantum information theoretic counterpart of the heat capacity which is defined as the second cumulant of the entanglement spectrum. Given any bipartite pure state, we can define the capacity of entanglement as the variance of the modular Hamiltonian in the reduced state of any of the subsystems. Here, we study the dynamics of this quantity under non-local Hamiltonian. Specifically, we address the question: Given an arbitrary non-local Hamiltonian what is the capacity of entanglement that the system can possess? As an useful application, we show that the quantum speed limit for creating the entanglement is not only governed by the fluctuation in the non-local Hamiltonian, but also depends inversely on the time average of square root of the capacity of entanglement. Furthermore, we discuss this quantity for a general self-inverse Hamiltonian and provide a bound on the rate of the capacity of entanglement. Towards the end, we generalise the capacity of entanglement for bipartite mixed states based on the relative entropy of entanglement and show that the above definition reduces to the capacity of entanglement for pure bipartite states. Our results can have several applications in diverse areas of physics.
翻訳日:2023-02-04 00:27:30 公開日:2022-07-23
# 量子確率歩行によるgoogle検索の縮退

Resolving degeneracies in Google search via quantum stochastic walks ( http://arxiv.org/abs/2207.11429v1 )

ライセンス: Link先を確認
Naini Dudhe, Colin Benjamin(参考訳) インターネットは、これまで発明された最も価値のある技術の1つだ。 中でもgoogleは最も広く使われている検索エンジンだ。 PageRankアルゴリズムはGoogle検索のバックボーンであり、関連性と関連性に応じてウェブページをランク付けする。 我々は、古典的連続時間ランダムウォーク(CTRW)に基づく古典的PageRank(CPR)アルゴリズムの改善を期待して、量子確率ウォーク(QSW)を採用している。 我々は2つのスキームを通じてQSWを実装し、非コヒーレンスと非コヒーレンスを重んじる。 ページランクは、非コヒーレンスまたは非コヒーレンスでのみQSWを使用し、CPRによって解決できない退化を最もよく解決し、一般的には最小のCPRと同等の収束時間で解決する。 いくつかのネットワークでは、2つのqswスキームはcprよりも低い収束時間とほぼ縮退のないランキングを得る。

The internet is one of the most valuable technologies invented to date. Among them, Google is the most widely used search engine. The PageRank algorithm is the backbone of Google search, ranking web pages according to relevance and recency. We employ quantum stochastic walks (QSW) with the hope of bettering the classical PageRank (CPR) algorithm, which is based on classical continuous time random walks (CTRW). We implement QSW via two schemes: only incoherence and dephasing with incoherence. PageRank using QSW with only incoherence or QSW with dephasing and incoherence best resolves degeneracies that are unresolvable via CPR and with a convergence time comparable to that for CPR, which is generally the minimum. For some networks, the two QSW schemes obtain a convergence time lower than CPR and an almost degeneracy-free ranking compared to CPR.
翻訳日:2023-02-04 00:26:53 公開日:2022-07-23
# 離散時間フォトニック量子ウォークにおける不可視非エルミートポテンシャル

Invisible non-Hermitian potentials in discrete-time photonic quantum walks ( http://arxiv.org/abs/2207.11423v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 離散時間フォトニック量子ウォークは、光の空間的および時間的進化の両方が離散化される合成格子上を歩き、近年、多くの非エルミート物理現象の観測と複雑な媒体における光散乱の制御のための魅力的なプラットフォームを提供する。 よりオープンな問題は、連続光学媒体で知られているものと類似した見えないポテンシャルが、そのような離散化されたシステムに存在するかどうかである。 ここでは、ある条件下では、ゆっくりドリフトするクラマース・クロニッヒポテンシャルが離散時間フォトニック量子ウォークにおいて見えないポテンシャルとして振る舞うことが示されている。

Discrete-time photonic quantum walks on a synthetic lattice, where both spatial and temporal evolution of light is discretized, have provided recently a fascinating platform for the observation of a wealth of non-Hermitian physical phenomena and for the control of light scattering in complex media. A rather open question is whether invisible potentials, analogous to the ones known for continuous optical media, do exist in such discretized systems. Here it is shown that, under certain conditions, slowly-drifting Kramers-Kronig potentials behave as invisible potentials in discrete-time photonic quantum walks.
翻訳日:2023-02-04 00:26:37 公開日:2022-07-23
# 行動修正を用いた"Improve"予測の方法

How to "Improve" Prediction Using Behavior Modification ( http://arxiv.org/abs/2008.12138v4 )

ライセンス: Link先を確認
Galit Shmueli and Ali Tafti(参考訳) 行動ビッグデータを収集する多くのインターネットプラットフォームは、内部の目的や、個人化、ターゲティング、その他の意思決定にこの予測を利用するビジネス顧客(広告主、保険会社、治安部隊、政府、政治コンサルティング会社など)のためにそれを利用する。 したがって、予測精度の向上は極めて貴重である。 データサイエンス研究者は予測を改善するアルゴリズム、モデル、アプローチを設計する。 予測も大きくてリッチなデータで改善されている。 アルゴリズムやデータの改善に加えて、プラットフォームは、より特定の予測を示すために、ユーザの振る舞いを予測値にプッシュすることで、より優れた予測精度を達成することができる。 このような「改善された」予測は、予測と行動修正を組み合わせた強化学習アルゴリズムを用いることによって生じる。 この戦略は機械学習や統計学の文献にはない。 その性質を調査するには因果関係と予測記法を統合する必要がある。 この目的のために、Pearl's causal do(.)演算子を予測語彙に組み込む。 次に,行動修正による予測誤差を分解し,予測能力に影響する成分を同定する。 我々の導出は、データ科学者、プラットフォーム、顧客、そして行動が操作される人間に対するそのような行動修正の影響を解明する。 振る舞いの修正は、ユーザの振る舞いをより予測可能で、さらに均質にすることができるが、ビジネス顧客が実際に予測を使用すると、この明らかな予測可能性は一般化しない。 予測に向けてプッシュされた成果は、顧客の意図と相反するものであり、操作されたユーザにとって有害である。

Many internet platforms that collect behavioral big data use it to predict user behavior for internal purposes and for their business customers (e.g., advertisers, insurers, security forces, governments, political consulting firms) who utilize the predictions for personalization, targeting, and other decision-making. Improving predictive accuracy is therefore extremely valuable. Data science researchers design algorithms, models, and approaches to improve prediction. Prediction is also improved with larger and richer data. Beyond improving algorithms and data, platforms can stealthily achieve better prediction accuracy by pushing users' behaviors towards their predicted values, using behavior modification techniques, thereby demonstrating more certain predictions. Such apparent "improved" prediction can result from employing reinforcement learning algorithms that combine prediction and behavior modification. This strategy is absent from the machine learning and statistics literature. Investigating its properties requires integrating causal with predictive notation. To this end, we incorporate Pearl's causal do(.) operator into the predictive vocabulary. We then decompose the expected prediction error given behavior modification, and identify the components impacting predictive power. Our derivation elucidates implications of such behavior modification to data scientists, platforms, their customers, and the humans whose behavior is manipulated. Behavior modification can make users' behavior more predictable and even more homogeneous; yet this apparent predictability might not generalize when business customers use predictions in practice. Outcomes pushed towards their predictions can be at odds with customers' intentions, and harmful to manipulated users.
翻訳日:2022-10-24 21:30:53 公開日:2022-07-23
# 人工知能と哲学の歴史的相互作用

A Historical Interaction between Artificial Intelligence and Philosophy ( http://arxiv.org/abs/2208.04148v1 )

ライセンス: Link先を確認
Youheng Zhang(参考訳) 本稿では,研究パラダイムの観点から,AIの歴史的発展と代表的な哲学的思考についてレビューする。 さらに、哲学的な観点からAIの方法論と応用を検討し、その継続的な進歩を期待する。 AIの歴史において、シンボリズムとコネクショナリズムはAI研究の主要なパラダイムである。 シンボリズムは、世界は記号によって説明され、正確な論理的プロセスを通して扱うことができるが、コネクティズムは、このプロセスは人工ニューラルネットワークを通じて実装されるべきであると考えている。 インテリジェントマシンやプログラムがスマートな目標を達成すべきかどうかに関わらず、AIの歴史的開発は、現時点で最高の答えを示している。 それでも、これはAI研究の最終回答ではない。

This paper reviews the historical development of AI and representative philosophical thinking from the perspective of the research paradigm. Additionally, it considers the methodology and applications of AI from a philosophical perspective and anticipates its continued advancement. In the history of AI, Symbolism and connectionism are the two main paradigms in AI research. Symbolism holds that the world can be explained by symbols and dealt with through precise, logical processes, but connectionism believes this process should be implemented through artificial neural networks. Regardless of how intelligent machines or programs should achieve their smart goals, the historical development of AI demonstrates the best answer at this time. Still, it is not the final answer of AI research.
翻訳日:2022-08-14 18:18:28 公開日:2022-07-23
# NLP支援ベイズ時系列分析によるCOVID-19パンデミック時のTwitterサイバーバブル発生状況

An NLP-Assisted Bayesian Time Series Analysis for Prevalence of Twitter Cyberbullying During the COVID-19 Pandemic ( http://arxiv.org/abs/2208.04980v1 )

ライセンス: Link先を確認
Christopher Perez, Sayar Karmakar(参考訳) 新型コロナウイルスは、社会的ダイナミクスに多くの変化をもたらした。 家庭での注文と学校教育の中断は、個人およびオンラインでのいじめ行動に影響を与える可能性がある。 具体的には、2019年の初めから2021年の終わりにかけてtwitter api検索エンドポイントで、悪用に関連するキーワードを含む100万のツイートが収集された。 twitterコーパスで事前学習された自然言語処理モデルは、攻撃的で憎悪的なツイートの確率を生み出した。 サンプリングの制限を克服するために、カウントエンドポイントを使ってデータも収集された。 乱用とマークされた毎日のサンプルからのツイートの割合はカウントエンドポイントから報告された数に乗じる。 これらの調整された数を組み立てると、ベイズ自己回帰ポアソンモデルにより、データの平均トレンドとラグ関数と、時間とともにどのように変化するかを研究することができる。 その結果、憎しみに満ちたスピーチでは週毎と年毎の季節性は強いが、新型コロナウイルスによる可能性がある年々の差はわずかである。

COVID-19 has brought about many changes in social dynamics. Stay-at-home orders and disruptions in school teaching can influence bullying behavior in-person and online, both of which leading to negative outcomes in victims. To study cyberbullying specifically, 1 million tweets containing keywords associated with abuse were collected from the beginning of 2019 to the end of 2021 with the Twitter API search endpoint. A natural language processing model pre-trained on a Twitter corpus generated probabilities for the tweets being offensive and hateful. To overcome limitations of sampling, data was also collected using the count endpoint. The fraction of tweets from a given daily sample marked as abusive is multiplied to the number reported by the count endpoint. Once these adjusted counts are assembled, a Bayesian autoregressive Poisson model allows one to study the mean trend and lag functions of the data and how they vary over time. The results reveal strong weekly and yearly seasonality in hateful speech but with slight differences across years that may be attributed to COVID-19.
翻訳日:2022-08-14 18:17:00 公開日:2022-07-23
# 直接・持続的効果予測に基づく個人化促進意思決定

Personalized Promotion Decision Making Based on Direct and Enduring Effect Predictions ( http://arxiv.org/abs/2207.14798v1 )

ライセンス: Link先を確認
Jie Yang, Yilin Li, Deddy Jobson(参考訳) 顧客関係を築き、顧客を望ましい行動へと導くため、Eコマース市場におけるプロモーションがトレンドになっている。 インセンティブは顧客との関わりに有効であり、顧客は異なる種類のインセンティブを好むため、パーソナライズされたプロモーション意思決定の需要は時間とともに増加している。 しかし、プロモーション意思決定の研究は、プロモーション期間中の購入転換(直接効果)に特化しており、ポストプロモーション期間中の持続的効果を概ね無視している。 プロモーションの持続的効果に対する投資収益率(リフトROI)の向上と、顧客の維持と忠誠を向上するために、各顧客の直接的かつ持続的な応答をモデル化して、複数処置促進意思決定の枠組みを提案する。 まず、顧客直接持続効果(CDEE)モデルを提案し、顧客直接持続応答を予測する。 CDEEの予測の助けを借りて、コストを予算に抑えつつ持続効果を最適化するインセンティブアロケーションを個人化します。 意思決定の効果を推定するために,ランダム化制御試験(RCT)データを用いたビジネスメトリクスの評価手法を適用した。 本手法をmercariの2つのプロモーションを用いてベンチマークと比較し,より優れた結果を得た。

Promotions have been trending in the e-commerce marketplace to build up customer relationships and guide customers towards the desired actions. Since incentives are effective to engage customers and customers have different preferences for different types of incentives, the demand for personalized promotion decision making is increasing over time. However, research on promotion decision making has focused specifically on purchase conversion during the promotion period (the direct effect), while generally disregarding the enduring effect in the post promotion period. To achieve a better lift return on investment (lift ROI) on the enduring effect of the promotion and improve customer retention and loyalty, we propose a framework of multiple treatment promotion decision making by modeling each customer's direct and enduring response. First, we propose a customer direct and enduring effect (CDEE) model which predicts the customer direct and enduring response. With the help of the predictions of the CDEE, we personalize incentive allocation to optimize the enduring effect while keeping the cost under the budget. To estimate the effect of decision making, we apply an unbiased evaluation approach of business metrics with randomized control trial (RCT) data. We compare our method with benchmarks using two promotions in Mercari and achieve significantly better results.
翻訳日:2022-08-07 14:34:07 公開日:2022-07-23
# YOLOモデルとCNNモデルを用いたリアルタイム物体検出システム

Real Time Object Detection System with YOLO and CNN Models: A Review ( http://arxiv.org/abs/2208.00773v1 )

ライセンス: Link先を確認
Viswanatha V, Chandana R K, Ramachandra A.C.(参考訳) 人工知能の分野は、オブジェクト検出技術に基づいている。 YOLO(YOU ONLY LOOK ONCE)アルゴリズムと、より進化したバージョンについて、この調査で概説する。 この調査は、リアルタイムオブジェクト検出の方向へのYOLOと畳み込みニューラルネットワーク(CNN)に関するもので、YOLOは他のオブジェクト検出モデルよりも精度の低いオブジェクト表現をより効率的に一般化する。 適切に実装されると、CNNモデルは変形診断、教育的または教育的なアプリケーションの作成といった問題に対処できる。 本論文は, 分析を通じて, 多数の観測・展望結果に到達し, 財務その他の産業における視覚情報や特徴抽出の支援を提供し, 目標検出と特徴選択の方法を強調し, YOLOアルゴリズムの開発過程を簡潔に記述する。

The field of artificial intelligence is built on object detection techniques. YOU ONLY LOOK ONCE (YOLO) algorithm and it's more evolved versions are briefly described in this research survey. This survey is all about YOLO and convolution neural networks (CNN)in the direction of real time object detection.YOLO does generalized object representation more effectively without precision losses than other object detection models.CNN architecture models have the ability to eliminate highlights and identify objects in any given image. When implemented appropriately, CNN models can address issues like deformity diagnosis, creating educational or instructive application, etc. This article reached atnumber of observations and perspective findings through the analysis.Also it provides support for the focused visual information and feature extraction in the financial and other industries, highlights the method of target detection and feature selection, and briefly describe the development process of YOLO algorithm.
翻訳日:2022-08-07 14:26:52 公開日:2022-07-23
# Particle Swarm Optimization を用いたCR3BPの初期軌道決定

Initial Orbit Determination for the CR3BP using Particle Swarm Optimization ( http://arxiv.org/abs/2207.13175v1 )

ライセンス: Link先を確認
David Zuehlke, Taylor Yow, Daniel Posada, Joseph Nicolich, Christopher W. Hays, Aryslan Malik, and Troy Henderson(参考訳) 本研究は,循環制限三体問題 (cr3bp) における主席および副シナリオの初期軌道決定に particle swarm optimizer (pso) を用いる。 PSOは、実際の観測と推定された観測と、副官の初期状態を決定するための既知のCR3BPダイナミクスによるチーフの位置の知識の差を最小限にするために使用される。 収束は、既知の主位置とセンサの制約に基づいて、粒子開始位置を実現可能な位置に制限することで達成される。 並列処理とgpu処理は計算時間を改善するために用いられ、様々なシスルナル軌道ジオメトリの正確な初期状態推定を提供する。

This work utilizes a particle swarm optimizer (PSO) for initial orbit determination for a chief and deputy scenario in the circular restricted three-body problem (CR3BP). The PSO is used to minimize the difference between actual and estimated observations and knowledge of the chief's position with known CR3BP dynamics to determine the deputy's initial state. Convergence is achieved through limiting particle starting positions to feasible positions based on the known chief position, and sensor constraints. Parallel and GPU processing methods are used to improve computation time and provide an accurate initial state estimate for a variety of cislunar orbit geometries.
翻訳日:2022-07-28 14:05:46 公開日:2022-07-23
# Arduino 33 BLEによるジェスチャーと音声認識のためのTiny Machine Learning Modelの実装

Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For Gesture And Speech Recognition ( http://arxiv.org/abs/2207.12866v1 )

ライセンス: Link先を確認
Viswanatha V, Ramachandra A.C, Raghavendra Prasanna, Prem Chowdary Kakarla, Viveka Simha PJ, Nishant Mohan(参考訳) 本稿では,Tiny Machine Learning (TinyML) を用いた組込みシステムにジェスチャー認識および音声認識アプリケーションを実装した。 3軸加速度計、3軸ジャイロスコープ、3軸磁気センサを備える。 ジェスチャー認識は、非言語コミュニケーションに革新的なアプローチをもたらす。 人間とコンピュータの相互作用や手話に広く応用されている。 ここで、ハンドジェスチャ認識の実装において、手ジェスチャ認識のためのedgeimpulseフレームワークからtinymlモデルをトレーニングしてデプロイし、手の動きに基づいて、6軸imuを持つarduino nano 33 bleデバイスが手の動きの方向を見出すことができる。 スピーチはコミュニケーションのモードです。 音声認識とは、人間の発話の文言やコマンドがコンピュータによって理解され、それに応じて反応する手法である。 音声認識の主な目的は,人間と機械のコミュニケーションを実現することである。 ここで音声認識の実装において、音声認識のためのedgeimpulseフレームワークからtinymlモデルをトレーニングしてデプロイし、人間によって発音されるキーワードに基づいて、マイクロホンを内蔵したarduino nano 33 bleデバイスは、キーワードの発音に基づいてrgb ledを赤、緑、青のように光らせることができる。 各アプリケーションの結果が得られ、結果セクションにリストアップされ、結果に関する分析が与えられる。

In this article gesture recognition and speech recognition applications are implemented on embedded systems with Tiny Machine Learning (TinyML). It features 3-axis accelerometer, 3-axis gyroscope and 3-axis magnetometer. The gesture recognition,provides an innovative approach nonverbal communication. It has wide applications in human-computer interaction and sign language. Here in the implementation of hand gesture recognition, TinyML model is trained and deployed from EdgeImpulse framework for hand gesture recognition and based on the hand movements, Arduino Nano 33 BLE device having 6-axis IMU can find out the direction of movement of hand. The Speech is a mode of communication. Speech recognition is a way by which the statements or commands of human speech is understood by the computer which reacts accordingly. The main aim of speech recognition is to achieve communication between man and machine. Here in the implementation of speech recognition, TinyML model is trained and deployed from EdgeImpulse framework for speech recognition and based on the keywords pronounced by human, Arduino Nano 33 BLE device having built-in microphone can make an RGB LED glow like red, green or blue based on keyword pronounced. The results of each application are obtained and listed in the results section and given the analysis upon the results.
翻訳日:2022-07-27 12:36:48 公開日:2022-07-23
# ベイズ最適化による設計バイモーフィングによる水力タービンドラフトチューブとハブアセンブリの形状最適化

Optimization of the Shape of a Hydrokinetic Turbine's Draft Tube and Hub Assembly Using Design-by-Morphing with Bayesian Optimization ( http://arxiv.org/abs/2207.11451v1 )

ライセンス: Link先を確認
Haris Moazam Sheikh, Tess A. Callan, Kealan J. Hennessy and Philip S. Marcus(参考訳) 流体力学や空気力学的表面の最適設計を見つけることは、表面が制御する流れの性能を決定するのに必要なコスト関数(例えば計算流体力学)を評価する費用がかかるため、しばしば不可能である。 さらに、従来の最適化手法や、機械学習を用いた新しいデータ駆動設計アルゴリズムがデザイン空間の探索に使用されるかどうかに関わらず、設計空間自体固有の制約、従来のパラメータ化手法、およびユーザバイアスにより、選択された設計空間内の設計を制限することができる。 そこで我々は,(1)モーフィング(DbM)と呼ばれるモーフィングを用いて設計空間を作成する手法を提案し,(2)新しいベイズ最適化(BO)戦略を用いて,MixMOBO(Mix Mixed variable, Multi-Objective Bayesian Optimization})と呼ぶ空間を探索する最適化アルゴリズムを提案する。 この形状最適化戦略を水力タービンの出力を最大化するために適用する。 これら2つの戦略をタンデムで適用することにより,新規で幾何学的制約のないドラフトチューブとハブ形状の設計空間を作成し,それらをコスト関数呼び出しの最小値と同時最適化できることを実証する。 我々のフレームワークは汎用性があり,様々な流体問題の形状最適化に適用できる。

Finding the optimal design of a hydrodynamic or aerodynamic surface is often impossible due to the expense of evaluating the cost functions (say, with computational fluid dynamics) needed to determine the performances of the flows that the surface controls. In addition, inherent limitations of the design space itself due to imposed geometric constraints, conventional parameterization methods, and user bias can restrict {\it all} of the designs within a chosen design space regardless of whether traditional optimization methods or newer, data-driven design algorithms with machine learning are used to search the design space. We present a 2-pronged attack to address these difficulties: we propose (1) a methodology to create the design space using morphing that we call {\it Design-by-Morphing} (DbM); and (2) an optimization algorithm to search that space that uses a novel Bayesian Optimization (BO) strategy that we call {\it Mixed variable, Multi-Objective Bayesian Optimization} (MixMOBO). We apply this shape optimization strategy to maximize the power output of a hydrokinetic turbine. Applying these two strategies in tandem, we demonstrate that we can create a novel, geometrically-unconstrained, design space of a draft tube and hub shape and then optimize them simultaneously with a {\it minimum} number of cost function calls. Our framework is versatile and can be applied to the shape optimization of a variety of fluid problems.
翻訳日:2022-07-26 16:08:55 公開日:2022-07-23
# 階層型ニューラルネットワークによるパラメトリック検出の効率向上

Boosting the Efficiency of Parametric Detection with Hierarchical Neural Networks ( http://arxiv.org/abs/2207.11583v1 )

ライセンス: Link先を確認
Jingkai Yan, Robert Colgan, John Wright, Zsuzsa M\'arka, Imre Bartos, Szabolcs M\'arka(参考訳) 重力波天文学は、宇宙を理解するために古典的および近代的なデータ処理技術の両方を活用する活発な分野である。 階層的マッチングフィルタリングが重要な戦略であるとともに,検出方式の効率向上のための様々な手法が提案されている。 一方、ディープラーニング手法では、マッチングフィルタリング法と統計的性能との一貫性が実証されている。 本研究では,階層マッチングとディープラーニングを組み合わせた,効率的な検出のための新しい手法である階層検出ネットワーク(hdn)を提案する。 ネットワークは、統計の正確性と効率の目標を同時にエンコードする新しい損失関数を用いてトレーニングされる。 提案するモデルの複雑性低減の源泉について論じ,各領域に特化している各層を初期化するための一般的なレシピについて述べる。 オープンLIGOデータと合成インジェクションを用いた実験によりHDNの性能を実証し, マッチングフィルタと比較し, 2層モデルで$79\%の効率向上を実現した。 さらに、2層モデルを用いて初期化した3層HDNのトレーニングにより、精度と効率が向上し、複数の単純な層のパワーを効率よく検出できることを示す。

Gravitational wave astronomy is a vibrant field that leverages both classic and modern data processing techniques for the understanding of the universe. Various approaches have been proposed for improving the efficiency of the detection scheme, with hierarchical matched filtering being an important strategy. Meanwhile, deep learning methods have recently demonstrated both consistency with matched filtering methods and remarkable statistical performance. In this work, we propose Hierarchical Detection Network (HDN), a novel approach to efficient detection that combines ideas from hierarchical matching and deep learning. The network is trained using a novel loss function, which encodes simultaneously the goals of statistical accuracy and efficiency. We discuss the source of complexity reduction of the proposed model, and describe a general recipe for initialization with each layer specializing in different regions. We demonstrate the performance of HDN with experiments using open LIGO data and synthetic injections, and observe with two-layer models a $79\%$ efficiency gain compared with matched filtering at an equal error rate of $0.2\%$. Furthermore, we show how training a three-layer HDN initialized using two-layer model can further boost both accuracy and efficiency, highlighting the power of multiple simple layers in efficient detection.
翻訳日:2022-07-26 16:07:11 公開日:2022-07-23
# Driver Dojo: 自律運転のための一般化可能な強化学習のためのベンチマーク

Driver Dojo: A Benchmark for Generalizable Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2207.11432v1 )

ライセンス: Link先を確認
Sebastian Rietsch, Shih-Yuan Huang, Georgios Kontes, Axel Plinge, Christopher Mutschler(参考訳) 強化学習(rl)は、幅広いタスクにわたる超人間レベルのパフォーマンスに達することが示されている。 しかし、教師付き機械学習とは異なり、幅広い状況にうまく一般化する学習戦略は、現実世界のrlにとって最も難しい問題である。 自律運転(AD)は、運転者の個人性や予測が難しい交通イベントなど、様々な道路レイアウトや交通状況の大規模分布に関する正しい行動を学ぶ必要があるため、多面的な実験分野を提供する。 本稿では,構成可能でフレキシブルでパフォーマンスの高いコードベースに基づいて,ADのための一般化可能なRLの挑戦的ベンチマークを提案する。 本ベンチマークでは,道路レイアウトと交通変動の複数のメカニズム,数値と視覚の異なる観察タイプ,異なる行動空間,多様な車両モデル,静的なシナリオ定義の下での利用など,ランダム化されたシナリオ生成装置のカタログを使用する。 純粋にアルゴリズム的な洞察に加えて、アプリケーション指向ベンチマークでは、アクションやオブザーバスペースといった設計決定がポリシーの一般化可能性に与える影響をよりよく理解することができます。 本ベンチマークは,現在のRLメソッドが失敗するタスクであるシナリオをまたいで効率的に一般化できるソリューションを提案することを目的としている。 ベンチマークのコードはhttps://github.com/seawee1/driver-dojoで入手できる。

Reinforcement learning (RL) has shown to reach super human-level performance across a wide range of tasks. However, unlike supervised machine learning, learning strategies that generalize well to a wide range of situations remains one of the most challenging problems for real-world RL. Autonomous driving (AD) provides a multi-faceted experimental field, as it is necessary to learn the correct behavior over many variations of road layouts and large distributions of possible traffic situations, including individual driver personalities and hard-to-predict traffic events. In this paper we propose a challenging benchmark for generalizable RL for AD based on a configurable, flexible, and performant code base. Our benchmark uses a catalog of randomized scenario generators, including multiple mechanisms for road layout and traffic variations, different numerical and visual observation types, distinct action spaces, diverse vehicle models, and allows for use under static scenario definitions. In addition to purely algorithmic insights, our application-oriented benchmark also enables a better understanding of the impact of design decisions such as action and observation space on the generalizability of policies. Our benchmark aims to encourage researchers to propose solutions that are able to successfully generalize across scenarios, a task in which current RL methods fail. The code for the benchmark is available at https://github.com/seawee1/driver-dojo.
翻訳日:2022-07-26 15:58:49 公開日:2022-07-23
# focal-ancillaryの組み合わせを売ることを学ぶ

Learning to Sell a Focal-ancillary Combination ( http://arxiv.org/abs/2207.11545v1 )

ライセンス: Link先を確認
Hanzhao Wang, Xiaocheng Li, Kalyan Talluri(参考訳) まず焦点製品が表示され、顧客が購入した場合、1つ以上の補助商品が購入のために表示される。 特筆すべき例は、航空券の販売で、最初に航空券が表示され、選択されるとキャビンやホールドバッグのオプション、座席の選択、保険など、多数のアシラリーが提示される。 同社は、販売形式、すなわち、順番に販売するか、バンドルとして一緒に販売するか、焦点商品と補助商品の価格を別々に、またはバンドルとして設定する必要がある。 焦点商品の購入後のみ、顧客によってアンシラリーが検討されるため、企業によって選択された販売戦略は、商品間の情報と学習の依存関係を生み出し、例えば、バンドルのみを提供することは、焦点商品とアンシラリー製品に対する顧客の評価を個別に学習することを妨げる。 本稿では, 以下のシナリオの下で, 集中型と補助型の組み合わせの学習戦略について検討する。 (a)すべての顧客に純粋なアンバンドル。 (b)客の観察した特徴により、2つの商品をバンドル又はシーケンスとして提示・価格付けするパーソナライズされたメカニズム (c)当初は(全顧客のために)バンドルを解除し、地平線中に一度はバンドル(さらに利益がある)に切り替える。 我々は,3つのシナリオの価格と決定アルゴリズムを設計し,その上層を$O(d \sqrt{T} \log T)$で制限し,第3シナリオの最適切替時間を設計する。

A number of products are sold in the following sequence: First a focal product is shown, and if the customer purchases, one or more ancillary products are displayed for purchase. A prominent example is the sale of an airline ticket, where first the flight is shown, and when chosen, a number of ancillaries such as cabin or hold bag options, seat selection, insurance etc. are presented. The firm has to decide on a sale format -- whether to sell them in sequence unbundled, or together as a bundle -- and how to price the focal and ancillary products, separately or as a bundle. Since the ancillary is considered by the customer only after the purchase of the focal product, the sale strategy chosen by the firm creates an information and learning dependency between the products: for instance, offering only a bundle would preclude learning customers' valuation for the focal and ancillary products individually. In this paper we study learning strategies for such focal and ancillary item combinations under the following scenarios: (a) pure unbundling to all customers, (b) personalized mechanism, where, depending on some observed features of the customers, the two products are presented and priced as a bundle or in sequence, (c) initially unbundling (for all customers), and switch to bundling (if more profitable) permanently once during the horizon. We design pricing and decisions algorithms for all three scenarios, with regret upper bounded by $O(d \sqrt{T} \log T)$, and an optimal switching time for the third scenario.
翻訳日:2022-07-26 15:58:28 公開日:2022-07-23
# 学習インデックス構造のロバスト性をテストする

Testing the Robustness of Learned Index Structures ( http://arxiv.org/abs/2207.11575v1 )

ライセンス: Link先を確認
Matthias Bachfischer, Renata Borovica-Gajic, Benjamin I. P. Rubinstein(参考訳) 初期の実証的な証拠は、学習されたインデックス構造が平均ケースのパフォーマンスに有利であると支持しているが、最悪の場合のパフォーマンスについてはほとんど知られていない。 対照的に、古典的な構造は最適な最悪の動作を達成することが知られている。 本研究は,学習された索引構造のロバスト性を評価する。 逆行ワークロードをシミュレートするために,学習インデックスモデルを訓練した累積分布関数(cdf)を操作する線形回帰モデルに対して,データ中毒攻撃を行う。 この攻撃は、トレーニングデータセットに一組の毒鍵を注入することにより、基礎となるMLモデルの適合性を低下させ、モデルの予測誤差が増大し、学習されたインデックス構造の全体的な性能が低下する。 各種回帰手法と学習指標実装 ALEX と PGM-Index の性能評価を行った。 有毒データと非汚染データセットで評価すると,学習したインデックス構造は最大20%の性能低下に苦しむことが判明した。

While early empirical evidence has supported the case for learned index structures as having favourable average-case performance, little is known about their worst-case performance. By contrast, classical structures are known to achieve optimal worst-case behaviour. This work evaluates the robustness of learned index structures in the presence of adversarial workloads. To simulate adversarial workloads, we carry out a data poisoning attack on linear regression models that manipulates the cumulative distribution function (CDF) on which the learned index model is trained. The attack deteriorates the fit of the underlying ML model by injecting a set of poisoning keys into the training dataset, which leads to an increase in the prediction error of the model and thus deteriorates the overall performance of the learned index structure. We assess the performance of various regression methods and the learned index implementations ALEX and PGM-Index. We show that learned index structures can suffer from a significant performance deterioration of up to 20% when evaluated on poisoned vs. non-poisoned datasets.
翻訳日:2022-07-26 15:57:59 公開日:2022-07-23
# 微分予測を用いた分布シフト時の時系列予測

Time Series Prediction under Distribution Shift using Differentiable Forgetting ( http://arxiv.org/abs/2207.11486v1 )

ライセンス: Link先を確認
Stefanos Bennett, Jase Clarkson(参考訳) 時系列予測は、時変分布に対応する適応モデルを必要とする分布シフトによってしばしば複雑になる。 分布シフト下での時系列予測を重み付き経験的リスク最小化問題として捉える。 経験的リスクにおける過去の観測の重み付けは、予測モデルの推定に使用される関連性と有効サンプルサイズとの間のトレードオフを制御する忘れ機構によって決定される。 従来の研究とは対照的に,忘れる機構のパラメータに対する勾配に基づく学習法を提案する。 これにより最適化がスピードアップし、より表現豊かに忘れるメカニズムが可能になる。

Time series prediction is often complicated by distribution shift which demands adaptive models to accommodate time-varying distributions. We frame time series prediction under distribution shift as a weighted empirical risk minimisation problem. The weighting of previous observations in the empirical risk is determined by a forgetting mechanism which controls the trade-off between the relevancy and effective sample size that is used for the estimation of the predictive model. In contrast to previous work, we propose a gradient-based learning method for the parameters of the forgetting mechanism. This speeds up optimisation and therefore allows more expressive forgetting mechanisms.
翻訳日:2022-07-26 15:54:22 公開日:2022-07-23
# インクリメンタルマルチスタック時系列分類のための拡張バイリニアネットワーク

Augmented Bilinear Network for Incremental Multi-Stock Time-Series Classification ( http://arxiv.org/abs/2207.11577v1 )

ライセンス: Link先を確認
Mostafa Shabani, Dat Thanh Tran, Juho Kanniainen, Alexandros Iosifidis(参考訳) ディープラーニングモデルは、従来の機械学習や統計手法を覆し、金融時系列分析問題に取り組む上で支配的になっている。 多くの場合、ある市場やセキュリティのために訓練されたモデルは、市場条件に固有の相違のため、他の市場やセキュリティに直接適用することはできない。 加えて、市場が時間とともに進化するにつれて、新しいデータが利用可能になったら、既存のモデルを更新したり、新しいモデルをトレーニングする必要がある。 このシナリオは、ほとんどの金融予測アプリケーションに内在するが、自然に次の研究疑問を提起する。 トレーニング済みモデルを新しいデータセットに効率的に適応させながら、特に古いデータがアクセスできない場合、古いデータのパフォーマンスを維持するには、どうすればよいのか? 本稿では,証券群で事前学習したニューラルネットワークに利用可能な知識を効率的に保持し,それを適応して新規に高いパフォーマンスを実現する手法を提案する。 本手法では、事前学習されたニューラルネットワークで符号化された事前知識を既存の接続を固定して保持し、この知識を新たなデータを用いて最適化された拡張接続の集合により新規証券に調整する。 補助接続は低位に制限されている。 これにより、新しいタスクを迅速に最適化できるだけでなく、デプロイフェーズにおけるストレージと実行時の複雑さも低減できます。 大規模リミットオーダーブックデータセットを用いたストック中価格変動予測問題において,本手法の有効性を実証的に検証した。 実験の結果,提案手法により予測性能が向上し,ネットワークパラメータの総数も減少した。

Deep Learning models have become dominant in tackling financial time-series analysis problems, overturning conventional machine learning and statistical methods. Most often, a model trained for one market or security cannot be directly applied to another market or security due to differences inherent in the market conditions. In addition, as the market evolves through time, it is necessary to update the existing models or train new ones when new data is made available. This scenario, which is inherent in most financial forecasting applications, naturally raises the following research question: How to efficiently adapt a pre-trained model to a new set of data while retaining performance on the old data, especially when the old data is not accessible? In this paper, we propose a method to efficiently retain the knowledge available in a neural network pre-trained on a set of securities and adapt it to achieve high performance in new ones. In our method, the prior knowledge encoded in a pre-trained neural network is maintained by keeping existing connections fixed, and this knowledge is adjusted for the new securities by a set of augmented connections, which are optimized using the new data. The auxiliary connections are constrained to be of low rank. This not only allows us to rapidly optimize for the new task but also reduces the storage and run-time complexity during the deployment phase. The efficiency of our approach is empirically validated in the stock mid-price movement prediction problem using a large-scale limit order book dataset. Experimental results show that our approach enhances prediction performance as well as reduces the overall number of network parameters.
翻訳日:2022-07-26 15:54:13 公開日:2022-07-23
# アゾベンゼン誘導体の熱半減期:機械学習電位を用いたシステム間交差に基づく仮想スクリーニング

Thermal half-lives of azobenzene derivatives: virtual screening based on intersystem crossing using a machine learning potential ( http://arxiv.org/abs/2207.11592v1 )

ライセンス: Link先を確認
Simon Axelrod, Eugene Shakhnovich, and Rafael Gomez-Bombarelli(参考訳) 分子フォトウィッチは光活性化薬の基礎である。 主要な光スイッチはアゾベンゼンであり、光に応答してtrans-cis異性体を示す。 cis異性体の熱半減期は、光誘起生物効果の持続時間を制御するため、非常に重要である。 本稿ではアゾベンゼン誘導体の熱半減期を予測するための計算ツールを紹介する。 私たちの自動化アプローチは、量子化学データでトレーニングされた高速で正確な機械学習ポテンシャルを使用します。 確立された以前の証拠に基づいて、熱異性化はシステム間交差による回転を通じて進行し、この機構を自動化ワークフローに組み込む。 19,000アゾベンゼン誘導体の熱半減期を予測するために本手法を用いた。 我々は、障壁と吸収波長の間のトレンドとトレードオフを調査し、光薬学の研究を加速するために、我々のデータとソフトウェアをオープンソース化する。

Molecular photoswitches are the foundation of light-activated drugs. A key photoswitch is azobenzene, which exhibits trans-cis isomerism in response to light. The thermal half-life of the cis isomer is of crucial importance, since it controls the duration of the light-induced biological effect. Here we introduce a computational tool for predicting the thermal half-lives of azobenzene derivatives. Our automated approach uses a fast and accurate machine learning potential trained on quantum chemistry data. Building on well-established earlier evidence, we argue that thermal isomerization proceeds through rotation mediated by intersystem crossing, and incorporate this mechanism into our automated workflow. We use our approach to predict the thermal half-lives of 19,000 azobenzene derivatives. We explore trends and tradeoffs between barriers and absorption wavelengths, and open-source our data and software to accelerate research in photopharmacology.
翻訳日:2022-07-26 15:53:50 公開日:2022-07-23
# インタラクティブボリュームレンダリングのためのインスタントニューラル表現

Instant Neural Representation for Interactive Volume Rendering ( http://arxiv.org/abs/2207.11620v1 )

ライセンス: Link先を確認
Qi Wu, Michael J. Doyle, David Bauer, Kwan-Liu Ma(参考訳) ニューラルネットワークは、科学的可視化のために体積データを圧縮する大きな可能性を示している。 しかし、トレーニングや推論のコストが高いため、このようなボリュームニューラル表現はオフラインデータ処理や非インタラクティブレンダリングにしか適用されていない。 本稿では,最新のGPUテンソルコア,ネイティブCUDAニューラルネットワークフレームワーク,オンライントレーニングを同時に活用することにより,ボリュームニューラルネットワーク表現を用いた高性能かつ高忠実なインタラクティブレイトレーシングを実現することを実証する。 さらに,本手法は完全に一般化でき,オンザフライで時系列データセットに適応できる。 オンライントレーニングのための3つの戦略を提示し、それぞれがGPU、CPU、コア外ストリーミングの異なる組み合わせを活用している。 また,インタラクティブなレイトレーシングとリアルタイムボリュームデコード,サンプルストリーミング,シェーダ内ニューラルネットワーク推論を組み合わせた3つのレンダリング実装も開発した。 本研究は,本手法により,正規グリッドの容積可視化のためにテラスケールまで拡張可能であり,OpenVDB,unstructured,AMR,パーティクルボリュームデータなどの不規則なデータ構造を容易にサポートできることを実証する。

Neural networks have shown great potential in compressing volumetric data for scientific visualization. However, due to the high cost of training and inference, such volumetric neural representations have thus far only been applied to offline data processing and non-interactive rendering. In this paper, we demonstrate that by simultaneously leveraging modern GPU tensor cores, a native CUDA neural network framework, and online training, we can achieve high-performance and high-fidelity interactive ray tracing using volumetric neural representations. Additionally, our method is fully generalizable and can adapt to time-varying datasets on-the-fly. We present three strategies for online training with each leveraging a different combination of the GPU, the CPU, and out-of-core-streaming techniques. We also develop three rendering implementations that allow interactive ray tracing to be coupled with real-time volume decoding, sample streaming, and in-shader neural network inference. We demonstrate that our volumetric neural representations can scale up to terascale for regular-grid volume visualization, and can easily support irregular data structures such as OpenVDB, unstructured, AMR, and particle volume data.
翻訳日:2022-07-26 15:53:37 公開日:2022-07-23
# 移動無線ネットワークにおける経路学習

Learning to Route in Mobile Wireless Networks ( http://arxiv.org/abs/2207.11386v1 )

ライセンス: Link先を確認
Victoria Manfredi, Alicia P. Wolfe, Xiaolan Zhang, Bing Wang(参考訳) 移動無線ネットワークにおける効果的なルーティング戦略の設計は,空間的に多様かつ時間的に変化するネットワーク条件にルーティング動作をシームレスに適応させる必要があるため,困難である。 本研究では,深層強化学習(deeprl)を用いて,スケーラブルで汎用的なシングルコピールーティング戦略を学習する。 私たちは次のような貢献をします i)DeepRLエージェントがパケット当たりの送信数に対して遅延を最小化するような競合するネットワーク目標を明示的にトレードオフできる報酬関数を設計する。 二 特定のネットワークトポロジとは独立に、移動体無線ネットワークとモデルデバイスモビリティを特徴付けるための、新しい関係性近傍、経路、コンテキストの機能セットを提案する。 iii)すべてのパケットとデバイスからのデータを単一のオフライン集中型トレーニングセットに統合して、単一のdeeprlエージェントをトレーニングできる柔軟なトレーニングアプローチを採用しています。 汎用性とスケーラビリティを評価するため,1つのモバイルネットワークシナリオでDeepRLエージェントをトレーニングし,他のモバイルシナリオでテストし,デバイス数や送信範囲を変化させる。 以上の結果から,DeepRLエージェントが訓練を受けていないシナリオにおいても,学習したシングルコピールーティング戦略は最適戦略以外の遅延戦略よりも優れていた。

Designing effective routing strategies for mobile wireless networks is challenging due to the need to seamlessly adapt routing behavior to spatially diverse and temporally changing network conditions. In this work, we use deep reinforcement learning (DeepRL) to learn a scalable and generalizable single-copy routing strategy for such networks. We make the following contributions: i) we design a reward function that enables the DeepRL agent to explicitly trade-off competing network goals, such as minimizing delay vs. the number of transmissions per packet; ii) we propose a novel set of relational neighborhood, path, and context features to characterize mobile wireless networks and model device mobility independently of a specific network topology; and iii) we use a flexible training approach that allows us to combine data from all packets and devices into a single offline centralized training set to train a single DeepRL agent. To evaluate generalizeability and scalability, we train our DeepRL agent on one mobile network scenario and then test it on other mobile scenarios, varying the number of devices and transmission ranges. Our results show our learned single-copy routing strategy outperforms all other strategies in terms of delay except for the optimal strategy, even on scenarios on which the DeepRL agent was not trained.
翻訳日:2022-07-26 15:46:57 公開日:2022-07-23
# 漸近的最適ポテンシャルに基づくドリフトゲームに対する新しいアプローチ

A New Approach to Drifting Games, Based on Asymptotically Optimal Potentials ( http://arxiv.org/abs/2207.11405v1 )

ライセンス: Link先を確認
Zhilei Wang and Robert V. Kohn(参考訳) 我々は,エキスパートアドバイスによる予測やヘッジゲームなど,学習環境の強化やオンライン化に多くの応用を施した2人制ゲームであるドリフトゲームに対する新しいアプローチを開発した。 我々のアプローチは (a)関連する偏微分方程式(PDE)を解くことで漸近的最適ポテンシャルを推定する。 (b)時間ステップ数の負の力のように差がスケールする最終時間損失の上限と下限を証明し、推測を正当化すること。 ポテンシャルベースの上界の証明は、テイラー展開をほとんど使用せずに、初等的である。 我々のポテンシャルに基づく下限の証明はむしろ初等的であり、テイラー展開と確率的あるいは組合せ的議論を組み合わせる。 漸近的最適戦略に関するこれまでのほとんどの研究は、離散動的プログラミングの原理を解くことによって得られるポテンシャルを用いてきた。 我々のアプローチは、私たちが使っているポテンシャルがPDEの明示的な解であるという事実によって促進される。 我々のアプローチはより初等的であるだけでなく、新しいポテンシャルを与え、漸近的体制において互いに一致する対応する上下境界を導出する。

We develop a new approach to drifting games, a class of two-person games with many applications to boosting and online learning settings, including Prediction with Expert Advice and the Hedge game. Our approach involves (a) guessing an asymptotically optimal potential by solving an associated partial differential equation (PDE); then (b) justifying the guess, by proving upper and lower bounds on the final-time loss whose difference scales like a negative power of the number of time steps. The proofs of our potential-based upper bounds are elementary, using little more than Taylor expansion. The proofs of our potential-based lower bounds are also rather elementary, combining Taylor expansion with probabilistic or combinatorial arguments. Most previous work on asymptotically optimal strategies has used potentials obtained by solving a discrete dynamic programming principle; the arguments are complicated by their discrete nature. Our approach is facilitated by the fact that the potentials we use are explicit solutions of PDEs; the arguments are based on basic calculus. Not only is our approach more elementary, but we give new potentials and derive corresponding upper and lower bounds that match each other in the asymptotic regime.
翻訳日:2022-07-26 15:46:34 公開日:2022-07-23
# RIBBON: クラウドコンピューティングインスタンスの多彩なプールを用いたコスト効果とQoS対応ディープラーニングモデル推論

RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using a Diverse Pool of Cloud Computing Instances ( http://arxiv.org/abs/2207.11434v1 )

ライセンス: Link先を確認
Baolin Li, Rohan Basu Roy, Tirthak Patel, Vijay Gadepally, Karen Gettings, Devesh Tiwari(参考訳) ディープラーニングモデル推論は多くのビジネスや科学的発見プロセスにおいて重要なサービスである。 本稿では,qos(quality-of-service)目標とコスト効率の2つの目標を満たした,新しいディープラーニング推論システムであるribbonを紹介する。 RIBBONの背景にある重要な考え方は、QoSの目標を満たし、コスト削減を最大化するために、さまざまなクラウドコンピューティングインスタンス(異種インスタンス)をインテリジェントに採用することだ。 リボンは、クラウドコンピューティングプラットフォーム上で必要となるモデル推論サービスのために、ユーザが最適なヘテロジニアスインスタンスセットを構築するのを支援するベイズ最適化駆動戦略を考案する。 RIBBONは、新たなディープラーニング推奨システムモデルやドラッグ発見可能なモデルなど、さまざまな学習モデルの推論サービスのコストを最大16%削減する。

Deep learning model inference is a key service in many businesses and scientific discovery processes. This paper introduces RIBBON, a novel deep learning inference serving system that meets two competing objectives: quality-of-service (QoS) target and cost-effectiveness. The key idea behind RIBBON is to intelligently employ a diverse set of cloud computing instances (heterogeneous instances) to meet the QoS target and maximize cost savings. RIBBON devises a Bayesian Optimization-driven strategy that helps users build the optimal set of heterogeneous instances for their model inference service needs on cloud computing platforms -- and, RIBBON demonstrates its superiority over existing approaches of inference serving systems using homogeneous instance pools. RIBBON saves up to 16% of the inference service cost for different learning models including emerging deep learning recommender system models and drug-discovery enabling models.
翻訳日:2022-07-26 15:46:14 公開日:2022-07-23
# Transformer と Graph Neural Networks を用いた論理合成における結果の品質予測

The prediction of the quality of results in Logic Synthesis using Transformer and Graph Neural Networks ( http://arxiv.org/abs/2207.11437v1 )

ライセンス: Link先を確認
Chenghao Yang, Yinshui Xia, Zhufei Chu(参考訳) 論理合成段階では、合成ツールの構造変換を最適化シーケンスに結合し、特定の回路領域と遅延を満たすために回路に作用させる必要がある。 しかし、論理合成最適化シーケンスの実行には時間がかかり、回路の合成最適化シーケンスに対して結果の品質(QoR)を予測することは、エンジニアがより高速に最適化シーケンスを見つけるのに役立つ。 本研究では、未確認回路最適化シーケンスペアのQoRを予測するためのディープラーニング手法を提案する。 具体的には、構造変換を埋め込み法によりベクトルに変換し、最適化シーケンスの特徴を抽出するために高度な自然言語処理技術(Transformer)を用いる。 さらに、回路から回路までモデルの予測プロセスを一般化するために、回路のグラフ表現を隣接行列および特徴行列として表現する。 グラフニューラルネットワーク(GNN)は、回路の構造的特徴を抽出するために用いられる。 この問題に対して、Transformerと3つの典型的なGNNが使用される。 さらに、トランスフォーマーとGNNは、目に見えない回路最適化シーケンスのQoR予測のための共同学習ポリシーとして採用されている。 TransformerとGNNの組み合わせによるメソッドをベンチマークする。 実験結果から, Transformer と GraphSage の併用学習が最適であることが示唆された。 予測結果の平均絶対誤差(MAE)は0.412である。

In the logic synthesis stage, structure transformations in the synthesis tool need to be combined into optimization sequences and act on the circuit to meet the specified circuit area and delay. However, logic synthesis optimization sequences are time-consuming to run, and predicting the quality of the results (QoR) against the synthesis optimization sequence for a circuit can help engineers find a better optimization sequence faster. In this work, we propose a deep learning method to predict the QoR of unseen circuit-optimization sequences pairs. Specifically, the structure transformations are translated into vectors by embedding methods and advanced natural language processing (NLP) technology (Transformer) is used to extract the features of the optimization sequences. In addition, to enable the prediction process of the model to be generalized from circuit to circuit, the graph representation of the circuit is represented as an adjacency matrix and a feature matrix. Graph neural networks(GNN) are used to extract the structural features of the circuits. For this problem, the Transformer and three typical GNNs are used. Furthermore, the Transformer and GNNs are adopted as a joint learning policy for the QoR prediction of the unseen circuit-optimization sequences. The methods resulting from the combination of Transformer and GNNs are benchmarked. The experimental results show that the joint learning of Transformer and GraphSage gives the best results. The Mean Absolute Error (MAE) of the predicted result is 0.412.
翻訳日:2022-07-26 15:45:55 公開日:2022-07-23
# 暗号通貨時系列における不正検出

Anomaly Detection for Fraud in Cryptocurrency Time Series ( http://arxiv.org/abs/2207.11466v1 )

ライセンス: Link先を確認
Eran Kaufman and Andrey Iaremenko(参考訳) 2009年のBitcoinの誕生以来、暗号通貨の市場は、日々の取引が100億ドルを超えると、当初の予想を超えてきた。 業界が自動化されるにつれて、自動化された不正検出器の必要性は極めて明白になる。 リアルタイムで異常を検出することは、潜在的な事故や経済的損失を防ぐ。 多変量時系列データの異常検出は、時間的依存関係と変数間の関係を同時に考慮する必要があるため、特別な課題となる。 リアルタイムで異常を識別することは、観察する正確な異常な振る舞いのために、特に簡単な作業ではない。 ポイントによっては、ポイントワイズな大域的または局所的な異常な行動を示す場合もあるが、他のポイントは、頻度や季節的行動、あるいは傾向の変化によって異常である場合もある。 本稿では,Ethereumの取引を特定のアカウントからリアルタイムに行うことを提案し,従来から新しいさまざまなアルゴリズムを調査した。 調査した戦略や異常行動に応じて分類し,異なるグループにバンドルすることで,数秒以内のアラームタイムと非常に高い信頼性を持つ,優れたリアルタイム検出器であることが判明した。

Since the inception of Bitcoin in 2009, the market of cryptocurrencies has grown beyond initial expectations as daily trades exceed $10 billion. As industries become automated, the need for an automated fraud detector becomes very apparent. Detecting anomalies in real time prevents potential accidents and economic losses. Anomaly detection in multivariate time series data poses a particular challenge because it requires simultaneous consideration of temporal dependencies and relationships between variables. Identifying an anomaly in real time is not an easy task specifically because of the exact anomalistic behavior they observe. Some points may present pointwise global or local anomalistic behavior, while others may be anomalistic due to their frequency or seasonal behavior or due to a change in the trend. In this paper we suggested working on real time series of trades of Ethereum from specific accounts and surveyed a large variety of different algorithms traditional and new. We categorized them according to the strategy and the anomalistic behavior which they search and showed that when bundling them together to different groups, they can prove to be a good real-time detector with an alarm time of no longer than a few seconds and with very high confidence.
翻訳日:2022-07-26 15:45:35 公開日:2022-07-23
# グローバルロスとローカルロスの併用による構造強化による任意型転送

Arbitrary Style Transfer with Structure Enhancement by Combining the Global and Local Loss ( http://arxiv.org/abs/2207.11438v1 )

ライセンス: Link先を確認
Lizhen Long and Chi-Man Pun(参考訳) 任意スタイル転送は、トレーニングされた1つのネットワークのみを用いて、コンテンツ画像の構造と芸術スタイルを組み合わせた芸術画像を生成する。 本手法で使用する画像表現は,事前学習された分類ネットワークにおける高レベル表現であるコンテンツ構造表現とスタイルパターン表現を含む。 しかし、従来の分類ネットワークは、通常ハイレベルな特徴に注目し、他の特徴を無視する分類のために設計された。 その結果、スタイリングされた画像は、画像全体に均等にスタイル要素を分散し、全体像構造を認識不能にする。 この問題を解決するために,グローバルとローカルの損失を組み合わせた構造拡張型任意のスタイル転送手法を提案する。 局所構造の詳細はラップスタイルで表現され、大域構造は画像深度で制御される。 実験結果から,本手法は他の最先端手法と比較して,印象的な視覚効果を持つ高品質画像を生成することが可能であることが判明した。

Arbitrary style transfer generates an artistic image which combines the structure of a content image and the artistic style of the artwork by using only one trained network. The image representation used in this method contains content structure representation and the style patterns representation, which is usually the features representation of high-level in the pre-trained classification networks. However, the traditional classification networks were designed for classification which usually focus on high-level features and ignore other features. As the result, the stylized images distribute style elements evenly throughout the image and make the overall image structure unrecognizable. To solve this problem, we introduce a novel arbitrary style transfer method with structure enhancement by combining the global and local loss. The local structure details are represented by Lapstyle and the global structure is controlled by the image depth. Experimental results demonstrate that our method can generate higher-quality images with impressive visual effects on several common datasets, comparing with other state-of-the-art methods.
翻訳日:2022-07-26 15:37:05 公開日:2022-07-23
# セマンティック抽象化:2次元視覚言語モデルによるオープンワールド3Dシーン理解

Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models ( http://arxiv.org/abs/2207.11514v1 )

ライセンス: Link先を確認
Huy Ha, Shuran Song(参考訳) オープンワールドの3Dシーン理解(オープンワールドの3Dシーン理解)は、エージェントがオープンセットの語彙とドメイン外の視覚入力で3D環境を判断する必要があるタスクのファミリーである。 この目的に向けて,ゼロショット・ロバスト性を維持しつつ,新たな3次元空間能力を備えた2次元視覚言語モデル(vlms)を装備するフレームワークであるセマンティック・抽象化(semabs)を提案する。 この抽象化は,CLIPから抽出した関連性マップを用いて実現し,その上に3次元空間的および幾何学的推論スキルを意味論的に学習する。 オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。 1)部分的に観察された対象を完了し、 2)隠れたオブジェクトを言語記述からローカライズする。 実験により、SemAbsは、限られた3D合成データのトレーニングから、新しい語彙、材料/照明、クラス、ドメイン(現実世界のスキャン)に一般化できることが示された。 コードとデータはhttps://semantic-abstraction.cs.columbia.edu/で入手できる。

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data will be available at https://semantic-abstraction.cs.columbia.edu/
翻訳日:2022-07-26 15:36:47 公開日:2022-07-23
# Epersist: PIDコントローラとDeep Reinforcement Learningを用いた自己バランスロボット

Epersist: A Self Balancing Robot Using PID Controller And Deep Reinforcement Learning ( http://arxiv.org/abs/2207.11431v1 )

ライセンス: Link先を確認
Ghanta Sai Krishna, Dyavat Sumith, Garika Akshay(参考訳) 二輪自走ロボットは逆振り子の例であり、本質的に非線形で不安定なシステムである。 提案するフレームワーク「エスペリスト」の基本概念は、堅牢な制御機構、PID(Proportional Integral Derivative)、強化学習(Reinforcement Learning, RL)を提供することによって、初期不安定なシステムを逆バランスさせることの課題を克服することである。 さらに、マイクロコントローラのNodeMCUESP32とEpersistの慣性センサーは、より少ない計算手順を用いて、車輪の回転に関する正確な指示をモータードライバに与え、車輪の制御とロボットのバランスを補助する。 このフレームワークはまた、PIDコントローラの数学的モデルと、RLエージェントとしての新たな自己学習型アドバンテージアクター-クリティックアルゴリズムで構成されている。 数回の実験の後、静的平衡の角度を得るためのベンチマーク値として制御変数のキャリブレーションが作成される。 この "Epersist" フレームワークでは,PID と RL による機能プロトタイプとシミュレーションが提案されている。

A two-wheeled self-balancing robot is an example of an inverse pendulum and is an inherently non-linear, unstable system. The fundamental concept of the proposed framework "Epersist" is to overcome the challenge of counterbalancing an initially unstable system by delivering robust control mechanisms, Proportional Integral Derivative(PID), and Reinforcement Learning (RL). Moreover, the micro-controller NodeMCUESP32 and inertial sensor in the Epersist employ fewer computational procedures to give accurate instruction regarding the spin of wheels to the motor driver, which helps control the wheels and balance the robot. This framework also consists of the mathematical model of the PID controller and a novel self-trained advantage actor-critic algorithm as the RL agent. After several experiments, control variable calibrations are made as the benchmark values to attain the angle of static equilibrium. This "Epersist" framework proposes PID and RL-assisted functional prototypes and simulations for better utility.
翻訳日:2022-07-26 15:30:58 公開日:2022-07-23
# 新型コロナウイルスパンデミックでTwitter上でのワクチンの言論

Vaccine Discourse on Twitter During the COVID-19 Pandemic ( http://arxiv.org/abs/2207.11521v1 )

ライセンス: Link先を確認
Gabriel Lindel\"of, Talayeh Aledavood, Barbara Keller(参考訳) 新型コロナウイルスのパンデミックが始まって以来、ワクチンは公衆の議論において重要な話題となっている。 ワクチンに関する議論は、パンデミックを終わらせるための重要な手段と見なす人や、有害であると考える人など、偏在している。 本研究は、Twitter上での新型コロナウイルスワクチンに関する投稿を調査し、ワクチンに対する否定的な姿勢を持つものに焦点を当てる。 2020年3月1日から2021年7月31日までに、新型コロナウイルスワクチンに関連する英語ツイート16,713,238件のデータセットが収集された。 我々は、Scikit-learn Pythonライブラリを使用して、サポートベクターマシン(SVM)分類器を適用し、COVID-19ワクチンに対する否定的な姿勢でツイートを識別した。 分類器の訓練には合計5,163件のツイートが使われ、うち2,484件のツイートのサブセットが手作業でアノテーションを付けて公開されていた。 berttopicモデルを用いて,否定的ツイート内で議論されるトピックと,それが時間とともにどのように変化したのかを抽出し,調査した。 新型ウイルスワクチンに対する否定性は、ワクチンのロールアウトとともに時間とともに低下している。 議論の37のトピックを特定し、時間とともにそれぞれの重要性を示す。 5gタワーやマイクロチップといった共謀的な議論が話題となっているが、予防接種の安全性や副作用に関する正当な懸念や政策に関する懸念も含んでいる。 本研究は、新型コロナウイルスワクチンなどの議論トピックと組み合わせることで、不人気な意見や陰謀論が広まる可能性を示唆している。 政策立案者や公衆衛生当局がより良い情報や政策を提供し、将来同様の危機において人々のワクチン接種を促進するためには、懸念や議論されたトピックを理解し、時間とともにどのように変化するかを理解することが不可欠である。

Since the onset of the COVID-19 pandemic, vaccines have been an important topic in public discourse. The discussions around vaccines are polarized as some see them as an important measure to end the pandemic, and others are hesitant or find them harmful. This study investigates posts related to COVID-19 vaccines on Twitter and focuses on those which have a negative stance toward vaccines. A dataset of 16,713,238 English tweets related to COVID-19 vaccines was collected covering the period from March 1, 2020, to July 31, 2021. We used the Scikit-learn Python library to apply a support vector machine (SVM) classifier to identify the tweets with a negative stance toward the COVID-19 vaccines. A total of 5,163 tweets were used to train the classifier, out of which a subset of 2,484 tweets were manually annotated by us and made publicly available. We used the BERTtopic model to extract and investigate the topics discussed within the negative tweets and how they changed over time. We show that the negativity with respect to COVID-19 vaccines has decreased over time along with the vaccine roll-outs. We identify 37 topics of discussion and present their respective importance over time. We show that popular topics consist of conspiratorial discussions such as 5G towers and microchips, but also contain legitimate concerns around vaccination safety and side effects as well as concerns about policies. Our study shows that even unpopular opinions or conspiracy theories can become widespread when paired with a widely popular discussion topic such as COVID-19 vaccines. Understanding the concerns and the discussed topics and how they change over time is essential for policymakers and public health authorities to provide better and in-time information and policies, to facilitate vaccination of the population in future similar crises.
翻訳日:2022-07-26 15:28:37 公開日:2022-07-23
# マルチエージェント深層強化学習によるハーフトニング

Halftoning with Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2207.11408v1 )

ライセンス: Link先を確認
Haitian Jiang, Dongliang Xiong, Xiaowen Jiang, Aiguo Yin, Li Ding, Kai Huang(参考訳) ディープニューラルネットワークは最近、高並列性バニラ畳み込み層を用いたデジタルハーフトンニングに成功している。 しかし、既存のディープメソッドでは、青いノイズ特性を満足するハーフトーンの生成に失敗し、複雑なトレーニングスキームが必要となる。 本稿では,HALFTONERSと呼ばれるマルチエージェント深部強化学習に基づくハーフトニング手法を提案し,高品質なハーフトーン画像を生成するための共有ポリシを学習する。 具体的には、各バイナリピクセル値の決定を仮想エージェントのアクションとして捉え、そのポリシーは低分散ポリシー勾配によって訓練される。 さらに、新規な異方性抑制損失関数によりブルーノイズ特性を実現する。 実験の結果, ハーフトーン法は比較的高速で, 高品質なハーフトーンを生成することがわかった。

Deep neural networks have recently succeeded in digital halftoning using vanilla convolutional layers with high parallelism. However, existing deep methods fail to generate halftones with a satisfying blue-noise property and require complex training schemes. In this paper, we propose a halftoning method based on multi-agent deep reinforcement learning, called HALFTONERS, which learns a shared policy to generate high-quality halftone images. Specifically, we view the decision of each binary pixel value as an action of a virtual agent, whose policy is trained by a low-variance policy gradient. Moreover, the blue-noise property is achieved by a novel anisotropy suppressing loss function. Experiments show that our halftoning method produces high-quality halftones while staying relatively fast.
翻訳日:2022-07-26 15:27:46 公開日:2022-07-23
# グラフニューラルネットワークを用いた電力系統の分散非線形状態推定

Distributed Nonlinear State Estimation in Electric Power Systems using Graph Neural Networks ( http://arxiv.org/abs/2207.11465v1 )

ライセンス: Link先を確認
Ognjen Kundacina, Mirsad Cosovic, Dragisa Miskovic, Dejan Vukobratovic(参考訳) 電力系統で利用可能なあらゆる種類の測定値に基づいて複雑なバス電圧を推定することを目的とした非線形状態推定(SE)は通常、反復ガウス・ニュートン法を用いて解決される。 非線形seは、ファサー測定ユニットおよび監視制御およびデータ取得システムからの入力を考える際に、いくつかの困難を呈する。 これには、数値不安定性、反復法の開始点に依存する収束時間、状態変数の数に関する単一反復の二次計算複雑性が含まれる。 本稿では,非線形電力系統seの拡張係数グラフ上に,ファサーとレガシの両方の測定だけでなく,分岐とバスの計測を組み込むことのできる,オリジナルのグラフニューラルネットワークによるse実装を提案する。 提案する回帰モデルは、一度トレーニングした推論時間の間に線形計算複雑性を持ち、分散実装が可能となる。 この手法は非定性的かつ非行列的であるため、ガウス・ニュートン解法が抱える問題に耐性がある。 テストセットの予測精度は別として,サイバー攻撃のシミュレーションや通信の不規則性による観測不可能なシナリオの堅牢性を示す。 これらの場合、予測誤差はローカルに持続され、他の電力系統の結果には影響しない。

Nonlinear state estimation (SE), with the goal of estimating complex bus voltages based on all types of measurements available in the power system, is usually solved using the iterative Gauss-Newton method. The nonlinear SE presents some difficulties when considering inputs from both phasor measurement units and supervisory control and data acquisition system. These include numerical instabilities, convergence time depending on the starting point of the iterative method, and the quadratic computational complexity of a single iteration regarding the number of state variables. This paper introduces an original graph neural network based SE implementation over the augmented factor graph of the nonlinear power system SE, capable of incorporating measurements on both branches and buses, as well as both phasor and legacy measurements. The proposed regression model has linear computational complexity during the inference time once trained, with a possibility of distributed implementation. Since the method is noniterative and non-matrix-based, it is resilient to the problems that the Gauss-Newton solver is prone to. Aside from prediction accuracy on the test set, the proposed model demonstrates robustness when simulating cyber attacks and unobservable scenarios due to communication irregularities. In those cases, prediction errors are sustained locally, with no effect on the rest of the power system's results.
翻訳日:2022-07-26 15:13:22 公開日:2022-07-23
# FastATDC: 高速な軌跡検出と分類

FastATDC: Fast Anomalous Trajectory Detection and Classification ( http://arxiv.org/abs/2207.11541v1 )

ライセンス: Link先を確認
Tianle Ni, Jingwei Wang, Yunlong Ma, Shuang Wang, Min Liu, and Weiming Shen(参考訳) 異常軌道の自動検出は知的輸送システムにおいて重要な問題である。 既存の多くの研究は、異常軌跡と正常軌跡を区別することに集中しており、異常軌跡間の大きな違いを無視している。 最近の研究は異常軌道パターンの同定に大きな進歩をもたらし、異常軌道検出と分類(atdc)のための2段階アルゴリズムを提案した。 このアルゴリズムは優れた性能を持つが、高時間複雑性や不十分な解釈など、いくつかの制限に苦しむ。 本稿では,ATDCアルゴリズムの理論的,実証的な解析を行い,各段階における異常スコアの計算を単純化し,第1段階よりも第2段階の方が重要であることを示す。 そこで我々は,両方の段階でランダムサンプリング戦略を導入するFastATDCアルゴリズムを開発した。 実験の結果,FastATDCは実際のデータセットのATDCの10倍から20倍高速であることがわかった。 さらに、FastATDCはベースラインアルゴリズムよりも優れており、ATDCアルゴリズムに匹敵する。

Automated detection of anomalous trajectories is an important problem with considerable applications in intelligent transportation systems. Many existing studies have focused on distinguishing anomalous trajectories from normal trajectories, ignoring the large differences between anomalous trajectories. A recent study has made great progress in identifying abnormal trajectory patterns and proposed a two-stage algorithm for anomalous trajectory detection and classification (ATDC). This algorithm has excellent performance but suffers from a few limitations, such as high time complexity and poor interpretation. Here, we present a careful theoretical and empirical analysis of the ATDC algorithm, showing that the calculation of anomaly scores in both stages can be simplified, and that the second stage of the algorithm is much more important than the first stage. Hence, we develop a FastATDC algorithm that introduces a random sampling strategy in both stages. Experimental results show that FastATDC is 10 to 20 times faster than ATDC on real datasets. Moreover, FastATDC outperforms the baseline algorithms and is comparable to the ATDC algorithm.
翻訳日:2022-07-26 15:13:01 公開日:2022-07-23
# グラフの組合せ最適化のためのアニールトレーニング

Annealed Training for Combinatorial Optimization on Graphs ( http://arxiv.org/abs/2207.11542v1 )

ライセンス: Link先を確認
Haoran Sun, Etash K. Guha, Hanjun Dai(参考訳) 組合せ最適化(CO)問題の難しさは、教師あり学習のためのソリューション収集を妨げる。 しかしながら、CO問題に対するニューラルネットワークの学習は、トレーニングがローカルオプティマで簡単に阻止されるため、ラベル付きデータの欠如によって悪名高い。 本研究では,CO問題に対する簡易かつ効果的な熱処理訓練フレームワークを提案する。 特に、CO問題を非バイアスエネルギーベースモデル(EBM)に変換する。 EBMをできる限りスムーズにするため、われわれは罰則を慎重に選択した。 次に、ESMを近似するためにグラフニューラルネットワークを訓練する。 初期化付近の局所的最適位置でトレーニングが止まるのを防ぐために,アニール損失関数を導入する。 実験評価の結果,アニールトレーニングの枠組みが大幅に改善されていることが示された。 4種類のco問題において,本手法は合成グラフと実世界グラフの両方において,他の教師なしニューラル手法よりも大幅に性能が向上する。

The hardness of combinatorial optimization (CO) problems hinders collecting solutions for supervised learning. However, learning neural networks for CO problems is notoriously difficult in lack of the labeled data as the training is easily trapped at local optima. In this work, we propose a simple but effective annealed training framework for CO problems. In particular, we transform CO problems into unbiased energy-based models (EBMs). We carefully selected the penalties terms so as to make the EBMs as smooth as possible. Then we train graph neural networks to approximate the EBMs. To prevent the training from being stuck at local optima near the initialization, we introduce an annealed loss function. An experimental evaluation demonstrates that our annealed training framework obtains substantial improvements. In four types of CO problems, our method achieves performance substantially better than other unsupervised neural methods on both synthetic and real-world graphs.
翻訳日:2022-07-26 15:12:45 公開日:2022-07-23
# 共有潜在空間を用いたテンソルに基づくマルチビュースペクトルクラスタリング

Tensor-based Multi-view Spectral Clustering via Shared Latent Space ( http://arxiv.org/abs/2207.11559v1 )

ライセンス: Link先を確認
Qinghua Tao, Francesco Tonin, Panagiotis Patrinos, Johan A.K. Suykens(参考訳) マルチビュースペクトルクラスタリング(mvsc)は、さまざまなデータソースによって注目を集めている。 しかし、既存の作業の多くは、アウトオブサンプル予測や、クラスタリング結果の解釈可能性や探索で禁止されている。 本稿では,制限されたカーネルマシンフレームワークから,共有潜在空間を介してMvSCの新しい手法を提案する。 共役特性双対性レンズを用いて、MvSCの重み付きカーネル主成分分析問題をキャプションし、重み付き共役特性双対性を開発し、双対変数を定式化する。 本手法では,隠れた機能の役割を担う双対変数を全ビューで共有し,共通の潜在空間を構築し,ビュー固有の空間から投影を学習することでビューを結合する。 このような単一の潜在空間は、十分に分離されたクラスタを促進し、簡単なデータ探索を提供し、可視化と解釈を容易にする。 本手法は,ビュー数に依存しない1つの固有デコンポジションのみを必要とする。 高次相関を高めるために、テンソルベースモデリングは計算複雑性を増大させることなく導入される。 本手法はサンプル外拡張で柔軟に適用可能であり,固定サイズのカーネルスキームを用いた大規模データに対する効率が大幅に向上する。 数値実験により, この手法が精度, 効率, 解釈性に有効であることを検証し, 鋭い固有値の減衰と特異な潜在変数分布を示した。

Multi-view Spectral Clustering (MvSC) attracts increasing attention due to diverse data sources. However, most existing works are prohibited in out-of-sample predictions and overlook model interpretability and exploration of clustering results. In this paper, a new method for MvSC is proposed via a shared latent space from the Restricted Kernel Machine framework. Through the lens of conjugate feature duality, we cast the weighted kernel principal component analysis problem for MvSC and develop a modified weighted conjugate feature duality to formulate dual variables. In our method, the dual variables, playing the role of hidden features, are shared by all views to construct a common latent space, coupling the views by learning projections from view-specific spaces. Such single latent space promotes well-separated clusters and provides straightforward data exploration, facilitating visualization and interpretation. Our method requires only a single eigendecomposition, whose dimension is independent of the number of views. To boost higher-order correlations, tensor-based modelling is introduced without increasing computational complexity. Our method can be flexibly applied with out-of-sample extensions, enabling greatly improved efficiency for large-scale data with fixed-size kernel schemes. Numerical experiments verify that our method is effective regarding accuracy, efficiency, and interpretability, showing a sharp eigenvalue decay and distinct latent variable distributions.
翻訳日:2022-07-26 15:12:32 公開日:2022-07-23
# Facing Changes: 知識グラフを成長させるための継続的なエンティティアライメント

Facing Changes: Continual Entity Alignment for Growing Knowledge Graphs ( http://arxiv.org/abs/2207.11436v1 )

ライセンス: Link先を確認
Yuxin Wang and Yuanning Cui and Wenqiang Liu and Zequn Sun and Yiqiao Jiang and Kexin Han and Wei Hu(参考訳) エンティティアライメントは知識グラフ(KG)統合における基本的で重要なテクニックである。 長年にわたって、エンティティアライメントの研究は、実世界のkgsの成長の性質を無視する静的なkgsという仮定に置かれてきた。 KGが大きくなるにつれて、以前のアライメント結果は再検討される必要があり、新しいエンティティアライメントが見つかるのを待つ。 本稿では,連続的なエンティティアライメント(continuous entity alignment)と呼ばれる現実的かつ未探索な設定を提案する。 新たなエンティティやトリプルが現れるたびに,KG全体のモデル全体の再トレーニングを避けるために,このタスクに対して連続的なアライメント手法を提案する。 エンティティの隣接性に基づいてエンティティの表現を再構築し、既存の隣人を使って、新しいエンティティの埋め込みを迅速かつインダクティブに生成する。 知識増強のために信頼できるアライメントを抽出しながら、部分的な事前整列されたエンティティペアを選択してKGの一部のみを訓練する。 提案手法では,従来の手法と異なり,不整合なエンティティを必然的に含んでいるため,新たなエンティティアライメントを見つけ,古いアライメントを更新するために,双方向最寄りの近接マッチングを用いる。 さらに,多言語DBpediaの成長をシミュレートすることで,新たなデータセットを構築する。 広範な実験により,本手法はリトレーニングやインダクティブ学習に基づくベースラインよりも有効であることが示された。

Entity alignment is a basic and vital technique in knowledge graph (KG) integration. Over the years, research on entity alignment has resided on the assumption that KGs are static, which neglects the nature of growth of real-world KGs. As KGs grow, previous alignment results face the need to be revisited while new entity alignment waits to be discovered. In this paper, we propose and dive into a realistic yet unexplored setting, referred to as continual entity alignment. To avoid retraining an entire model on the whole KGs whenever new entities and triples come, we present a continual alignment method for this task. It reconstructs an entity's representation based on entity adjacency, enabling it to generate embeddings for new entities quickly and inductively using their existing neighbors. It selects and replays partial pre-aligned entity pairs to train only parts of KGs while extracting trustworthy alignment for knowledge augmentation. As growing KGs inevitably contain non-matchable entities, different from previous works, the proposed method employs bidirectional nearest neighbor matching to find new entity alignment and update old alignment. Furthermore, we also construct new datasets by simulating the growth of multilingual DBpedia. Extensive experiments demonstrate that our continual alignment method is more effective than baselines based on retraining or inductive learning.
翻訳日:2022-07-26 15:06:44 公開日:2022-07-23
# twitter上の個人のプライバシーを守るために、スタンス検出とジオタグモデルを騙すことができる。

Catch Me If You Can: Deceiving Stance Detection and Geotagging Models to Protect Privacy of Individuals on Twitter ( http://arxiv.org/abs/2207.11500v1 )

ライセンス: Link先を確認
Dilara Dogan, Bahadir Altun, Muhammed Said Zengin, Mucahid Kutlu and Tamer Elsayed(参考訳) 自然言語処理の最近の進歩は、テキスト分析と言語理解モデルに多くのエキサイティングな発展をもたらしたが、これらのモデルは人々の追跡にも利用でき、プライバシーの懸念が深刻化している。 本研究では,ソーシャルメディアプラットフォームを用いて,モデルによって検出されるのを避けるために,個人に何ができるかを検討する。 我々は,姿勢検出とジオタギングの2つの課題について調査を行った。 テキストの修正には,敬語へのタイプミスの挿入,パラフラージング,ダミーなソーシャルメディア投稿の追加など,さまざまな簡単なテクニックを探求する。 本実験により, 姿勢検出のために調整したBERTモデルの性能はタイポスにより著しく低下するが, パラフレーズ化の影響を受けないことがわかった。 さらに,タイプミスは,ソーシャルネットワークへの依存度が高まることにより,最先端のジオタグモデルに最小限の影響が認められるが,ユーザが異なるユーザと対話することで,それらのモデルを騙すことができ,性能を約50%削減できることを示す。

The recent advances in natural language processing have yielded many exciting developments in text analysis and language understanding models; however, these models can also be used to track people, bringing severe privacy concerns. In this work, we investigate what individuals can do to avoid being detected by those models while using social media platforms. We ground our investigation in two exposure-risky tasks, stance detection and geotagging. We explore a variety of simple techniques for modifying text, such as inserting typos in salient words, paraphrasing, and adding dummy social media posts. Our experiments show that the performance of BERT-based models fined tuned for stance detection decreases significantly due to typos, but it is not affected by paraphrasing. Moreover, we find that typos have minimal impact on state-of-the-art geotagging models due to their increased reliance on social networks; however, we show that users can deceive those models by interacting with different users, reducing their performance by almost 50%.
翻訳日:2022-07-26 15:06:20 公開日:2022-07-23
# 不均衡医療データにおけるリスク予測のための密度認識型パーソナライズトレーニング

Density-Aware Personalized Training for Risk Prediction in Imbalanced Medical Data ( http://arxiv.org/abs/2207.11382v1 )

ライセンス: Link先を確認
Zepeng Huo, Xiaoning Qian, Shuai Huang, Zhangyang Wang, Bobak Mortazavi(参考訳) 死亡などの医学的な出来事は、ほとんどの患者が生き残るため、電子医療記録において低い速度で起こることが多い。 この不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。 伝統的に、この問題は再サンプリングや再重み付けといったアドホックな手法によって解決されるが、多くの場合、性能は制限されている。 この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。 1)まず特徴抽出と分類のプロセスを分離し、各コンポーネントの訓練バッチを個別に調整し、クラス密度差によるバイアスを軽減する。 2) ネットワークを密度認識損失と誤分類のための学習可能なコスト行列の両方でトレーニングする。 実世界の医療データセット(TOPCATとMIMIC-III)におけるモデルの性能向上を実証し、AUC-ROC, AUC-PRC, Brier Skill Scoreをドメインのベースラインと比較した。

Medical events of interest, such as mortality, often happen at a low rate in electronic medical records, as most admitted patients survive. Training models with this imbalance rate (class density discrepancy) may lead to suboptimal prediction. Traditionally this problem is addressed through ad-hoc methods such as resampling or reweighting but performance in many cases is still limited. We propose a framework for training models for this imbalance issue: 1) we first decouple the feature extraction and classification process, adjusting training batches separately for each component to mitigate bias caused by class density discrepancy; 2) we train the network with both a density-aware loss and a learnable cost matrix for misclassifications. We demonstrate our model's improved performance in real-world medical datasets (TOPCAT and MIMIC-III) to show improved AUC-ROC, AUC-PRC, Brier Skill Score compared with the baselines in the domain.
翻訳日:2022-07-26 15:05:03 公開日:2022-07-23
# 反復学習規則の分類法

A Taxonomy of Recurrent Learning Rules ( http://arxiv.org/abs/2207.11439v1 )

ライセンス: Link先を確認
Guillermo Mart\'in-S\'anchez, Sander Boht\'e, Sebastian Otte(参考訳) backpropagation through time(bptt)は、recurrent neural networks(rnns)のトレーニングのデファクトスタンダードであるが、非causalであり、非ローカルである。 リアルタイムリカレント学習は因果的な代替であるが、非常に非効率である。 近年、e-prop はこれらのアルゴリズムの因果的、局所的、効率的な代替手段として提案され、繰り返し発生する依存関係を時間とともに徹底的に刈り取ることによって正確な勾配を近似した。 本稿では, BPTT から RTRL を導出し, 直観的, 明確化を図った。 さらに、e-propを画像内でフレーム化し、近似したものを形式化する。 最後に、e-propが特別な場合であるアルゴリズムの族を導出する。

Backpropagation through time (BPTT) is the de facto standard for training recurrent neural networks (RNNs), but it is non-causal and non-local. Real-time recurrent learning is a causal alternative, but it is highly inefficient. Recently, e-prop was proposed as a causal, local, and efficient practical alternative to these algorithms, providing an approximation of the exact gradient by radically pruning the recurrent dependencies carried over time. Here, we derive RTRL from BPTT using a detailed notation bringing intuition and clarification to how they are connected. Furthermore, we frame e-prop within in the picture, formalising what it approximates. Finally, we derive a family of algorithms of which e-prop is a special case.
翻訳日:2022-07-26 15:04:46 公開日:2022-07-23
# 知識融合による連合学習におけるデータ不均一性処理

Handling Data Heterogeneity in Federated Learning via Knowledge Fusion ( http://arxiv.org/abs/2207.11447v1 )

ライセンス: Link先を確認
Xu Zhou, Xinyu Lei, Cong Yang, Yichun Shi, Xiao Zhang, Jingwen Shi(参考訳) federated learning(fl)は、中央サーバの助けを借りて、複数のクライアントにまたがるグローバル機械学習モデルの分散トレーニングをサポートする。 各クライアントが保持するローカルデータセットはflで交換されないため、ローカルデータセットのプライバシは保護される。 FLはますます人気があるが、異なるクライアント間のデータの異質性は、クライアントモデルのドリフト問題を引き起こし、モデルの性能劣化とモデルフェアネスの低下をもたらす。 本稿では,この問題を解決するために,グローバルローカル知識融合(fedkf)方式によるフェデレート学習をデザインする。 FedKFのキーとなるアイデアは、サーバがグローバルな知識を各トレーニングラウンドのローカルな知識と融合させ、ローカルモデルをグローバルなオプティマに向けて規則化できるようにすることである。 これにより、クライアントモデルのドリフト問題を緩和することができる。 FedKFでは、まず、正確なグローバル知識表現をサポートするアクティブ非アクティブモデル集約手法を提案する。 そこで本研究では,KD をグローバルモデルからローカルモデルへ促進するデータフリー知識蒸留 (KD) 手法を提案し,局所モデルが局所的知識(局所データセットに埋め込まれた)を同時に学習し,グローバルな局所的知識融合プロセスを実現する。 理論解析と集中的な実験により、FedKFは高いモデル性能、高い公正性、およびプライバシー保護を同時に達成することを示した。 プロジェクトのソースコードは、論文レビューの後にGitHubでリリースされる。

Federated learning (FL) supports distributed training of a global machine learning model across multiple clients with the help from a central server. The local dataset held by each client is never exchanged in FL, so the local dataset privacy is protected. Although FL is increasingly popular, data heterogeneity across different clients leads to the client model drift issue and results in model performance degradation and poor model fairness. To address the issue, we design Federated learning with global-local Knowledge Fusion (FedKF) scheme in this paper. The key idea in FedKF is to let the server return the global knowledge to be fused with the local knowledge in each training round so that the local model can be regularized towards the global optima. Thus, the client model drift issue can be mitigated. In FedKF, we first propose the active-inactive model aggregation technique that supports a precise global knowledge representation. Then, we propose a data-free knowledge distillation (KD) approach to facilitate the KD from the global model to the local model while the local model can still learn the local knowledge (embedded in the local dataset) simultaneously, thereby realizing the global-local knowledge fusion process. The theoretical analysis and intensive experiments demonstrate that FedKF achieves high model performance, high fairness, and privacy-preserving simultaneously. The project source codes will be released on GitHub after the paper review.
翻訳日:2022-07-26 15:04:33 公開日:2022-07-23
# Open Set 3D Learningに向けて - オブジェクトポイントクラウドのベンチマーク

Towards Open Set 3D Learning: A Benchmark on Object Point Clouds ( http://arxiv.org/abs/2207.11554v1 )

ライセンス: Link先を確認
Antonio Alliegro, Francesco Cappio Borlino, Tatiana Tommasi(参考訳) 近年, 3次元学習の分野において, 分類, 検出, セグメンテーション問題において有意な進歩がみられた。 既存の研究の大部分は、実世界の本質的なオープンな性質を無視して、正準閉集合状態に焦点を当てている。 これは、新しい未知の信号の管理を必要とする安全クリティカルなアプリケーションに関わる自律システムの能力を制限する。 この文脈では、知覚されたオブジェクトやシーンの幾何学に関する豊富な情報を伝達するため、3Dデータを活用することは貴重な資産となる。 本論文は,オープンセット3次元学習に関する第1報である。 本稿では,カテゴリのセマンティックシフトの難易度を高め,ドメイン内(合成合成合成)とドメイン内(合成合成合成)の両方をカバーできる新しいテストベッドを提案する。 さらに, 最新の手法が3Dデータに有効であるかどうか, 理解するために, アウト・オブ・ディストリビューションとオープン・セット2D文献について検討する。 当社の広範なベンチマークでは,複数のアルゴリズムをコヒーレントな図に配置し,その長所と限界を明らかにしました。 分析の結果は, 今後のオープンセット3dモデルにとって, 信頼性の高い足場となるかもしれない。

In the last years, there has been significant progress in the field of 3D learning on classification, detection and segmentation problems. The vast majority of the existing studies focus on canonical closed-set conditions, neglecting the intrinsic open nature of the real-world. This limits the abilities of autonomous systems involved in safety-critical applications that require managing novel and unknown signals. In this context exploiting 3D data can be a valuable asset since it conveys rich information about the geometry of sensed objects and scenes. This paper provides the first broad study on Open Set 3D learning. We introduce a novel testbed with settings of increasing difficulty in terms of category semantic shift and cover both in-domain (synthetic-to-synthetic) and cross-domain (synthetic-to-real) scenarios. Moreover, we investigate the related out-of-distribution and Open Set 2D literature to understand if and how their most recent approaches are effective on 3D data. Our extensive benchmark positions several algorithms in the same coherent picture, revealing their strengths and limitations. The results of our analysis may serve as a reliable foothold for future tailored Open Set 3D models.
翻訳日:2022-07-26 14:37:39 公開日:2022-07-23
# 心エコー画像の自己教師あり学習による臨床診断

Self-Supervised Learning of Echocardiogram Videos Enables Data-Efficient Clinical Diagnosis ( http://arxiv.org/abs/2207.11581v1 )

ライセンス: Link先を確認
Gregory Holste, Evangelos K. Oikonomou, Bobak Mortazavi, Zhangyang Wang, Rohan Khera(参考訳) 医用画像認識タスクで高品質なラベルを得るのが難しいため、小さなラベル付きデータセット上で適切に微調整可能なディープラーニング技術が必要となる。 近年の自己教師付き学習技術の進歩により、ドメイン内表現学習アプローチは教師付き微調整の強力な初期化を可能にし、教師付き事前訓練タスクからの標準転送学習よりもはるかにデータ効率が高いことが示されている。 しかし、これらのアプリケーションは、ビデオ形式でキャプチャされた医療診断への応用には適用されない。 この進歩を念頭に置いて,大動脈弁の一般的な危険な疾患である大動脈狭窄症(as)の診断作業において,下流の微調整の強い表現を学習することを目的として,心エコービデオに適応した自己教師付き学習手法を開発した。 トレーニングデータの1%を微調整すると、最高の自己教師型学習モデルは0.818 AUC(95% CI: 0.794, 0.840)、標準転送学習アプローチは0.644 AUC(95% CI: 0.610, 0.677)に達する。 また,saliency map visualizations で示されるような重症度予測では,自己教師付きモデルの方が大動脈弁とより密接な関係にあることが判明した。

Given the difficulty of obtaining high-quality labels for medical image recognition tasks, there is a need for deep learning techniques that can be adequately fine-tuned on small labeled data sets. Recent advances in self-supervised learning techniques have shown that such an in-domain representation learning approach can provide a strong initialization for supervised fine-tuning, proving much more data-efficient than standard transfer learning from a supervised pretraining task. However, these applications are not adapted to applications to medical diagnostics captured in a video format. With this progress in mind, we developed a self-supervised learning approach catered to echocardiogram videos with the goal of learning strong representations for downstream fine-tuning on the task of diagnosing aortic stenosis (AS), a common and dangerous disease of the aortic valve. When fine-tuned on 1% of the training data, our best self-supervised learning model achieves 0.818 AUC (95% CI: 0.794, 0.840), while the standard transfer learning approach reaches 0.644 AUC (95% CI: 0.610, 0.677). We also find that our self-supervised model attends more closely to the aortic valve when predicting severe AS as demonstrated by saliency map visualizations.
翻訳日:2022-07-26 14:37:18 公開日:2022-07-23
# d次元物体の投影により生成された画像に対するSO(d)-回転の作用の定義:幾何学的VAEを用いた推論への応用

Defining an action of SO(d)-rotations on images generated by projections of d-dimensional objects: Applications to pose inference with Geometric VAEs ( http://arxiv.org/abs/2207.11582v1 )

ライセンス: Link先を確認
Nicolas Legendre, Khanh Dao Duc, Nina Miolane(参考訳) 近年の変分オートエンコーダ(vaes)の進歩により、$so(d)$のようなコンパクトリー群として潜在多様体を学習できるようになった。 このアプローチは、データはリー群自身に同型な部分空間上にあると仮定するので、この仮定は、$SO(d)$で未知のポーズを持つ$d$次元体積を射影することによって生成される画像の文脈においてどのように成立するかを考察する。 群と画像空間の異なる理論的な候補を調べると、データ空間上の群作用を定義する試みは一般に失敗し、体積に対してより具体的な幾何学的制約を必要とする。 幾何学的VAEを用いて、この制約が適切なポーズ推論の鍵であることを確認し、これらの結果の応用の可能性と今後の研究について論じる。

Recent advances in variational autoencoders (VAEs) have enabled learning latent manifolds as compact Lie groups, such as $SO(d)$. Since this approach assumes that data lies on a subspace that is homeomorphic to the Lie group itself, we here investigate how this assumption holds in the context of images that are generated by projecting a $d$-dimensional volume with unknown pose in $SO(d)$. Upon examining different theoretical candidates for the group and image space, we show that the attempt to define a group action on the data space generally fails, as it requires more specific geometric constraints on the volume. Using geometric VAEs, our experiments confirm that this constraint is key to proper pose inference, and we discuss the potential of these results for applications and future work.
翻訳日:2022-07-26 14:36:55 公開日:2022-07-23
# 携帯電話におけるデュアルカメラ融合による顔脱毛

Face Deblurring using Dual Camera Fusion on Mobile Phones ( http://arxiv.org/abs/2207.11617v1 )

ライセンス: Link先を確認
Wei-Sheng Lai, YiChang Shih, Lun-Cheng Chu, Xiaotong Wu, Sung-Fang Tsai, Michael Krainin, Deqing Sun, Chia-Kai Liang(参考訳) 高速移動対象者の動きのぼやけは、写真において長年の問題であり、特に低照度での集光効率が制限されているため、携帯電話では非常に一般的である。 近年,画像のぼろぼろ化は大きな進展を遂げているが,ほとんどの手法では計算能力が必要であり,局所的な動きによる高解像度画像の処理には限界がある。 そこで本稿では,携帯電話用デュアルカメラフュージョン技術に基づく顔のブラッシングシステムを提案する。 このシステムは被写体の動きを検知し、例えば、最近の高級電話で一般的な超広角カメラを動的に有効にし、シャッター設定を高速化した補助写真をキャプチャする。 メインショットは低ノイズだがぼやけだが、参照ショットはシャープだがノイズが多い。 我々はMLモデルを学び、これらの2つのショットを調整して融合させ、動きのぼやけなくクリアな写真を出力する。 当社のアルゴリズムはGoogle Pixel 6上で効率よく動作します。 我々の実験は、商用製品だけでなく、代替のシングルイメージ、マルチフレーム、顔特定、ビデオデブロアリングアルゴリズムに対して、システムの利点と堅牢性を実証している。 我々の知る限りでは、私たちの研究は、さまざまな動きや照明条件下で何千もの画像に対して確実にかつ堅牢に機能する、顔の動きを損なう最初のモバイルソリューションです。

Motion blur of fast-moving subjects is a longstanding problem in photography and very common on mobile phones due to limited light collection efficiency, particularly in low-light conditions. While we have witnessed great progress in image deblurring in recent years, most methods require significant computational power and have limitations in processing high-resolution photos with severe local motions. To this end, we develop a novel face deblurring system based on the dual camera fusion technique for mobile phones. The system detects subject motion to dynamically enable a reference camera, e.g., ultrawide angle camera commonly available on recent premium phones, and captures an auxiliary photo with faster shutter settings. While the main shot is low noise but blurry, the reference shot is sharp but noisy. We learn ML models to align and fuse these two shots and output a clear photo without motion blur. Our algorithm runs efficiently on Google Pixel 6, which takes 463 ms overhead per shot. Our experiments demonstrate the advantage and robustness of our system against alternative single-image, multi-frame, face-specific, and video deblurring algorithms as well as commercial products. To the best of our knowledge, our work is the first mobile solution for face motion deblurring that works reliably and robustly over thousands of images in diverse motion and lighting conditions.
翻訳日:2022-07-26 14:36:39 公開日:2022-07-23
# 自己スーパービジョンによるプログレッシブシーンテキスト消去

Progressive Scene Text Erasing with Self-Supervision ( http://arxiv.org/abs/2207.11469v1 )

ライセンス: Link先を確認
Xiangcheng Du and Zhao Zhou and Yingbin Zheng and Xingjiao Wu and Tianlong Ma and Cheng Jin(参考訳) シーン画像からテキスト内容を消去しようとするシーンテキスト消去と、大規模合成データに基づいて現在最先端のテキスト消去モデルを訓練する。 データ合成エンジンは大量の注釈付きトレーニングサンプルを提供するが、合成データと実世界のデータには違いがある。 本稿では,無ラベル実世界シーンテキスト画像の特徴表現に自己スーパービジョンを用いる。 画像変形のテキストストロークマスク間で一貫性を保つために、新しいプリテキストタスクが設計されている。 残余テキストを削除するために,プログレッシブ消去ネットワークを設計する。 その後の高品質な結果の基礎となる中間生成結果を活用することにより、シーンテキストを徐々に消去する。 実験の結果,本手法はテキスト消去タスクの一般化を著しく改善し,公開ベンチマーク上での最先端性能を実現する。

Scene text erasing seeks to erase text contents from scene images and current state-of-the-art text erasing models are trained on large-scale synthetic data. Although data synthetic engines can provide vast amounts of annotated training samples, there are differences between synthetic and real-world data. In this paper, we employ self-supervision for feature representation on unlabeled real-world scene text images. A novel pretext task is designed to keep consistent among text stroke masks of image variants. We design the Progressive Erasing Network in order to remove residual texts. The scene text is erased progressively by leveraging the intermediate generated results which provide the foundation for subsequent higher quality results. Experiments show that our method significantly improves the generalization of the text erasing task and achieves state-of-the-art performance on public benchmarks.
翻訳日:2022-07-26 14:31:17 公開日:2022-07-23
# GraphFit: ポイントクラウド正規推定のためのマルチスケールグラフ畳み込み表現学習

GraphFit: Learning Multi-scale Graph-Convolutional Representation for Point Cloud Normal Estimation ( http://arxiv.org/abs/2207.11484v1 )

ライセンス: Link先を確認
Keqiang Li, Mingyang Zhao, Huaiyu Wu, Dong-Ming Yan, Zhen Shen, Fei-Yue Wang and Gang Xiong(参考訳) 本研究では,非構造的3次元点雲のノイズや不均一密度を正確に,かつ効率的に推定する手法を提案する。 パッチを直接取り、局所的な関係を無視する既存のアプローチとは異なり、シャープエッジなどの困難な領域に適応しうるグラフ畳み込み特徴表現を通常の推定のために学習し、より局所的な近傍形状を強調し、本質的な関係を効果的に符号化する。 さらに,注意機構に基づく新しい適応モジュールの設計を行い,隣接する特徴と点特徴を統合することにより,提案する正規推定器の点密度変動に対するロバスト性をさらに高める。 より区別しやすくするために,グラフブロックにマルチスケールアーキテクチャを導入し,よりリッチな幾何学的特徴を学習する。 提案手法は,様々なベンチマークデータセットにおいて,最先端の精度で競合より優れており,ノイズや外れ値,密度変動に対して非常に堅牢である。

We propose a precise and efficient normal estimation method that can deal with noise and nonuniform density for unstructured 3D point clouds. Unlike existing approaches that directly take patches and ignore the local neighborhood relationships, which make them susceptible to challenging regions such as sharp edges, we propose to learn graph convolutional feature representation for normal estimation, which emphasizes more local neighborhood geometry and effectively encodes intrinsic relationships. Additionally, we design a novel adaptive module based on the attention mechanism to integrate point features with their neighboring features, hence further enhancing the robustness of the proposed normal estimator against point density variations. To make it more distinguishable, we introduce a multi-scale architecture in the graph block to learn richer geometric features. Our method outperforms competitors with the state-of-the-art accuracy on various benchmark datasets, and is quite robust against noise, outliers, as well as the density variations.
翻訳日:2022-07-26 14:31:04 公開日:2022-07-23
# Active Pointly Supervised Instance Segmentation

Active Pointly-Supervised Instance Segmentation ( http://arxiv.org/abs/2207.11493v1 )

ライセンス: Link先を確認
Chufeng Tang, Lingxi Xie, Gang Zhang, Xiaopeng Zhang, Qi Tian, Xiaolin Hu(参考訳) 高価なアノテーションの要求は、パフォーマンスの良いインスタンスセグメンテーションモデルをトレーニングする上で大きな負担となります。 本稿では,ボックスレベルのアノテーションから始めて,ボックス内のポイントを反復的にサンプリングし,オブジェクトに当てはまるかどうかを問う,active pointly-supervised instance segmentation(apis)という,経済的なアクティブラーニング設定を提案する。 APISの鍵は、限定的なアノテーション予算でセグメンテーションの精度を最大化する最も望ましいポイントを見つけることである。 この設定を定式化し,不確実性に基づくサンプリング戦略を提案する。 これらの戦略で開発されたモデルは、他の学習戦略と比較して、挑戦的なMS-COCOデータセットに対して一貫したパフォーマンス向上をもたらす。 その結果,アクティブラーニングとポイントベース・インスペクションの利点を融合したAPISが,ラベル効率のよいインスタンスセグメンテーションのための効果的な学習パラダイムであることが示唆された。

The requirement of expensive annotations is a major burden for training a well-performed instance segmentation model. In this paper, we present an economic active learning setting, named active pointly-supervised instance segmentation (APIS), which starts with box-level annotations and iteratively samples a point within the box and asks if it falls on the object. The key of APIS is to find the most desirable points to maximize the segmentation accuracy with limited annotation budgets. We formulate this setting and propose several uncertainty-based sampling strategies. The model developed with these strategies yields consistent performance gain on the challenging MS-COCO dataset, compared against other learning strategies. The results suggest that APIS, integrating the advantages of active learning and point-based supervision, is an effective learning paradigm for label-efficient instance segmentation.
翻訳日:2022-07-26 14:30:46 公開日:2022-07-23
# 半教師付き腹部臓器セグメンテーションのためのハイブリッドアーキテクチャと擬似ラベルの併用

Combining Hybrid Architecture and Pseudo-label for Semi-supervised Abdominal Organ Segmentation ( http://arxiv.org/abs/2207.11512v1 )

ライセンス: Link先を確認
Wentao Liu, Weijin Xu, Songlin Yan, Lemeng Wang, Huihua Yang, Haoyuan Li(参考訳) 腹部臓器セグメンテーションは、臓器定量化、手術計画、疾患診断など、多くの重要な臨床応用がある。 しかし、CTスキャンから手動で臓器に注釈をつけるのは時間と労力がかかる。 半教師付き学習は、大量のラベル付き画像と限定ラベル付きサンプルから学習することで、この課題を軽減する可能性を示している。 本研究では,教師モデルと学生モデルの両方において,自己学習戦略に従い,CNNとTransformerとのハイブリッドアーキテクチャ(PHTrans)を用いて,正確な擬似ラベルを生成する。 その後、高速なPHTransを用いた2段階セグメンテーションフレームワークにラベルデータと共に導入し、効率を保ちながらモデルの性能と一般化能力を向上させる。 FLARE2022の検証実験により,提案手法は高速かつ低リソースなモデル推論だけでなく,セグメンテーション性能にも優れることを示した。 DSC と HSD はそれぞれ 0.8956 と 0.9316 である。 開発環境では、平均推定時間は18.62秒、最大GPUメモリは1995.04MB、GPUメモリタイム曲線以下の領域とCPU利用時間曲線の平均面積は23196.84および319.67である。

Abdominal organ segmentation has many important clinical applications, such as organ quantification, surgical planning, and disease diagnosis. However, manually annotating organs from CT scans is time-consuming and labor-intensive. Semi-supervised learning has shown the potential to alleviate this challenge by learning from a large set of unlabeled images and limited labeled samples. In this work, we follow the self-training strategy and employ a hybrid architecture (PHTrans) with CNN and Transformer for both teacher and student models to generate precise pseudo-labels. Afterward, we introduce them with label data together into a two-stage segmentation framework with lightweight PHTrans for training to improve the performance and generalization ability of the model while remaining efficient. Experiments on the validation set of FLARE2022 demonstrate that our method achieves excellent segmentation performance as well as fast and low-resource model inference. The average DSC and HSD are 0.8956 and 0.9316, respectively. Under our development environments, the average inference time is 18.62 s, the average maximum GPU memory is 1995.04 MB, and the area under the GPU memory-time curve and the average area under the CPU utilization-time curve are 23196.84 and 319.67.
翻訳日:2022-07-26 14:30:31 公開日:2022-07-23
# Marior: 野生のドキュメントのデワープのためのマージン除去と反復的コンテンツ修正

Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild ( http://arxiv.org/abs/2207.11515v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding(参考訳) カメラキャプチャーされた文書画像は通常、視点と幾何学的変形に悩まされる。 視覚美学の貧弱さやOCRシステムの性能低下を考慮すると,それらを修正することが重要である。 最近の学習ベース手法では, 精度の高いクロッピング文書画像に着目している。 しかし、これは、大きな限界領域を持つか、マージンのない文書画像を含む、実用的な課題を克服するのに十分ではないかもしれない。 この非現実性のため、ユーザーは大きな限界領域に遭遇したとき、正確に文書の収集に苦労する。 同時に、マージンのない画像のデワーイングは依然として不可解な問題である。 私たちの知る限りでは、ドキュメントイメージを野放しで修正するための完全かつ効果的なパイプラインはまだありません。 この問題に対処するため,Marior (Margin removal and \Iterative Content Rectification) と呼ばれる新しい手法を提案する。 Marior氏はデワープの品質と可読性を粗い方法で反復的に改善するための進歩的な戦略に従っている。 具体的には、パイプラインをマージン除去モジュール(mrm)と反復コンテンツ整流モジュール(icrm)の2つのモジュールに分割する。 まず、入力画像のセグメンテーションマスクを予測してマージンを除去し、予備結果を得る。 次に,高密度変位流を発生させることにより画像をさらに洗練し,コンテンツ認識補正を実現する。 改良イテレーションの数を適応的に決定する。 提案手法の最先端性能を公開ベンチマークで実証した。 リソースはhttps://github.com/zzzhang-jx/mariorで入手できる。

Camera-captured document images usually suffer from perspective and geometric deformations. It is of great value to rectify them when considering poor visual aesthetics and the deteriorated performance of OCR systems. Recent learning-based methods intensively focus on the accurately cropped document image. However, this might not be sufficient for overcoming practical challenges, including document images either with large marginal regions or without margins. Due to this impracticality, users struggle to crop documents precisely when they encounter large marginal regions. Simultaneously, dewarping images without margins is still an insurmountable problem. To the best of our knowledge, there is still no complete and effective pipeline for rectifying document images in the wild. To address this issue, we propose a novel approach called Marior (Margin Removal and \Iterative Content Rectification). Marior follows a progressive strategy to iteratively improve the dewarping quality and readability in a coarse-to-fine manner. Specifically, we divide the pipeline into two modules: margin removal module (MRM) and iterative content rectification module (ICRM). First, we predict the segmentation mask of the input image to remove the margin, thereby obtaining a preliminary result. Then we refine the image further by producing dense displacement flows to achieve content-aware rectification. We determine the number of refinement iterations adaptively. Experiments demonstrate the state-of-the-art performance of our method on public benchmarks. The resources are available at https://github.com/ZZZHANG-jx/Marior for further comparison.
翻訳日:2022-07-26 14:30:09 公開日:2022-07-23
# コントラスト単調画素レベル変調

Contrastive Monotonic Pixel-Level Modulation ( http://arxiv.org/abs/2207.11517v1 )

ライセンス: Link先を確認
Kun Lu, Rongpeng Li, and Honggang Zhang(参考訳) 連続した1対多マッピングは、低レベルのビジョンとニューラルイメージの変換において、あまり研究されていないが重要なタスクである。 本稿では,教師なしかつコントラストのない連続変調モデルであるmonopixという新しい定式化を提案し,さらに一歩進めて,重要ではあるが適切に処理できない画素レベルの空間制御を実現する。 この研究の重要な特徴は、制御信号と領域判別器の間の単調性を、新しい対照的な変調フレームワークと対応する単調性制約でモデル化することである。 我々はまた、対数近似の複雑さと高速なドメイン適応をサポートする選択的推論戦略を導入した。 最先端のパフォーマンスは、afhq cat-dogやyosemite summer-winter translationなど、さまざまな連続マッピングタスクで検証される。 導入されたアプローチは、低照度向上や自然騒音発生といった多くの低レベルのタスクに対する新しいソリューションを提供するのにも役立ちます。 コードはhttps://github.com/lukun199/MonoPixで入手できる。

Continuous one-to-many mapping is a less investigated yet important task in both low-level visions and neural image translation. In this paper, we present a new formulation called MonoPix, an unsupervised and contrastive continuous modulation model, and take a step further to enable a pixel-level spatial control which is critical but can not be properly handled previously. The key feature of this work is to model the monotonicity between controlling signals and the domain discriminator with a novel contrastive modulation framework and corresponding monotonicity constraints. We have also introduced a selective inference strategy with logarithmic approximation complexity and support fast domain adaptations. The state-of-the-art performance is validated on a variety of continuous mapping tasks, including AFHQ cat-dog and Yosemite summer-winter translation. The introduced approach also helps to provide a new solution for many low-level tasks like low-light enhancement and natural noise generation, which is beyond the long-established practice of one-to-one training and inference. Code is available at https://github.com/lukun199/MonoPix.
翻訳日:2022-07-26 14:29:45 公開日:2022-07-23
# ハイパーカラムに基づく地域専門家のランダムフォレストを用いた非構造道路セグメンテーション

Unstructured Road Segmentation using Hypercolumn based Random Forests of Local experts ( http://arxiv.org/abs/2207.11523v1 )

ライセンス: Link先を確認
Prassanna Ganesh Ravishankar, Antonio M. Lopez and Gemma M. Sanchez(参考訳) モノキュラービジョンに基づく道路検出法は、主に機械学習に基づいており、分類と特徴抽出の精度に依存しており、外観、照明、天候変化に苦しむ。 従来の手法では、構造に基づく中間予測を改善するために、条件付きランダムフィールドやマルコフランダムフィールドモデルに予測を導入する。 これらのメソッドは最適化ベースであり、リソースが重く遅いため、リアルタイムアプリケーションには適さない。 スーパーピクセルをベースとしたマシン学習機能を持つ地域専門家のランダム森林分類器を用いて道路を検知・分割する手法を提案する。 ランダムフォレストは、事前訓練された畳み込みニューラルネットワークvgg-16から機械学習記述子を取り込む。 これらの機能はそれぞれのスーパーピクセルにプールされ、ローカルな構造が連続する。 我々は,Nueral Networkベースの手法と従来手法(手作り機能に基づく)を,構造化道路(CamVidとKitti)と非構造化道路データセットの両方で比較した。 最後に,1000点の注釈付き画像を用いた道路シーンデータセットを導入し,そのアルゴリズムが非都市・農村の道路シナリオで有効であることを検証した。

Monocular vision based road detection methods are mostly based on machine learning methods, relying on classification and feature extraction accuracy, and suffer from appearance, illumination and weather changes. Traditional methods introduce the predictions into conditional random fields or markov random fields models to improve the intermediate predictions based on structure. These methods are optimization based and therefore resource heavy and slow, making it unsuitable for real time applications. We propose a method to detect and segment roads with a random forest classifier of local experts with superpixel based machine-learned features. The random forest takes in machine learnt descriptors from a pre-trained convolutional neural network - VGG-16. The features are also pooled into their respective superpixels, allowing for local structure to be continuous. We compare our algorithm against Nueral Network based methods and Traditional approaches (based on Hand-crafted features), on both Structured Road (CamVid and Kitti) and Unstructured Road Datasets. Finally, we introduce a Road Scene Dataset with 1000 annotated images, and verify that our algorithm works well in non-urban and rural road scenarios.
翻訳日:2022-07-26 14:29:29 公開日:2022-07-23
# ビデオモーショングラフを用いた音声駆動型ニューラルジェスチャ再現

Audio-driven Neural Gesture Reenactment with Video Motion Graphs ( http://arxiv.org/abs/2207.11524v1 )

ライセンス: Link先を確認
Yang Zhou, Jimei Yang, Dingzeyu Li, Jun Saito, Deepali Aneja, Evangelos Kalogerakis(参考訳) 人間のスピーチには、腕と手のジェスチャーを含む身体のジェスチャーが伴われることが多い。 ターゲット音声と一致するジェスチャーで高品質な映像を再現する手法を提案する。 提案手法の重要なアイデアは,クリップ間の有効な遷移をエンコードする新たなビデオモーショングラフを通じて,参照ビデオからクリップを分割して再組み立てすることである。 異なるクリップをシームレスに接続するために、2つのクリップの間に縫合されたフレームの周囲にビデオフレームを合成するポーズ対応ビデオブレンディングネットワークを提案する。 さらに,再現フレームの最適順序を求めるために,音声に基づくジェスチャー探索アルゴリズムを開発した。 本システムは、音声リズムと音声内容の両方に整合した再現を生成する。 提案手法は,従来の作業やベースラインに比べて,より高品質な映像を制作し,対象音声と一貫性があることを実証し,定量的,質的に評価した。

Human speech is often accompanied by body gestures including arm and hand gestures. We present a method that reenacts a high-quality video with gestures matching a target speech audio. The key idea of our method is to split and re-assemble clips from a reference video through a novel video motion graph encoding valid transitions between clips. To seamlessly connect different clips in the reenactment, we propose a pose-aware video blending network which synthesizes video frames around the stitched frames between two clips. Moreover, we developed an audio-based gesture searching algorithm to find the optimal order of the reenacted frames. Our system generates reenactments that are consistent with both the audio rhythms and the speech content. We evaluate our synthesized video quality quantitatively, qualitatively, and with user studies, demonstrating that our method produces videos of much higher quality and consistency with the target audio compared to previous work and baselines.
翻訳日:2022-07-26 14:29:11 公開日:2022-07-23
# HPS-Det:オブジェクト検出のためのハイパーパラメータサーチによる動的サンプルアサインメント

HPS-Det: Dynamic Sample Assignment with Hyper-Parameter Search for Object Detection ( http://arxiv.org/abs/2207.11539v1 )

ライセンス: Link先を確認
Ji Liu, Dong Li, Zekun Li, Han Liu, Wenjing Ke, Lu Tian, Yi Shan(参考訳) サンプル割り当ては、現代のオブジェクト検出アプローチにおいて顕著な役割を果たす。 しかし、既存のほとんどの手法は、サンプル割り当てとオブジェクト検出性能の関係を明確に定義しない正/負のサンプルを割り当てる手動設計に依存している。 本研究では,超パラメータ探索に基づく新しい動的サンプル割り当て手法を提案する。 まず,各地中真理に割り当てられた正のサンプル数をハイパーパラメータとして定義し,最適化アルゴリズムを用いて最適な選択を導出する。 次に,各学習イテレーションで最適な正数を動的に選択するために動的サンプル割当て手順を設計する。 実験により、結果のHPS-Detは、異なるオブジェクト検出ベースラインよりもパフォーマンスが向上することが示された。 さらに,異なるデータセット間および異なるバックボーン間を転送する際のハイパーパラメータ再利用性を分析し,提案手法の優越性と汎用性を示す。

Sample assignment plays a prominent part in modern object detection approaches. However, most existing methods rely on manual design to assign positive / negative samples, which do not explicitly establish the relationships between sample assignment and object detection performance. In this work, we propose a novel dynamic sample assignment scheme based on hyper-parameter search. We first define the number of positive samples assigned to each ground truth as the hyper-parameters and employ a surrogate optimization algorithm to derive the optimal choices. Then, we design a dynamic sample assignment procedure to dynamically select the optimal number of positives at each training iteration. Experiments demonstrate that the resulting HPS-Det brings improved performance over different object detection baselines. Moreover, We analyze the hyper-parameter reusability when transferring between different datasets and between different backbones for object detection, which exhibits the superiority and versatility of our method.
翻訳日:2022-07-26 14:28:54 公開日:2022-07-23
# 自己支援型少数ショット意味セグメンテーション

Self-Support Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2207.11549v1 )

ライセンス: Link先を確認
Qi Fan, Wenjie Pei, Yu-Wing Tai, Chi-Keung Tang(参考訳) 既存の少数ショットセグメンテーションメソッドは、サポートクエリマッチングフレームワークに基づいて大きな進歩を遂げた。 しかしそれでも彼らは、提供された数少ないサポートからクラス内のバリエーションの限られた範囲に苦しめられている。 同一オブジェクトに属する画素が同一クラスの異なるオブジェクトとよりよく似ているという単純なゲシュタルト原理により、この問題を軽減するための新しい自己対応マッチング戦略を提案し、クエリのプロトタイプを用いてクエリの特徴をマッチングし、クエリのプロトタイプを高信頼度クエリの予測から収集する。 この戦略はクエリオブジェクトの一貫した基盤特性を効果的にキャプチャし、クエリの特徴に適合させることができる。 また,適応型自己支持型バックグラウンドプロトタイプ生成モジュールと自己支持損失を提案し,自己支持マッチング手順をさらに促進する。 当社のセルフサポートネットワークは、プロトタイプの品質を大幅に向上させ、バックボーンの強化とサポート強化によるさらなる改善を享受し、複数のデータセットでsoeを実現しています。 コードは \url{https://github.com/fanq15/SSP} にある。

Existing few-shot segmentation methods have achieved great progress based on the support-query matching framework. But they still heavily suffer from the limited coverage of intra-class variations from the few-shot supports provided. Motivated by the simple Gestalt principle that pixels belonging to the same object are more similar than those to different objects of same class, we propose a novel self-support matching strategy to alleviate this problem, which uses query prototypes to match query features, where the query prototypes are collected from high-confidence query predictions. This strategy can effectively capture the consistent underlying characteristics of the query objects, and thus fittingly match query features. We also propose an adaptive self-support background prototype generation module and self-support loss to further facilitate the self-support matching procedure. Our self-support network substantially improves the prototype quality, benefits more improvement from stronger backbones and more supports, and achieves SOTA on multiple datasets. Codes are at \url{https://github.com/fanq15/SSP}.
翻訳日:2022-07-26 14:28:39 公開日:2022-07-23
# 深部肺炎:胸部X線におけるクラス不均衡性肺炎病変認識のための注意ベースコントラストラーニング

Deep Pneumonia: Attention-Based Contrastive Learning for Class-Imbalanced Pneumonia Lesion Recognition in Chest X-rays ( http://arxiv.org/abs/2207.11393v1 )

ライセンス: Link先を確認
Xinxu Wei, Haohan Bai, Xianshi Zhang and Yongjie Li(参考訳) 肺炎の診断にはコンピュータ支援型x線肺炎病変認識が重要である。 深層学習の出現に伴い, 肺炎の同定精度は大幅に向上したが, 胸部X線のファジィな出現により, 依然としていくつかの課題がある。 本稿では,クラス不均衡X線肺炎病変認識(Deep Pneumonia)のための注意ベースコントラスト学習フレームワークを提案する。 限定されたデータセットを完全にマイニングするために,肺炎データを余分に使わずにモデルを事前学習するために,自己教師付きコントラスト学習戦略を採用する。 医師が痛切にマークした病変領域の位置情報を活用するために,注意マップと抽出した特徴にそれぞれ適用される対照制御戦略を用いて,マスクガイド付きハードアテンション戦略と特徴学習を提案し,認識性能を向上させるためのより識別的な特徴を含む病変領域にモデルがより注意を向けるように指導する。 さらに,分類の損失関数として従来のクロスエントロピーではなく,クラスバランスの損失を採用し,データセット内の肺炎のクラス間の深刻なクラス不均衡の問題に対処した。 実験の結果,本フレームワークは,患者を正確に診断するための信頼性の高いコンピュータ支援肺炎診断システムとして有用であることが示唆された。

Computer-aided X-ray pneumonia lesion recognition is important for accurate diagnosis of pneumonia. With the emergence of deep learning, the identification accuracy of pneumonia has been greatly improved, but there are still some challenges due to the fuzzy appearance of chest X-rays. In this paper, we propose a deep learning framework named Attention-Based Contrastive Learning for Class-Imbalanced X-Ray Pneumonia Lesion Recognition (denoted as Deep Pneumonia). We adopt self-supervised contrastive learning strategy to pre-train the model without using extra pneumonia data for fully mining the limited available dataset. In order to leverage the location information of the lesion area that the doctor has painstakingly marked, we propose mask-guided hard attention strategy and feature learning with contrastive regulation strategy which are applied on the attention map and the extracted features respectively to guide the model to focus more attention on the lesion area where contains more discriminative features for improving the recognition performance. In addition, we adopt Class-Balanced Loss instead of traditional Cross-Entropy as the loss function of classification to tackle the problem of serious class imbalance between different classes of pneumonia in the dataset. The experimental results show that our proposed framework can be used as a reliable computer-aided pneumonia diagnosis system to assist doctors to better diagnose pneumonia cases accurately.
翻訳日:2022-07-26 14:24:16 公開日:2022-07-23
# 網膜血管セグメンテーションにおける向きと文脈絡み合いネットワーク

Orientation and Context Entangled Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2207.11396v1 )

ライセンス: Link先を確認
Xinxu Wei, Kaifu Yang, Danilo Bzdok and Yongjie Li(参考訳) 既存の深層学習に基づく血管分割法のほとんどは網膜血管の2つの重要な側面を無視しており、一つは血管の向き情報であり、もう一つは基底領域全体の文脈情報である。 本稿では,血管の複雑な配向とコンテキスト情報を抽出する機能を有する,頑健な配向とコンテキストエンタングルドネットワーク(OCE-Net)を提案する。 複雑な方向認識を実現するために,複数方向の複雑な容器を抽出して容器連続性を改善する動的複雑方向認識畳み込み(dcoa conv)を提案する。 グローバルコンテキスト情報の取り込みと重要局所情報強調を同時に行うため、グローバル・ローカル融合モジュール(glfm)を開発して、容器の長距離依存性をモデル化し、局所薄型容器に十分な注意を向ける。 オリエンテーションとコンテキスト情報を同時に絡めるために,新しいオリエンテーションとコンテキスト絡み合い非局所(oce-nl)モジュールを提案する。 さらに、背景、厚み、薄い容器のアンバランスな画素数を扱うために、アンバランスな注意精錬モジュール(UARM)が提案されている。 いくつかの一般的なデータセット(DRIVE、STARE、CHASEDB1)と、より困難なデータセット(AV-WIDE、UoA-DR、RFMiD、UK Biobank)で大規模な実験が行われた。 アブレーション実験により,提案手法は細血管の連続性維持に有望な性能を達成し,OCE-Netが網膜血管セグメンテーションの最先端性を達成することを示す。

Most of the existing deep learning based methods for vessel segmentation neglect two important aspects of retinal vessels, one is the orientation information of vessels, and the other is the contextual information of the whole fundus region. In this paper, we propose a robust Orientation and Context Entangled Network (denoted as OCE-Net), which has the capability of extracting complex orientation and context information of the blood vessels. To achieve complex orientation aware, a Dynamic Complex Orientation Aware Convolution (DCOA Conv) is proposed to extract complex vessels with multiple orientations for improving the vessel continuity. To simultaneously capture the global context information and emphasize the important local information, a Global and Local Fusion Module (GLFM) is developed to simultaneously model the long-range dependency of vessels and focus sufficient attention on local thin vessels. A novel Orientation and Context Entangled Non-local (OCE-NL) module is proposed to entangle the orientation and context information together. In addition, an Unbalanced Attention Refining Module (UARM) is proposed to deal with the unbalanced pixel numbers of background, thick and thin vessels. Extensive experiments were performed on several commonly used datasets (DRIVE, STARE and CHASEDB1) and some more challenging datasets (AV-WIDE, UoA-DR, RFMiD and UK Biobank). The ablation study shows that the proposed method achieves promising performance on maintaining the continuity of thin vessels and the comparative experiments demonstrate that our OCE-Net can achieve state-of-the-art performance on retinal vessel segmentation.
翻訳日:2022-07-26 14:23:54 公開日:2022-07-23
# ビデオシーングラフ生成のためのメタ時空間デバイアス

Meta Spatio-Temporal Debiasing for Video Scene Graph Generation ( http://arxiv.org/abs/2207.11441v1 )

ライセンス: Link先を確認
Li Xu, Haoxuan Qu, Jason Kuen, Jiuxiang Gu and Jun Liu(参考訳) 映像シーングラフ生成(VidSGG)は、映像コンテンツをシーングラフに解析することを目的としており、ビデオ内の時空間情報をモデル化する。 しかし,データセットのロングテールトレーニングデータにより,既存のvidsggモデルの一般化性能は時空間バイアス問題に影響を受ける可能性がある。 本稿では,メタラーニングの観点から,そのようなバイアス問題に対処する新しいメタビデオシーングラフ生成(MVSGG)フレームワークを提案する。 具体的には、様々な時空間的条件付きバイアスを扱うために、まず、トレーニングデータからサポートセットとクエリセットのグループを構築し、各クエリセットのデータ分布を、サポートセットw.r.t.のそれとは異なる条件付きバイアスとして構成する。 そして,新しいメタトレーニングおよびテストプロセスを実行して,これらのクエリセットのトレーニング後の優れたテスト性能を得るためにモデルを最適化することにより,我々のフレームワークは,モデルがバイアスに対して適切に一般化されることを効果的にガイドすることができる。 広範な実験により,提案手法の有効性が実証された。

Video scene graph generation (VidSGG) aims to parse the video content into scene graphs, which involves modeling the spatio-temporal contextual information in the video. However, due to the long-tailed training data in datasets, the generalization performance of existing VidSGG models can be affected by the spatio-temporal conditional bias problem. In this work, from the perspective of meta-learning, we propose a novel Meta Video Scene Graph Generation (MVSGG) framework to address such a bias problem. Specifically, to handle various types of spatio-temporal conditional biases, our framework first constructs a support set and a group of query sets from the training data, where the data distribution of each query set is different from that of the support set w.r.t. a type of conditional bias. Then, by performing a novel meta training and testing process to optimize the model to obtain good testing performance on these query sets after training on the support set, our framework can effectively guide the model to learn to well generalize against biases. Extensive experiments demonstrate the efficacy of our proposed framework.
翻訳日:2022-07-26 14:23:24 公開日:2022-07-23
# BuyTheDips: 位相保存型ディープラーニング画像セグメンテーションのためのPathLoss

BuyTheDips: PathLoss for improved topology-preserving deep learning-based image segmentation ( http://arxiv.org/abs/2207.11446v1 )

ライセンス: Link先を確認
Minh On Vu Ngoc, Yizi Chen, Nicolas Boutry, Jonathan Fabrizio and Clement Mallet(参考訳) 画像のグローバルトポロジーをキャプチャすることは、そのドメインの正確なセグメンテーションを提案するのに不可欠である。 しかし、既存のセグメンテーションメソッドのほとんどは、多くのダウンストリームオブジェクトベースのタスクに不利な、与えられた入力の初期トポロジを保持しない。 これは、ほとんどがローカルスケールで動作するディープラーニングモデルにとって、さらに当てはまります。 本稿では,新しいリーク損失であるパスロスに依存する位相保存型深部画像分割手法を提案する。 本手法は,BALoss [1]の拡張であり,画像セグメンテーションのクローズネス特性を向上するために,リーク検出の改善を図っている。 この損失により、予測において起こりうる臨界点(境界の漏れ)を正しくローカライズし、修正することができ、最短パス探索アルゴリズムに基づいている。 このように、損失最小化は必要な場所でのみ接続を強制し、最終的に画像内のオブジェクトの境界の適切なローカライズを提供する。 さらに,本研究では, トポロジー保存損失を使わずに, より強い伸長構造を維持することを学ぶ。 トポロジカル損失関数を用いたトレーニングでは、電子顕微鏡と歴史地図の2つの代表的なデータセットにおいて、最先端のトポロジー認識手法よりも優れています。

Capturing the global topology of an image is essential for proposing an accurate segmentation of its domain. However, most of existing segmentation methods do not preserve the initial topology of the given input, which is detrimental for numerous downstream object-based tasks. This is all the more true for deep learning models which most work at local scales. In this paper, we propose a new topology-preserving deep image segmentation method which relies on a new leakage loss: the Pathloss. Our method is an extension of the BALoss [1], in which we want to improve the leakage detection for better recovering the closeness property of the image segmentation. This loss allows us to correctly localize and fix the critical points (a leakage in the boundaries) that could occur in the predictions, and is based on a shortest-path search algorithm. This way, loss minimization enforces connectivity only where it is necessary and finally provides a good localization of the boundaries of the objects in the image. Moreover, according to our research, our Pathloss learns to preserve stronger elongated structure compared to methods without using topology-preserving loss. Training with our topological loss function, our method outperforms state-of-the-art topology-aware methods on two representative datasets of different natures: Electron Microscopy and Historical Map.
翻訳日:2022-07-26 14:23:05 公開日:2022-07-23
# UC-OWOD:未知のオープンワールドオブジェクト検出

UC-OWOD: Unknown-Classified Open World Object Detection ( http://arxiv.org/abs/2207.11455v1 )

ライセンス: Link先を確認
Zhiheng Wu, Yue Lu, Xingyu Chen, Zhengxing Wu, Liwen Kang, and Junzhi Yu(参考訳) open world object detection (owod) は、未知のオブジェクトを検出し、未知のクラスを徐々に学習する必要があるコンピュータビジョンの問題である。 しかし、未知のインスタンスを複数の未知のクラスと区別することはできない。 本研究では,Unknown-Classified Open World Object Detection (UC-OWOD) と呼ばれる新しいOWOD問題を提案する。 uc-owodは未知のインスタンスを検出し、異なる未知のクラスに分類することを目指している。 さらに,この問題を定式化し,UC-OWODを解くための2段階物体検出器を考案する。 まず、未知のラベル認識提案と未知の識別分類ヘッドを用いて未知のオブジェクトと未知のオブジェクトを検出する。 そして、類似性に基づく未知の分類と未知のクラスタリング修飾モジュールを構築し、複数の未知のクラスを識別する。 さらに、未知クラス検出を評価するために、2つの新しい評価プロトコルが設計されている。 実験結果と可視化結果から,提案手法の有効性が示された。 コードはhttps://github.com/JohnWuzh/UC-OWOD.comで入手できる。

Open World Object Detection (OWOD) is a challenging computer vision problem that requires detecting unknown objects and gradually learning the identified unknown classes. However, it cannot distinguish unknown instances as multiple unknown classes. In this work, we propose a novel OWOD problem called Unknown-Classified Open World Object Detection (UC-OWOD). UC-OWOD aims to detect unknown instances and classify them into different unknown classes. Besides, we formulate the problem and devise a two-stage object detector to solve UC-OWOD. First, unknown label-aware proposal and unknown-discriminative classification head are used to detect known and unknown objects. Then, similarity-based unknown classification and unknown clustering refinement modules are constructed to distinguish multiple unknown classes. Moreover, two novel evaluation protocols are designed to evaluate unknown-class detection. Abundant experiments and visualizations prove the effectiveness of the proposed method. Code is available at https://github.com/JohnWuzh/UC-OWOD.
翻訳日:2022-07-26 14:22:44 公開日:2022-07-23
# デュアルパスグラフ補完による物体配置学習

Learning Object Placement via Dual-path Graph Completion ( http://arxiv.org/abs/2207.11464v1 )

ライセンス: Link先を確認
Siyuan Zhou and Liu Liu and Li Niu and Liqing Zhang(参考訳) オブジェクト配置は、適切な位置とサイズで背景画像の上に前景オブジェクトを置くことを目的としている。 本研究では,オブジェクト配置をグラフ補完問題として扱い,新しいグラフ補完モジュール(GCM)を提案する。 背景シーンは、様々な受容フィールドを持つ異なる空間的な場所に複数のノードを持つグラフで表現される。 前景オブジェクトは、このグラフの合理的な場所に挿入すべき特別なノードとしてエンコードされる。 また,GCMの構造に基づくデュアルパス・フレームワークを設計し,注釈付き複合画像を完全に活用する。 OPAデータセットに関する広範な実験により,本手法は多様性を損なうことなく可塑性物体配置の生成において,既存の手法を著しく上回ることを示す。

Object placement aims to place a foreground object over a background image with a suitable location and size. In this work, we treat object placement as a graph completion problem and propose a novel graph completion module (GCM). The background scene is represented by a graph with multiple nodes at different spatial locations with various receptive fields. The foreground object is encoded as a special node that should be inserted at a reasonable place in this graph. We also design a dual-path framework upon the structure of GCM to fully exploit annotated composite images. With extensive experiments on OPA dataset, our method proves to significantly outperform existing methods in generating plausible object placement without loss of diversity.
翻訳日:2022-07-26 14:22:32 公開日:2022-07-23
# 説明可能なAIによるスマートフェイクニュース検出に向けて

Towards Smart Fake News Detection Through Explainable AI ( http://arxiv.org/abs/2207.11490v1 )

ライセンス: Link先を確認
Athira A B, S D Madhu Kumar, Anu Mary Chacko(参考訳) 今や人々はソーシャルメディアサイトを、その人気のために唯一の情報ソースと見なしている。 ほとんどの人はソーシャルメディアを通じてニュースを受け取ります。 同時に、近年ソーシャルメディアプラットフォームではフェイクニュースが指数関数的に増えている。 フェイクニュースを検出する人工知能ベースのソリューションは、有望な結果を示している。 一方、これらの検出システムは、説明能力、すなわち、なぜ予測を行ったのかを説明する能力が欠如している。 本稿では,偽ニュース検出技術の現状について述べる。 本稿では,現在のAIを用いた偽ニュース検出モデルにおける落とし穴について論じ,マルチモーダルな説明可能な偽ニュース検出モデルについて検討する。

People now see social media sites as their sole source of information due to their popularity. The Majority of people get their news through social media. At the same time, fake news has grown exponentially on social media platforms in recent years. Several artificial intelligence-based solutions for detecting fake news have shown promising results. On the other hand, these detection systems lack explanation capabilities, i.e., the ability to explain why they made a prediction. This paper highlights the current state of the art in explainable fake news detection. We discuss the pitfalls in the current explainable AI-based fake news detection models and present our ongoing research on multi-modal explainable fake news detection model.
翻訳日:2022-07-26 14:13:42 公開日:2022-07-23
# MRIボリュームにおけるAI法と非AI法の比較検討 : パーキンソン症候群との比較

Comparative Validation of AI and non-AI Methods in MRI Volumetry to Diagnose Parkinsonian Syndromes ( http://arxiv.org/abs/2207.11534v1 )

ライセンス: Link先を確認
Joomee Song, Juyoung Hahm, Jisoo Lee, Chae Yeon Lim, Myung Jin Chung, Jinyoung Youn, Jin Whan Cho, Jong Hyeon Ahn, Kyung-Su Kim(参考訳) パーキンソン病 (PD) とパーキンソン症候群 (Pプラス) の診断には, 脳磁気共鳴画像(MRI)スキャンの自動分割と容積検査が不可欠である。 診断性能を向上させるため,脳のセグメンテーションにおいて深層学習(DL)モデルを採用し,その性能をゴールドスタンダードの非DL法と比較した。 2017年1月から2020年12月まで,Samsung Medical Centerにて健常者 (n=105), PD (n=105), 多発性全身萎縮症 (n=132) および進行性核上性麻痺 (n=69) の脳MRI検査を行った。 金標準の非dlモデルfreesurfer(fs)を用いて、中脳、pons、caudate、putamen、pallidum、そして第3心室の6つの脳構造を分割し、それを代表的v-netおよびunetrであるdlモデルの注釈データとみなした。 正常例, PD例, P群を識別するための曲線(AUC)下のDiceスコアと面積を算出した。 V-NetとUNETRは、それぞれ3.48 +- 0.17と48.14 +- 0.97 sであり、FSの少なくとも300倍の速度(15,735 +- 1.07 s)である。 両DLモデルのDiceスコアは十分高く (>0.85) , 疾患分類のためのAUCはFSよりも優れていた。 正常対Pプラス, PD対多系統萎縮症(小脳型)の分類では, DLモデルとFSは0.8以上であった。 DLは、脳のセグメンテーションと鑑別診断の性能を損なうことなく、分析時間を著しく短縮する。 臨床におけるdl脳mriの分節化と脳研究の進展に寄与する可能性が示唆された。

Automated segmentation and volumetry of brain magnetic resonance imaging (MRI) scans are essential for the diagnosis of Parkinson's disease (PD) and Parkinson's plus syndromes (P-plus). To enhance the diagnostic performance, we adopt deep learning (DL) models in brain segmentation and compared their performance with the gold-standard non-DL method. We collected brain MRI scans of healthy controls (n=105) and patients with PD (n=105), multiple systemic atrophy (n=132), and progressive supranuclear palsy (n=69) at Samsung Medical Center from January 2017 to December 2020. Using the gold-standard non-DL model, FreeSurfer (FS), we segmented six brain structures: midbrain, pons, caudate, putamen, pallidum, and third ventricle, and considered them as annotating data for DL models, the representative V-Net and UNETR. The Dice scores and area under the curve (AUC) for differentiating normal, PD, and P-plus cases were calculated. The segmentation times of V-Net and UNETR for the six brain structures per patient were 3.48 +- 0.17 and 48.14 +- 0.97 s, respectively, being at least 300 times faster than FS (15,735 +- 1.07 s). Dice scores of both DL models were sufficiently high (>0.85), and their AUCs for disease classification were superior to that of FS. For classification of normal vs. P-plus and PD vs. multiple systemic atrophy (cerebellar type), the DL models and FS showed AUCs above 0.8. DL significantly reduces the analysis time without compromising the performance of brain segmentation and differential diagnosis. Our findings may contribute to the adoption of DL brain MRI segmentation in clinical settings and advance brain research.
翻訳日:2022-07-26 14:13:34 公開日:2022-07-23
# 偽ニュース検出のためのBERTによる分類予測の改善

Better Reasoning Behind Classification Predictions with BERT for Fake News Detection ( http://arxiv.org/abs/2207.11562v1 )

ライセンス: Link先を確認
Daesoo Lee(参考訳) 近年、インターネット上で偽ニュースが増えているため、偽ニュース検出は解決すべき重要な課題となっている。 良い結果を示す統計的学習法に基づいて多くの分類モデルが提案されているが、分類性能の背後にある推論では不十分である。 自己指導型学習研究では、表現の質(埋め込み)が重要であり、下流タスクのパフォーマンスに直接影響を与えることが強調されている。 本研究では,実および偽のニュースデータセット上での異なるクラスに対する線形分離可能性の観点から,表現空間の品質を視覚的および解析的に解析する。 さらに分類モデルに解釈可能性を加えるために,クラス活性化マッピング(CAM)の修正を提案する。 修正されたCAMは、各ワードトークンに対するCAMスコアを提供し、ワードトークン上のCAMスコアはそのワードトークンに対するフォーカスレベルを示し、予測を行う。 最後に, 学習可能な線形層を重畳した BERT モデルは, CAM との互換性を保ちながら頑健な性能を実現するのに十分であることを示す。

Fake news detection has become a major task to solve as there has been an increasing number of fake news on the internet in recent years. Although many classification models have been proposed based on statistical learning methods showing good results, reasoning behind the classification performances may not be enough. In the self-supervised learning studies, it has been highlighted that a quality of representation (embedding) space matters and directly affects a downstream task performance. In this study, a quality of the representation space is analyzed visually and analytically in terms of linear separability for different classes on a real and fake news dataset. To further add interpretability to a classification model, a modification of Class Activation Mapping (CAM) is proposed. The modified CAM provides a CAM score for each word token, where the CAM score on a word token denotes a level of focus on that word token to make the prediction. Finally, it is shown that the naive BERT model topped with a learnable linear layer is enough to achieve robust performance while being compatible with CAM.
翻訳日:2022-07-26 14:07:06 公開日:2022-07-23
# 経時的観察データを用いた個人別治療効果推定のための変動時間分解

Variational Temporal Deconfounder for Individualized Treatment Effect Estimation from Longitudinal Observational Data ( http://arxiv.org/abs/2207.11251v1 )

ライセンス: Link先を確認
Zheng Feng, Mattia Prosperi, Jiang Bian(参考訳) 観察データを用いた治療効果,特に個別治療効果 (ITE) の推定は, 偏見の複雑な状況のため困難である。 経年的観察データから治療効果を推定するための既存のアプローチは、現実の実践では達成が難しい「未確立性」という強い仮定に基づいて構築される。 本稿では、プロキシ(すなわち、観測不能な変数に作用する代理変数)を用いて、縦方向の設定における深い変動埋め込みを活用する方法である変分時デコノケート(VTD)を提案する。 具体的には、VTDは観測プロキシを活用して、観測データに本当の隠れた共同創設者を反映した埋め込みを学習する。 したがって、我々のVTD法は「未確定性」の仮定に依存しない。 vtd法を合成と実世界の両方の臨床データでテストした結果, 既存のモデルと比較して, 隠れた結合が先行バイアスである場合, 効果が示された。

Estimating treatment effects, especially individualized treatment effects (ITE), using observational data is challenging due to the complex situations of confounding bias. Existing approaches for estimating treatment effects from longitudinal observational data are usually built upon a strong assumption of "unconfoundedness", which is hard to fulfill in real-world practice. In this paper, we propose the Variational Temporal Deconfounder (VTD), an approach that leverages deep variational embeddings in the longitudinal setting using proxies (i.e., surrogate variables that serve for unobservable variables). Specifically, VTD leverages observed proxies to learn a hidden embedding that reflects the true hidden confounders in the observational data. As such, our VTD method does not rely on the "unconfoundedness" assumption. We test our VTD method on both synthetic and real-world clinical data, and the results show that our approach is effective when hidden confounding is the leading bias compared to other existing models.
翻訳日:2022-07-26 14:05:06 公開日:2022-07-23
# ニューラルネットワークを用いた月面着陸地点の検出と初期評価

Detection and Initial Assessment of Lunar Landing Sites Using Neural Networks ( http://arxiv.org/abs/2207.11413v1 )

ライセンス: Link先を確認
Daniel Posada, Jarred Jordan, Angelica Radulovic, Lillian Hong, Aryslan Malik, and Troy Henderson(参考訳) ロボットと人間の月面着陸は将来のNASAミッションの焦点である。 正確な着陸能力は、ミッションの成功と着陸船と乗組員の安全を保証するために不可欠である。 地表への接近中に、安全な着陸を確保するためにハザード相対航法に関連する複数の課題がある。 本稿では、誘導システムにおける着陸可能地域の初期評価を生成するために、受動的自律型ハザード検出と回避サブシステムに焦点を当てる。 このシステムは単一のカメラとMobileNetV2ニューラルネットワークアーキテクチャを使って、安全な着陸地点と岩や影、クレーターなどの危険を検知し、識別する。 次に、運動からの単眼構造が表面を再現し、斜面と粗さの分析を行う。

Robotic and human lunar landings are a focus of future NASA missions. Precision landing capabilities are vital to guarantee the success of the mission, and the safety of the lander and crew. During the approach to the surface there are multiple challenges associated with Hazard Relative Navigation to ensure safe landings. This paper will focus on a passive autonomous hazard detection and avoidance sub-system to generate an initial assessment of possible landing regions for the guidance system. The system uses a single camera and the MobileNetV2 neural network architecture to detect and discern between safe landing sites and hazards such as rocks, shadows, and craters. Then a monocular structure from motion will recreate the surface to provide slope and roughness analysis.
翻訳日:2022-07-26 14:01:32 公開日:2022-07-23
# エンティティ知識注入による文書レベルの関係抽出の強化

Enhancing Document-level Relation Extraction by Entity Knowledge Injection ( http://arxiv.org/abs/2207.11433v1 )

ライセンス: Link先を確認
Xinyi Wang and Zitao Wang and Weijian Sun and Wei Hu(参考訳) 文書レベル関係抽出(re)は、文書全体のエンティティ間の関係を識別することを目的としている。 コア推論やコモンセンスといった様々な知識を合成するには複雑な推論スキルが必要である。 大規模知識グラフ(KG)は現実世界の事実を豊富に含み、ドキュメントレベルのREに貴重な知識を提供する。 本稿では,現在の文書レベルのREモデルを強化するためのエンティティ知識注入フレームワークを提案する。 具体的には、コア参照の知識を注入するためにコア参照蒸留を導入し、より一般的なコア参照推論能力を備えたREモデルを提供する。 また、実知識を注入し、KG表現と文書表現を統一空間に集約するために、表現和解を用いる。 2つのベンチマークデータセットの実験は、エンティティ知識注入フレームワークの一般化と、複数の文書レベルのREモデルに対する一貫した改善を検証する。

Document-level relation extraction (RE) aims to identify the relations between entities throughout an entire document. It needs complex reasoning skills to synthesize various knowledge such as coreferences and commonsense. Large-scale knowledge graphs (KGs) contain a wealth of real-world facts, and can provide valuable knowledge to document-level RE. In this paper, we propose an entity knowledge injection framework to enhance current document-level RE models. Specifically, we introduce coreference distillation to inject coreference knowledge, endowing an RE model with the more general capability of coreference reasoning. We also employ representation reconciliation to inject factual knowledge and aggregate KG representations and document representations into a unified space. The experiments on two benchmark datasets validate the generalization of our entity knowledge injection framework and the consistent improvement to several document-level RE models.
翻訳日:2022-07-26 13:58:47 公開日:2022-07-23
# 3Dラベリングツール

3D Labeling Tool ( http://arxiv.org/abs/2207.11479v1 )

ライセンス: Link先を確認
John Rachwan, Charbel Zalaket(参考訳) 教師付き物体検出モデルの訓練と試験には、地上の真理ラベルを持つ大量の画像の収集が必要である。 ラベルは画像内のオブジェクトクラスとそれらの位置、形状、そしておそらくはポーズのような他の情報を定義する。 ラベル付けプロセスは、人力の存在にもかかわらず非常に時間がかかることが証明されている。 2d画像用の新しいラベリングツールと3d三角メッシュを紹介し、3dラベリングツール(3dlt)を提案する。 これはスタンドアロンで多機能でクロスプラットフォームなソフトウェアで、インストールを必要とせず、Windows、macOS、Linuxベースのディストリビューションで実行できる。 現在のツールのように、すべてのイメージに同じオブジェクトをラベル付けするのではなく、深度情報を使用して、そのイメージから三角形のメッシュを再構築し、前述のメッシュに一度だけオブジェクトをラベル付けします。 3次元ラベリングの簡略化,異常検出,2次元バウンディングボックス計算の改善,表面再構成,大点雲へのラベリング可能性の拡張にレジストレーションを使用する。 我々のツールは最先端の技術手法に対してテストされ、精度と使いやすさを保ちながら、その速度を大幅に上回っています。

Training and testing supervised object detection models require a large collection of images with ground truth labels. Labels define object classes in the image, as well as their locations, shape, and possibly other information such as pose. The labeling process has proven extremely time consuming, even with the presence of manpower. We introduce a novel labeling tool for 2D images as well as 3D triangular meshes: 3D Labeling Tool (3DLT). This is a standalone, feature-heavy and cross-platform software that does not require installation and can run on Windows, macOS and Linux-based distributions. Instead of labeling the same object on every image separately like current tools, we use depth information to reconstruct a triangular mesh from said images and label the object only once on the aforementioned mesh. We use registration to simplify 3D labeling, outlier detection to improve 2D bounding box calculation and surface reconstruction to expand labeling possibility to large point clouds. Our tool is tested against state of the art methods and it greatly surpasses them in terms of speed while preserving accuracy and ease of use.
翻訳日:2022-07-26 13:49:07 公開日:2022-07-23
# 機械学習によるイエメン戦争における和平交渉支援

Supporting peace negotiations in the Yemen war through machine learning ( http://arxiv.org/abs/2207.11528v1 )

ライセンス: Link先を確認
M. Arana-Catania, F.A. Van Lier, Rob Procter(参考訳) 今日の紛争はますます複雑で流動的で断片化されつつあり、しばしば複数の異なる関心を持つ国や国際的な俳優のホストを巻き込んでいる。 この発展は紛争調停にとって大きな課題となり、仲介者は紛争当事者の範囲や政治的地位の進化、平和形成における関連性や関連性の低いアクターの区別、重要な紛争問題の特定と相互依存など、紛争のダイナミクスを理解するのに苦労している。 国際平和努力はこれらの課題に対処するには不十分なようだ。 テクノロジーは、コンフリクト予測や情報収集など、さまざまなコンフリクト関連分野の実験や使用がすでに行われているが、コンフリクトメディエーションにどのように貢献するかについては、あまり注目されていない。 このケーススタディは、紛争調停プロセスにおける最先端の機械学習技術と技術の使用に関する新たな研究に寄与する。 本研究は,イエメンの平和交渉の対話文を用いて,知識管理,抽出,コンフリクト分析のためのツールを提供することで,機械学習がチームの仲介を効果的に支援できることを示す。 コンフリクトメディエーションにおける機械学習ツールの可能性を示すだけでなく、文脈に敏感でターゲットを絞ったツールの開発と、有意義で責任ある実装を確保するために、学際的で参加的な共同作成手法の重要性も強調する。

Today's conflicts are becoming increasingly complex, fluid and fragmented, often involving a host of national and international actors with multiple and often divergent interests. This development poses significant challenges for conflict mediation, as mediators struggle to make sense of conflict dynamics, such as the range of conflict parties and the evolution of their political positions, the distinction between relevant and less relevant actors in peace-making, or the identification of key conflict issues and their interdependence. International peace efforts appear ill-equipped to successfully address these challenges. While technology is already being experimented with and used in a range of conflict related fields, such as conflict predicting or information gathering, less attention has been given to how technology can contribute to conflict mediation. This case study contributes to emerging research on the use of state-of-the-art machine learning technologies and techniques in conflict mediation processes. Using dialogue transcripts from peace negotiations in Yemen, this study shows how machine-learning can effectively support mediating teams by providing them with tools for knowledge management, extraction and conflict analysis. Apart from illustrating the potential of machine learning tools in conflict mediation, the paper also emphasises the importance of interdisciplinary and participatory, co-creation methodology for the development of context-sensitive and targeted tools and to ensure meaningful and responsible implementation.
翻訳日:2022-07-26 13:48:29 公開日:2022-07-23
# マルチスケールニューラル演算子:高速かつグリッドに依存しないPDE解を学習する

Multiscale Neural Operator: Learning Fast and Grid-independent PDE Solvers ( http://arxiv.org/abs/2207.11417v1 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Catherine H. Crawford, Campbell D Watson, Christopher Hill, Dava Newman(参考訳) 気候、化学、天体物理学の数値シミュレーションは、不確実な定量化や高解像度でのパラメータ探索には計算に高すぎる。 ダウンオーダーまたはサロゲートモデルは桁違いに高速だが、従来のサロゲートは非フレキシブルまたは不正確であり、純粋な機械学習(ML)ベースのサロゲートはデータ不足を多用する。 本研究では, 大規模力学をシミュレートするために既知の物理を応用し, パラメトリゼーション (parametrization) やクロージャ (closure) と呼ばれるハード・トゥ・モデル用語への学習を制限するハイブリッド・フレキシブル・サーロゲートモデルを提案する。 ニューラルネットワークを活用することで、グリッド非依存、非ローカル、柔軟なパラメータ化を学びました。 我々の \textit{multiscale neural operator} は、マルチスケールモデリングの豊富な文献に動機づけられ、準線形ランタイム複雑性を持ち、最先端のパラメトリゼーションよりも正確または柔軟であり、カオス方程式のマルチスケールロレンツ96で実証されている。

Numerical simulations in climate, chemistry, or astrophysics are computationally too expensive for uncertainty quantification or parameter-exploration at high-resolution. Reduced-order or surrogate models are multiple orders of magnitude faster, but traditional surrogates are inflexible or inaccurate and pure machine learning (ML)-based surrogates too data-hungry. We propose a hybrid, flexible surrogate model that exploits known physics for simulating large-scale dynamics and limits learning to the hard-to-model term, which is called parametrization or closure and captures the effect of fine- onto large-scale dynamics. Leveraging neural operators, we are the first to learn grid-independent, non-local, and flexible parametrizations. Our \textit{multiscale neural operator} is motivated by a rich literature in multiscale modeling, has quasilinear runtime complexity, is more accurate or flexible than state-of-the-art parametrizations and demonstrated on the chaotic equation multiscale Lorenz96.
翻訳日:2022-07-26 13:47:48 公開日:2022-07-23
# 音響シーン分類のための低複雑CNN

Low-complexity CNNs for Acoustic Scene Classification ( http://arxiv.org/abs/2207.11529v1 )

ライセンス: Link先を確認
Arshdeep Singh and Mark D. Plumbley(参考訳) 本稿では,音響シーン分類(ASC)のための低複雑さフレームワークを提案する。 ASC用に設計されたほとんどのフレームワークは、学習能力とハンドエンジニアリング機能と比較してパフォーマンスが改善されたため、畳み込みニューラルネットワーク(CNN)を使用している。 しかし、CNNは大きなサイズと高い計算複雑性のため、リソースが不足している。 そのため、リソース制約のあるデバイスにCNNをデプロイするのは困難である。 本稿では,CNNにおける計算複雑性とメモリ要件の低減の問題に対処する。 我々は低複雑さCNNアーキテクチャを提案し、プルーニングと量子化を適用してパラメータとメモリをさらに削減する。 次に、様々な低複雑さCNNを組み合わせて全体的な性能を改善するアンサンブルフレームワークを提案する。 ASCに焦点を当てたDCASE 2022タスク1において,提案フレームワークの実験的検討を行った。 提案するアンサンブルフレームワークは,約60Kのパラメータを持ち,19Mの乗算累積演算を必要とし,DCASE 2022 Task 1のベースラインネットワークと比較して約2-4ポイントの性能向上を実現している。

This paper presents a low-complexity framework for acoustic scene classification (ASC). Most of the frameworks designed for ASC use convolutional neural networks (CNNs) due to their learning ability and improved performance compared to hand-engineered features. However, CNNs are resource hungry due to their large size and high computational complexity. Therefore, CNNs are difficult to deploy on resource constrained devices. This paper addresses the problem of reducing the computational complexity and memory requirement in CNNs. We propose a low-complexity CNN architecture, and apply pruning and quantization to further reduce the parameters and memory. We then propose an ensemble framework that combines various low-complexity CNNs to improve the overall performance. An experimental evaluation of the proposed framework is performed on the publicly available DCASE 2022 Task 1 that focuses on ASC. The proposed ensemble framework has approximately 60K parameters, requires 19M multiply-accumulate operations and improves the performance by approximately 2-4 percentage points compared to the DCASE 2022 Task 1 baseline network.
翻訳日:2022-07-26 13:47:25 公開日:2022-07-23
# 子宮疾患に対する高能率gnrh1rアンタゴニストの発見のためのリガンド・構造二重駆動深層学習法

A Ligand-and-structure Dual-driven Deep Learning Method for the Discovery of Highly Potent GnRH1R Antagonist to treat Uterine Diseases ( http://arxiv.org/abs/2207.11547v1 )

ライセンス: Link先を確認
Song Li, Song Ke, Chenxing Yang, Jun Chen, Yi Xiong, Lirong Zheng, Hao Liu, and Liang Hong(参考訳) ゴナドトロピン放出ホルモン受容体(GnRH1R)は、子宮疾患の治療において有望な治療標的である。 現在、いくつかのGnRH1Rアンタゴニストは、複数の特性制約を満たすことなく臨床研究で利用できる。 このギャップを埋めるため,GnRH1Rを目的とする新規の経口活性小分子薬の効率的かつ効率的な発見を容易にするための,ディープラーニングベースのフレームワークの開発を目指している。 本研究では,リガンド・構造結合モデルであるls-molgen(ls-molgen)をまず分子生成に導入し,既知の活性化合物の情報と標的タンパク質の構造を十分に活用し,リガンド法や構造ベース法よりも優れた性能を実証した。 次に,活性予測,admet評価,分子ドッキングおよびfep計算を含むin silicoスクリーニングを行い,実験合成と検証のために約30,000個の新規分子を8に絞り込んだ。 In vitroおよびin vivo実験では、3つの化合物が強力な阻害活性(化合物5 IC50 = 0.856 nM, 化合物6 IC50 = 0.901 nM, 化合物7 IC50 = 2.54 nM)をGnRH1Rに対して示し、化合物5が半減期、経口生利用性、PBなどのPK特性において良好に作用した。 提案した配位子と構造を結合した分子生成モデルとコンピュータ支援ワークフロー全体を、デノボドラッグ設計やリード最適化の類似タスクに拡張できると考えた。

Gonadotrophin-releasing hormone receptor (GnRH1R) is a promising therapeutic target for the treatment of uterine diseases. To date, several GnRH1R antagonists are available in clinical investigation without satisfying multiple property constraints. To fill this gap, we aim to develop a deep learning-based framework to facilitate the effective and efficient discovery of a new orally active small-molecule drug targeting GnRH1R with desirable properties. In the present work, a ligand-and-structure combined model, namely LS-MolGen, was firstly proposed for molecular generation by fully utilizing the information on the known active compounds and the structure of the target protein, which was demonstrated by its superior performance than ligand- or structure-based methods separately. Then, a in silico screening including activity prediction, ADMET evaluation, molecular docking and FEP calculation was conducted, where ~30,000 generated novel molecules were narrowed down to 8 for experimental synthesis and validation. In vitro and in vivo experiments showed that three of them exhibited potent inhibition activities (compound 5 IC50 = 0.856 nM, compound 6 IC50 = 0.901 nM, compound 7 IC50 = 2.54 nM) against GnRH1R, and compound 5 performed well in fundamental PK properties, such as half-life, oral bioavailability, and PPB, etc. We believed that the proposed ligand-and-structure combined molecular generative model and the whole computer-aided workflow can potentially be extended to similar tasks for de novo drug design or lead optimization.
翻訳日:2022-07-26 13:47:10 公開日:2022-07-23
# 線形予測器のモデルサイズ,テスト損失,トレーニング損失の普遍的トレードオフ

A Universal Trade-off Between the Model Size, Test Loss, and Training Loss of Linear Predictors ( http://arxiv.org/abs/2207.11621v1 )

ライセンス: Link先を確認
Nikhil Ghosh, Mikhail Belkin(参考訳) 本研究では,モデルサイズ,過剰なテスト損失,線形予測器のトレーニング損失との非漸近的トレードオフをアルゴリズムと分布で定義する。 具体的には、テストデータ(過剰損失の少ない)でうまく機能するモデルは、"古典的" -- ノイズレベルに近いトレーニング損失を持つか、"近代的" -- が、トレーニングデータに正確に適合するために必要な最小限のパラメータよりもはるかに多くのパラメータを持つことを示す。 また,白色特徴の限界スペクトル分布がマルケンコ・パストゥルである場合には,より正確な漸近解析を行う。 驚くべきことに、マルケンコ・パストゥル解析は補間ピーク付近でより正確であるが、パラメータの数はトレーニングデータに適合するには十分である。

In this work we establish an algorithm and distribution independent non-asymptotic trade-off between the model size, excess test loss, and training loss of linear predictors. Specifically, we show that models that perform well on the test data (have low excess loss) are either "classical" -- have training loss close to the noise level, or are "modern" -- have a much larger number of parameters compared to the minimum needed to fit the training data exactly. We also provide a more precise asymptotic analysis when the limiting spectral distribution of the whitened features is Marchenko-Pastur. Remarkably, while the Marchenko-Pastur analysis is far more precise near the interpolation peak, where the number of parameters is just enough to fit the training data, in settings of most practical interest it differs from the distribution independent bound by only a modest multiplicative constant.
翻訳日:2022-07-26 13:43:32 公開日:2022-07-23
# 自然言語説明を伴う視覚インテリメントにおけるチャンクアウェアアライメントと語彙制約

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations ( http://arxiv.org/abs/2207.11401v1 )

ライセンス: Link先を確認
Qian Yang and Yunxin Li and Baotian Hu and Lin Ma and Yuxing Ding and Min Zhang(参考訳) 自然言語による視覚的な説明は、テキストイメージペア間の関係を推測し、意思決定プロセスを説明する文を生成することを目的としている。 従来の手法は、主に事前学習された視覚言語モデルを使用して、関係推論と言語モデルを実行し、対応する説明を生成する。 しかし、事前訓練された視覚言語モデルは、主にテキストと画像の間のトークンレベルのアライメントを構築し、フレーズ(チャンク)と視覚コンテンツの間の高レベルな意味的アライメントを無視している。 さらに、符号化された共同表現のみに基づく説明生成器は、関係推論の臨界決定点を明示的に考慮していない。 したがって、生成された説明は視覚言語推論に忠実でない。 これらの問題を緩和するため、我々はCALeCと呼ばれるChunk-aware AlignmentとLexical Constraintベースの統合手法を提案する。 チャンクアウェア・セマンティクス・インタラクタ(arr. csi)、リレーション・インフェラー(relation inferrer)、レキシカル制約アウェア・ジェネレータ(arr. lecg)を含む。 具体的には、CSIは言語や様々な画像領域に固有の文構造を利用して、チャンク認識のセマンティックアライメントを構築する。 relation inferrerは注意に基づく推論ネットワークを使用してトークンレベルとチャンクレベルのビジョン言語表現を組み込む。 LeCGは語彙制約を利用して、関係推論に焦点をあてた単語やチャンクを説明生成に明示的に組み入れ、説明の忠実さと情報性を改善する。 我々は3つのデータセットについて広範な実験を行い、実験結果から、CALeCは他の競合モデルよりも精度が高く、生成した説明の精度も優れていることが示唆された。

Visual Entailment with natural language explanations aims to infer the relationship between a text-image pair and generate a sentence to explain the decision-making process. Previous methods rely mainly on a pre-trained vision-language model to perform the relation inference and a language model to generate the corresponding explanation. However, the pre-trained vision-language models mainly build token-level alignment between text and image yet ignore the high-level semantic alignment between the phrases (chunks) and visual contents, which is critical for vision-language reasoning. Moreover, the explanation generator based only on the encoded joint representation does not explicitly consider the critical decision-making points of relation inference. Thus the generated explanations are less faithful to visual-language reasoning. To mitigate these problems, we propose a unified Chunk-aware Alignment and Lexical Constraint based method, dubbed as CALeC. It contains a Chunk-aware Semantic Interactor (arr. CSI), a relation inferrer, and a Lexical Constraint-aware Generator (arr. LeCG). Specifically, CSI exploits the sentence structure inherent in language and various image regions to build chunk-aware semantic alignment. Relation inferrer uses an attention-based reasoning network to incorporate the token-level and chunk-level vision-language representations. LeCG utilizes lexical constraints to expressly incorporate the words or chunks focused by the relation inferrer into explanation generation, improving the faithfulness and informativeness of the explanations. We conduct extensive experiments on three datasets, and experimental results indicate that CALeC significantly outperforms other competitor models on inference accuracy and quality of generated explanations.
翻訳日:2022-07-26 13:42:59 公開日:2022-07-23
# ニューラルネットワークを用いた宇宙領域認識のための未解決空間画像の衛星検出

Satellite Detection in Unresolved Space Imagery for Space Domain Awareness Using Neural Networks ( http://arxiv.org/abs/2207.11412v1 )

ライセンス: Link先を確認
Jarred Jordan, Daniel Posada, David Zuehlke, Angelica Radulovic, Aryslan Malik, and Troy Henderson(参考訳) この研究はMobileNetV2 Convolutional Neural Network (CNN)を用いて、衛星の高速かつ移動的な検出と、未解決の未解決宇宙画像における星の拒絶を行う。 まず、合成衛星画像プログラムの画像を用いてカスタムデータベースを作成し、衛星上の「衛星陽性」画像にバウンディングボックスをラベル付けする。 cnnはこのデータベースでトレーニングされ、実際の望遠鏡画像から構築された外部データセット上でモデルの精度をチェックすることによって、推論が検証される。 その際、訓練されたcnnは、地上からの軌道推定におけるその後の利用のための迅速な衛星識別方法を提供する。

This work utilizes a MobileNetV2 Convolutional Neural Network (CNN) for fast, mobile detection of satellites, and rejection of stars, in cluttered unresolved space imagery. First, a custom database is created using imagery from a synthetic satellite image program and labeled with bounding boxes over satellites for "satellite-positive" images. The CNN is then trained on this database and the inference is validated by checking the accuracy of the model on an external dataset constructed of real telescope imagery. In doing so, the trained CNN provides a method of rapid satellite identification for subsequent utilization in ground-based orbit estimation.
翻訳日:2022-07-26 13:42:07 公開日:2022-07-23
# 説明可能なaiを異常検出に適用する汎用手法

A general-purpose method for applying Explainable AI for Anomaly Detection ( http://arxiv.org/abs/2207.11564v1 )

ライセンス: Link先を確認
John Sipple and Abdou Youssef(参考訳) 説明可能なAI(XAI)の必要性は十分に確立されているが、教師付き学習パラダイム以外では比較的公表されていない。 本稿では,教師なし異常検出のタスクに説明可能性と解釈可能性を適用するための原理的アプローチについて述べる。 我々は、説明可能性は主にアルゴリズム的課題であり、解釈可能性は主に認知的課題であり、認知科学からの洞察に基づいて説明異常を用いた実用的な診断方法を提案する。 我々は帰属誤差を定義し,実世界のラベル付きデータセットを用いて,統合勾配(ig)に基づく手法が代替法に比べて有意に低い帰属誤差をもたらすことを示す。

The need for explainable AI (XAI) is well established but relatively little has been published outside of the supervised learning paradigm. This paper focuses on a principled approach to applying explainability and interpretability to the task of unsupervised anomaly detection. We argue that explainability is principally an algorithmic task and interpretability is principally a cognitive task, and draw on insights from the cognitive sciences to propose a general-purpose method for practical diagnosis using explained anomalies. We define Attribution Error, and demonstrate, using real-world labeled datasets, that our method based on Integrated Gradients (IG) yields significantly lower attribution errors than alternative methods.
翻訳日:2022-07-26 13:37:33 公開日:2022-07-23
# 強化学習におけるスキル伝達のための階層的キックスタート

Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning ( http://arxiv.org/abs/2207.11584v1 )

ライセンス: Link先を確認
Michael Matthews, Mikayel Samvelyan, Jack Parker-Holder, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 実践とホーミングのスキルは人間の学習の根幹をなすが、人工エージェントはそれを実行するために特別に訓練されることはめったにない。 代わりに、それらは通常エンドツーエンドで訓練され、非本質的な報酬関数の還元を最大化するために有用なスキルが暗黙的に学習されることを期待している。 本稿では,大規模な状態行動空間とスパース報酬を有する複雑な環境下での強化学習エージェント(RL)の訓練に,いかにスキルを組み込むことができるかを検討する。 この目的のために、NetHackのゲームに基づいたタスクと関連するスキルのベンチマークであるSkillHackを作成しました。 我々は、このベンチマークのベースラインと、他の評価手法よりも優れていることを示す新しいスキルベース手法であるHierarchical Kickstarting (HKS)を評価した。 実験の結果, 有益スキルを事前に知識した学習は, 複雑な問題に対するエージェントのパフォーマンスを著しく向上させることが示された。 最終的に、事前定義されたスキルを活用することは、RL問題、特に大きな状態行動空間とスパース報酬を持つ問題に有用な帰納バイアスをもたらすと論じる。

Practising and honing skills forms a fundamental component of how humans learn, yet artificial agents are rarely specifically trained to perform them. Instead, they are usually trained end-to-end, with the hope being that useful skills will be implicitly learned in order to maximise discounted return of some extrinsic reward function. In this paper, we investigate how skills can be incorporated into the training of reinforcement learning (RL) agents in complex environments with large state-action spaces and sparse rewards. To this end, we created SkillHack, a benchmark of tasks and associated skills based on the game of NetHack. We evaluate a number of baselines on this benchmark, as well as our own novel skill-based method Hierarchical Kickstarting (HKS), which is shown to outperform all other evaluated methods. Our experiments show that learning with a prior knowledge of useful skills can significantly improve the performance of agents on complex problems. We ultimately argue that utilising predefined skills provides a useful inductive bias for RL problems, especially those with large state-action spaces and sparse rewards.
翻訳日:2022-07-26 13:37:20 公開日:2022-07-23
# ABAW4マルチタスクチャレンジのための2視点情報融合モデル

Two-Aspect Information Fusion Model For ABAW4 Multi-task Challenge ( http://arxiv.org/abs/2207.11389v1 )

ライセンス: Link先を確認
Haiyang Sun, Zheng Lian, Bin Liu, Jianhua Tao, Licai Sun, Cong Cai(参考訳) 本稿では,第4回ABAW(Affective Behavior Analysis in-the-wild)コンペティションにおけるマルチタスク学習(MTL)チャレンジの解決法を提案する。 ABAWのタスクは、ビデオからフレームレベルの感情記述子を予測することである。 研究者はいくつかのアプローチを提案し、ABAWで有望な結果を得たが、このタスクにおける現在の研究は、異なる感情記述子間の相互作用をほとんど考慮していない。 この目的のために,異なるタイプの情報を完全に統合する新しいエンド・ツー・エンドアーキテクチャを提案する。 実験の結果,提案手法の有効性が示された。

In this paper, we propose the solution to the Multi-Task Learning (MTL) Challenge of the 4th Affective Behavior Analysis in-the-wild (ABAW) competition. The task of ABAW is to predict frame-level emotion descriptors from videos: discrete emotional state; valence and arousal; and action units. Although researchers have proposed several approaches and achieved promising results in ABAW, current works in this task rarely consider interactions between different emotion descriptors. To this end, we propose a novel end to end architecture to achieve full integration of different types of information. Experimental results demonstrate the effectiveness of our proposed solution.
翻訳日:2022-07-26 13:26:15 公開日:2022-07-23
# ps-nerf:マルチビューフォトメトリックステレオのためのニューラルネットワーク逆レンダリング

PS-NeRF: Neural Inverse Rendering for Multi-view Photometric Stereo ( http://arxiv.org/abs/2207.11406v1 )

ライセンス: Link先を確認
Wenqi Yang, Guanying Chen, Chaofeng Chen, Zhenfang Chen, Kwan-Yee K. Wong(参考訳) 従来の多視点測光ステレオ(MVPS)法は、しばしば複数の解離した段階で構成され、顕著な累積誤差をもたらす。 本稿では,暗黙表現に基づくMVPSのニューラルネットワーク逆レンダリング手法を提案する。 複数の未知の方向光で照らされた非ランベルト天体の多視点画像から、この手法は幾何学、材料、光を共同で推定する。 提案手法では,まずマルチライト画像を用いて視線面の正規分布を推定し,ニューラル放射場から得られる正規分布を正規化する。 すると、表面の正常、空間的に変化するBRDF、およびシャドーアウェアの異なるレンダリング層に基づくライトを共同で最適化する。 最適化後、再構成されたオブジェクトは、ノベルビューレンダリング、リライト、素材編集に使用できる。 合成データと実データの両方を用いた実験により,既存のMVPSやニューラルレンダリング法よりもはるかに正確な形状再構成が得られた。 コードとモデルはhttps://ywq.github.io/psnerfで確認できます。

Traditional multi-view photometric stereo (MVPS) methods are often composed of multiple disjoint stages, resulting in noticeable accumulated errors. In this paper, we present a neural inverse rendering method for MVPS based on implicit representation. Given multi-view images of a non-Lambertian object illuminated by multiple unknown directional lights, our method jointly estimates the geometry, materials, and lights. Our method first employs multi-light images to estimate per-view surface normal maps, which are used to regularize the normals derived from the neural radiance field. It then jointly optimizes the surface normals, spatially-varying BRDFs, and lights based on a shadow-aware differentiable rendering layer. After optimization, the reconstructed object can be used for novel-view rendering, relighting, and material editing. Experiments on both synthetic and real datasets demonstrate that our method achieves far more accurate shape reconstruction than existing MVPS and neural rendering methods. Our code and model can be found at https://ywq.github.io/psnerf.
翻訳日:2022-07-26 13:26:05 公開日:2022-07-23
# 数量化がhmerと合致する場合:手書き数式認識のための数量認識ネットワーク

When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2207.11463v1 )

ライセンス: Link先を確認
Bohan Li, Ye Yuan, Dingkang Liang, Xiao Liu, Zhilong Ji, Jinfeng Bai, Wenyu Liu, Xiang Bai(参考訳) 近年,ほとんどの手書き式認識(HMER)法では,注意機構を備えた公式画像からマークアップシーケンスを直接予測するエンコーダデコーダネットワークが採用されている。 しかし、書体や空間レイアウトのばらつきが大きいため注意結果が不正確な場合が多いため、複雑な構造を持つ式を正確に読み取ることができない場合や、長いマークアップシーケンスを生成する場合がある。 この問題を軽減するために,HMERとシンボルカウントという2つのタスクを共同で最適化する,Counting-Aware Network (CAN) という非従来型ネットワークを提案する。 具体的には、シンボルレベルの位置アノテーションなしで各シンボルクラスの数を予測できる弱い教師付きカウントモジュールを設計し、hmer用の典型的な注意に基づくエンコーダ・デコーダモデルに接続する。 HMERのベンチマークデータセットの実験では、エンコーダデコーダモデルの予測エラーを修正するために、共同最適化とカウント結果の両方が有用であることが確認され、CANは最先端の手法を一貫して上回っている。 特に、HMERのエンコーダデコーダモデルと比較して、提案したカウントモジュールによる余分な時間コストは限界である。 ソースコードはhttps://github.com/lbh1024/canで入手できる。

Recently, most handwritten mathematical expression recognition (HMER) methods adopt the encoder-decoder networks, which directly predict the markup sequences from formula images with the attention mechanism. However, such methods may fail to accurately read formulas with complicated structure or generate long markup sequences, as the attention results are often inaccurate due to the large variance of writing styles or spatial layouts. To alleviate this problem, we propose an unconventional network for HMER named Counting-Aware Network (CAN), which jointly optimizes two tasks: HMER and symbol counting. Specifically, we design a weakly-supervised counting module that can predict the number of each symbol class without the symbol-level position annotations, and then plug it into a typical attention-based encoder-decoder model for HMER. Experiments on the benchmark datasets for HMER validate that both joint optimization and counting results are beneficial for correcting the prediction errors of encoder-decoder models, and CAN consistently outperforms the state-of-the-art methods. In particular, compared with an encoder-decoder model for HMER, the extra time cost caused by the proposed counting module is marginal. The source code is available at https://github.com/LBH1024/CAN.
翻訳日:2022-07-26 13:25:47 公開日:2022-07-23
# CompNVS: シーン補完による新しいビュー合成

CompNVS: Novel View Synthesis with Scene Completion ( http://arxiv.org/abs/2207.11467v1 )

ライセンス: Link先を確認
Zuoyue Li, Tianxing Fan, Zhenqiang Li, Zhaopeng Cui, Yoichi Sato, Marc Pollefeys, Martin R. Oswald(参考訳) 本稿では,RGB-D画像からの新規ビュー合成のためのスケーラブルなフレームワークを提案する。 生成的ニューラルアプローチは2次元画像において顕著な結果を示したが、空間的3次元シーン理解が不可欠であるシーン完了と組み合わせて、類似したフォトリアリスティックな結果がまだ得られていない。 そこで本研究では,2.5D-3D-2.5D方式でシーンの学習分布を学習することにより,未観測シーンを完全化するために,スパースグリッドベースのニューラルシーン表現を用いた生成パイプラインを提案する。 3次元空間における符号化画像の特徴を幾何完備ネットワークとテクスチャインペインティングネットワークを用いて処理し,欠落領域を外挿する。 フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。 総合的な実験により,本手法のグラフィカルアウトプットは,特に未観測シーンにおいて,技術状況よりも優れていた。

We introduce a scalable framework for novel view synthesis from RGB-D images with largely incomplete scene coverage. While generative neural approaches have demonstrated spectacular results on 2D images, they have not yet achieved similar photorealistic results in combination with scene completion where a spatial 3D scene understanding is essential. To this end, we propose a generative pipeline performing on a sparse grid-based neural scene representation to complete unobserved scene parts via a learned distribution of scenes in a 2.5D-3D-2.5D manner. We process encoded image features in 3D space with a geometry completion network and a subsequent texture inpainting network to extrapolate the missing area. Photorealistic image sequences can be finally obtained via consistency-relevant differentiable rendering. Comprehensive experiments show that the graphical outputs of our method outperform the state of the art, especially within unobserved scene parts.
翻訳日:2022-07-26 13:25:22 公開日:2022-07-23
# ディープラーニングを用いたマルチメディアデータ分類のためのインテリジェント3Dネットワークプロトコル

Intelligent 3D Network Protocol for Multimedia Data Classification using Deep Learning ( http://arxiv.org/abs/2207.11504v1 )

ライセンス: Link先を確認
Arslan Syed, Eman A. Aldhahri, Muhammad Munawar Iqbal, Abid Ali, Ammar Muthanna, Harun Jamil, and Faisal Jamil(参考訳) ビデオでは、人間の動作は3次元(3d)信号である。 これらのビデオは人間の行動の時空間的知識を調査している。 提案する能力は3次元畳み込みニューラルネットワーク(CNN)を用いて検討する。 3D CNNは、静止画で確立された2次元(2D)相当の高出力をまだ達成していない。 ボード3次元畳み込み記憶と時空間融合顔訓練難易度による3次元cnnの著明な評価 本稿では,STIPと3D CNNを組み合わせたハイブリッドディープラーニングアーキテクチャを実装し,3Dビデオの性能向上を図る。 実装後、時空融合の各円におけるトレーニングのためのより詳細により深いチャートを作成する。 トレーニングモデルは、モデルの複雑な評価を処理した後の結果をさらに強化する。 この実装モデルではビデオ分類モデルが使用される。 深層学習を用いたマルチメディアデータ分類のためのインテリジェント3Dネットワークプロトコルを導入し,人間の努力による時空関連性をさらに理解した。 結果の実装において、UCF101の有名なデータセットは、提案したハイブリッド技術の性能を評価する。 その結果,初期の3D CNNをはるかに上回るハイブリッド技術が得られた。 その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。

In videos, the human's actions are of three-dimensional (3D) signals. These videos investigate the spatiotemporal knowledge of human behavior. The promising ability is investigated using 3D convolution neural networks (CNNs). The 3D CNNs have not yet achieved high output for their well-established two-dimensional (2D) equivalents in still photographs. Board 3D Convolutional Memory and Spatiotemporal fusion face training difficulty preventing 3D CNN from accomplishing remarkable evaluation. In this paper, we implement Hybrid Deep Learning Architecture that combines STIP and 3D CNN features to enhance the performance of 3D videos effectively. After implementation, the more detailed and deeper charting for training in each circle of space-time fusion. The training model further enhances the results after handling complicated evaluations of models. The video classification model is used in this implemented model. Intelligent 3D Network Protocol for Multimedia Data Classification using Deep Learning is introduced to further understand spacetime association in human endeavors. In the implementation of the result, the well-known dataset, i.e., UCF101 to, evaluates the performance of the proposed hybrid technique. The results beat the proposed hybrid technique that substantially beats the initial 3D CNNs. The results are compared with state-of-the-art frameworks from literature for action recognition on UCF101 with an accuracy of 95%.
翻訳日:2022-07-26 13:25:06 公開日:2022-07-23
# 視覚認識のための相互コントラスト学習によるオンライン知識蒸留

Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition ( http://arxiv.org/abs/2207.11518v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Helong Zhou, Yongjun Xu, Qian Zhan(参考訳) 教師なしオンライン知識蒸留(KD)は、複数の学生モデルのアンサンブルを協調的に訓練し、相互に知識を蒸留することを目的としている。 既存のオンラインKD手法は望ましい性能を達成するが、それらはしばしば、価値ある特徴表現情報を無視して、中核的な知識型としてのクラス確率に焦点を当てる。 オンラインKDのためのMCL(Multual Contrastive Learning)フレームワークを提案する。 MCLの中核となる考え方は、ネットワークのコホート間で相互に相互作用し、コントラスト分布をオンライン的に転送することである。 mclはクロスネットワーク埋め込み情報を集約し、2つのネットワーク間の相互情報に対する下限を最大化することができる。 これにより、各ネットワークは他のネットワークからさらにコントラスト的な知識を学ぶことができ、より優れた特徴表現が得られ、視覚認識タスクのパフォーマンスが向上する。 最終層を超えて、MCLをいくつかの中間層に拡張し、補助機能強化モジュールを補助する。 これにより、オンラインKDの表現学習能力はさらに向上する。 画像分類と視覚認識タスクへの変換学習の実験は、MCLが最先端のオンラインKDアプローチに対して一貫したパフォーマンス向上につながることを示している。 優位性は、MCLがより優れた特徴表現を生成するためにネットワークをガイドできることを示しています。 私たちのコードはhttps://github.com/winycg/MCLで公開されています。

The teacher-free online Knowledge Distillation (KD) aims to train an ensemble of multiple student models collaboratively and distill knowledge from each other. Although existing online KD methods achieve desirable performance, they often focus on class probabilities as the core knowledge type, ignoring the valuable feature representational information. We present a Mutual Contrastive Learning (MCL) framework for online KD. The core idea of MCL is to perform mutual interaction and transfer of contrastive distributions among a cohort of networks in an online manner. Our MCL can aggregate cross-network embedding information and maximize the lower bound to the mutual information between two networks. This enables each network to learn extra contrastive knowledge from others, leading to better feature representations, thus improving the performance of visual recognition tasks. Beyond the final layer, we extend MCL to several intermediate layers assisted by auxiliary feature refinement modules. This further enhances the ability of representation learning for online KD. Experiments on image classification and transfer learning to visual recognition tasks show that MCL can lead to consistent performance gains against state-of-the-art online KD approaches. The superiority demonstrates that MCL can guide the network to generate better feature representations. Our code is publicly available at https://github.com/winycg/MCL.
翻訳日:2022-07-26 13:24:49 公開日:2022-07-23
# 医用画像の自動セグメンテーションのための高分解能スウィントランス

High-Resolution Swin Transformer for Automatic Medical Image Segmentation ( http://arxiv.org/abs/2207.11553v1 )

ライセンス: Link先を確認
Chen Wei, Shenghan Ren, Kaitai Guo, Haihong Hu, Jimin Liang(参考訳) 特徴地図の分解は医用画像分割において重要である。 既存の医療画像分割のためのトランスフォーマーベースのネットワークのほとんどがu-netライクなアーキテクチャであり、トランスフォーマーブロックのシーケンスを利用して入力された医療画像を高分解能表現から低解像度特徴マップに変換するエンコーダと、低解像度特徴マップから徐々に高分解能表現を回復するデコーダを含んでいる。 本稿では,従来の研究とは異なり,高分解能ネットワーク(HRNet)のネットワーク設計スタイルを利用して,畳み込み層をTransformerブロックに置き換え,Transformerブロックが生成する様々な解像度特徴マップから情報を連続的に交換する。 本稿では,新しいTransformerベースのネットワークをHRSTNet(High-Resolution Swin Transformer Network)と呼ぶ。 HRSTNetは、2021年のBrain tumor Segmentation(BraTS)における最先端のTransformerベースのU-Netライクなアーキテクチャと、メディカルセグメンテーション・デカトロンの肝データセットと同等のパフォーマンスを達成できることを示した。 HRSTNetのコードはhttps://github.com/auroua/HRSTNetで公開されている。

The Resolution of feature maps is critical for medical image segmentation. Most of the existing Transformer-based networks for medical image segmentation are U-Net-like architecture that contains an encoder that utilizes a sequence of Transformer blocks to convert the input medical image from high-resolution representation into low-resolution feature maps and a decoder that gradually recovers the high-resolution representation from low-resolution feature maps. Unlike previous studies, in this paper, we utilize the network design style from the High-Resolution Network (HRNet), replace the convolutional layers with Transformer blocks, and continuously exchange information from the different resolution feature maps that are generated by Transformer blocks. The newly Transformer-based network presented in this paper is denoted as High-Resolution Swin Transformer Network (HRSTNet). Extensive experiments illustrate that HRSTNet can achieve comparable performance with the state-of-the-art Transformer-based U-Net-like architecture on Brain Tumor Segmentation(BraTS) 2021 and the liver dataset from Medical Segmentation Decathlon. The code of HRSTNet will be publicly available at https://github.com/auroua/HRSTNet.
翻訳日:2022-07-26 13:24:29 公開日:2022-07-23
# 生成的アーティサン:意味認識と制御可能なクリップスタイル

Generative Artisan: A Semantic-Aware and Controllable CLIPstyler ( http://arxiv.org/abs/2207.11598v1 )

ライセンス: Link先を確認
Zhenling Yang, Huacheng Song, Qiunan Wu(参考訳) 現在のイメージスタイル転送手法のほとんどが、ユーザが特定のスタイルのイメージを与え、そのスタイルの特徴とテクスチャを抽出してイメージのスタイルを生成する必要があることを思い出してください。 最近提案されたCLIPstylerがこの問題を解決し、提供されたスタイルイメージの記述に基づいてスタイル転送を行うことができる。 clipstylerは、ランドスケープやポートレートが単独で現れると良いパフォーマンスを得られるが、人間とランドスケープが共存すると、人々はぼやけ、元のセマンティクスを失うことがある。 そこで本研究では,事前学習したクリップテキスト画像埋め込みモデルを用いて,fcnセマンティクスセグメンテーションネットワークを介して画像スタイル転送をガイドする新しいフレームワークを提案する。 具体的には、自撮り写真と実世界の風景写真の両方のポートレートオーバータイリング問題を、人物写真を用いて解決し、ポートレートとランドスケープにおけるスタイル転送の効果のコントラストを高め、異なる意味部分におけるイメージスタイル転送の程度を完全に制御可能にする。 私たちのジェネレーティブアーティザンは、CLIPstylerの失敗を解決し、定性的かつ定量的な方法の両方で、人間の写真による自撮りと実世界の風景の両方において、CLIPstylerよりもはるかに優れた結果が得られることを証明します。 この改善により、グラフィックソフトウェアをリタッチするといったビジネスシナリオのためのフレームワークを商用化することができます。

Recall that most of the current image style transfer methods require the user to give an image of a particular style and then extract that styling feature and texture to generate the style of an image, but there are still some problems: the user may not have a reference style image, or it may be difficult to summarise the desired style in mind with just one image. The recently proposed CLIPstyler has solved this problem, which is able to perform style transfer based only on the provided description of the style image. Although CLIPstyler can achieve good performance when landscapes or portraits appear alone, it can blur the people and lose the original semantics when people and landscapes coexist. Based on these issues, we demonstrate a novel framework that uses a pre-trained CLIP text-image embedding model and guides image style transfer through an FCN semantic segmentation network. Specifically, we solve the portrait over-styling problem for both selfies and real-world landscape with human subjects photos, enhance the contrast between the effect of style transfer in portrait and landscape, and make the degree of image style transfer in different semantic parts fully controllable. Our Generative Artisan resolve the failure case of CLIPstyler and yield both qualitative and quantitative methods to prove ours have much better results than CLIPstyler in both selfies and real-world landscape with human subjects photos. This improvement makes it possible to commercialize our framework for business scenarios such as retouching graphics software.
翻訳日:2022-07-26 13:24:03 公開日:2022-07-23
# ポーランド語用文脈ベース補間器

Context based lemmatizer for Polish language ( http://arxiv.org/abs/2207.11565v1 )

ライセンス: Link先を確認
Michal Karwatowski and Marcin Pietron(参考訳) レムマティゼーション(lemmatization)とは、単語の屈折形式をグループ化して、単語の補題や辞書形式によって識別される単一の項目として分析するプロセスである。 計算言語学において、補題化(英:lemmatisation)とは、単語の補題を決定するアルゴリズムのプロセスである。 stemingとは異なり、lemmatizationは、文中の単語の意図された部分と意味を正確に識別することと、その文を取り巻くより大きな文脈の両方に依存する。 その結果、効率的な補間アルゴリズムの開発が複雑なタスクとなる。 近年、このタスクに使用されるディープラーニングモデルは、機械学習アルゴリズムを含む他の手法よりも優れていることが観察できる。 本稿では,Google T5モデルに基づく研磨補間器について述べる。 トレーニングは異なるコンテキスト長で実施された。 このモデルはポーランド語補間処理の最良の結果を得る。

Lemmatization is the process of grouping together the inflected forms of a word so they can be analysed as a single item, identified by the word's lemma, or dictionary form. In computational linguistics, lemmatisation is the algorithmic process of determining the lemma of a word based on its intended meaning. Unlike stemming, lemmatisation depends on correctly identifying the intended part of speech and meaning of a word in a sentence, as well as within the larger context surrounding that sentence. As a result, developing efficient lemmatisation algorithm is the complex task. In recent years it can be observed that deep learning models used for this task outperform other methods including machine learning algorithms. In this paper the polish lemmatizer based on Google T5 model is presented. The training was run with different context lengths. The model achieves the best results for polish language lemmatisation process.
翻訳日:2022-07-26 13:19:09 公開日:2022-07-23
# ロボットが悪性ステレオタイプを制定

Robots Enact Malignant Stereotypes ( http://arxiv.org/abs/2207.11569v1 )

ライセンス: Link先を確認
Andrew Hundt, William Agnew, Vicky Zeng, Severin Kacianka, Matthew Gombolay(参考訳) コンピュータビジョン (CV) [18, 80] や自然言語処理 (NLP) [6] といった機械学習 (ML) の手法では,OpenAI CLIP [14] のような大画像やキャプションモデルの場合,ステレオタイプ,バイアス,識別が広く記録されている。 本稿では,世界において身体的かつ自律的に行動するロボットにおいて,MLバイアスがどのように現れるかを評価する。 最近発表されたクリップ駆動ロボット操作手法の1つを監査し、人種や性別にまたがる人間の顔の画像を持つオブジェクトと、共通のステレオタイプに関連する用語を含むタスク記述を提示した。 本実験は, 性別, 人種, 科学的に認知されていない生理学に関して, 有毒なステレオタイプを大規模に行動するロボットについて明らかに示す。 さらに、監査された方法は、女性や有色人種を認識する可能性が低い。 我々の学際的社会技術分析は、科学技術と社会(STS)、臨界研究、歴史、安全、ロボティクス、AIといった分野や応用にまたがって合成される。 我々は,ヒトを含む大規模データセットと溶解モデル(クリップなど「基礎モデル」と呼ばれることもある)を用いたロボットが,一般に悪性ステレオタイプを物理的に増幅するリスクを負うことを発見した。 その代わり、ステレオタイプやその他の有害な成果を物理的に示すロボット学習手法を、適切であれば停止、再作業、あるいは取り壊すことを推奨します。 最後に,アイデンティティ・セーフティ・アセスメント・フレームワーク (ids) やデザイン・ジャスティス (design justice) といったトピックに関する包括的政策変更と,新たな学際的な研究の可能性について論じる。

Stereotypes, bias, and discrimination have been extensively documented in Machine Learning (ML) methods such as Computer Vision (CV) [18, 80], Natural Language Processing (NLP) [6], or both, in the case of large image and caption models such as OpenAI CLIP [14]. In this paper, we evaluate how ML bias manifests in robots that physically and autonomously act within the world. We audit one of several recently published CLIP-powered robotic manipulation methods, presenting it with objects that have pictures of human faces on the surface which vary across race and gender, alongside task descriptions that contain terms associated with common stereotypes. Our experiments definitively show robots acting out toxic stereotypes with respect to gender, race, and scientifically-discredited physiognomy, at scale. Furthermore, the audited methods are less likely to recognize Women and People of Color. Our interdisciplinary sociotechnical analysis synthesizes across fields and applications such as Science Technology and Society (STS), Critical Studies, History, Safety, Robotics, and AI. We find that robots powered by large datasets and Dissolution Models (sometimes called "foundation models", e.g. CLIP) that contain humans risk physically amplifying malignant stereotypes in general; and that merely correcting disparities will be insufficient for the complexity and scale of the problem. Instead, we recommend that robot learning methods that physically manifest stereotypes or other harmful outcomes be paused, reworked, or even wound down when appropriate, until outcomes can be proven safe, effective, and just. Finally, we discuss comprehensive policy changes and the potential of new interdisciplinary research on topics like Identity Safety Assessment Frameworks and Design Justice to better understand and address these harms.
翻訳日:2022-07-26 13:10:39 公開日:2022-07-23
# $\mu\text{KG}$: マルチソース知識グラフ埋め込みとアプリケーションのためのライブラリ

$\mu\text{KG}$: A Library for Multi-source Knowledge Graph Embeddings and Applications ( http://arxiv.org/abs/2207.11442v1 )

ライセンス: Link先を確認
Xindi Luo and Zequn Sun and Wei Hu(参考訳) 本稿では,知識グラフ上の表現学習のためのオープンソースのPythonライブラリである$\mu\text{KG}$を提案する。 $\mu\text{KG}$は、マルチソースの知識グラフ(と単一の知識グラフ)、複数のディープラーニングライブラリ(PyTorchとTensorFlow2)、複数の埋め込みタスク(リンク予測、エンティティアライメント、エンティティタイピング、マルチソースリンク予測)、複数の並列コンピューティングモード(マルチプロセスとマルチGPUコンピューティング)に対する共同表現学習をサポートする。 現在26の一般的な知識グラフ埋め込みモデルを実装しており、16のベンチマークデータセットをサポートしている。 $\mu\text{KG}$は、異なるタスクのパイプラインを単純化した埋め込みテクニックの高度な実装を提供する。 また、使いやすい高品質のドキュメンテーションも付属している。 $\mu\text{KG}$は既存の知識グラフ埋め込みライブラリよりも包括的です。 様々な埋め込みモデルとタスクの徹底的な比較と分析に有用である。 共同学習した組込みは,マルチホップナレッジグラフ質問応答など,知識駆動の下流タスクに大いに役立つ。 我々は、関連分野における最新の発展を控え、それらを$\mu\text{KG}$に組み込む。

This paper presents $\mu\text{KG}$, an open-source Python library for representation learning over knowledge graphs. $\mu\text{KG}$ supports joint representation learning over multi-source knowledge graphs (and also a single knowledge graph), multiple deep learning libraries (PyTorch and TensorFlow2), multiple embedding tasks (link prediction, entity alignment, entity typing, and multi-source link prediction), and multiple parallel computing modes (multi-process and multi-GPU computing). It currently implements 26 popular knowledge graph embedding models and supports 16 benchmark datasets. $\mu\text{KG}$ provides advanced implementations of embedding techniques with simplified pipelines of different tasks. It also comes with high-quality documentation for ease of use. $\mu\text{KG}$ is more comprehensive than existing knowledge graph embedding libraries. It is useful for a thorough comparison and analysis of various embedding models and tasks. We show that the jointly learned embeddings can greatly help knowledge-powered downstream tasks, such as multi-hop knowledge graph question answering. We will stay abreast of the latest developments in the related fields and incorporate them into $\mu\text{KG}$.
翻訳日:2022-07-26 13:06:30 公開日:2022-07-23
# 因果フェアネス分析

Causal Fairness Analysis ( http://arxiv.org/abs/2207.11385v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim(参考訳) aiと機械学習に基づく意思決定システムは、医療、法執行、教育、金融など、幅広い現実世界のシナリオで使用されてきた。 自律システムがビジネス全体の決定を推進し、より広い範囲で、社会の最も困難な問題を解決するための大規模な意思決定基盤をサポートする、未来を想像することはもはや遠くない。 不公平さと差別の問題は、人間が決定を下すとき、透明性、説明責任、公平さの少ない機械を使って決定を行うとき(または増幅される可能性がある)に広まります。 本稿では,このギャップを埋めることを目的として,意思決定における公平性の問題を理解・モデル化し,解決することを目的として, \textit{causal fairness analysis} の枠組みを提案する。 このアプローチの主な洞察は、観測データに存在する不一致の定量化と、そもそも不一致を発生させる因果メカニズムの集合とを結びつけることであり、我々は因果的公平性分析(fpcfa)の根本的な問題と呼ぶ。 本研究では,FPCFAを解くために,その変動が構造機構や集団の単位が異なることに起因するフェアネスの変動と実証的尺度を分解する問題を考察する。 本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネス・マップ(Fairness Map)で頂点に達した。 最後に,因果的公平性分析を行う上で,どの因果的仮定が最小限に必要かを検討するとともに,データサイエンティストが異質な影響の存在と異質な治療を評価できる公平性クックブックを提案する。

Decision-making systems based on AI and machine learning have been used throughout a wide range of real-world scenarios, including healthcare, law enforcement, education, and finance. It is no longer far-fetched to envision a future where autonomous systems will be driving entire business decisions and, more broadly, supporting large-scale decision-making infrastructure to solve society's most challenging problems. Issues of unfairness and discrimination are pervasive when decisions are being made by humans, and remain (or are potentially amplified) when decisions are made using machines with little transparency, accountability, and fairness. In this paper, we introduce a framework for \textit{causal fairness analysis} with the intent of filling in this gap, i.e., understanding, modeling, and possibly solving issues of fairness in decision-making settings. The main insight of our approach will be to link the quantification of the disparities present on the observed data with the underlying, and often unobserved, collection of causal mechanisms that generate the disparity in the first place, challenge we call the Fundamental Problem of Causal Fairness Analysis (FPCFA). In order to solve the FPCFA, we study the problem of decomposing variations and empirical measures of fairness that attribute such variations to structural mechanisms and different units of the population. Our effort culminates in the Fairness Map, which is the first systematic attempt to organize and explain the relationship between different criteria found in the literature. Finally, we study which causal assumptions are minimally needed for performing causal fairness analysis and propose a Fairness Cookbook, which allows data scientists to assess the existence of disparate impact and disparate treatment.
翻訳日:2022-07-26 13:05:23 公開日:2022-07-23
# リッチな作用集合をもつ線形バンディットの探索とその推論への応用

Exploration in Linear Bandits with Rich Action Sets and its Implications for Inference ( http://arxiv.org/abs/2207.11597v1 )

ライセンス: Link先を確認
Debangshu Banerjee, Avishek Ghosh, Sayak Ray Chowdhury, Aditya Gopalan(参考訳) 本稿では,任意の線形バンディットアルゴリズムが生成する設計行列の固有スペクトル上の非漸近下界について,作用集合の曲率が良好であるとき,その部分線形後悔を伴うことを述べる。 具体的には、期待される設計行列の最小固有値は、アルゴリズムの期待される累積後悔が$O(\sqrt{n})$であるときに$\Omega(\sqrt{n})$として成長することを示す。 このことは、そのような作用空間が、離散(すなわち、十分に分離された)作用空間において、対数下界ではなく多項式下界を強制することを示している。 さらに、前回の結果は漸近的な状態($n \to \infty$ として)でのみ成立することが示されるが、これらの ``locally rich' な作用空間に対する我々の結果はいつでも成り立つ。 さらに、軽度の技術的仮定の下では、確率の高い最小固有値保持に関する同様の下限が得られる。 我々は,線形包帯におけるemph{model selection} と \emph{clustering} の2つの実践シナリオに適用する。 モデル選択については,新しいスペクトル境界を生かして,エポックベース線形バンディットアルゴリズムがエポック数に指数関数的な速度での真のモデル複雑性に適応することを示す。 クラスタリングでは、スペクトル結果を活用することで、強制的な探索は不要であることを示すマルチエージェントフレームワークを検討する。エージェントは線形バンディットアルゴリズムを実行し、その基礎となるパラメータを一度に見積もることで、後悔を少なくすることができる。

We present a non-asymptotic lower bound on the eigenspectrum of the design matrix generated by any linear bandit algorithm with sub-linear regret when the action set has well-behaved curvature. Specifically, we show that the minimum eigenvalue of the expected design matrix grows as $\Omega(\sqrt{n})$ whenever the expected cumulative regret of the algorithm is $O(\sqrt{n})$, where $n$ is the learning horizon, and the action-space has a constant Hessian around the optimal arm. This shows that such action-spaces force a polynomial lower bound rather than a logarithmic lower bound, as shown by \cite{lattimore2017end}, in discrete (i.e., well-separated) action spaces. Furthermore, while the previous result is shown to hold only in the asymptotic regime (as $n \to \infty$), our result for these ``locally rich" action spaces is any-time. Additionally, under a mild technical assumption, we obtain a similar lower bound on the minimum eigen value holding with high probability. We apply our result to two practical scenarios -- \emph{model selection} and \emph{clustering} in linear bandits. For model selection, we show that an epoch-based linear bandit algorithm adapts to the true model complexity at a rate exponential in the number of epochs, by virtue of our novel spectral bound. For clustering, we consider a multi agent framework where we show, by leveraging the spectral result, that no forced exploration is necessary -- the agents can run a linear bandit algorithm and estimate their underlying parameters at once, and hence incur a low regret.
翻訳日:2022-07-26 13:04:52 公開日:2022-07-23
# モダリティ非教師付きコントラスト損失を用いたマルチモーダル感情認識

Multimodal Emotion Recognition with Modality-Pairwise Unsupervised Contrastive Loss ( http://arxiv.org/abs/2207.11482v1 )

ライセンス: Link先を確認
Riccardo Franceschini and Enrico Fini and Cigdem Beyan and Alessandro Conti and Federica Arrigoni and Elisa Ricci(参考訳) 感情認識はいくつかの現実世界の応用に関わっている。 利用可能なモダリティの増加に伴い、感情の自動理解がより正確に行われている。 マルチモーダル感情認識(MER)の成功は主に教師付き学習パラダイムに依存している。 しかし、データアノテーションは高価で時間がかかり、感情表現や知覚は、信頼性の高いラベルを取得するためのいくつかの要因(年齢、性別、文化など)に依存するため、難しい。 そこで我々は,MERの教師なし機能学習に焦点をあてた。 我々は離散的な感情を考慮し、モダリティテキスト、音声、視覚が使用される。 本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。 我々のエンドツーエンドの特徴学習アプローチは、既存のMER手法といくつかの違い(および利点)がある。 一 監督されていないため、学習は、データラベリングコストの欠如である。 二 データの空間的拡張、モダリティアライメント、多数のバッチサイズ又はエポックを必要としないこと。 三 推論においてのみ、データ融合を適用すること。 iv)感情認識タスクで事前学習されたバックボーンを必要としない。 ベンチマークデータセットを用いた実験により,本手法はMERに適用されたいくつかのベースラインアプローチや教師なし学習方法よりも優れていた。 特に、いくつかの監督されたMERを超越している。

Emotion recognition is involved in several real-world applications. With an increase in available modalities, automatic understanding of emotions is being performed more accurately. The success in Multimodal Emotion Recognition (MER), primarily relies on the supervised learning paradigm. However, data annotation is expensive, time-consuming, and as emotion expression and perception depends on several factors (e.g., age, gender, culture) obtaining labels with a high reliability is hard. Motivated by these, we focus on unsupervised feature learning for MER. We consider discrete emotions, and as modalities text, audio and vision are used. Our method, as being based on contrastive loss between pairwise modalities, is the first attempt in MER literature. Our end-to-end feature learning approach has several differences (and advantages) compared to existing MER methods: i) it is unsupervised, so the learning is lack of data labelling cost; ii) it does not require data spatial augmentation, modality alignment, large number of batch size or epochs; iii) it applies data fusion only at inference; and iv) it does not require backbones pre-trained on emotion recognition task. The experiments on benchmark datasets show that our method outperforms several baseline approaches and unsupervised learning methods applied in MER. Particularly, it even surpasses a few supervised MER state-of-the-art.
翻訳日:2022-07-26 13:04:21 公開日:2022-07-23
# SSBNet:適応サンプリングによる視覚認識効率の向上

SSBNet: Improving Visual Recognition Efficiency by Adaptive Sampling ( http://arxiv.org/abs/2207.11511v1 )

ライセンス: Link先を確認
Ho Man Kwan and Shenghui Song(参考訳) ダウンサンプリングは、視覚認識の精度と遅延の良好なトレードオフを達成するために広く採用されている。 残念ながら、一般的に使用されるプール層は学習されず、重要な情報を保存できない。 別の次元削減法として、タスクに関連する適応的なサンプリングウェイトとプロセス領域があり、有用な情報をよりよく保存することができる。 しかし、適応サンプリングの使用は特定の層に限定されている。 本稿では,ディープニューラルネットワークのビルディングブロックにおける適応サンプリングを用いることで,その効率を向上できることを示す。 特に,サンプリング層をResNetなどの既存ネットワークに繰り返し挿入することで構築するSSBNetを提案する。 実験の結果,提案したSSBNetは,ImageNetおよびCOCOデータセット上での競合画像分類とオブジェクト検出性能を実現することができることがわかった。 例えば、ssb-resnet-rs-200はimagenetデータセットにおいて82.6%の精度を達成し、同じ複雑さを持つベースラインのresnet-rs-152よりも0.6%高い。 可視化により、異なる層が異なる位置に集中できるssbnetの利点が示され、アブレーションの研究により、均一な方法による適応サンプリングの利点がさらに検証された。

Downsampling is widely adopted to achieve a good trade-off between accuracy and latency for visual recognition. Unfortunately, the commonly used pooling layers are not learned, and thus cannot preserve important information. As another dimension reduction method, adaptive sampling weights and processes regions that are relevant to the task, and is thus able to better preserve useful information. However, the use of adaptive sampling has been limited to certain layers. In this paper, we show that using adaptive sampling in the building blocks of a deep neural network can improve its efficiency. In particular, we propose SSBNet which is built by inserting sampling layers repeatedly into existing networks like ResNet. Experiment results show that the proposed SSBNet can achieve competitive image classification and object detection performance on ImageNet and COCO datasets. For example, the SSB-ResNet-RS-200 achieved 82.6% accuracy on ImageNet dataset, which is 0.6% higher than the baseline ResNet-RS-152 with a similar complexity. Visualization shows the advantage of SSBNet in allowing different layers to focus on different positions, and ablation studies further validate the advantage of adaptive sampling over uniform methods.
翻訳日:2022-07-26 13:04:03 公開日:2022-07-23