このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220626となっている論文です。

PDF登録状況(公開日: 20220626)

TitleAuthorsAbstract論文公表日・翻訳日
# 橋渡しの負担--covid-19パンデミックにおけるtwitterユーザーの主観的幸福度の分析

The Burden of Being a Bridge: Analysing Subjective Well-Being of Twitter Users during the COVID-19 Pandemic ( http://arxiv.org/abs/2104.04331v2 )

ライセンス: Link先を確認
Ninghan Chen, Xihui Chen, Zhiqiang Zhong, Jun Pang(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)の流行は、オンラインソーシャルメディア上でインフォデミック(インフォデミック)を引き起こす。 本稿では,ソーシャルメディア利用者のメンタルヘルスに及ぼすパンデミックの影響について検討し,その共有行動が新型コロナウイルス関連情報の拡散を著しく促進することを示す。 具体的には、主観的幸福感(SWB)に着目し、SWBの変化が情報拡散におけるブリッジング性能と関係があるかどうかを分析し、共有による情報伝達の速度と幅の利得を測定する。 新しい測定方法を提案することにより,ユーザのブリッジング性能を正確に把握する。 ディープラーニング自然言語処理モデルにより,ソーシャルメディア利用者のSWBをテキスト投稿から定量化する。 約2年間twitterから収集されたデータから、新型コロナウイルス(covid-19)パンデミックにおける影響力のあるユーザーの精神的な苦痛が明らかになった。 包括的階層的多重回帰分析を通じて,ソーシャルユーザのSWBとブリッジング性能の強い相関関係を初めて発見する。

The outbreak of the COVID-19 pandemic triggers infodemic over online social media, which significantly impacts public health around the world, both physically and psychologically. In this paper, we study the impact of the pandemic on the mental health of influential social media users, whose sharing behaviours significantly promote the diffusion of COVID-19 related information. Specifically, we focus on subjective well-being (SWB), and analyse whether SWB changes have a relationship with their bridging performance in information diffusion, which measures the speed and wideness gain of information transmission due to their sharing. We accurately capture users' bridging performance by proposing a new measurement. Benefiting from deep-learning natural language processing models, we quantify social media users' SWB from their textual posts. With the data collected from Twitter for almost two years, we reveal the greater mental suffering of influential users during the COVID-19 pandemic. Through comprehensive hierarchical multiple regression analysis, we are the first to discover the strong {relationship} between social users' SWB and their bridging performance.
翻訳日:2023-04-04 07:53:15 公開日:2022-06-26
# ツリーテンソルネットワークからマルチスケールエンタングル化再正規化アンサッツへ

From Tree Tensor Network to Multiscale Entanglement Renormalization Ansatz ( http://arxiv.org/abs/2110.08794v2 )

ライセンス: Link先を確認
Xiangjian Qian and Mingpu Qin(参考訳) テンソルネットワーク状態(TNS)は、量子多体系の基底状態の効率的な表現を提供し、それらのシミュレーションにおいて重要な役割を果たす。 過去数十年間、多くのtnsが提案されている。 しかし, 2次元システムにおけるTNSの高コストのため, TNSのエンコードエンタングルメントと計算複雑性のバランスは未定である。 本研究では, 拡張木テンソルネットワーク (ATTN) の制約を解放し, FATTN (Fully-Augmented Tree Tensor Network) と呼ばれる新しいツリーテンソルネットワーク (TTN) を導入した。 TTNの物理的層にディジエンタングルが増設されると、FATTNはTTNやATTNよりもより絡み合うことができる。 同時に、FATTNは、TTNとATTNの結合次元による計算コストのスケーリングを維持している。 TTNおよびATTNに対するFATTNの精度の向上を示すために, 横イジングモデルの基底状態エネルギーに関するベンチマーク結果を提供した。 さらに、FATTNは非常に柔軟で、木テンソルネットワークとマルチスケールエンタングルメント再正規化アンサッツ(MERA)の補間として構築でき、エンコードされた絡み合いと計算コストのバランスに達することができる。

Tensor Network States (TNS) offer an efficient representation for the ground state of quantum many body systems and play an important role in the simulations of them. Numerous TNS are proposed in the past few decades. However, due to the high cost of TNS for two-dimensional systems, a balance between the encoded entanglement and computational complexity of TNS is yet to be reached. In this work we introduce a new Tree Tensor Network (TTN) based TNS dubbed as Fully- Augmented Tree Tensor Network (FATTN) by releasing the constraint in Augmented Tree Tensor Network (ATTN). When disentanglers are augmented in the physical layer of TTN, FATTN can provide more entanglement than TTN and ATTN. At the same time, FATTN maintains the scaling of computational cost with bond dimension in TTN and ATTN. Benchmark results on the ground state energy for the transverse Ising model are provided to demonstrate the improvement of accuracy of FATTN over TTN and ATTN. Moreover, FATTN is quite flexible which can be constructed as an interpolation between Tree Tensor Network and Multiscale Entanglement Renormalization Ansatz (MERA) to reach a balance between the encoded entanglement and the computational cost.
翻訳日:2023-03-11 06:19:53 公開日:2022-06-26
# 不安定な傷跡のスペクトル密度の推定

Estimating the spectral density of unstable scars ( http://arxiv.org/abs/2112.15554v3 )

ライセンス: Link先を確認
Domenico Lippolis(参考訳) 量子カオスにおいて、スペクトル統計は一般にランダム行列理論(RMT)の予測に従う。 特筆すべき例外は、古典的な系の不安定な周期軌道の周りの確率密度を増加させることで、rmtの期待値からスペクトル密度を著しくずれさせることである。 本研究では,rmtルール系とスカーレッドカオス系の両方が開口部と結合して問題となっている。 特に、カオスハミルトニアン散乱の1チャンネルまたは複数のチャネルへのスペクトル密度に対する予測が導かれる。 結果はトーラス上のパラダイム的量子カオスマップでテストされる。 本報告は, [d. lippolis, epl 126 (2019) 10003] で以前にスケッチした直観を展開する。

In quantum chaos, the spectral statistics generally follows the predictions of Random Matrix Theory (RMT). A notable exception is given by scar states, that enhance probability density around unstable periodic orbits of the classical system, therefore causing significant deviations of the spectral density from RMT expectations. In this work, the problem is considered of both RMT-ruled and scarred chaotic systems coupled to an opening. In particular, predictions are derived for the spectral density of a chaotic Hamiltonian scattering into a single- or multiple channels. The results are tested on paradigmatic quantum chaotic maps on a torus. The present report develops the intuitions previously sketched in [D. Lippolis, EPL 126 (2019) 10003].
翻訳日:2023-03-02 19:04:03 公開日:2022-06-26
# スピン-S$$\mathrm{U}(1)$量子リンクモデルにおける動的量子相転移

Dynamical quantum phase transitions in spin-$S$ $\mathrm{U}(1)$ quantum link models ( http://arxiv.org/abs/2203.01337v2 )

ライセンス: Link先を確認
Maarten Van Damme, Torsten V. Zache, Debasish Banerjee, Philipp Hauke, Jad C. Halimeh(参考訳) 動的量子相転移 (dynamical quantum phase transitions, dqpts) は、量子多体系における非平衡臨界性を調べる強力な概念である。 量子-シミュレートされた格子ゲージ理論への強い実験駆動により、これらのモデルにおけるDQPTを研究して、それらの遠方平衡特性をよりよく理解することが重要となる。 本研究では、無限行列積状態法を用いてスピン-$s$$$\mathrm{u}(1)$量子リンクモデルにおけるdqptの研究を行う。 真空初期状態から始まる待ち行列に対して$S=1/2$の場合にDQPTを動的順序パラメータの符号変化に直接接続する文学的な結果を再現できるが、異なる待ち行列やリンクスピン長の異なる値に対して$S>1/2$の直接接続はもはや存在しない。 特に、順序パラメータの符号変更に直接関連しない異なるタイプのdqptが存在することが判明した。 以上の結果から,DQPTはWilson--Kogut-Susskind極限と量子リンク形式による表現とは根本的に異なることが示唆された。

Dynamical quantum phase transitions (DQPTs) are a powerful concept of probing far-from-equilibrium criticality in quantum many-body systems. With the strong ongoing experimental drive to quantum-simulate lattice gauge theories, it becomes important to investigate DQPTs in these models in order to better understand their far-from-equilibrium properties. In this work, we use infinite matrix product state techniques to study DQPTs in spin-$S$ $\mathrm{U}(1)$ quantum link models. Although we are able to reproduce literature results directly connecting DQPTs to a sign change in the dynamical order parameter in the case of $S=1/2$ for quenches starting in a vacuum initial state, we find that for different quench protocols or different values of the link spin length $S>1/2$ this direct connection is no longer present. In particular, we find that there is an abundance of different types of DQPTs not directly associated with any sign change of the order parameter. Our findings indicate that DQPTs are fundamentally different between the Wilson--Kogut--Susskind limit and its representation through the quantum link formalism.
翻訳日:2023-02-23 07:52:44 公開日:2022-06-26
# フォノン誘起デファスティング存在下での共振器偏光子相関のプローブとしての双光子強化二重量子コヒーレンス信号

Entangled biphoton enhanced double quantum coherence signal as a probe for cavity polariton correlations in presence of phonon induced dephasing ( http://arxiv.org/abs/2205.15698v2 )

ライセンス: Link先を確認
Arunangshu Debnath and Angel Rubio(参考訳) 超高速状態における散逸偏光子ダイナミクスのプローブとして、2光子エンタングルメント強化多次元分光法を理論的に提案する。 これは、原型多部位励起量子集合体を表す空洞濃縮単量体光合成複合体に適用される。 提案手法は2つの部分空間と1つの励起部分空間の間の1次元偏光子コヒーレンスに特に敏感である。 キャビティを介するエキトニックな相関の動的役割を観察でき、フォノンによる消散の存在を軽視することができることが示されている。 絡み合った二光子源の非古典性は、信号の超高速と広帯域の相関性を高め、長距離キャビティ支援励起子移動の原因となる状態相関を示す。

We theoretically propose a biphoton entanglement-enhanced multidimensional spectroscopic technique as a probe for the dissipative polariton dynamics in the ultrafast regime. It is applied to the cavity-confined monomeric photosynthetic complex that represents a prototypical multi-site excitonic quantum aggregate. The proposed technique is shown to be particularly sensitive to inter-manifold polariton coherence between the two and one-excitation subspaces. It is demonstrated to be able to monitor the dynamical role of cavity-mediated excitonic correlations, and dephasing in the presence of phonon-induced dissipation. The non-classicality of the entangled biphoton sources is shown to enhance the ultra-fast and broadband correlation features of the signal, giving an indication about the underlying state correlations responsible for long-range cavity-assisted exciton migration.
翻訳日:2023-02-11 03:59:21 公開日:2022-06-26
# 量子鍵リピータの性能と汎用プライベートビットと独立ビットのセキュアコンテンツに基づくリラクシド境界

Relaxed bound on performance of quantum key repeaters and secure content of generic private and independent bits ( http://arxiv.org/abs/2206.00993v2 )

ライセンス: Link先を確認
Karol Horodecki and {\L}ukasz Pawela(参考訳) Quantum key repeaterは、将来のQuantum Internetのバックボーンである。 量子鍵リピータの局間で共有される任意の混合二部状態の場合、その2つの端ノード間でどれだけの鍵が生成されるかは未解決の問題である。 一般の絡み合った量子状態から相対エントロピー距離を利用する量子鍵リピータレートに束縛された新規な手法を提案する。 これは M. Christandl と R. Ferrara [Phys. Rev. Lett. 119, 220506] のキーリピータ上の有界化を可能にする。 境界はより厳密ではないが、より一般的な状態のクラスである。 次に、いわゆる鍵-相関状態の繰り返し鍵は、攻撃されたバージョンの絡み合いの最大相対エントロピーの2倍、最大で1方向蒸留可能な絡み合いの2倍を超えることができることを示す。 また、汎用独立ビットのプライベートランダム性量に対する非自明な上限を提供する。

Quantum key repeater is the backbone of the future Quantum Internet. It is an open problem, for an arbitrary mixed bipartite state shared between stations of a quantum key repeater, how much of the key can be generated between its two end-nodes. We place a novel bound on quantum key repeater rate, which uses relative entropy distance from in general entangled quantum states. It allows us to generalize bound on key repeaters of M. Christandl and R. Ferrara [Phys. Rev. Lett. 119, 220506]. The bound, albeit not tighter, holds for a more general class of states. In turn, we show that the repeated key of the so called key-correlated states can exceed twice the one-way distillable entanglement at most by twice the max-relative entropy of entanglement of its attacked version. We also provide a non-trivial upper bound on the amount of private randomness of a generic independent bit.
翻訳日:2023-02-10 22:46:20 公開日:2022-06-26
# 量子暗黙の転送:簡単なレビュー

Quantum oblivious transfer: a short review ( http://arxiv.org/abs/2206.03313v2 )

ライセンス: Link先を確認
Manuel B. Santos, Paulo Mateus, Armando N. Pinto(参考訳) 量子暗号は、物質の量子的性質を研究する暗号分野である。 その目的は、古典暗号の範囲を超えてプリミティブを開発するか、既存の古典的実装を改善することである。 この分野での研究の多くは量子鍵分布(QKD)に焦点が当てられているが、量子閉塞移動(QOT)の研究と発展に向けた重要なステップがいくつか行われた。 QKDとQOTプリミティブの両方のアプリケーション構造の比較が可能である。 qkdプロトコルが量子セーフな通信を可能にするように、qotプロトコルは量子セーフな計算を可能にする。 しかし、QOTが実際に量子セーフである条件は、膨大な量の精査と研究の対象となっている。 本稿では,理論量子暗号の領域における暗黙の転送の概念に関する研究を,いくつかの提案されたプロトコルとそのセキュリティ要件に焦点をあてて調査する。 我々は,このプリミティブを克服する不可能性について検討し,qotセキュリティを証明可能ないくつかの量子セキュリティモデルについて議論する。

Quantum cryptography is the field of cryptography that explores the quantum properties of matter. Its aim is to develop primitives beyond the reach of classical cryptography or to improve on existing classical implementations. Although much of the work in this field is dedicated to quantum key distribution (QKD), some important steps were made towards the study and development of quantum oblivious transfer (QOT). It is possible to draw a comparison between the application structure of both QKD and QOT primitives. Just as QKD protocols allow quantum-safe communication, QOT protocols allow quantum-safe computation. However, the conditions under which QOT is actually quantum-safe have been subject to a great amount of scrutiny and study. In this review article, we survey the work developed around the concept of oblivious transfer in the area of theoretical quantum cryptography, with an emphasis on some proposed protocols and their security requirements. We review the impossibility results that daunt this primitive and discuss several quantum security models under which it is possible to prove QOT security.
翻訳日:2023-02-10 09:15:11 公開日:2022-06-26
# チャモン模型における創発フェルミオンゲージ理論と葉状フラクトン位

Emergent fermionic gauge theory and foliated fracton order in the Chamon model ( http://arxiv.org/abs/2206.12791v1 )

ライセンス: Link先を確認
Wilbur Shirley, Xu Liu, Arpit Dua(参考訳) チャモンモデルは、非自明なフラクトン位数を示す正確に可解なスピンハミルトンである。 この研究では、モデルの2つの異なる側面を識別する。 まず, フェルミオン準対称保護位相状態と結合した創発的なフラクタルゲージ理論を, $\mathbb{z}_2$平面対称性の4つのスタックで示している。 第二に,Chamonモデルでは,バルクシステムから4つの2次元トーリック符号を分離する絡み合い再正規化群変換を記述することで,4次元フラクトンオーダーをホストすることを示す。

The Chamon model is an exactly solvable spin Hamiltonian exhibiting nontrivial fracton order. In this work, we dissect two distinct aspects of the model. First, we show that it exhibits an emergent fractonic gauge theory coupled to a fermionic subsystem symmetry-protected topological state under four stacks of $\mathbb{Z}_2$ planar symmetries. Second, we show that the Chamon model hosts 4-foliated fracton order by describing an entanglement renormalization group transformation that exfoliates four separate stacks of 2D toric codes from the bulk system.
翻訳日:2023-02-07 23:54:30 公開日:2022-06-26
# ホン・オ・マンデル型量子相関は量子絡み合いのテストツールか?

Can Hong-Ou-Mandel type quantum correlation be a test tool for quantum entanglement? ( http://arxiv.org/abs/2206.12785v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 光子の粒子の性質に基づく量子技術は、過去数十年間、香港・ウーマンデル型反相関やベル型非局所相関によって、絡み合いの基本的な量子的特徴がテストされてきた。 単一光子の波動粒子双対性の相互排他的量子性は、謎の量子性の基礎物理学を理解するために集中的に研究されている。 ここでは,HOM型量子相関を再検討し,HOM型反相関が量子エンタングルメントのテストツールであるかどうかを問う。 このために、spdc生成光子対が絡み合っていないhom効果の反相関のために、自発的なパラメトリックダウン変換光子対がテストされている。

Quantum technologies based on the particle nature of a photon has been progressed over the last several decades, where the fundamental quantum feature of entanglement has been tested by Hong-Ou-Mandel (HOM) type anticorrelation as well as Bell-type nonlocal correlation. Mutually exclusive quantum natures of the wave-particle duality of a single photon have been intensively investigated to understand the fundamental physics of mysterious quantum nature. Here, we revisit the HOM-type quantum correlation to answer the question whether the HOM-type anticorrelation can be a test tool for quantum entanglement. For this, a pair of spontaneous parametric down converted photons is tested for the anticorrelation of HOM effects, where the SPDC-generated photon pair is not in an entangled state.
翻訳日:2023-02-07 23:54:20 公開日:2022-06-26
# 五角形の対測定面符号

A Pair Measurement Surface Code on Pentagons ( http://arxiv.org/abs/2206.12780v1 )

ライセンス: Link先を確認
Craig Gidney(参考訳) 本稿では,カイロ・ペンタゴナル・タイリングの端面に沿ってペアの測定を行う2体パリティ測定(ペア計測)に表面コードをコンパイルする方法を提案する。 この回路は、四体安定度測定(6ではなく5)あたりのペア測定を減らし、安定度測定(10ではなく6)あたりのタイムステップを減らし、Chaoらによる先行作業を改善する。 モンテカルロサンプリングを用いて、これらの改良により、対の計測値である$\approx 0.2\%$ から$\approx 0.4\%$ へのコンパイル時の表面コードのしきい値が向上し、teraquopのフットプリントが$0.1\%$の物理ゲートエラーレートで$\approx6000$ qubits から $\approx3000$ qubits に向上することを示した。 しかし、Chao氏とal氏の構成では、物理的なゲートエラー率を$\approx 0.03\%$以下に抑えるために、テラクアップのフットプリントが小さくなることも示しています。 私はまた、平面ハニカムコードと比較し、この作業が表面コードとハニカムコードの間のギャップを著しく減少させる(ペアの計測にコンパイルする場合)が、ハニカムコードは依然として効率的であることを示している(ただし、テラクロップのフットプリントは$0.1\%$で$\approx 1000$である)。

In this paper, I present a way to compile the surface code into two-body parity measurements ("pair measurements"), where the pair measurements run along the edges of a Cairo pentagonal tiling. The resulting circuit improves on prior work by Chao et al. by using fewer pair measurements per four-body stabilizer measurement (5 instead of 6) and fewer time steps per round of stabilizer measurement (6 instead of 10). Using Monte Carlo sampling, I show that these improvements increase the threshold of the surface code when compiling into pair measurements from $\approx 0.2\%$ to $\approx 0.4\%$, and also that they improve the teraquop footprint at a $0.1\%$ physical gate error rate from $\approx6000$ qubits to $\approx3000$ qubits. However, I also show that Chao et al's construction will have a smaller teraquop footprint for physical gate error rates below $\approx 0.03\%$ (due to bidirectional hook errors in my construction). I also compare to the planar honeycomb code, showing that although this work does noticeably reduce the gap between the surface code and the honeycomb code (when compiling into pair measurements), the honeycomb code is still more efficient (threshold $\approx 0.8\%$, teraquop footprint at $0.1\%$ of $\approx 1000$).
翻訳日:2023-02-07 23:54:05 公開日:2022-06-26
# 非エルミートハイブリッド系のPT対称性破壊相における高次元マグノン光子絡み合い

Tripartite high-dimensional magnon-photon entanglement in PT -symmetry broken phases of a non-Hermitian hybrid system ( http://arxiv.org/abs/2206.12769v1 )

ライセンス: Link先を確認
Jin-Xuan Han and Jin-Lei Wu1and Yan Wang and Yan Xia and Yong-Yuan Jiang and and Jie Song(参考訳) スピンアンサンブルと超伝導回路を組み合わせたハイブリッドシステムは、量子情報処理を実装するための有望なプラットフォームを提供する。 2つのキャビティと1つのキャビティに配置したイットリウム鉄ガーネット(yig)球体からなる非エルミート系マグノン循環qedハイブリッドモデルを提案する。 パラメータ空間において, 異常点 (EP) , パリティ時間 (PT) 対称性相, PT対称性破壊相について検討した。 3成分の高次元の絡み合い状態は、安定な量子コヒーレンスの存在に対応するpt対称性崩壊相におけるマグノンと光子のモード間で着実に生成することができる。 その結果、三部体の高次元絡み合い状態は、特定の初期状態に依存しないハイブリッド系の散逸に対して堅牢であり、マグノン光子結合の変動に敏感であることが示された。 さらに,等価なlcr回路を用いたハイブリッドモデルをシミュレートする。 この研究は、Magnon-circuit-QEDハイブリッドシステムにおける多次元高次元絡み合った状態を実現するための展望を提供する。

Hybrid systems that combine spin ensembles and superconducting circuits provide a promising platform for implementing quantum information processing. We propose a non-Hermitian magnoncircuit-QED hybrid model consisting of two cavities and an yttrium iron garnet (YIG) sphere placed in one of the cavities. Abundant exceptional points (EPs), parity-time (PT )-symmetry phases and PT -symmetry broken phases are investigated in the parameter space. Tripartite highdimensional entangled states can be generated steadily among modes of the magnon and photons in PT -symmetry broken phases, corresponding to which the stable quantum coherence exists. Results show that the tripartite high-dimensional entangled state is robust against the dissipation of hybrid system, independent of a certain initial state, and insensitive to the fluctuation of magnonphoton coupling. Further, we propose to simulate the hybrid model with an equivalent LCR circuit. This work may provide prospects for realizing multipartite high-dimensional entangled states in the magnon-circuit-QED hybrid system.
翻訳日:2023-02-07 23:53:31 公開日:2022-06-26
# 量子コンピュータによるスピン相関の計算

Calculating spin correlations with a quantum computer ( http://arxiv.org/abs/2206.14584v1 )

ライセンス: Link先を確認
Jed Brody and Gavin Guzman(参考訳) オンラインでアクセスしたIBM量子プロセッサを用いてスピン相関関数を計算する。 我々は、一重項状態の回転不変性、三重項状態の興味深い性質、および三重項量子ビット状態の驚くべき特徴を示す。 このエクササイズは、遠隔学習に最適であり、現地の研究室では調査できない実際の量子力学システムを用いてデータを生成する。 学生は、多成分スピン相関関数の計算、量子回路の設計と解析、実際の量子プロセッサによるリモート計測など、幅広いスキルを学ぶ。

We calculate spin correlation functions using IBM quantum processors, accessed online. We demonstrate the rotational invariance of the singlet state, interesting properties of the triplet states, and surprising features of a state of three entangled qubits. This exercise is ideal for remote learning and generates data with real quantum mechanical systems that are impractical to investigate in the local laboratory. Students learn a wide variety of skills, including calculation of multipartite spin correlation functions, design and analysis of quantum circuits, and remote measurement with real quantum processors.
翻訳日:2023-02-07 23:49:10 公開日:2022-06-26
# リモート量子プロセッサによるベルの不等式試験

Testing a Bell Inequality with a Remote Quantum Processor ( http://arxiv.org/abs/2206.13945v1 )

ライセンス: Link先を確認
Jed Brody and Robert Avram(参考訳) IBM Quantumは、実際の量子プロセッサへの無料のリモートアクセスを提供する。 現在すべての学生が利用できる多くの実験の1つはベルの不等式のテストである。 この実験は、物理学者が1世紀もつながった厳格な謎を紹介します。 IBM Quantumを使ってベルの不等式をテストするのは、新しいことではない。 しかし,1)ベルの不等式の導出,(2)対応する量子予測の導出,(3)IBM Quantumによる実験実施の指示を含む,導入学生に適した単一の参照を意識していない。

IBM Quantum offers free remote access to real quantum processors. One of the many experiments now accessible to all students is a test of Bell inequalities. This experiment introduces the rigorous mysteries that physicists have grappled with for a century. Using IBM Quantum to test Bell inequalities is not new. However, we are unaware of any single reference, appropriate for introductory students, that contains (1) the derivation of a Bell inequality, (2) the derivation of the corresponding quantum prediction, and (3) instructions for carrying out the experiment with IBM Quantum.
翻訳日:2023-02-07 23:49:02 公開日:2022-06-26
# 捕捉イオンの振動モードにおけるラムゼー干渉法による因果非線形量子力学の検証

Test of Causal Non-Linear Quantum Mechanics by Ramsey Interferometry on the Vibrational Mode of a Trapped Ion ( http://arxiv.org/abs/2206.12976v1 )

ライセンス: Link先を確認
Joseph Broz, Bingran You, Sumanta Khan, Hartmut Haeffner, David E. Kaplan, Surjeet Rajendran(参考訳) Kaplan と Rajendran は最近、量子力学において因果非線型時間進化をもたらすために、非線型項と状態依存項が連続的に量子場理論に追加できることを実証した。 因果非線形理論は、それらの量子効果が系の量子状態の完全な物理的拡散に劇的に敏感であるという不可避な特徴を持っている。 その結果、これらの理論は従来の原子及び原子核分光法では十分に検証されていない。 調和ポテンシャルに閉じ込められた$^{40}$Ca$^+$イオンの振動モードのよく制御された重ね合わせを用いることで、予測された因果的非線型摂動に対して、単位のスケーリング係数$\tilde{\epsilon}_{\gamma}$の大きさに5.4\times 10^{-12}$の拘束限界を設定する。

Kaplan and Rajendran have recently demonstrated that non-linear and state-dependent terms can be consistently added to quantum field theory to yield causal non-linear time evolution in quantum mechanics. Causal non-linear theories have the unavoidable feature that their quantum effects are dramatically sensitive to the full physical spread of the quantum state of the system. As a result, such theories are not well tested by conventional atomic and nuclear spectroscopy. By using a well-controlled superposition of vibrational modes of a $^{40}$Ca$^+$ ion trapped in a harmonic potential, we set a stringent limit of $5.4\times 10^{-12}$ on the magnitude of the unitless scaling factor $\tilde{\epsilon}_{\gamma}$ for the predicted causal, non-linear perturbation.
翻訳日:2023-02-07 23:48:54 公開日:2022-06-26
# リアルタイム実行によるハイブリッド量子古典計算の進歩

Advancing Hybrid Quantum-Classical Computation with Real-Time Execution ( http://arxiv.org/abs/2206.12950v1 )

ライセンス: Link先を確認
Thomas Lubinski, Cassandra Granade, Amos Anderson, Alan Geller, Martin Roetteler, Andrei Petrenko, Bettina Heim(参考訳) 量子プログラムにおける中間回路計測と量子ビットリセットの利用が最近紹介され、これらの測定に基づいて条件分岐を行ういくつかの応用が示されている。 そこで本研究では,量子プログラムに埋め込まれた古典計算の次世代実装について述べるとともに,量子ビットの中間回路状態に基づくプログラム変数のリアルタイム計算と調整を可能にする。 完全機能量子中間表現(qir)モデルは、その埋め込み古典計算を含む量子回路を記述するために用いられる。 この統合アプローチは、複数の解経路を探索するために、潜在的に禁止される量の古典的データを量子プログラム内で評価し保存する必要性をなくす。 これは、外部の古典的ドライバプログラムと量子プログラムの実行の間のラウンドトリップを少なくする新しいタイプの量子アルゴリズムを可能にし、量子プログラム実行のコヒーレンス時間で古典的な計算を行うことができるため、計算遅延を大幅に削減する。 我々は、これらの課題に対処する開発とともに、このアプローチを実装するための実践的な課題をレビューする。 この新しい強力な量子プログラミングパターンの実装であるランダムウォーク位相推定アルゴリズムが、既存の量子コンピューティング手法と比較してその利点と実現可能性を分析した物理量子コンピュータ上で実証されている。

The use of mid-circuit measurement and qubit reset within quantum programs has been introduced recently and several applications demonstrated that perform conditional branching based on these measurements. In this work, we go a step further and describe a next-generation implementation of classical computation embedded within quantum programs that enables the real-time calculation and adjustment of program variables based on the mid-circuit state of measured qubits. A full-featured Quantum Intermediate Representation (QIR) model is used to describe the quantum circuit including its embedded classical computation. This integrated approach eliminates the need to evaluate and store a potentially prohibitive volume of classical data within the quantum program in order to explore multiple solution paths. It enables a new type of quantum algorithm that requires fewer round-trips between an external classical driver program and the execution of the quantum program, significantly reducing computational latency, as much of the classical computation can be performed during the coherence time of quantum program execution. We review practical challenges to implementing this approach along with developments underway to address these challenges. An implementation of this novel and powerful quantum programming pattern, a random walk phase estimation algorithm, is demonstrated on a physical quantum computer with an analysis of its benefits and feasibility as compared to existing quantum computing methods.
翻訳日:2023-02-07 23:48:33 公開日:2022-06-26
# 対称3量子交絡状態の実験的構築とそのNMR量子シミュレータにおけるベル不等式違反試験への応用

Experimental construction of a symmetric three-qubit entangled state and its utility in testing the violation of a Bell inequality on an NMR quantum simulator ( http://arxiv.org/abs/2206.12870v1 )

ライセンス: Link先を確認
Dileep Singh and Vaishali Gulati and Arvind and Kavita Dorai(参考訳) 我々は,$\vert {\rm s} \rangle$ 状態と呼ばれる置換対称の最大絡み合った3量子ビット状態を作成し,nmr量子プロセッサ上で実験的に生成する量子回路を設計した。 州内における絡み合いの存在は、2つの異なる絡み合い、すなわち負性と共起性を計算することで証明された。 我々は、Sliwaの分類スキームにおいて、最大不整合な局所測定値のセットと合わせて$\vert {\rm S} \rangle$状態を使用し、これはベルの不等式である3,2,2)シナリオの厳密な不等式である2つの測定設定と2つの測定結果シナリオの最大不等式を証明した。

We designed a quantum circuit to prepare a permutation-symmetric maximally entangled three-qubit state called the $\vert {\rm S} \rangle$ state and experimentally created it on an NMR quantum processor. The presence of entanglement in the state was certified by computing two different entanglement measures, namely negativity and concurrence. We used the $\vert {\rm S} \rangle$ state in conjunction with a set of maximally incompatible local measurements, to demonstrate the maximal violation of inequality number $26$ in Sliwa's classification scheme, which is a tight Bell inequality for the (3,2,2) scenario i.e. the three party, two measurement settings and two measurement outcomes scenario.
翻訳日:2023-02-07 23:47:12 公開日:2022-06-26
# 1つの粒子が古典的になったら、多粒子絡みはどうなるのか?

What happens to multiparticle entanglement if one particle becomes classical? ( http://arxiv.org/abs/2206.12834v1 )

ライセンス: Link先を確認
Zhen-Peng Xu, Satoya Imai, Otfried G\"uhne(参考訳) 多粒子の絡み合いは様々な情報処理タスクに有用な資源であるが、デコヒーレンスや粒子損失の影響を受けにくい。 我々は、多粒子量子系における1つの粒子が古典的となり、この粒子は測定によって破壊されるが、得られる情報と新たなレジスタにエンコードされるというシナリオを考える。 我々は、この残りの情報を用いて、グローバル量子資源の変化を研究する。 まず, 古典化下での絡み合いの変化を解析するために, 数値計算を単純化する。 第2に、エンタングルメント変化の一般的な上限と下限を提供する。 第三に、1量子ビットの古典化による絡み合いの変化は、それでも任意に大きいことを示す。 最後に、任意の測定が可能な古典化の下で絡み合いが残らない場合について論じる。

Multiparticle entanglement is a valuable resource for various information processing tasks, but it is fragile under the influence of decoherence or particle loss. We consider the scenario that one particle in a multiparticle quantum system becomes classical, in the sense that this particle is destructed by a measurement, but the gained information and encoded in a new register. We utilize this remaining information to study the change of the global quantum resource. We first simplify the numerical calculation to analyze the change of entanglement under classicalization in special cases. Second, we provide general upper and lower bounds of the entanglement change. Third, we show that the entanglement change caused only by classicalization of one qubit can still be arbitrarily large. Finally, we discuss cases, where no entanglement is left under classicalization for any possible measurement.
翻訳日:2023-02-07 23:46:52 公開日:2022-06-26
# 非凸最適化のためのメタラーニングに基づく交代最小化アルゴリズム

Meta-learning based Alternating Minimization Algorithm for Non-convex Optimization ( http://arxiv.org/abs/2009.04899v7 )

ライセンス: Link先を確認
Jingyuan Xia, Shengxi Li, Jun-Jie Huang, Imad Jaimoukha and Deniz Gunduz(参考訳) 本稿では,複数変数の非凸問題に対する新しい解法を提案する。特に,元の最適化問題を各変数に対応する一連の部分問題に分割する交互最小化 (am) 戦略によって解決される問題に対して,固定更新規則を用いて各部分問題を反復的に最適化する手法を提案する。 しかし、元の最適化問題の本質的非凸性のため、各イテレーションで各サブプロブレムを最適に解くことができる場合でも、最適化は通常スプリアス局所最小に捕捉される。 一方、深い展開アルゴリズムのような学習ベースのアプローチは、ラベル付きデータの欠如と説明可能性の制限によって非常に制限されている。 これらの課題に対処するために,メタラーニングに基づく交代最小化(MLAM)手法を提案する。これは,各サブプロブレムに最小化を行う代わりに,イテレーションに対するグローバルな損失の一部を最小化することを目的としており,手作りのものを置き換える適応戦略を学ぶ傾向があり,性能が向上する。 一方、提案されたmlamは元のアルゴリズム原理を維持しており、より良い解釈に寄与している。 本稿では,行列補完問題と非線形問題,ガウス混合モデルという2つの代表的な問題について,提案手法の評価を行った。 実験結果は,提案手法が標準設定でam法を上回っており,他の比較手法が一般的に失敗する場合に効果的な最適化を実現することができることを検証した。

In this paper, we propose a novel solution for non-convex problems of multiple variables, especially for those typically solved by an alternating minimization (AM) strategy that splits the original optimization problem into a set of sub-problems corresponding to each variable, and then iteratively optimize each sub-problem using a fixed updating rule. However, due to the intrinsic non-convexity of the original optimization problem, the optimization can usually be trapped into spurious local minimum even when each sub-problem can be optimally solved at each iteration. Meanwhile, learning-based approaches, such as deep unfolding algorithms, are highly limited by the lack of labelled data and restricted explainability. To tackle these issues, we propose a meta-learning based alternating minimization (MLAM) method, which aims to minimize a partial of the global losses over iterations instead of carrying minimization on each sub-problem, and it tends to learn an adaptive strategy to replace the handcrafted counterpart resulting in advance on superior performance. Meanwhile, the proposed MLAM still maintains the original algorithmic principle, which contributes to a better interpretability. We evaluate the proposed method on two representative problems, namely, bi-linear inverse problem: matrix completion, and non-linear problem: Gaussian mixture models. The experimental results validate that our proposed approach outperforms AM-based methods in standard settings, and is able to achieve effective optimization in challenging cases while other comparing methods would typically fail.
翻訳日:2022-10-20 09:14:41 公開日:2022-06-26
# wasserstein $k$-nn分類器の普遍的一貫性:負と正の結果

Universal consistency of Wasserstein $k$-NN classifier: Negative and Positive Results ( http://arxiv.org/abs/2009.04651v4 )

ライセンス: Link先を確認
Donlapark Ponnoprat(参考訳) ワッサーシュタイン距離は確率測度間の相似性の概念を提供し、近年は画像や文書など様々な大きさの構造化データの学習に応用されている。 本研究では、ワッサーシュタイン距離の下での確率測度の$k$-nearest neighbor classifier(k$-NN)について検討する。 k$-NN分類器は$(0,1)$でサポートされている測度空間に普遍的に一貫しないことを示す。 任意のユークリッド球は$(0,1)$のコピーを含むので、基底距離空間やワッサーシュタイン空間自体に何らかの制限がなければ普遍整合が得られることを期待してはならない。 この目的のために、$\sigma$-finite 計量次元の概念を通じて、$k$-NN 分類器は、$\sigma$-uniformly discrete set で支えられる測度の空間に普遍的に一貫していることを示す。 さらに、ワッサーシュタイン空間の測地構造を$p=1$と$p=2$で調べることで、$k$-NN分類器は有限集合上の測度空間、ガウス測度の空間、有限ウェーブレット級数として表される密度のある測度空間に普遍的に一貫したものであることを示す。

The Wasserstein distance provides a notion of dissimilarities between probability measures, which has recent applications in learning of structured data with varying size such as images and text documents. In this work, we study the $k$-nearest neighbor classifier ($k$-NN) of probability measures under the Wasserstein distance. We show that the $k$-NN classifier is not universally consistent on the space of measures supported in $(0,1)$. As any Euclidean ball contains a copy of $(0,1)$, one should not expect to obtain universal consistency without some restriction on the base metric space, or the Wasserstein space itself. To this end, via the notion of $\sigma$-finite metric dimension, we show that the $k$-NN classifier is universally consistent on spaces of measures supported in a $\sigma$-uniformly discrete set. In addition, by studying the geodesic structures of the Wasserstein spaces for $p=1$ and $p=2$, we show that the $k$-NN classifier is universally consistent on the space of measures supported on a finite set, the space of Gaussian measures, and the space of measures with densities expressed as finite wavelet series.
翻訳日:2022-10-20 02:59:52 公開日:2022-06-26
# ビジネスのためのAIガバナンス

AI Governance for Businesses ( http://arxiv.org/abs/2011.10672v2 )

ライセンス: Link先を確認
Johannes Schneider and Rene Abraham and Christian Meske and Jan vom Brocke(参考訳) 人工知能(AI)ガバナンスは、AIの管理に関する権限と統制の行使を規制する。 データを有効に活用し、AI関連のコストとリスクを最小限にすることでAIを活用することを目指している。 AIガバナンスやAI倫理といったトピックは、理論的、哲学的、社会的、規制的なレベルで徹底的に議論されているが、企業や企業を対象としたAIガバナンスについては限定的な研究がある。 この作業では、AIプロダクトをシステムとみなし、機械学習(ML)モデルによって(トレーニング)データを活用する重要な機能が提供される。 我々は、AIやMLなどの関連分野に関する文献を合成することで、概念的な枠組みを導出する。 我々のフレームワークは、AIガバナンスを4次元に沿ってデータガバナンス、(ML)モデル、(AI)システムに分解します。 既存のITおよびデータガバナンスのフレームワークやプラクティスに関連しています。 実践家や学者にも適用できる。 実践者にとって、主に研究論文を合成するだけでなく、規制機関の出版物や出版物もaiガバナンスを実装する上で重要な出発点となる。

Artificial Intelligence (AI) governance regulates the exercise of authority and control over the management of AI. It aims at leveraging AI through effective use of data and minimization of AI-related cost and risk. While topics such as AI governance and AI ethics are thoroughly discussed on a theoretical, philosophical, societal and regulatory level, there is limited work on AI governance targeted to companies and corporations. This work views AI products as systems, where key functionality is delivered by machine learning (ML) models leveraging (training) data. We derive a conceptual framework by synthesizing literature on AI and related fields such as ML. Our framework decomposes AI governance into governance of data, (ML) models and (AI) systems along four dimensions. It relates to existing IT and data governance frameworks and practices. It can be adopted by practitioners and academics alike. For practitioners the synthesis of mainly research papers, but also practitioner publications and publications of regulatory bodies provides a valuable starting point to implement AI governance, while for academics the paper highlights a number of areas of AI governance that deserve more attention.
翻訳日:2022-09-23 05:59:17 公開日:2022-06-26
# ゼロショット学習のためのPrototypeal Logic Tensor Networks (PROTO-LTN)

PROTOtypical Logic Tensor Networks (PROTO-LTN) for Zero Shot Learning ( http://arxiv.org/abs/2207.00433v1 )

ライセンス: Link先を確認
Simone Martone, Francesco Manigrasso, Lamberti Fabrizio, Lia Morra(参考訳) 意味論的画像解釈は、サブシンボリックな分散表現学習と高度な抽象レベルでの推論能力を組み合わせたアプローチの恩恵を受けることができる。 論理テンソルネットワーク(英: logic tensor networks、ltns)は、深層ニューラルネットワークを基盤とする、微分可能な一階述語論理に基づくニューロシンボリックシステムの一種である。 LTNは古典的なトレーニングセットの概念をファジィ論理公理の知識ベースに置き換える。 接続、述語、関数、量子化器の役割を近似するために微分可能作用素の集合を定義することにより、LTNが知識ベースを満たすことを学べるように損失関数が自動的に指定される。 ここでは、ほとんどのセマンティックイメージ解釈タスクをエンコードする基本となる、subsumption または \texttt{isOfClass} 述語に焦点を当てる。 各クラス(例えば、犬、猫)の個別の述語に依存する従来のltnとは異なり、各クラスは学習可能な重みのセットを持ち、真理のレベルがオブジェクト埋め込みと対応するクラスプロトタイプの間の距離の関数である共通の \texttt{isofclass}述語を提案する。 Prototypeal Logic Tensor Networks (PROTO-LTN) は、抽象概念をパラメータ化されたクラスプロトタイプとして高次元埋め込み空間において基底化し、知識ベースを基底化するために必要なパラメータの数を減らし、現在の定式化を拡張している。 このアーキテクチャが、少数かつゼロショットの学習シナリオで効果的にトレーニングできることを示します。 汎用ゼロショット学習ベンチマークの実験は、従来の埋め込みベースのアプローチに対抗して提案された実装を検証する。 ltn形式は、ラベル付き例の欠如を補うために、論理公理の形で背景知識を統合することができる。

Semantic image interpretation can vastly benefit from approaches that combine sub-symbolic distributed representation learning with the capability to reason at a higher level of abstraction. Logic Tensor Networks (LTNs) are a class of neuro-symbolic systems based on a differentiable, first-order logic grounded into a deep neural network. LTNs replace the classical concept of training set with a knowledge base of fuzzy logical axioms. By defining a set of differentiable operators to approximate the role of connectives, predicates, functions and quantifiers, a loss function is automatically specified so that LTNs can learn to satisfy the knowledge base. We focus here on the subsumption or \texttt{isOfClass} predicate, which is fundamental to encode most semantic image interpretation tasks. Unlike conventional LTNs, which rely on a separate predicate for each class (e.g., dog, cat), each with its own set of learnable weights, we propose a common \texttt{isOfClass} predicate, whose level of truth is a function of the distance between an object embedding and the corresponding class prototype. The PROTOtypical Logic Tensor Networks (PROTO-LTN) extend the current formulation by grounding abstract concepts as parametrized class prototypes in a high-dimensional embedding space, while reducing the number of parameters required to ground the knowledge base. We show how this architecture can be effectively trained in the few and zero-shot learning scenarios. Experiments on Generalized Zero Shot Learning benchmarks validate the proposed implementation as a competitive alternative to traditional embedding-based approaches. The proposed formulation opens up new opportunities in zero shot learning settings, as the LTN formalism allows to integrate background knowledge in the form of logical axioms to compensate for the lack of labelled examples.
翻訳日:2022-07-10 11:39:42 公開日:2022-06-26
# (参考訳) ベンチマークベイズアンによる機械学習手法に対する苗字ジオコーディングの改善

Benchmarking Bayesian Improved Surname Geocoding Against Machine Learning Methods ( http://arxiv.org/abs/2206.14583v1 )

ライセンス: CC BY 4.0
Ari Decter-Frain(参考訳) Bayesian Improved Surname Geocoding (BISG)は、投票者登録ファイルの人種/民族をプロキシする最も一般的な方法である。 本稿では、カリフォルニア、フロリダ、ノースカロライナ、ジョージアからの自己報告された人種/民族の投票者ファイルを用いて、BISGを、これまでテストされていなかった機械学習代替案に対してベンチマークする。 この分析は3つの重要な発見をもたらす。 まず、全く同じ入力を与えられた場合、BISGと機械学習も同様に、総合的な人種/民族構成を推定する。 第二に、機械学習は人種・民族の個別分類においてBISGを上回っている。 第三に、全ての方法のパフォーマンスは州によって大きく異なる。 これらの結果は,事前学習した機械学習モデルが個々の分類においてbisgよりも好ましいことを示唆する。 さらに、地区レベルと州全体での混合の結果は、研究者が興味のある集団において、選択された人種/民族のプロキシを実証的に検証する必要性を強調している。

Bayesian Improved Surname Geocoding (BISG) is the most popular method for proxying race/ethnicity in voter registration files that do not contain it. This paper benchmarks BISG against a range of previously untested machine learning alternatives, using voter files with self-reported race/ethnicity from California, Florida, North Carolina, and Georgia. This analysis yields three key findings. First, when given the exact same inputs, BISG and machine learning perform similarly for estimating aggregate racial/ethnic composition. Second, machine learning outperforms BISG at individual classification of race/ethnicity. Third, the performance of all methods varies substantially across states. These results suggest that pre-trained machine learning models are preferable to BISG for individual classification. Furthermore, mixed results at the precinct level and across states underscore the need for researchers to empirically validate their chosen race/ethnicity proxy in their populations of interest.
翻訳日:2022-07-03 02:02:27 公開日:2022-06-26
# パーソナライズドニュースレコメンデーションのための2段階ニューラルコンテキストバンディット

Two-Stage Neural Contextual Bandits for Personalised News Recommendation ( http://arxiv.org/abs/2206.14648v1 )

ライセンス: Link先を確認
Mengyan Zhang, Thanh Nguyen-Tang, Fangzhao Wu, Zhenyu He, Xing Xie, Cheng Soon Ong(参考訳) 我々は、各ユーザーが連続的にニュースを消費するパーソナライズされたニュースレコメンデーションの問題を考える。 既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視し、バイアスのあるフィードバックループを導き、長期的なレコメンデーション品質を損なう。 我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。 主な課題は、大規模アイテム空間を探索し、不確実性のある深層表現を利用するための計算効率である。 本稿では,ニュース項目が多い場合にユーザの好みを効率的に学習する2段階の階層型トピックニューズディープコンテキストブレイトフレームワークを提案する。 我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。 大規模ニュースレコメンデーションデータセットにおける実証結果から,提案するポリシが効率的で,ベースラインのバンディットポリシを上回っています。

We consider the problem of personalised news recommendation where each user consumes news in a sequential fashion. Existing personalised news recommendation methods focus on exploiting user interests and ignores exploration in recommendation, which leads to biased feedback loops and hurt recommendation quality in the long term. We build on contextual bandits recommendation strategies which naturally address the exploitation-exploration trade-off. The main challenges are the computational efficiency for exploring the large-scale item space and utilising the deep representations with uncertainty. We propose a two-stage hierarchical topic-news deep contextual bandits framework to efficiently learn user preferences when there are many news items. We use deep learning representations for users and news, and generalise the neural upper confidence bound (UCB) policies to generalised additive UCB and bilinear UCB. Empirical results on a large-scale news recommendation dataset show that our proposed policies are efficient and outperform the baseline bandit policies.
翻訳日:2022-06-30 20:58:35 公開日:2022-06-26
# 強化学習を伴う集中治療室における輸血の必要性予測

Predicting the Need for Blood Transfusion in Intensive Care Units with Reinforcement Learning ( http://arxiv.org/abs/2206.14198v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao and Linda Petzold(参考訳) 重症の患者は貧血や凝固症を発症することが多いため、血液の輸血はICU(Intensive Care Units)に頻繁に介入される。 しかし、医師による不適切な輸血決定は、合併症のリスクの増加や病院の費用の増加と関連していることが多い。 本研究では,3つの血液産物(赤血球,血小板,凍結血漿)の輸血決定に利用可能な患者情報を用いた意思決定支援ツールを開発することを目的とする。 この目的のために,オフ・ポリティクス・バッチ強化学習(rl)アルゴリズム,すなわち離散化されたバッチ制約付きq-learningを採用し,観察された患者軌跡に対する最善の行動(輸血の有無)を決定する。 同時に,政策学習への影響を評価するために,異なる状態表現アプローチと報酬設計機構を検討する。 MIMIC-IIIとUCSFの2つの実世界のクリティカルケアデータセットで実験が行われた。 その結果,MIMIC-IIIデータセットの精度と重み付けされた重要度サンプリング評価により,輸血に関する政策勧告が真の病院方針に匹敵する一致を示した。 さらに、データスカースUCSFデータセット上のトランスファーラーニング(TL)とRLの組み合わせは、精度で最大17.02%の改善と、3つの輸液タスクで平均された重み付けされた重要度によるジャンプスタートおよび漸近性能の18.94%と21.63%の改善を提供することができる。 最後に、輸血決定に関するシミュレーションでは、移植されたRLポリシーは患者の28日間の死亡率を2.74%減らし、UCSFデータセットでは1.18%減らすことが示唆されている。

As critically ill patients frequently develop anemia or coagulopathy, transfusion of blood products is a frequent intervention in the Intensive Care Units (ICU). However, inappropriate transfusion decisions made by physicians are often associated with increased risk of complications and higher hospital costs. In this work, we aim to develop a decision support tool that uses available patient information for transfusion decision-making on three common blood products (red blood cells, platelets, and fresh frozen plasma). To this end, we adopt an off-policy batch reinforcement learning (RL) algorithm, namely, discretized Batch Constrained Q-learning, to determine the best action (transfusion or not) given observed patient trajectories. Simultaneously, we consider different state representation approaches and reward design mechanisms to evaluate their impacts on policy learning. Experiments are conducted on two real-world critical care datasets: the MIMIC-III and the UCSF. Results demonstrate that policy recommendations on transfusion achieved comparable matching against true hospital policies via accuracy and weighted importance sampling evaluations on the MIMIC-III dataset. Furthermore, a combination of transfer learning (TL) and RL on the data-scarce UCSF dataset can provide up to $17.02% improvement in terms of accuracy, and up to 18.94% and 21.63% improvement in jump-start and asymptotic performance in terms of weighted importance sampling averaged over three transfusion tasks. Finally, simulations on transfusion decisions suggest that the transferred RL policy could reduce patients' estimated 28-day mortality rate by 2.74% and decreased acuity rate by 1.18% on the UCSF dataset.
翻訳日:2022-06-30 19:43:43 公開日:2022-06-26
# 構造エントロピー誘導グラフ階層プーリング

Structural Entropy Guided Graph Hierarchical Pooling ( http://arxiv.org/abs/2206.13510v1 )

ライセンス: Link先を確認
Junran Wu, Xueyuan Chen, Ke Xu, Shangzhe Li(参考訳) 非ユークリッド空間上の畳み込みの成功に続いて、対応するプーリングアプローチもグラフに関する様々なタスクで検証されている。 しかし,固定圧縮クオータとステップワイズプーリング設計により,これらの階層プーリング手法は局所的な構造損傷や準最適問題に苦しんでいる。 構造エントロピーに触発された本研究では,2つの問題に対処するための階層型プール手法であるSEPを提案する。 具体的には、層固有の圧縮クォータを割り当てることなく、クラスタ割り当て行列を一度に生成するグローバル最適化アルゴリズムを設計する。 次に,リンググラフとグリッドグラフの再構成における従来の手法による局所構造損傷の例を示す。 SEPに加えて、グラフ分類のためのSEP-GとSEP-Nという2つの分類モデルも設計する。 その結果,sepはグラフ分類ベンチマークにおいて最先端グラフプーリング法を上回り,ノード分類において優れた性能を得た。

Following the success of convolution on non-Euclidean space, the corresponding pooling approaches have also been validated on various tasks regarding graphs. However, because of the fixed compression quota and stepwise pooling design, these hierarchical pooling methods still suffer from local structure damage and suboptimal problem. In this work, inspired by structural entropy, we propose a hierarchical pooling approach, SEP, to tackle the two issues. Specifically, without assigning the layer-specific compression quota, a global optimization algorithm is designed to generate the cluster assignment matrices for pooling at once. Then, we present an illustration of the local structure damage from previous methods in the reconstruction of ring and grid synthetic graphs. In addition to SEP, we further design two classification models, SEP-G and SEP-N for graph classification and node classification, respectively. The results show that SEP outperforms state-of-the-art graph pooling methods on graph classification benchmarks and obtains superior performance on node classifications.
翻訳日:2022-06-29 13:30:54 公開日:2022-06-26
# (参考訳) 時空間データマイニングに関する調査

Spatiotemporal Data Mining: A Survey ( http://arxiv.org/abs/2206.12753v1 )

ライセンス: CC BY 4.0
Arun Sharma, Zhe Jiang and Shashi Shekhar(参考訳) 時空間データマイニングは、大きな時空間データと時空間データの興味深い、有用だが非自明なパターンを見つけることを目的としている。 これらは公共の安全、生態学、疫学、地球科学など様々な応用領域で使われている。 この問題は、スプリアスパターンの社会的コストが高く、計算コストが極端に高いため、難しい。 急激な成長に伴う時空間データマイニングの最近の調査は更新が必要である。 さらに、時空間データマイニングのための並列手法を十分に調査しなかった。 本稿では,時空間データマイニング手法に関する最新の調査を行う。 さらに、時空間データマイニングの並列定式化に関する詳細な調査も行っている。

Spatiotemporal data mining aims to discover interesting, useful but non-trivial patterns in big spatial and spatiotemporal data. They are used in various application domains such as public safety, ecology, epidemiology, earth science, etc. This problem is challenging because of the high societal cost of spurious patterns and exorbitant computational cost. Recent surveys of spatiotemporal data mining need update due to rapid growth. In addition, they did not adequately survey parallel techniques for spatiotemporal data mining. This paper provides a more up-to-date survey of spatiotemporal data mining methods. Furthermore, it has a detailed survey of parallel formulations of spatiotemporal data mining.
翻訳日:2022-06-29 11:15:10 公開日:2022-06-26
# (参考訳) 人工知能を用いたマルウェアの検出と予防

Malware Detection and Prevention using Artificial Intelligence Techniques ( http://arxiv.org/abs/2206.12770v1 )

ライセンス: CC BY 4.0
Md Jobair Hossain Faruk, Hossain Shahriar, Maria Valero, Farhat Lamia Barsha, Shahriar Sobhan, Md Abdullah Khan, Michael Whitman, Alfredo Cuzzocreak, Dan Lo, Akond Rahman, Fan Wu(参考訳) 技術の急速な進歩により、コンピュータシステムと利害関係者の両方のセキュリティと安全性に深刻な脅威をもたらすマルウェア活動の増加により、セキュリティは主要な問題となっている。 利害関係者、特にエンドユーザのセキュリティを維持するため、不正な努力からデータを保護することは、最も差し迫った懸念の1つです。 悪意のあるプログラミングコード、スクリプト、アクティブコンテンツ、または意図されたコンピュータシステムやプログラムやモバイルおよびWebアプリケーションを破壊するように設計された侵入的ソフトウェアをマルウェアと呼ぶ。 ある調査によると、ナイーブユーザーは悪質なアプリケーションと良質なアプリケーションを区別できない。 したがって、コンピュータシステムとモバイルアプリケーションは、利害関係者を保護するために悪意のある活動を検出するように設計されるべきである。 人工知能、機械学習、ディープラーニングといった新しい概念を利用して、マルウェアのアクティビティを検出する多くのアルゴリズムが利用可能である。 本研究では,ai(artificial intelligence)ベースのマルウェア活動の検出と防止手法を強調する。 本報告では,現在のマルウェア検出技術,その欠点,効率向上方法について概説する。 本研究は,マルウェア検出アプリケーションの開発に未来的アプローチを適用することが大きな利点となることを示す。 この合成の理解は、AIを用いたマルウェアの検出と予防のさらなる研究に役立つだろう。

With the rapid technological advancement, security has become a major issue due to the increase in malware activity that poses a serious threat to the security and safety of both computer systems and stakeholders. To maintain stakeholders, particularly, end users security, protecting the data from fraudulent efforts is one of the most pressing concerns. A set of malicious programming code, scripts, active content, or intrusive software that is designed to destroy intended computer systems and programs or mobile and web applications is referred to as malware. According to a study, naive users are unable to distinguish between malicious and benign applications. Thus, computer systems and mobile applications should be designed to detect malicious activities towards protecting the stakeholders. A number of algorithms are available to detect malware activities by utilizing novel concepts including Artificial Intelligence, Machine Learning, and Deep Learning. In this study, we emphasize Artificial Intelligence (AI) based techniques for detecting and preventing malware activity. We present a detailed review of current malware detection technologies, their shortcomings, and ways to improve efficiency. Our study shows that adopting futuristic approaches for the development of malware detection applications shall provide significant advantages. The comprehension of this synthesis shall help researchers for further research on malware detection and prevention using AI.
翻訳日:2022-06-29 11:00:18 公開日:2022-06-26
# (参考訳) CTMQ: 複数の量子化ステップを持つ畳み込みニューラルネットワークのサイクルトレーニング

CTMQ: Cyclic Training of Convolutional Neural Networks with Multiple Quantization Steps ( http://arxiv.org/abs/2206.12794v1 )

ライセンス: CC BY 4.0
HyunJin Kim, Jungwoo Shin, Alberto A. Del Barrio(参考訳) 本稿では,低ビット量子化畳み込みニューラルネットワーク(cnns)の性能向上を実現するために,複数の巡回訓練を有するトレーニング手法を提案する。 量子化は、低分解能量子化における劣化性能を克服するために、事前訓練されたモデルによる初期化が広く用いられている軽量CNNを得るための一般的な方法である。 しかし、実値と低ビット量子化値の間の大きな量子化誤差は、複雑なネットワークや大規模データセットで許容できる性能を達成するのに困難をもたらす。 提案手法は,複数の量子化ステップにおいて,事前学習したモデルの知識を低ビット量子化モデルにソフトに供給する。 各量子化ステップでは、モデルのトレーニングされた重みを用いて次のモデルの重みを量子化ビット深さを1に減らして初期化する。 量子化ビット深さの小さな変更により、性能ギャップをブリッジできるため、より優れた初期化が可能になる。 繰り返し訓練では、低ビット量子化モデルを訓練した後、トレーニングされた重みはトレーニングされる正確なモデルの初期化に使用される。 提案手法は,精度の高いモデルの訓練能力を反復的に活用することにより,各サイクルにおける低ビット量子化モデルの強化された重み付けを実現できる。 特に、トレーニング方法は、ImageNetデータセット上の2項化されたResNet-18のTop-1とTop-5の精度をそれぞれ5.80%と6.85%向上させることができる。

This paper proposes a training method having multiple cyclic training for achieving enhanced performance in low-bit quantized convolutional neural networks (CNNs). Quantization is a popular method for obtaining lightweight CNNs, where the initialization with a pretrained model is widely used to overcome degraded performance in low-resolution quantization. However, large quantization errors between real values and their low-bit quantized ones cause difficulties in achieving acceptable performance for complex networks and large datasets. The proposed training method softly delivers the knowledge of pretrained models to low-bit quantized models in multiple quantization steps. In each quantization step, the trained weights of a model are used to initialize the weights of the next model with the quantization bit depth reduced by one. With small change of the quantization bit depth, the performance gap can be bridged, thus providing better weight initialization. In cyclic training, after training a low-bit quantized model, its trained weights are used in the initialization of its accurate model to be trained. By using better training ability of the accurate model in an iterative manner, the proposed method can produce enhanced trained weights for the low-bit quantized model in each cycle. Notably, the training method can advance Top-1 and Top-5 accuracies of the binarized ResNet-18 on the ImageNet dataset by 5.80% and 6.85%, respectively.
翻訳日:2022-06-29 10:45:58 公開日:2022-06-26
# (参考訳) 公平整合性正規化による分布シフト下での公平性伝達

Transferring Fairness under Distribution Shifts via Fair Consistency Regularization ( http://arxiv.org/abs/2206.12796v1 )

ライセンス: CC BY 4.0
Bang An, Zora Che, Mucong Ding, Furong Huang(参考訳) ハイテイクタスクにおけるMLモデルへの依存度の増加は、フェアネス違反に対する大きな懸念を引き起こしている。 アルゴリズムの公正性を改善する作業が急増しているが、そのほとんどは同一のトレーニングとテスト分布の仮定下にある。 しかし、多くの現実世界の応用では、以前に訓練されたフェアモデルが異なる環境に展開されることがしばしばあり、そのようなモデルの公正性は崩壊することが観察されている。 本稿では,分散シフトの下でモデルフェアネスを伝達する方法について検討する。 我々は,フェアモデルが分布シフトの異なる種類にどのように影響するかを詳細に分析し,サブポピュレーションシフトよりもドメインシフトの方が困難であることを確認した。 ドメインシフトの下での転送精度の自己学習の成功に触発されて、グループフェアネスの転送に十分な条件が導出される。 そこで本研究では, 整合性規則化を鍵成分とする実用的なアルゴリズムを提案する。 理論的な結果の実験的検証のために、あらゆる種類の分布シフトをカバーする合成データセットベンチマークをデプロイする。 画像および表データを含む合成および実データを用いた実験により, 種々の分布シフトの下で, 公平性と精度を効果的に伝達することを示した。

The increasing reliance on ML models in high-stakes tasks has raised a major concern on fairness violations. Although there has been a surge of work that improves algorithmic fairness, most of them are under the assumption of an identical training and test distribution. In many real-world applications, however, such an assumption is often violated as previously trained fair models are often deployed in a different environment, and the fairness of such models has been observed to collapse. In this paper, we study how to transfer model fairness under distribution shifts, a widespread issue in practice. We conduct a fine-grained analysis of how the fair model is affected under different types of distribution shifts and find that domain shifts are more challenging than subpopulation shifts. Inspired by the success of self-training in transferring accuracy under domain shifts, we derive a sufficient condition for transferring group fairness. Guided by it, we propose a practical algorithm with a fair consistency regularization as the key component. A synthetic dataset benchmark, which covers all types of distribution shifts, is deployed for experimental verification of the theoretical findings. Experiments on synthetic and real datasets including image and tabular data demonstrate that our approach effectively transfers fairness and accuracy under various distribution shifts.
翻訳日:2022-06-29 10:33:12 公開日:2022-06-26
# (参考訳) 追跡データ収集におけるais, xバンド海洋レーダーシステム, カメラ監視システムの比較

A Comparison of AIS, X-Band Marine Radar Systems and Camera Surveillance Systems in the Collection of Tracking Data ( http://arxiv.org/abs/2206.12809v1 )

ライセンス: CC BY 4.0
Yassir Zardoua, Abdelali Astito, Mohammed Boulaala(参考訳) 近年では海運が増加しており、特に海上貿易が盛んである。 海洋環境の安全、安全、および保護を確保するため、いくつかのシステムが配備されている。 それらの不便を克服するために、収集されたデータは一般的に融合される。 融合されたデータは様々な目的に使われており、私たちの関心の1つはターゲット追跡です。 この文脈で最も重要なシステムはAISとXバンド海洋レーダーである。 多くの研究は、カメラ監視システムが提供する視覚データがさらなる利点をもたらすと考えている。 そのため,視覚データ(画像)を用いたトラッキングアルゴリズムが数多く開発されている。 しかし、カメラシステムの統合が重要である理由については、あまり強調されていない。 そこで本論文の主な目的は、上記の目標追跡のための監視システムを分析し、海上監視システムへのカメラの統合による海上保安改善の成果をまとめることである。

Maritime traffic has increased in recent years, especially in terms of seaborne trade. To ensure safety, security, and protection of the marine environment, several systems have been deployed. To overcome some of their inconveniences, the collected data is typically fused. The fused data is used for various purposes, one of our interest is target tracking. The most relevant systems in that context are AIS and X-band marine radar. Many works consider that visual data provided by camera surveillance systems enable additional advantages. Therefore, many tracking algorithms using visual data (images) have been developed. Yet, there is little emphasis on the reasons making the integration of camera systems important. Thus, our main aim in this paper is to analyze the aforementioned surveillance systems for target tracking and conclude some of the maritime security improvements resulted from the integration of cameras to the overall maritime surveillance system.
翻訳日:2022-06-29 09:58:04 公開日:2022-06-26
# (参考訳) 一般化近似メッセージパッシングに基づくペナルティ化回帰の予測誤差

Prediction Errors for Penalized Regressions based on Generalized Approximate Message Passing ( http://arxiv.org/abs/2206.12832v1 )

ライセンス: CC BY 4.0
Ayaka Sakata(参考訳) 一般化線形モデルとペナラライズド最大度法における予測誤差の観点から, 推定統計モデルの予測精度について検討した。 我々は、一般化された近似メッセージパッシング(GAMP)アルゴリズムとレプリカ法を用いて、Cp基準、情報基準、LOOCV(Left-one-out Cross Validation)誤差などの予測誤差に対する推定器の形式を導出した。 これらの推定器は、モデルパラメータの数が十分に小さいときに互いに一致するが、特にモデルパラメータの数がデータ次元よりも大きい過度な領域では、それらの間には相違がある。 本稿では,予測誤差と対応する推定器について検討し,その差について考察する。 GAMPの枠組みでは,情報基準が変動応答関係として理解できることが示されている。 さらに,GAMPによる表現を利用して,情報基準からLOOCV誤差にアプローチする方法を示す。

We discuss the prediction accuracy of assumed statistical models in terms of prediction errors for the generalized linear model and penalized maximum likelihood methods. We derive the forms of estimators for the prediction errors: Cp criterion, information criteria, and leave-one-out cross validation (LOOCV) error, using the generalized approximate message passing (GAMP) algorithm and replica method. These estimators coincide with each other when the number of model parameters is sufficiently small; however, there is a discrepancy between them in particular in the overparametrized region where the number of model parameters is larger than the data dimension. In this paper, we review the prediction errors and corresponding estimators, and discuss their differences. In the framework of GAMP, we show that the information criteria can be understood as a fluctuation-response relationship. Further, we demonstrate how to approach LOOCV error from the information criteria by utilizing the expression provided by GAMP.
翻訳日:2022-06-29 09:50:53 公開日:2022-06-26
# (参考訳) エネルギーベースのモデルとして扱うと、自己回帰生成モデルが改善される

Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One ( http://arxiv.org/abs/2206.12840v1 )

ライセンス: CC BY 4.0
Yezhen Wang, Tong Che, Bo Li, Kaitao Song, Hengzhi Pei, Yoshua Bengio, Dongsheng Li(参考訳) 自己回帰生成モデルは、特にシーケンシャルデータを含むタスクによく使用される。 しかし、チェーンスタイルの条件付きモデリング(露光バイアスや長距離コヒーレンスの欠如など)の本質的な特徴により、多くの固有の欠陥に悩まされ、分布を適切にモデル化する能力が著しく制限されている。 本稿では,エネルギーベース学習の目的を活かした自己回帰生成モデルの学習のためのE-ARMというユニークな手法を提案する。 ソフトマックス操作の余分な自由度を利用することで、自己回帰モデル自体を余分なパラメータを導入することなく入力の可能性を測定するエネルギーベースのモデルにすることができる。 さらに、E-ARMは効率よく訓練でき、露光バイアス問題を緩和し、自己回帰生成モデルの時間的コヒーレンスを高めることができることを示した。 言語モデリング、ニューラルマシン翻訳、画像生成などのベンチマークをカバーする広範な実験結果が、提案手法の有効性を示している。

Autoregressive generative models are commonly used, especially for those tasks involving sequential data. They have, however, been plagued by a slew of inherent flaws due to the intrinsic characteristics of chain-style conditional modeling (e.g., exposure bias or lack of long-range coherence), severely limiting their ability to model distributions properly. In this paper, we propose a unique method termed E-ARM for training autoregressive generative models that takes advantage of a well-designed energy-based learning objective. By leveraging the extra degree of freedom of the softmax operation, we are allowed to make the autoregressive model itself be an energy-based model for measuring the likelihood of input without introducing any extra parameters. Furthermore, we show that E-ARM can be trained efficiently and is capable of alleviating the exposure bias problem and increase temporal coherence for autoregressive generative models. Extensive empirical results, covering benchmarks like language modeling, neural machine translation, and image generation, demonstrate the effectiveness of the proposed approach.
翻訳日:2022-06-29 09:49:20 公開日:2022-06-26
# (参考訳) RoME:テキスト・ビデオ検索のためのロール・アウェア・ミックス・オブ・エクストラルバータ

RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval ( http://arxiv.org/abs/2206.12845v1 )

ライセンス: CC BY 4.0
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim(参考訳) ビデオの海は、ソーシャルチャネルの人気とともに毎日アップロードされるため、最も関連性の高いビデオコンテンツをユーザのテキストクエリで検索することが、より重要な役割を担っている。 ほとんどの方法は、各モダリティの局所構造を考慮せずに、大域的な視覚的特徴とテキスト的特徴の間の単一の埋め込み空間のみを考える。 他のアプローチでは、リッチなモダリティ相関を無視して、大域的特徴と局所的特徴からなる複数の埋め込み空間を考える。 本稿では,テキストと動画を3つのレベル(空間的コンテキスト,時間的コンテキスト,オブジェクトコンテキスト)に切り離す,新しい混合エキスパートトランスフォーマーRoMEを提案する。 本稿では,グローバルレベルとローカルレベルの両方における視覚とテキストの埋め込みを完全に活用するためにトランスフォーマティブ・アテンション・メカニズムを用いて,相互モダリティと構造相関を考察する。 その結果,前訓練を行わずに同じ視覚バックボーンを与えられたyoucook2とmsr-vttデータセットの最先端メソッドを上回った。 最後に,設計選択の解明のために広範囲にわたるアブレーション研究を行った。

Seas of videos are uploaded daily with the popularity of social channels; thus, retrieving the most related video contents with user textual queries plays a more crucial role. Most methods consider only one joint embedding space between global visual and textual features without considering the local structures of each modality. Some other approaches consider multiple embedding spaces consisting of global and local features separately, ignoring rich inter-modality correlations. We propose a novel mixture-of-expert transformer RoME that disentangles the text and the video into three levels; the roles of spatial contexts, temporal contexts, and object contexts. We utilize a transformer-based attention mechanism to fully exploit visual and text embeddings at both global and local levels with mixture-of-experts for considering inter-modalities and structures' correlations. The results indicate that our method outperforms the state-of-the-art methods on the YouCook2 and MSR-VTT datasets, given the same visual backbone without pre-training. Finally, we conducted extensive ablation studies to elucidate our design choices.
翻訳日:2022-06-29 09:16:28 公開日:2022-06-26
# (参考訳) テキストからビデオ検索のための意味的役割認識相関変換器

Semantic Role Aware Correlation Transformer for Text to Video Retrieval ( http://arxiv.org/abs/2206.12849v1 )

ライセンス: CC BY 4.0
Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim(参考訳) ソーシャルメディアが出現すると、毎日ビデオクリップがアップロードされ、最も関連性の高いビジュアルコンテンツを言語クエリで検索することが重要になる。 ほとんどのアプローチは、モダリティ内構造とモダリティ間の相関を十分に活用することなく、プレーンテキストとビジュアルコンテンツの埋め込み空間を学ぶことを目的としている。 本稿では,テキストと映像を,対象,空間的文脈,時間的文脈の意味的役割に明示的に区別し,これら3つの役割間の内的・内的相関を学習し,異なるレベルでマッチングする識別的特徴を探索する,新しいトランスフォーマを提案する。 人気の高いYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超えていることを示している。 また、2つのメトリクスの観点から2つのSOTAメソッドを超越する。

With the emergence of social media, voluminous video clips are uploaded every day, and retrieving the most relevant visual content with a language query becomes critical. Most approaches aim to learn a joint embedding space for plain textual and visual contents without adequately exploiting their intra-modality structures and inter-modality correlations. This paper proposes a novel transformer that explicitly disentangles the text and video into semantic roles of objects, spatial contexts and temporal contexts with an attention scheme to learn the intra- and inter-role correlations among the three roles to discover discriminative features for matching at different levels. The preliminary results on popular YouCook2 indicate that our approach surpasses a current state-of-the-art method, with a high margin in all metrics. It also overpasses two SOTA methods in terms of two metrics.
翻訳日:2022-06-29 08:57:13 公開日:2022-06-26
# (参考訳) 文脈自由文法制約下における隠れマルコフモデルにおける関係推論クエリ

Marginal Inference queries in Hidden Markov Models under context-free grammar constraints ( http://arxiv.org/abs/2206.12862v1 )

ライセンス: CC BY 4.0
Reda Marzouk, Colin de La Higuera(参考訳) ランダム変数の集合を含む確率モデルの第一の用途は、推論を実行し、クエリをサンプリングすることである。 古典確率モデルにおける推論クエリは、入力として与えられる事象の限界確率または条件確率の計算に関係している。 確率モデルが逐次的である場合、複雑な文法を含むより洗練された境界推論クエリは、計算言語学やNLPのような分野に関心があるかもしれない。 本研究では,隠れマルコフモデル(HMM)における文脈自由文法(CFG)の可能性の計算問題に対処する。 非あいまいな文脈自由文法のクラスの可能性の正確な計算のための動的アルゴリズムを提供する。 入力CFG が 2 未満のあいまいさを持つという約束にもかかわらず、問題は NP-Hard であることを示す。 そこで,完全多項式ランダム化近似スキーム (fpras) アルゴリズムを提案する。

The primary use of any probabilistic model involving a set of random variables is to run inference and sampling queries on it. Inference queries in classical probabilistic models is concerned by the computation of marginal or conditional probabilities of events given as an input. When the probabilistic model is sequential, more sophisticated marginal inference queries involving complex grammars may be of interest in fields such as computational linguistics and NLP. In this work, we address the question of computing the likelihood of context-free grammars (CFGs) in Hidden Markov Models (HMMs). We provide a dynamic algorithm for the exact computation of the likelihood for the class of unambiguous context-free grammars. We show that the problem is NP-Hard, even with the promise that the input CFG has a degree of ambiguity less than or equal to 2. We then propose a fully polynomial randomized approximation scheme (FPRAS) algorithm to approximate the likelihood for the case of polynomially-bounded ambiguous CFGs.
翻訳日:2022-06-29 08:47:54 公開日:2022-06-26
# (参考訳) バイオメディカル質問回答におけるドメイン知識の融合によるコンテキスト埋め込みとモデル重み付け

Contextual embedding and model weighting by fusing domain knowledge on Biomedical Question Answering ( http://arxiv.org/abs/2206.12866v1 )

ライセンス: CC BY 4.0
Yuxuan Lu, Jingya Yan, Zhixuan Qi, Zhongzheng Ge, Yongping Du(参考訳) バイオメディカル質問回答は、バイオメディカル領域から与えられた質問に対する回答を得ることを目的としている。 生物医学的なドメイン知識の要求が高いため、限られたトレーニングデータからドメイン知識を学ぶことは困難である。 バイオメディカルドメインデータに基づいて事前学習したオープンドメインQAモデル \aoa と \biobert モデルを組み合わせたコンテキスト埋め込み手法を提案する。 我々は,大規模バイオメディカルコーパスの教師なし事前学習を採用し,バイオメディカル質問応答データセットの教師なし微調整を行った。 さらに,MLPに基づくモデル重み付け層を用いて,2つのモデルの利点を有効活用し,正解を与える。 PubMed corpusから構築した公開データセット \biomrc を用いて評価を行った。 実験の結果,本モデルが最先端システムを上回ることがわかった。

Biomedical Question Answering aims to obtain an answer to the given question from the biomedical domain. Due to its high requirement of biomedical domain knowledge, it is difficult for the model to learn domain knowledge from limited training data. We propose a contextual embedding method that combines open-domain QA model \aoa and \biobert model pre-trained on biomedical domain data. We adopt unsupervised pre-training on large biomedical corpus and supervised fine-tuning on biomedical question answering dataset. Additionally, we adopt an MLP-based model weighting layer to automatically exploit the advantages of two models to provide the correct answer. The public dataset \biomrc constructed from PubMed corpus is used to evaluate our method. Experimental results show that our model outperforms state-of-the-art system by a large margin.
翻訳日:2022-06-29 08:31:42 公開日:2022-06-26
# (参考訳) グラフ注意ネットワークを用いた画像美学評価

Image Aesthetics Assessment Using Graph Attention Network ( http://arxiv.org/abs/2206.12869v1 )

ライセンス: CC BY 4.0
Koustav Ghosal, Aljosa Smolic(参考訳) アスペクト比と空間配置は、写真の美的価値を決定する主要な要因の2つである。 しかし、これらを画像美学評価のための従来の畳み込みベースのフレームワークに組み込むことは問題となる。 画像のアスペクト比は、バッチサンプリングのトレーニングを容易にするために、サイズ/クロッピングを一定次元に再構成するときに歪む。 一方、畳み込みフィルタは局所的に情報を処理し、写真のグローバルな空間配置をモデル化する能力に制限がある。 本稿では,グラフニューラルネットワークに基づく2段階フレームワークを提案し,これら2つの課題を共同で解決する。 まず,入力画像をグラフとしてモデル化し,元のアスペクト比と解像度を維持した特徴グラフ表現を提案する。 次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。 実験の結果,提案手法は,AVA(Aesthetic Visual Analysis)ベンチマークにおいて,美的スコアのレグレッションを向上することが示された。

Aspect ratio and spatial layout are two of the principal factors determining the aesthetic value of a photograph. But, incorporating these into the traditional convolution-based frameworks for the task of image aesthetics assessment is problematic. The aspect ratio of the photographs gets distorted while they are resized/cropped to a fixed dimension to facilitate training batch sampling. On the other hand, the convolutional filters process information locally and are limited in their ability to model the global spatial layout of a photograph. In this work, we present a two-stage framework based on graph neural networks and address both these problems jointly. First, we propose a feature-graph representation in which the input image is modelled as a graph, maintaining its original aspect ratio and resolution. Second, we propose a graph neural network architecture that takes this feature-graph and captures the semantic relationship between the different regions of the input image using visual attention. Our experiments show that the proposed framework advances the state-of-the-art results in aesthetic score regression on the Aesthetic Visual Analysis (AVA) benchmark.
翻訳日:2022-06-29 08:19:23 公開日:2022-06-26
# (参考訳) Metric Embeddingによる$k$-Medianクラスタリング - 差別化プライバシによるイニシャライゼーション向上を目指す

$k$-Median Clustering via Metric Embedding: Towards Better Initialization with Differential Privacy ( http://arxiv.org/abs/2206.12895v1 )

ライセンス: CC BY 4.0
Chenglin Fan, Ping Li, Xiaoyun Li(参考訳) クラスタリングアルゴリズムを設計する場合、学習したクラスタの品質には初期センタの選択が不可欠である。 本稿では,一般距離空間(グラフによって引き起こされる離散空間など)における$k$-median問題に対するhst初期化と呼ばれる新しい初期化スキームを,データの計量埋め込み木構造の構築に基づいて開発する。 この木から,局所探索アルゴリズムに使用可能な,優れた初期中心のための,新規で効率的な探索アルゴリズムを提案する。 提案したHSTイニシャライゼーションは,他の一般的な初期化メソッドである$k$-median++よりも低いエラーを発生させる。 HSTの初期化は、ディファレンシャルプライバシ(DP)の設定にまで拡張して、プライベートイニシャルセンターを生成することもできる。 DP局所探索とHSTの初期化による誤差が近似誤差の先行結果を改善することを示し, 最小限の係数で下界に接近することを示した。 実験は理論を正当化し,提案手法の有効性を示す。 私たちのアプローチは、$k$-means問題にも拡張できます。

When designing clustering algorithms, the choice of initial centers is crucial for the quality of the learned clusters. In this paper, we develop a new initialization scheme, called HST initialization, for the $k$-median problem in the general metric space (e.g., discrete space induced by graphs), based on the construction of metric embedding tree structure of the data. From the tree, we propose a novel and efficient search algorithm, for good initial centers that can be used subsequently for the local search algorithm. Our proposed HST initialization can produce initial centers achieving lower errors than those from another popular initialization method, $k$-median++, with comparable efficiency. The HST initialization can also be extended to the setting of differential privacy (DP) to generate private initial centers. We show that the error from applying DP local search followed by our private HST initialization improves previous results on the approximation error, and approaches the lower bound within a small factor. Experiments justify the theory and demonstrate the effectiveness of our proposed method. Our approach can also be extended to the $k$-means problem.
翻訳日:2022-06-29 07:59:48 公開日:2022-06-26
# (参考訳) ロバストなpde発見のためのノイズアウェア物理インフォームド機械学習

Noise-aware Physics-informed Machine Learning for Robust PDE Discovery ( http://arxiv.org/abs/2206.12901v1 )

ライセンス: CC BY 4.0
Pongpisit Thanasutives, Takeshi Morita, Masayuki Numao, Ken-ichi Fukui(参考訳) この研究は、物理系の制御偏微分方程式(PDE)の発見に関係している。 既存の手法では、有限観測値からPDEの同定を実証しているが、一部は最適下推定導関数とPDE係数によりノイズデータに対する満足度を維持できなかった。 我々は、任意の分布に続くデータからPDEの制御を検出するために、ノイズ対応物理情報処理機械学習(nPIML)フレームワークを導入することで、この問題に対処する。 私たちの提案は2つある。 まず,2つのニューラルネットワーク,すなわちソルバとプレセレクタを提案し,隠れた物理的制約の解釈可能なニューラル表現を生成する。 それらが共同で訓練された後、解法ネットワークは潜在的な候補、例えば部分微分を近似し、情報基準に従って決定された最も擬似的なPDEを最初に発表するスパース回帰アルゴリズムに供給する。 第2に,離散フーリエ変換(dft)に基づいて,ノイズ低減変数に関する最適微調整pde係数のセットを提供する。 PINNの構造を前部プロジェクションネットワークとPINNに分割し、前者で学習した解法を初期化する。 5つの標準pdeに関する広範な実験により,提案手法は,多種多様なシステムに適用可能な,強固で解釈可能なpde発見手法であることを確認した。

This work is concerned with discovering the governing partial differential equation (PDE) of a physical system. Existing methods have demonstrated the PDE identification from finite observations but failed to maintain satisfying performance against noisy data, partly owing to suboptimal estimated derivatives and found PDE coefficients. We address the issues by introducing a noise-aware physics-informed machine learning (nPIML) framework to discover the governing PDE from data following arbitrary distributions. Our proposals are twofold. First, we propose a couple of neural networks, namely solver and preselector, which yield an interpretable neural representation of the hidden physical constraint. After they are jointly trained, the solver network approximates potential candidates, e.g., partial derivatives, which are then fed to the sparse regression algorithm that initially unveils the most likely parsimonious PDE, decided according to the information criterion. Second, we propose the denoising physics-informed neural networks (dPINNs), based on Discrete Fourier Transform (DFT), to deliver a set of the optimal finetuned PDE coefficients respecting the noise-reduced variables. The denoising PINNs' structures are compartmentalized into forefront projection networks and a PINN, by which the formerly learned solver initializes. Our extensive experiments on five canonical PDEs affirm that the proposed framework presents a robust and interpretable approach for PDE discovery, applicable to a wide range of systems, possibly complicated by noise.
翻訳日:2022-06-29 07:33:38 公開日:2022-06-26
# (参考訳) スケジューリング:単一目的問題から多目的問題への鍵知識の学習

ETO Meets Scheduling: Learning Key Knowledge from Single-Objective Problems to Multi-Objective Problem ( http://arxiv.org/abs/2206.12902v1 )

ライセンス: CC BY 4.0
Wendi Xu, Xianpeng Wang(参考訳) 進化的伝達最適化(ETO)は「進化的計算研究の新しいフロンティア」として機能し、従来の進化的計算において解決された問題から経験と知識をゼロに再利用することを避ける。 ETOを経由したスケジューリングでは、インテリジェントなスケジューリングとグリーンスケジューリングの両方、特に中国の文脈における炭素中立性のために、非常に競争の激しい"ミーティング"フレームワークを構成することができる。 我々の知る限り、ここでのスケジューリングに関する我々の研究は、多目的問題(マルチタスク最適化ではない)の単一目的問題において、複雑な最適化のためのETOの最初の研究である。 より具体的には、位置決めブロックのような重要な知識は学習され、置換フローショップスケジューリング問題(PFSP)のために転送される。 提案するETO-PFSPフレームワークの比較的確実な有効性と大きな可能性を検証する。

Evolutionary transfer optimization(ETO) serves as "a new frontier in evolutionary computation research", which will avoid zero reuse of experience and knowledge from solved problems in traditional evolutionary computation. In scheduling applications via ETO, a highly competitive "meeting" framework between them could be constituted towards both intelligent scheduling and green scheduling, especially for carbon neutrality within the context of China. To the best of our knowledge, our study on scheduling here, is the 1st work of ETO for complex optimization when multiobjective problem "meets" single-objective problems in combinatorial case (not multitasking optimization). More specifically, key knowledge like positional building blocks clustered, could be learned and transferred for permutation flow shop scheduling problem (PFSP). Empirical studies on well-studied benchmarks validate relatively firm effectiveness and great potential of our proposed ETO-PFSP framework.
翻訳日:2022-06-29 06:51:44 公開日:2022-06-26
# (参考訳) KAB2Sに向けて : 単目的問題から多目的問題への鍵知識の学習

Towards KAB2S: Learning Key Knowledge from Single-Objective Problems to Multi-Objective Problem ( http://arxiv.org/abs/2206.12906v1 )

ライセンス: CC BY 4.0
Xu Wendi, Wang Xianpeng, Guo Qingxin, Song Xiangman, Zhao Ren, Zhao Guodong, Yang Yang, Xu Te, He Dakuo(参考訳) 進化的計算研究の新しいフロンティア」として、進化的伝達最適化(eto)は進化的計算研究における過去の問題からの関連する経験と知識のゼロ再利用という従来のパラダイムを克服する。 etoによるスケジューリングアプリケーションでは、知的スケジューリングとグリーンスケジューリングの両方、特に中国からの「炭素中立性」の国際的な誓約のために、非常に魅力的で競争の激しいフレームワーク「ミーティング」が形成される可能性がある。 我々の知る限り、ここでのスケジューリングに関する論文は、多目的最適化問題(マルチタスク最適化ではない)が離散ケースにおいて単目的最適化問題を「省略する」場合に、ETOフレームワークのクラスの最初の作業となる。 より具体的には、遺伝的アルゴリズムをベースとした位置決定ブロックのような産業応用のための重要な知識は、置換フローショップスケジューリング問題(PFSP)のための新しいコア転送機構と学習技術によって利用することができる。 提案するETO-PFSPフレームワークの有効性と大域的普遍性を実証的に検証した。 本研究は,(1)ETOフレームワークを充実させ,(2)遺伝的アルゴリズムとメメティックアルゴリズムのブロック構築の古典的・基本的理論に寄与し,(3)中国における「インダストリアルインテリジェンス」のための「知識とビルディングブロックに基づくスケジューリング(KAB2S)」のパラダイムの提案と実践により,進化的スケジューリングのパラダイムシフトに向かう。

As "a new frontier in evolutionary computation research", evolutionary transfer optimization(ETO) will overcome the traditional paradigm of zero reuse of related experience and knowledge from solved past problems in researches of evolutionary computation. In scheduling applications via ETO, a quite appealing and highly competitive framework "meeting" between them could be formed for both intelligent scheduling and green scheduling, especially for international pledge of "carbon neutrality" from China. To the best of our knowledge, our paper on scheduling here, serves as the 1st work of a class of ETO frameworks when multiobjective optimization problem "meets" single-objective optimization problems in discrete case (not multitasking optimization). More specifically, key knowledge conveyed for industrial applications, like positional building blocks with genetic algorithm based settings, could be used via the new core transfer mechanism and learning techniques for permutation flow shop scheduling problem(PFSP). Extensive studies on well-studied benchmarks validate firm effectiveness and great universality of our proposed ETO-PFSP framework empirically. Our investigations (1) enrich the ETO frameworks, (2) contribute to the classical and fundamental theory of building block for genetic algorithms and memetic algorithms, and (3) head towards the paradigm shift of evolutionary scheduling via learning by proposal and practice of paradigm of "knowledge and building-block based scheduling" (KAB2S) for "industrial intelligence" in China.
翻訳日:2022-06-29 06:42:52 公開日:2022-06-26
# (参考訳) 強化学習とグラフに基づくTit-for-Tatを用いた非対称および円周社会ジレンマの対応

Tackling Asymmetric and Circular Sequential Social Dilemmas with Reinforcement Learning and Graph-based Tit-for-Tat ( http://arxiv.org/abs/2206.12909v1 )

ライセンス: CC BY 4.0
Tangui Le Gl\'eau, Xavier Marjou, Tayeb Lemlouma, Benoit Radier(参考訳) 多くの社会や産業の相互作用において、参加者は概して世界の福祉を犠牲にして純粋な自己利益を好む。 社会的ジレンマ(social dilemmas)として知られるこのカテゴリーの非協力ゲームは、複数の俳優が協力して最高の結果を達成するが、強欲と恐怖が最悪の自己利益の問題につながる状況を提供する。 近年, 深層強化学習 (RL) の出現は, 逐次社会ジレンマ (SSD) の導入により, 社会ジレンマへの関心が再燃している。 rl政策とtit-for-tat(tft)戦略を混合する協調エージェントは、非最適nash均衡問題にうまく対処している。 しかしながら、このようなパラダイムでは、相互協力が非対称になった場合の条件が満たされず、少なくとも3人目のアクターが円状にしかできないような、アクター間の対称的かつ直接的な協力が必要となる。 この問題に対処するため,本論文では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。 次に,そのような循環的かつ非対称的な協調に対処するために,rlポリシーとグラフベースのtftに基づく候補解を提案する。 我々は、適応的な協調構造を提供するシンプルなマルチプレイヤーグリッドの世界でいくつかの実験を行った。 我々の研究は、グラフに基づくアプローチが、自己関心のあるエージェントが相互に協力することを促すことによって、円周的な状況に対処する上で有益であることを確認した。

In many societal and industrial interactions, participants generally prefer their pure self-interest at the expense of the global welfare. Known as social dilemmas, this category of non-cooperative games offers situations where multiple actors should all cooperate to achieve the best outcome but greed and fear lead to a worst self-interested issue. Recently, the emergence of Deep Reinforcement Learning (RL) has generated revived interest in social dilemmas with the introduction of Sequential Social Dilemma (SSD). Cooperative agents mixing RL policies and Tit-for-tat (TFT) strategies have successfully addressed some non-optimal Nash equilibrium issues. However, this kind of paradigm requires symmetrical and direct cooperation between actors, conditions that are not met when mutual cooperation become asymmetric and is possible only with at least a third actor in a circular way. To tackle this issue, this paper extends SSD with Circular Sequential Social Dilemma (CSSD), a new kind of Markov games that better generalizes the diversity of cooperation between agents. Secondly, to address such circular and asymmetric cooperation, we propose a candidate solution based on RL policies and a graph-based TFT. We conducted some experiments on a simple multi-player grid world which offers adaptable cooperation structures. Our work confirmed that our graph-based approach is beneficial to address circular situations by encouraging self-interested agents to reach mutual cooperation.
翻訳日:2022-06-29 06:25:14 公開日:2022-06-26
# (参考訳) コントラストクラスタリングのための視覚変換器

Vision Transformer for Contrastive Clustering ( http://arxiv.org/abs/2206.12925v1 )

ライセンス: CC BY 4.0
Hua-Bao Ling, Bowen Zhu, Dong Huang, Ding-Hua Chen, Chang-Dong Wang, Jian-Huang Lai(参考訳) Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対して、視覚表現学習のためのグローバルな長距離依存関係をキャプチャする能力のメリットを示している。 ViT以外にも、コントラスト学習も最近人気がある。 従来のコントラスト学習は、主にCNNに基づいているが、最近の研究では、ViTとコントラスト学習を併用して、自己教師付き学習の強化を試みている。 かなりの進歩にもかかわらず、ViTとコントラスト学習の組み合わせは主にインスタンスレベルのコントラスト性に焦点を当てており、これは大域的なクラスタリング構造のコントラスト性を見落とし、クラスタリング結果を直接学習する能力(画像など)も欠如している。 そこで本稿では,本研究で初めて,画像クラスタリングタスクにおけるトランスフォーマーとコントラスト学習を統一したビジョントランスフォーマー(vision transformer for contrastive clustering, vtcc)を提案する。 具体的には、各画像に2つのランダムな拡張をミニバッチで行うことで、2つのウェイトシェアリングビューを持つViTエンコーダをバックボーンとして使用し、拡張サンプルの表現を学習する。 vitの潜在的な不安定性を改善するために、パッチ投影層の大きな畳み込みではなく、複数の積み重ねられた小さな畳み込みを使用する畳み込みstemを組み込んで、各拡張されたサンプルを一連のパッチに分割する。 バックボーンを通じて学習された表現により、インスタンスレベルのコントラスト学習とグローバルクラスタリング構造学習において、インスタンスプロジェクタとクラスタプロジェクタがさらに活用される。 8つの画像データセットに関する広範な実験は、最先端のvtccの安定性(スクラッチからのトレーニング)と優位性(クラスタリング性能)を示している。

Vision Transformer (ViT) has shown its advantages over the convolutional neural network (CNN) with its ability to capture global long-range dependencies for visual representation learning. Besides ViT, contrastive learning is another popular research topic recently. While previous contrastive learning works are mostly based on CNNs, some latest studies have attempted to jointly model the ViT and the contrastive learning for enhanced self-supervised learning. Despite the considerable progress, these combinations of ViT and contrastive learning mostly focus on the instance-level contrastiveness, which often overlook the contrastiveness of the global clustering structures and also lack the ability to directly learn the clustering result (e.g., for images). In view of this, this paper presents an end-to-end deep image clustering approach termed Vision Transformer for Contrastive Clustering (VTCC), which for the first time, to the best of our knowledge, unifies the Transformer and the contrastive learning for the image clustering task. Specifically, with two random augmentations performed on each image in a mini-batch, we utilize a ViT encoder with two weight-sharing views as the backbone to learn the representations for the augmented samples. To remedy the potential instability of the ViT, we incorporate a convolutional stem, which uses multiple stacked small convolutions instead of a big convolution in the patch projection layer, to split each augmented sample into a sequence of patches. With representations learned via the backbone, an instance projector and a cluster projector are further utilized for the instance-level contrastive learning and the global clustering structure learning, respectively. Extensive experiments on eight image datasets demonstrate the stability (during the training-from-scratch) and the superiority (in clustering performance) of VTCC over the state-of-the-art.
翻訳日:2022-06-29 06:07:27 公開日:2022-06-26
# (参考訳) SVBR-NET:非ブラインド空間可変デフォーカスブラ除去ネットワーク

SVBR-NET: A Non-Blind Spatially Varying Defocus Blur Removal Network ( http://arxiv.org/abs/2206.12930v1 )

ライセンス: CC BY 4.0
Ali Karaali and Claudio Rosito Jung(参考訳) デフォーカスブラーは、ほとんどのカメラで使われている光学センサーの物理的結果である。 写真スタイルとして使用できるが、空間的に異なるぼやけたカーネルを持つシャープ画像の畳み込みとしてモデル化された画像劣化として一般的に見られる。 近年のぼかし推定手法の進歩により,空間的に変化するカーネルに対処可能な画像劣化に対する非盲検アプローチを提案する。 本稿では,2つのエンコーダ・デコーダサブネットワークを導入し,それぞれぼやけた画像と推定したぼやけマップを供給し,デコンボルド画像を生成する。 各サブネットワークは複数のスキップ接続を提供しており、レイヤーからのデータ伝搬を分散させ、モジュール間の通信を容易にするサブネットワーク間スキップ接続も提供する。 ネットワークは,既存のぼかし推定法によって生成されたぼかしマップをエミュレートするために拡張された,合成されたぼかしカーネルを用いて訓練され,実験結果から,様々なぼかし推定法と組み合わせることで,本手法がうまく動作することを示す。

Defocus blur is a physical consequence of the optical sensors used in most cameras. Although it can be used as a photographic style, it is commonly viewed as an image degradation modeled as the convolution of a sharp image with a spatially-varying blur kernel. Motivated by the advance of blur estimation methods in the past years, we propose a non-blind approach for image deblurring that can deal with spatially-varying kernels. We introduce two encoder-decoder sub-networks that are fed with the blurry image and the estimated blur map, respectively, and produce as output the deblurred (deconvolved) image. Each sub-network presents several skip connections that allow data propagation from layers spread apart, and also inter-subnetwork skip connections that ease the communication between the modules. The network is trained with synthetically blur kernels that are augmented to emulate blur maps produced by existing blur estimation methods, and our experimental results show that our method works well when combined with a variety of blur estimation methods.
翻訳日:2022-06-29 05:49:54 公開日:2022-06-26
# (参考訳) 自然乾燥型システムにおける確率計算の信頼性チェック

Checking Trustworthiness of Probabilistic Computations in a Typed Natural Deduction System ( http://arxiv.org/abs/2206.12934v1 )

ライセンス: CC BY 4.0
Fabio Aurelio D'Asaro, Giuseppe Primiero(参考訳) 本稿では,確率型型自然導出計算TPTNDについて述べる。これは,確率型計算プロセスの信頼性特性の推論と導出を目的としている。 TPTNDの導出性は、与えられたカテゴリ分布から特定の周波数で$n$の出力サンプルを抽出するプロセスとして解釈される。 このような頻度と意図する確率の間の距離についての仮説検証の形式として、我々のフレームワーク内の信頼を定式化します。 この計算の主な利点は、そのような信頼性の概念を検証可能にすることである。 本稿では,TPTNDの証明理論的意味論を示し,特に安全性に焦点をあてた構造的・メタセオレティックな性質について述べる。 自動分類のためのアルゴリズムの検証にその利用を動機付けている。

In this paper we present the probabilistic typed natural deduction calculus TPTND, designed to reason about and derive trustworthiness properties of probabilistic computational processes, like those underlying current AI applications. Derivability in TPTND is interpreted as the process of extracting $n$ samples of outputs with a certain frequency from a given categorical distribution. We formalize trust within our framework as a form of hypothesis testing on the distance between such frequency and the intended probability. The main advantage of the calculus is to render such notion of trustworthiness checkable. We present the proof-theoretic semantics of TPTND and illustrate structural and metatheoretical properties, with particular focus on safety. We motivate its use in the verification of algorithms for automatic classification.
翻訳日:2022-06-29 05:40:18 公開日:2022-06-26
# (参考訳) 非水密メッシュ再構築

Nonwatertight Mesh Reconstruction ( http://arxiv.org/abs/2206.12952v1 )

ライセンス: CC BY 4.0
Partha Ghosh(参考訳) 非指向ポイントクラウドからの3d非水密メッシュの再構築は、コンピュータビジョンとコンピュータグラフィックスの未検討領域である。 本稿では,論文「shape as points」で提示された水密メッシュ再構成パイプラインを拡張して,この問題に取り組むことを試みた。 提案手法の核となるのは,メッシュ表面が位置する3次元体積の領域を特定し,検出された領域から表面を抽出するセグメンテーション問題である。 我々のアプローチは、ベースライン技術に比べて説得力のある結果を得る。

Reconstructing 3D non-watertight mesh from an unoriented point cloud is an unexplored area in computer vision and computer graphics. In this project, we tried to tackle this problem by extending the learning-based watertight mesh reconstruction pipeline presented in the paper 'Shape as Points'. The core of our approach is to cast the problem as a semantic segmentation problem that identifies the region in the 3D volume where the mesh surface lies and extracts the surfaces from the detected regions. Our approach achieves compelling results compared to the baseline techniques.
翻訳日:2022-06-29 05:38:09 公開日:2022-06-26
# (参考訳) 閉ループ制御による自己修復ロバストニューラルネットワーク

Self-Healing Robust Neural Networks via Closed-Loop Control ( http://arxiv.org/abs/2206.12963v1 )

ライセンス: CC BY 4.0
Zhuotong Chen, Qianxiao Li and Zheng Zhang(参考訳) ニューラルネットワークの幅広い応用にもかかわらず、脆弱性問題に対する懸念が高まっている。 多数の攻撃・防御技術が開発されているが、この研究は、新たな角度から堅牢性の問題を調査している。我々は、脆弱性を自動的に検出し、修正できる自己修復型ニューラルネットワークを設計できるだろうか? 典型的な自己修復機構は、人体の免疫系である。 この生物学に触発されたアイデアは多くの工学設計で使われてきたが、ディープラーニングではほとんど研究されていない。 本稿では,ニューラルネットワークのトレーニング後の自己修復について検討し,様々な攻撃や摂動に起因するエラーを自動的に検出し修正するための閉ループ制御方式を提案する。 本稿では,この定式化が分類器のロバスト性を改善する方法を説明するために,マージンに基づく解析を行う。 提案する自己修復ネットワークの推論を高速化するため,ポントリャーギン最大原理に基づく解法の改善により制御問題を解く。 最後に,非線形アクティベーション関数を持つニューラルネットワークのためのフレームワークの誤差推定を提案する。 我々は,複数のネットワークアーキテクチャの性能を様々な摂動に対して検証する。 自己修復法は、データ摂動/攻撃に関するプリオリ情報を必要としないため、予期せぬ摂動の幅広いクラスを扱うことができる。

Despite the wide applications of neural networks, there have been increasing concerns about their vulnerability issue. While numerous attack and defense techniques have been developed, this work investigates the robustness issue from a new angle: can we design a self-healing neural network that can automatically detect and fix the vulnerability issue by itself? A typical self-healing mechanism is the immune system of a human body. This biology-inspired idea has been used in many engineering designs but is rarely investigated in deep learning. This paper considers the post-training self-healing of a neural network, and proposes a closed-loop control formulation to automatically detect and fix the errors caused by various attacks or perturbations. We provide a margin-based analysis to explain how this formulation can improve the robustness of a classifier. To speed up the inference of the proposed self-healing network, we solve the control problem via improving the Pontryagin Maximum Principle-based solver. Lastly, we present an error estimation of the proposed framework for neural networks with nonlinear activation functions. We validate the performance on several network architectures against various perturbations. Since the self-healing method does not need a-priori information about data perturbations/attacks, it can handle a broad class of unforeseen perturbations.
翻訳日:2022-06-29 05:29:12 公開日:2022-06-26
# (参考訳) 合成訓練データを用いたrf信号分類とその実世界性能

RF Signal Classification with Synthetic Training Data and its Real-World Performance ( http://arxiv.org/abs/2206.12967v1 )

ライセンス: CC BY 4.0
Stefan Scholl(参考訳) ニューラルネットは、電磁スペクトルにおける電波信号の分類の強力な方法である。 これらのニューラルネットは、多種多様な実RFデータがないため、しばしば合成的に生成されたデータで訓練される。 しかし、合成データで訓練されたニューラルネットが現実世界のアプリケーションでどのように機能するかはよく分かっていない。 本稿では,実環境の性能に関する学習データにモデル化された異なるRF信号障害(位相,周波数,サンプルレートオフセット,受信フィルタ,ノイズ,チャネルモデルなど)の影響について検討する。 そこで本論文では,様々な信号障害を持つ合成学習データセットを用いてニューラルネットワークを訓練する。 トレーニング後のニューラルネットワークは、フィールド内のソフトウェア定義無線受信機によって収集された実世界のRFデータに対して評価される。 このアプローチは、慎重に設計された合成データセットにどのモデル化された信号障害を含めるべきかを明らかにする。 本研究の例では、RF信号を短波帯から20種類の無線信号の1つに分類することができる。 注意深く設計された合成訓練データのみを使用して、実世界の運用において最大95%の精度を達成する。

Neural nets are a powerful method for the classification of radio signals in the electromagnetic spectrum. These neural nets are often trained with synthetically generated data due to the lack of diverse and plentiful real RF data. However, it is often unclear how neural nets trained on synthetic data perform in real-world applications. This paper investigates the impact of different RF signal impairments (such as phase, frequency and sample rate offsets, receiver filters, noise and channel models) modeled in synthetic training data with respect to the real-world performance. For that purpose, this paper trains neural nets with various synthetic training datasets with different signal impairments. After training, the neural nets are evaluated against real-world RF data collected by a software defined radio receiver in the field. This approach reveals which modeled signal impairments should be included in carefully designed synthetic datasets. The investigated showcase example can classify RF signals into one of 20 different radio signal types from the shortwave bands. It achieves an accuracy of up to 95 % in real-world operation by using carefully designed synthetic training data only.
翻訳日:2022-06-29 05:28:07 公開日:2022-06-26
# (参考訳) VLCap:コヒーレントビデオパラグラフキャプションのためのコントラスト学習によるビジョンランゲージ

VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning ( http://arxiv.org/abs/2206.12972v1 )

ライセンス: CC BY 4.0
Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le(参考訳) 本稿では,映像のコヒーレントな記述を生成するために,視覚と言語相互作用を含む人間の知覚過程を活用する。 本稿では2つのモードからなる視覚言語(VL)機能を提案する。 (i)全シーンのグローバルな視覚的内容と視覚的モダリティ 二 人間及び非人間オブジェクト(動物、車両等)、視覚及び非視覚要素(関係、活動等)のシーン要素を抽出するための言語モダリティ さらに,提案するVLCapを,対照的な学習VL損失下で訓練することを提案する。 ActivityNet CaptionsとYouCookIIデータセットの実験とアブレーション研究は、VLCapが既存のSOTAメソッドよりも精度と多様性の両方で優れていることを示している。

In this paper, we leverage the human perceiving process, that involves vision and language interaction, to generate a coherent paragraph description of untrimmed videos. We propose vision-language (VL) features consisting of two modalities, i.e., (i) vision modality to capture global visual content of the entire scene and (ii) language modality to extract scene elements description of both human and non-human objects (e.g. animals, vehicles, etc), visual and non-visual elements (e.g. relations, activities, etc). Furthermore, we propose to train our proposed VLCap under a contrastive learning VL loss. The experiments and ablation studies on ActivityNet Captions and YouCookII datasets show that our VLCap outperforms existing SOTA methods on both accuracy and diversity metrics.
翻訳日:2022-06-29 05:17:01 公開日:2022-06-26
# (参考訳) ジェネラリスト・スペシャリスト学習による政策最適化の改善

Improving Policy Optimization with Generalist-Specialist Learning ( http://arxiv.org/abs/2206.12984v1 )

ライセンス: CC BY 4.0
Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu, Hao Su(参考訳) 未知の環境変化に対する深い強化学習の一般化は、通常、多種多様なトレーニング変種に対する政策学習を必要とする。 実験により,多変量で訓練されたエージェント(ジェネラリスト)は初めから学習が早い傾向にあるが,その性能は長期にわたって最適ではない。 対照的に、少数のバリエーション(専門家)にのみ訓練されたエージェントは、限られた計算予算の下で高いリターンを達成することができる。 両世界の最善を尽くすため,我々は新しいジェネラリスト・スペシャリスト育成枠組みを提案する。 具体的には、まず、すべての環境変動についてジェネラリストを訓練し、改善に失敗すると、ジェネラリストからクローンされた重量を持つ多数のスペシャリストを起動し、それぞれが選択された少数のバリエーションをマスターするように訓練する。 最終的に、すべての専門家のデモンストレーションによって引き起こされた補助報酬で将軍の訓練を再開する。 特に,スペシャリスト養成の開始時期を考察し,ジェネラリストの学習戦略とスペシャリストの援助とを比較した。 このフレームワークは、Procgen、Meta-World、ManiSkillなど、いくつかの挑戦的で人気のあるベンチマークにポリシー学習の封筒を押し付けている。

Generalization in deep reinforcement learning over unseen environment variations usually requires policy learning over a large set of diverse training variations. We empirically observe that an agent trained on many variations (a generalist) tends to learn faster at the beginning, yet its performance plateaus at a less optimal level for a long time. In contrast, an agent trained only on a few variations (a specialist) can often achieve high returns under a limited computational budget. To have the best of both worlds, we propose a novel generalist-specialist training framework. Specifically, we first train a generalist on all environment variations; when it fails to improve, we launch a large population of specialists with weights cloned from the generalist, each trained to master a selected small subset of variations. We finally resume the training of the generalist with auxiliary rewards induced by demonstrations of all specialists. In particular, we investigate the timing to start specialist training and compare strategies to learn generalists with assistance from specialists. We show that this framework pushes the envelope of policy learning on several challenging and popular benchmarks including Procgen, Meta-World and ManiSkill.
翻訳日:2022-06-29 04:58:36 公開日:2022-06-26
# (参考訳) 動的RRAMアレイの勾配に基づくニューロモルフィック学習

Gradient-based Neuromorphic Learning on Dynamical RRAM Arrays ( http://arxiv.org/abs/2206.12992v1 )

ライセンス: CC BY 4.0
Peng Zhou, Jason K. Eshraghian, Dong-Uk Choi, Wei D. Lu, Sung-Mo Kang(参考訳) 本稿では,MSNNを学習するための勾配に基づく学習法であるMEMpropを提案する。 本手法は,自然発生する電圧スパイクを誘発するために,内在的なデバイスダイナミクスを利用する。 これらのスパイクは本質的にアナログであり、完全に微分可能であり、スパイキングニューラルネットワーク (snn) の文献に広く見られる代理勾配法の必要性をなくす。 メムリシブニューラルネットワークは通常、オフラインで訓練されたネットワークをマッピングするシナプスとしてメムリスタを統合するか、あるいはそれ以外は、メムリシブニューロンのネットワークをトレーニングするための連想学習機構に依存する。 代わりに、バックプロパゲーション・アズ・タイム(bptt)のトレーニングアルゴリズムを、memristive neurons and synapsesのアナログスパイスモデルに直接適用する。 我々の実装は、シナプス重みとスパイクニューロンはいずれも抵抗性RAM(RRAM)アレイに統合され、アナログ・デジタルコンバータ(ADC)や閾値コンパレータなどのスパイキングダイナミクスを実装するための追加回路を必要としない。 結果として、高次電気物理効果は、実行時の分裂ニューロンの状態駆動力学を利用するために完全に活用される。 複数のベンチマークにおいて,非近似勾配に基づく学習へ移行することにより,従来報告されていた高密度完全MSNN間の高い競争精度が得られる。

We present MEMprop, the adoption of gradient-based learning to train fully memristive spiking neural networks (MSNNs). Our approach harnesses intrinsic device dynamics to trigger naturally arising voltage spikes. These spikes emitted by memristive dynamics are analog in nature, and thus fully differentiable, which eliminates the need for surrogate gradient methods that are prevalent in the spiking neural network (SNN) literature. Memristive neural networks typically either integrate memristors as synapses that map offline-trained networks, or otherwise rely on associative learning mechanisms to train networks of memristive neurons. We instead apply the backpropagation through time (BPTT) training algorithm directly on analog SPICE models of memristive neurons and synapses. Our implementation is fully memristive, in that synaptic weights and spiking neurons are both integrated on resistive RAM (RRAM) arrays without the need for additional circuits to implement spiking dynamics, e.g., analog-to-digital converters (ADCs) or thresholded comparators. As a result, higher-order electrophysical effects are fully exploited to use the state-driven dynamics of memristive neurons at run time. By moving towards non-approximate gradient-based learning, we obtain highly competitive accuracy amongst previously reported lightweight dense fully MSNNs on several benchmarks.
翻訳日:2022-06-29 04:32:19 公開日:2022-06-26
# (参考訳) 電子商取引における商品画像の自動生成

Automatic Generation of Product-Image Sequence in E-commerce ( http://arxiv.org/abs/2206.12994v1 )

ライセンス: CC BY 4.0
Xiaochuan Fan, Chi Zhang, Yong Yang, Yue Shang, Xueying Zhang, Zhen He, Yun Xiao, Bo Long, Lingfei Wu(参考訳) 製品イメージは、eコマースプラットフォームで望ましいユーザーエクスペリエンスを提供するのに不可欠です。 何十億もの製品があるプラットフォームでは、手動で資格のある画像を選んで整理するのに非常に時間と労力がかかる。 さらに、生成/選択のために製品イメージが従わなければならない、複雑で複雑な画像ルールがあります。 本稿では,電子商取引におけるAGPIS(Automatic Generation of Product- Image Sequence)を実現するための新たな学習フレームワークを提案する。 そこで本研究では,学習によるルール違反のすべてのカテゴリを同時に検出できるマルチモダリティ統一画像系列分類器(muisc)を提案する。 MUIsCは、テキストレビューフィードバックを追加のトレーニングターゲットとして活用し、製品テキスト記述を使用して、追加のセマンティック情報を提供する。 オフライン評価に基づいて,提案したMUIsCが,様々なベースラインを著しく上回ることを示す。 muisc 以外にも,プライマリイメージ選択,非準拠コンテント検出,イメージ重複など,提案フレームワークの他の重要なモジュールも統合しています。 これらすべてのモジュールで、我々のフレームワークはJD.comレコメンデーションプラットフォームで効果的に効率的に機能します。 2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。

Product images are essential for providing desirable user experience in an e-commerce platform. For a platform with billions of products, it is extremely time-costly and labor-expensive to manually pick and organize qualified images. Furthermore, there are the numerous and complicated image rules that a product image needs to comply in order to be generated/selected. To address these challenges, in this paper, we present a new learning framework in order to achieve Automatic Generation of Product-Image Sequence (AGPIS) in e-commerce. To this end, we propose a Multi-modality Unified Image-sequence Classifier (MUIsC), which is able to simultaneously detect all categories of rule violations through learning. MUIsC leverages textual review feedback as the additional training target and utilizes product textual description to provide extra semantic information. Based on offline evaluations, we show that the proposed MUIsC significantly outperforms various baselines. Besides MUIsC, we also integrate some other important modules in the proposed framework, such as primary image selection, noncompliant content detection, and image deduplication. With all these modules, our framework works effectively and efficiently in JD.com recommendation platform. By Dec 2021, our AGPIS framework has generated high-standard images for about 1.5 million products and achieves 13.6% in reject rate.
翻訳日:2022-06-29 04:07:46 公開日:2022-06-26
# 自己教師付き音の局所化における変換不変性と等価性の利用

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation ( http://arxiv.org/abs/2206.12772v1 )

ライセンス: Link先を確認
Jinxiang Liu, Chen Ju, Weidi Xie, Ya Zhang(参考訳) ビデオ中の音源をローカライズするために,音声・視覚表現学習のための簡易かつ効果的な自己教師型フレームワークを提案する。 To understand what enables to learn useful representations, we systematically investigate the effects of data augmentations, and reveal that (1) composition of data augmentations plays a critical role, {\em i.e.}~explicitly encouraging the audio-visual representations to be invariant to various transformations~({\em transformation invariance}); (2) enforcing geometric consistency substantially improves the quality of learned representations, {\em i.e.}~the detected sound source should follow the same transformation applied on input video frames~({\em transformation equivariance}). 実験により, Flickr-SoundNet と VGG-Sound の2つの音像定位ベンチマークにおいて, 従来手法よりも優れた性能を示した。 さらに,音声検索やクロスモーダル検索のタスクも評価する。 いずれの場合も、音声検索における教師付きアプローチと競合するような、より優れた検索性能を示す。 このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。 \textit{all codes will be available} です。

We present a simple yet effective self-supervised framework for audio-visual representation learning, to localize the sound source in videos. To understand what enables to learn useful representations, we systematically investigate the effects of data augmentations, and reveal that (1) composition of data augmentations plays a critical role, {\em i.e.}~explicitly encouraging the audio-visual representations to be invariant to various transformations~({\em transformation invariance}); (2) enforcing geometric consistency substantially improves the quality of learned representations, {\em i.e.}~the detected sound source should follow the same transformation applied on input video frames~({\em transformation equivariance}). Extensive experiments demonstrate that our model significantly outperforms previous methods on two sound localization benchmarks, namely, Flickr-SoundNet and VGG-Sound. Additionally, we also evaluate audio retrieval and cross-modal retrieval tasks. In both cases, our self-supervised models demonstrate superior retrieval performances, even competitive with the supervised approach in audio retrieval. This reveals the proposed framework learns strong multi-modal representations that are beneficial to sound localisation and generalization to further applications. \textit{All codes will be available}.
翻訳日:2022-06-28 17:22:39 公開日:2022-06-26
# szloca: インタラクティブアーツの文脈における1台のカメラによるフル3dトラッキングフレームワークに向けて

Szloca: towards a framework for full 3D tracking through a single camera in context of interactive arts ( http://arxiv.org/abs/2206.12958v1 )

ライセンス: Link先を確認
Sahaj Garg(参考訳) Realtime virtual data of objects and human presence in a large area holds a valuable key in enabling many experiences and applications in various industries and with exponential rise in the technological development of artificial intelligence, computer vision has expanded the possibilities of tracking and classifying things through just video inputs, which is also surpassing the limitations of most popular and common hardware setups known traditionally to detect human pose and position, such as low field of view and limited tracking capacity. アプリケーション開発にコンピュータビジョンを使用することの利点は、従来の入力ソース(ビデオストリームなど)を拡張し、多くの環境やプラットフォームに統合できるため大きい。 新しいメディアインタラクティブアーツの文脈では、物理的な動きに基づいて、広い領域やギャラリーにまたがって拡大し、単一のrgbカメラから3次元の位置、スケルトン/ポス、マスクなど、オブジェクト/人のデータと仮想表現を得るための新しい方法と枠組みを提案する。 近年のコンピュータビジョンの分野における先行研究の成果を概観し、モノキュラー画像から3次元の位置データを得るための原型手法を提案する。このモデルはコンピュータビジョンシステムの複雑なトレーニングに頼らず、先行コンピュータビジョン研究とz深度を表す能力を加えることで、2次元入力源から世界の位置を3軸で表現できる。

Realtime virtual data of objects and human presence in a large area holds a valuable key in enabling many experiences and applications in various industries and with exponential rise in the technological development of artificial intelligence, computer vision has expanded the possibilities of tracking and classifying things through just video inputs, which is also surpassing the limitations of most popular and common hardware setups known traditionally to detect human pose and position, such as low field of view and limited tracking capacity. The benefits of using computer vision in application development is large as it augments traditional input sources (like video streams) and can be integrated in many environments and platforms. In the context of new media interactive arts, based on physical movements and expanding over large areas or gallaries, this research presents a novel way and a framework towards obtaining data and virtual representation of objects/people - such as three-dimensional positions, skeltons/pose and masks from a single rgb camera. Looking at the state of art through some recent developments and building on prior research in the field of computer vision, the paper also proposes an original method to obtain three dimensional position data from monocular images, the model does not rely on complex training of computer vision systems but combines prior computer vision research and adds a capacity to represent z depth, ieto represent a world position in 3 axis from a 2d input source.
翻訳日:2022-06-28 17:22:20 公開日:2022-06-26
# 深層学習を用いた3次元構造脳mriによる統合失調症検出

Detecting Schizophrenia with 3D Structural Brain MRI Using Deep Learning ( http://arxiv.org/abs/2206.12980v1 )

ライセンス: Link先を確認
Junhao Zhang, Vishwanatha M. Rao, Ye Tian, Yanting Yang, Nicolas Acosta, Zihan Wan, Pin-Yu Lee, Chloe Zhang, Lawrence S. Kegeles, Scott A. Small and Jia Guo(参考訳) 統合失調症(英語: Schizophrenia)は、脳内の構造変化を引き起こす慢性神経精神疾患である。 構造的ニューロイメージングデータセットに適用したディープラーニングは、疾患に関連する変化を検出し、分類と診断精度を向上させることができると仮定する。 従来のT1強調MRIスキャンを用いてこの仮説を検証し,標準後処理法を用いて3次元脳構造を抽出した。 その後,統合失調症患者のt1強調mriスキャンを用いた3つのオープンデータセット上で,ディープラーニングモデルを開発し,最適化し,評価した。 提案手法は,3次元CNNアーキテクチャを用いてMR画像の構造を訓練したベンチマークモデルより優れていた。 当モデルでは, 統合失調症患者と健常者との鑑別をほぼ完全に行うことができる(ROC曲線=0.987)。 最も予測可能な脳領域は、局所的な皮質下領域と心室である。 皮質下構造は人間の認知、感情、社会的機能において重要な役割を担っており、これらの領域の構造的異常は統合失調症と関連している。 我々の発見は、統合失調症は皮質下脳構造に広範な変化をもたらしており、皮質下構造情報は診断分類において顕著な特徴を持っていることを裏付けている。 これらの結果は、深層学習が統合失調症の診断を改善し、単一の標準T1強調脳MRIからその構造的神経画像の署名を識別する可能性をさらに示している。

Schizophrenia is a chronic neuropsychiatric disorder that causes distinct structural alterations within the brain. We hypothesize that deep learning applied to a structural neuroimaging dataset could detect disease-related alteration and improve classification and diagnostic accuracy. We tested this hypothesis using a single, widely available, and conventional T1-weighted MRI scan, from which we extracted the 3D whole-brain structure using standard post-processing methods. A deep learning model was then developed, optimized, and evaluated on three open datasets with T1-weighted MRI scans of patients with schizophrenia. Our proposed model outperformed the benchmark model, which was also trained with structural MR images using a 3D CNN architecture. Our model is capable of almost perfectly (area under the ROC curve = 0.987) distinguishing schizophrenia patients from healthy controls on unseen structural MRI scans. Regional analysis localized subcortical regions and ventricles as the most predictive brain regions. Subcortical structures serve a pivotal role in cognitive, affective, and social functions in humans, and structural abnormalities of these regions have been associated with schizophrenia. Our finding corroborates that schizophrenia is associated with widespread alterations in subcortical brain structure and the subcortical structural information provides prominent features in diagnostic classification. Together, these results further demonstrate the potential of deep learning to improve schizophrenia diagnosis and identify its structural neuroimaging signatures from a single, standard T1-weighted brain MRI.
翻訳日:2022-06-28 17:21:57 公開日:2022-06-26
# 大規模言語モデルのリポジトリレベルプロンプト生成

Repository-Level Prompt Generation for Large Language Models of Code ( http://arxiv.org/abs/2206.12839v1 )

ライセンス: Link先を確認
Disha Shrivastava, Hugo Larochelle, Daniel Tarlow(参考訳) コードの大規模言語モデル(LLM)の成功とコードアシスタント(GitHub Copilotで使用されるコーデックスなど)の使用により、迅速な設計プロセスにドメイン固有の知識を導入する技術が重要になる。 本研究では,ルールセットを用いてサンプル固有のプロンプトを生成するRepo-Level Prompt Generatorというフレームワークを提案する。 これらのルールはリポジトリ全体からコンテキストを取り、レポジトリの構造と関連するファイル(インポート、親クラスファイルなど)からのコンテキストの両方を組み込む。 我々の手法はLLMの重量に一切アクセスする必要がなく、LCMへのブラックボックスアクセスしか持たない場合に適用できる。 我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。 提案するルールから構築されたoracleは、codexに対して最大36%の相対的な改善を行い、ルールの品質を示しています。 さらに、最良のルールを選択できるようにモデルをトレーニングすると、codexよりも大きなパフォーマンス向上を達成できることを示す。 私たちの仕事のコードは、https://github.com/shrivastavadisha/repo_level_prompt_generationにあります。

With the success of large language models (LLMs) of code and their use as code assistants (e.g. Codex used in GitHub Copilot), techniques for introducing domain-specific knowledge in the prompt design process become important. In this work, we propose a framework called Repo-Level Prompt Generator that learns to generate example-specific prompts using a set of rules. These rules take context from the entire repository, thereby incorporating both the structure of the repository and the context from other relevant files (e.g. imports, parent class files). Our technique doesn't require any access to the weights of the LLM, making it applicable in cases where we only have black-box access to the LLM. We conduct experiments on the task of single-line code-autocompletion using code repositories taken from Google Code archives. We demonstrate that an oracle constructed from our proposed rules gives up to 36% relative improvement over Codex, showing the quality of the rules. Further, we show that when we train a model to select the best rule, we can achieve significant performance gains over Codex. The code for our work can be found at: https://github.com/shrivastavadisha/repo_level_prompt_generation.
翻訳日:2022-06-28 17:19:24 公開日:2022-06-26
# 分子双極子モーメント予測のためのエッジ方向不変グラフニューラルネットワーク

Edge Direction-invariant Graph Neural Networks for Molecular Dipole Moments Prediction ( http://arxiv.org/abs/2206.12867v1 )

ライセンス: Link先を確認
Yang Jeong Park(参考訳) 双極子モーメントは分子の極性を示す物理量であり、構成原子の電気的性質と分子の幾何学的性質を反映して決定される。 従来のグラフニューラルネットワークの手法でグラフ表現を表現するために使われるほとんどの埋め込みは、分子をトポロジカルグラフとして扱う。 分子の3次元構造を適切に扱うために提案されている同値性を扱う既存の埋め込みとは異なり,提案した埋め込みは双極子モーメントの局所的寄与の物理的意味を直接表現する。 本モデルでは,拡張ジオメトリを持つ分子でも合理的に動作し,より原子間相互作用情報を取り込み,ab-initio計算に匹敵する精度で予測結果を大幅に改善することを示した。

The dipole moment is a physical quantity indicating the polarity of a molecule and is determined by reflecting the electrical properties of constituent atoms and the geometric properties of the molecule. Most embeddings used to represent graph representations in traditional graph neural network methodologies treat molecules as topological graphs, creating a significant barrier to the goal of recognizing geometric information. Unlike existing embeddings dealing with equivariance, which have been proposed to handle the 3D structure of molecules properly, our proposed embeddings directly express the physical implications of the local contribution of dipole moments. We show that the developed model works reasonably even for molecules with extended geometries and captures more interatomic interaction information, significantly improving the prediction results with accuracy comparable to ab-initio calculations.
翻訳日:2022-06-28 16:36:36 公開日:2022-06-26
# 自律型UAVによる物体検出・追跡

Object Detection and Tracking with Autonomous UAV ( http://arxiv.org/abs/2206.12941v1 )

ライセンス: Link先を確認
A. Huzeyfe Demir, Berke Yavas, Mehmet Yazici, Dogukan Aksu, M. Ali Aydin(参考訳) 本稿では,戦闘型無人航空機(uav)をシミュレーション環境でモデル化する。 回転翼UAVは、目標のロック、追跡、関連するデータを周囲の車両と共有するといった様々な作業に成功している。 api通信、地上制御ステーション構成、自律移動アルゴリズム、コンピュータビジョン、ディープラーニングといった異なるソフトウェア技術が採用されている。

In this paper, a combat Unmanned Air Vehicle (UAV) is modeled in the simulation environment. The rotary wing UAV is successfully performed various tasks such as locking on the targets, tracking, and sharing the relevant data with surrounding vehicles. Different software technologies such as API communication, ground control station configuration, autonomous movement algorithms, computer vision, and deep learning are employed.
翻訳日:2022-06-28 16:26:31 公開日:2022-06-26
# AFT-VO:マルチビュービジュアルオドメトリー推定のための非同期核融合変換器

AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry Estimation ( http://arxiv.org/abs/2206.12946v1 )

ライセンス: Link先を確認
Nimet Kaygusuz, Oscar Mendez, Richard Bowden(参考訳) 運動推定手法は通常、個々のセンサ故障を処理するためにカルマンフィルタのようなセンサー融合技術を用いる。 最近では、ディープラーニングベースの融合アプローチが提案され、性能が向上し、モデル固有の実装が少なくなった。 しかし、現在のディープフュージョンアプローチでは、センサーが同期していると仮定することが多く、これは必ずしも実用的ではない。 そこで本研究では,複数のセンサからvoを推定する新しいトランスフォーマーベースのセンサ融合アーキテクチャであるaft-voを提案する。 本フレームワークは,非同期マルチビューカメラからの予測と,異なるソースからの計測の時間的差を考慮に入れた。 提案手法は,まず混合密度ネットワーク(MDN)を用いて,システム内の全カメラに対する6-DoFポーズの確率分布を推定する。 次に、これらの非同期ポーズ推定と信頼度を組み合わせた新しいトランスフォーマーベースの融合モジュール AFT-VO を導入する。 具体的には、マルチソース非同期信号の融合を可能にするDisdisretiserおよびSource Encoding技術を紹介する。 我々は,一般的な nuScenes と KITTI データセットに対するアプローチを評価した。 実験により,VO推定のための多視点融合により,頑健かつ正確な軌道が得られ,難易度と照明条件の両方において高い性能を発揮することが示された。

Motion estimation approaches typically employ sensor fusion techniques, such as the Kalman Filter, to handle individual sensor failures. More recently, deep learning-based fusion approaches have been proposed, increasing the performance and requiring less model-specific implementations. However, current deep fusion approaches often assume that sensors are synchronised, which is not always practical, especially for low-cost hardware. To address this limitation, in this work, we propose AFT-VO, a novel transformer-based sensor fusion architecture to estimate VO from multiple sensors. Our framework combines predictions from asynchronous multi-view cameras and accounts for the time discrepancies of measurements coming from different sources. Our approach first employs a Mixture Density Network (MDN) to estimate the probability distributions of the 6-DoF poses for every camera in the system. Then a novel transformer-based fusion module, AFT-VO, is introduced, which combines these asynchronous pose estimations, along with their confidences. More specifically, we introduce Discretiser and Source Encoding techniques which enable the fusion of multi-source asynchronous signals. We evaluate our approach on the popular nuScenes and KITTI datasets. Our experiments demonstrate that multi-view fusion for VO estimation provides robust and accurate trajectories, outperforming the state of the art in both challenging weather and lighting conditions.
翻訳日:2022-06-28 16:26:25 公開日:2022-06-26
# グラフの異常パターン検出のための校正非パラメトリックスキャン統計

Calibrated Nonparametric Scan Statistics for Anomalous Pattern Detection in Graphs ( http://arxiv.org/abs/2206.12786v1 )

ライセンス: Link先を確認
Chunpai Wang, Daniel B. Neill, Feng Chen(参考訳) 大規模実世界のグラフにおける異常パターンをより正確に検出するための新しい手法として、キャリブレーションされた非パラメトリックスキャン統計法(CNSS)を提案する。 Scan statistics identified connected subgraphs that are interesting or unexpected by the maximization of a chance ratio statistic; in particular, nonparametric scan statistics (NPSSs) identified subgraphs higher than a expected than% of individually significant node。 しかし,最近提案されたNPSS法は誤校正され,部分グラフの多重性に対する統計量の最大化を考慮できないことを示す。 これにより、微妙な信号の検出力が低下し、より強い信号であっても検出されたサブグラフの精度が低下する。 そこで本研究では,NPSSの再校正,複数仮説の検証,基礎となるグラフ構造を考慮した新しい統計手法を提案する。 ランダム化テストに基づく再校正は計算コストがかかるが,提案手法は効率のよい(近似)アルゴリズムと新しい閉形式下限(任意のサイズの部分グラフに対する有意なノードの最大比率)の両方を,異常なパターンのないヌル仮説の下で提案する。 これらの進歩と最近のコアツリー分解手法の統合により、CNSSは検出された部分グラフの精度を大幅に向上し、大規模な実世界のグラフにスケールすることができる。 半合成および実世界の両方のデータセットに対する大規模な実験を行い,提案手法の有効性を検証する。

We propose a new approach, the calibrated nonparametric scan statistic (CNSS), for more accurate detection of anomalous patterns in large-scale, real-world graphs. Scan statistics identify connected subgraphs that are interesting or unexpected through maximization of a likelihood ratio statistic; in particular, nonparametric scan statistics (NPSSs) identify subgraphs with a higher than expected proportion of individually significant nodes. However, we show that recently proposed NPSS methods are miscalibrated, failing to account for the maximization of the statistic over the multiplicity of subgraphs. This results in both reduced detection power for subtle signals, and low precision of the detected subgraph even for stronger signals. Thus we develop a new statistical approach to recalibrate NPSSs, correctly adjusting for multiple hypothesis testing and taking the underlying graph structure into account. While the recalibration, based on randomization testing, is computationally expensive, we propose both an efficient (approximate) algorithm and new, closed-form lower bounds (on the expected maximum proportion of significant nodes for subgraphs of a given size, under the null hypothesis of no anomalous patterns). These advances, along with the integration of recent core-tree decomposition methods, enable CNSS to scale to large real-world graphs, with substantial improvement in the accuracy of detected subgraphs. Extensive experiments on both semi-synthetic and real-world datasets are demonstrated to validate the effectiveness of our proposed methods, in comparison with state-of-the-art counterparts.
翻訳日:2022-06-28 16:23:54 公開日:2022-06-26
# 混合分布に対するSketched Wasserstein Distance

The Sketched Wasserstein Distance for mixture distributions ( http://arxiv.org/abs/2206.12768v1 )

ライセンス: Link先を確認
Xin Bing and Florentina Bunea and Jonathan Niles-Weed(参考訳) スケッチド・ワッサースタイン距離(Sketched Wasserstein Distance)(W^S$)は、有限混合分布に特化された新しい確率距離である。 確率分布の集合 $\mathcal{a}$ 上で定義される任意の計量 $d$ に対して、$w^s$ は、$\mathcal{a}$ の元の混合の空間 $\mathcal{s} = \textrm{conv}(\mathcal{a})$ へのこの計量の最も差別的な凸拡大であると定義される。 我々の表現定理は、この方法で構築された空間 $(\mathcal{S}, W^S)$ が、$\mathcal{X} = (\mathcal{A}, d)$ 上のワッサーシュタイン空間に同型であることを示している。 この結果はワッサーシュタイン距離の普遍性を確立し、それらが有限混合に対する識別力によって一意に特徴づけられることを示した。 この表現定理を利用して、カントロビッチ-ルベンシュタイン双対性に基づく推定手法を提案し、その推定誤差が、混合重みと混合成分を推定する誤差の和で有界であることを示す一般的な定理を、これらの量の推定者に対して証明する。 我々は、$p$-次元離散$K$-混合の場合、推定された$W^S$に対して鋭い統計特性を導出し、これは対数因子まで$\sqrt{K/N}$に比例して推定できることを示す。 我々はこれらの境界を、K$ポイント計量空間上の分布間のワッサーシュタイン距離を推定するリスクに基づいてミニマックス下界で補う。 この結果は、離散分布間のワッサースタイン距離を推定する最初のほとんどタイトなミニマックス下限である。 さらに、混合重みの漸近的に正規な推定器を$\sqrt{N}$で構築し、その結果、W^S$の推定器の分布極限を$\sqrt{N}$で導き出す。 シミュレーション研究とデータ解析は、新しいスケッチされたwaserstein距離の適用性を強く支持する。

The Sketched Wasserstein Distance ($W^S$) is a new probability distance specifically tailored to finite mixture distributions. Given any metric $d$ defined on a set $\mathcal{A}$ of probability distributions, $W^S$ is defined to be the most discriminative convex extension of this metric to the space $\mathcal{S} = \textrm{conv}(\mathcal{A})$ of mixtures of elements of $\mathcal{A}$. Our representation theorem shows that the space $(\mathcal{S}, W^S)$ constructed in this way is isomorphic to a Wasserstein space over $\mathcal{X} = (\mathcal{A}, d)$. This result establishes a universality property for the Wasserstein distances, revealing them to be uniquely characterized by their discriminative power for finite mixtures. We exploit this representation theorem to propose an estimation methodology based on Kantorovich--Rubenstein duality, and prove a general theorem that shows that its estimation error can be bounded by the sum of the errors of estimating the mixture weights and the mixture components, for any estimators of these quantities. We derive sharp statistical properties for the estimated $W^S$ in the case of $p$-dimensional discrete $K$-mixtures, which we show can be estimated at a rate proportional to $\sqrt{K/N}$, up to logarithmic factors. We complement these bounds with a minimax lower bound on the risk of estimating the Wasserstein distance between distributions on a $K$-point metric space, which matches our upper bound up to logarithmic factors. This result is the first nearly tight minimax lower bound for estimating the Wasserstein distance between discrete distributions. Furthermore, we construct $\sqrt{N}$ asymptotically normal estimators of the mixture weights, and derive a $\sqrt{N}$ distributional limit of our estimator of $W^S$ as a consequence. Simulation studies and a data analysis provide strong support on the applicability of the new Sketched Wasserstein Distance.
翻訳日:2022-06-28 16:22:57 公開日:2022-06-26
# 地理的プロキシ設定における低リソースアクセント分類--法科学と社会音学の立場から

Low-resource Accent Classification in Geographically-proximate Settings: A Forensic and Sociophonetics Perspective ( http://arxiv.org/abs/2206.12759v1 )

ライセンス: Link先を確認
Qingcheng Zeng, Dading Chong, Peilin Zhou, Jie Yang(参考訳) アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。 近年,Deep Learning-based methodとTransformer-based pretrained modelは両領域で最高性能を達成している。 しかし,ほとんどのアクセント分類タスクは,様々な英語アクセントの分類に重点を置いており,地理的に近似的なアクセント分類にはほとんど注意が払われなかった。 そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせを検討した。 事前訓練されたモデルから生成された音声表現は、一般的に下流の分類においてより良い性能を持つが、Mel Frequency Cepstral Coefficients (MFCC) やホルマント測定のような伝統的な手法は特定の強度を備えている。 以上の結果から,データ量が比較的少ない法医学的音声学のシナリオでは,簡単なモデリング手法と分類器が特徴抽出器として最先端の事前訓練音声モデルと競合する可能性が示唆された。 また,社会音素の変化を定量化するための新たな手法についても検証した。

Accented speech recognition and accent classification are relatively under-explored research areas in speech technology. Recently, deep learning-based methods and Transformer-based pretrained models have achieved superb performances in both areas. However, most accent classification tasks focused on classifying different kinds of English accents and little attention was paid to geographically-proximate accent classification, especially under a low-resource setting where forensic speech science tasks usually encounter. In this paper, we explored three main accent modelling methods combined with two different classifiers based on 105 speaker recordings retrieved from five urban varieties in Northern England. Although speech representations generated from pretrained models generally have better performances in downstream classification, traditional methods like Mel Frequency Cepstral Coefficients (MFCCs) and formant measurements are equipped with specific strengths. These results suggest that in forensic phonetics scenario where data are relatively scarce, a simple modelling method and classifier could be competitive with state-of-the-art pretrained speech models as feature extractors, which could enhance a sooner estimation for the accent information in practices. Besides, our findings also cross-validated a new methodology in quantifying sociophonetic changes.
翻訳日:2022-06-28 16:05:23 公開日:2022-06-26
# 低リソース音声言語理解のためのメタ補助学習

Meta Auxiliary Learning for Low-resource Spoken Language Understanding ( http://arxiv.org/abs/2206.12774v1 )

ライセンス: Link先を確認
Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang(参考訳) 音声言語理解(SLU)は、自動音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱い、通常データ不足に悩まされる。 メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を用いて,音声データの豊富な手書き書き起こしのみを活用することで,低リソースSLUタスクの性能向上を図る。 この方法の明らかな利点の1つは、さらなるセマンティックアノテーションにアクセスすることなく、低リソースのSLUトレーニングタスクを実装する柔軟なフレームワークを提供することである。 特に、テキストからインテントやスロットタグを予測するためにラベル生成ネットワークとしてNLUモデルを用い、マルチタスクネットワークは音声からASRタスクとSLUタスクを同期的に訓練し、ラベル生成ネットワークの予測はセマンティックターゲットとしてマルチタスクネットワークに配信する。 提案アルゴリズムの効率性は、下流のNLUタスクに対してより適切なASR仮説を生成するパブリックCATSLUデータセットの実験で実証される。

Spoken language understanding (SLU) treats automatic speech recognition (ASR) and natural language understanding (NLU) as a unified task and usually suffers from data scarcity. We exploit an ASR and NLU joint training method based on meta auxiliary learning to improve the performance of low-resource SLU task by only taking advantage of abundant manual transcriptions of speech data. One obvious advantage of such method is that it provides a flexible framework to implement a low-resource SLU training task without requiring access to any further semantic annotations. In particular, a NLU model is taken as label generation network to predict intent and slot tags from texts; a multi-task network trains ASR task and SLU task synchronously from speech; and the predictions of label generation network are delivered to the multi-task network as semantic targets. The efficiency of the proposed algorithm is demonstrated with experiments on the public CATSLU dataset, which produces more suitable ASR hypotheses for the downstream NLU task.
翻訳日:2022-06-28 16:05:03 公開日:2022-06-26
# 低資源インド語のための注釈付き音声コーパス--awadhi, bhojpuri, braj, magahi

Annotated Speech Corpus for Low Resource Indian Languages: Awadhi, Bhojpuri, Braj and Magahi ( http://arxiv.org/abs/2206.12931v1 )

ライセンス: Link先を確認
Ritesh Kumar, Siddharth Singh, Shyam Ratan, Mohit Raj, Sonal Sinha, bornini lahiri, Vivek Seshadri, Kalika Bali and Atul Kr. Ojha(参考訳) 本稿では,Awadhi, Bhojpuri, Braj, Magahiの4つの低資源インド・アーリア語のための音声コーパスの開発について,言語データ収集のフィールド手法を用いて検討する。 コーパスの総サイズは現在約18時間(約4~5時間)で、音声タグ、形態的特徴、普遍的依存関係などの文法情報で書き起こされ注釈付けされている。 これらの言語におけるデータ収集の方法論について検討し,そのほとんどはcovid-19パンデミックの最中に行われた。 本稿では,これらの言語における音声認識システムに対するベースライン実験の結果についても論じる。

In this paper we discuss an in-progress work on the development of a speech corpus for four low-resource Indo-Aryan languages -- Awadhi, Bhojpuri, Braj and Magahi using the field methods of linguistic data collection. The total size of the corpus currently stands at approximately 18 hours (approx. 4-5 hours each language) and it is transcribed and annotated with grammatical information such as part-of-speech tags, morphological features and Universal dependency relationships. We discuss our methodology for data collection in these languages, most of which was done in the middle of the COVID-19 pandemic, with one of the aims being to generate some additional income for low-income groups speaking these languages. In the paper, we also discuss the results of the baseline experiments for automatic speech recognition system in these languages.
翻訳日:2022-06-28 16:04:44 公開日:2022-06-26
# リプレイバッファによる確率過程の解析

Analysis of Stochastic Processes through Replay Buffers ( http://arxiv.org/abs/2206.12848v1 )

ライセンス: Link先を確認
Shirli Di Castro Shashua, Shie Mannor, Dotan Di-Castro(参考訳) リプレイバッファは多くの強化学習スキームにおいて重要な要素である。 しかし、その理論的な性質は完全には解明されていない。 本稿では,確率過程xをリプレイバッファにプッシュしてランダムにサンプリングし,リプレイバッファから確率過程yを生成するシステムの解析を行う。 そこで本研究では, 定常性, マルコフ性, 自己相関などの試料化過程の特性を, 元の過程の性質の観点から解析する。 理論解析の結果,リプレイバッファがよいデコレータである理由が明らかになった。 我々の分析は、強化学習方式で一般的なリプレイバッファベースのアルゴリズムの収束を証明する理論的ツールを提供する。

Replay buffers are a key component in many reinforcement learning schemes. Yet, their theoretical properties are not fully understood. In this paper we analyze a system where a stochastic process X is pushed into a replay buffer and then randomly sampled to generate a stochastic process Y from the replay buffer. We provide an analysis of the properties of the sampled process such as stationarity, Markovity and autocorrelation in terms of the properties of the original process. Our theoretical analysis sheds light on why replay buffer may be a good de-correlator. Our analysis provides theoretical tools for proving the convergence of replay buffer based algorithms which are prevalent in reinforcement learning schemes.
翻訳日:2022-06-28 15:58:25 公開日:2022-06-26
# 合成軌道データ生成による道路網内のリンクフローの推定:強化学習に基づくアプローチ

Estimating Link Flows in Road Networks with Synthetic Trajectory Data Generation: Reinforcement Learning-based Approaches ( http://arxiv.org/abs/2206.12873v1 )

ライセンス: Link先を確認
Miner Zhong, Jiwon Kim, Zuduo Zheng(参考訳) 本稿では,限られた交通量と車両軌道データを組み合わせた道路網におけるリンクフロー推定の問題に対処する。 ループ検出器からの交通量データはリンクフロー推定の一般的なデータ源であるが、検出器はリンクのサブセットのみをカバーする。 車両追跡センサーから収集された車両の軌道データも最近組み込まれている。 しかし、軌道データは、観測された軌道が人口全体のごく一部しか表現していないため、正確なサンプリング速度が不明であり、空間や時間によって異なる場合が多い。 本研究では,マルコフ決定プロセスフレームワークを用いて車両の連系動作を逐次決定問題として定式化し,エージェントに逐次決定を行ない,リアルな合成車両軌道を生成するための新たな生成モデルフレームワークを提案する。 強化学習 (rl) に基づく手法を用いて, ネットワーク全体のリンクフローを推定するために, 合成集団車両軌跡を生成できるエージェントの最適挙動を探索する。 生成した集団車両軌跡が観測トラヒック量と軌道データと一致していることを保証するため,逆強化学習と制約強化学習に基づく2つの手法を提案する。 実道路網におけるリンクフロー推定問題を解くことにより,これらrl法のいずれかで解く生成モデルフレームワークの有効性を検証する。 さらに,既存の2つの手法と比較して総合的な実験を行った。 提案手法は,運転者の行動的仮定が満たされていない場合や,トラジェクトリデータのネットワークカバレッジや浸透率が低い場合において,高い推定精度とロバスト性を有することを示す。

This paper addresses the problem of estimating link flows in a road network by combining limited traffic volume and vehicle trajectory data. While traffic volume data from loop detectors have been the common data source for link flow estimation, the detectors only cover a subset of links. Vehicle trajectory data collected from vehicle tracking sensors are also incorporated these days. However, trajectory data are often sparse in that the observed trajectories only represent a small subset of the whole population, where the exact sampling rate is unknown and may vary over space and time. This study proposes a novel generative modelling framework, where we formulate the link-to-link movements of a vehicle as a sequential decision-making problem using the Markov Decision Process framework and train an agent to make sequential decisions to generate realistic synthetic vehicle trajectories. We use Reinforcement Learning (RL)-based methods to find the best behaviour of the agent, based on which synthetic population vehicle trajectories can be generated to estimate link flows across the whole network. To ensure the generated population vehicle trajectories are consistent with the observed traffic volume and trajectory data, two methods based on Inverse Reinforcement Learning and Constrained Reinforcement Learning are proposed. The proposed generative modelling framework solved by either of these RL-based methods is validated by solving the link flow estimation problem in a real road network. Additionally, we perform comprehensive experiments to compare the performance with two existing methods. The results show that the proposed framework has higher estimation accuracy and robustness under realistic scenarios where certain behavioural assumptions about drivers are not met or the network coverage and penetration rate of trajectory data are low.
翻訳日:2022-06-28 15:58:16 公開日:2022-06-26
# グラフ自己教師付き学習の潜在強化

Latent Augmentation For Better Graph Self-Supervised Learning ( http://arxiv.org/abs/2206.12933v1 )

ライセンス: Link先を確認
Jiashun Cheng, Man Li, Jia Li, Fugee Tsung(参考訳) グラフ自己教師付き学習はラベルなしのグラフから表現を学ぶために大いに使われてきた。 既存の手法は、予測学習とコントラスト学習に大別され、後者はより優れた経験的性能で研究の注目を集める。 しかし、潜在的な拡張と強力なデコーダを備えた予測モデルでは、コントラストモデルと同等あるいはそれ以上の表現能力が得られると論じている。 本研究では,より優れた一般化と効率向上のために,データ拡張を潜在空間に導入する。 Wiener Graph Deconvolutional Networkと呼ばれる新しいグラフデコーダは、拡張潜在表現から情報再構成を行うように設計されている。 理論的解析はグラフワイナーフィルタの優れた再構成能力を証明している。 各種データセットの広範な実験結果から,本手法の有効性が示された。

Graph self-supervised learning has been vastly employed to learn representations from unlabeled graphs. Existing methods can be roughly divided into predictive learning and contrastive learning, where the latter one attracts more research attention with better empirical performance. We argue that, however, predictive models weaponed with latent augmentations and powerful decoder could achieve comparable or even better representation power than contrastive models. In this work, we introduce data augmentations into latent space for superior generalization and better efficiency. A novel graph decoder named Wiener Graph Deconvolutional Network is correspondingly designed to perform information reconstruction from augmented latent representations. Theoretical analysis proves the superior reconstruction ability of graph wiener filter. Extensive experimental results on various datasets demonstrate the effectiveness of our approach.
翻訳日:2022-06-28 15:57:47 公開日:2022-06-26
# FAIR-BFL:ブロックチェーンベースのフェデレーションラーニングのためのフレキシブルでインセンティブの高い設計

FAIR-BFL: Flexible and Incentive Redesign for Blockchain-based Federated Learning ( http://arxiv.org/abs/2206.12899v1 )

ライセンス: Link先を確認
Rongxin Xu, Shiva Raj Pokhrel, Qiujun Lan, and Gang Li(参考訳) Vanilla Federated Learning (FL)は、集中型のグローバルアグリゲーションメカニズムに依存し、すべてのクライアントが誠実であると仮定する。 これにより、flが単一障害点と不正クライアントを緩和することは困難になる。 FLの設計哲学におけるこれらの差し迫った課題は、FLとブロックチェーン(民主主義、インセンティブ、不変性など)の結合によるブロックチェーンベースのフェデレーションラーニング(BFL)である。 しかし、バニラBFLの1つの問題は、その能力が動的に導入者のニーズに従わないことである。 さらに、vanilla bflは、データサイズのような検証不能なクライアントの自己報告貢献に依存している。 我々は、新しいBFLフレームワークを設計し、評価し、FAIR-BFLと呼ばれる柔軟性とインセンティブを持つバニラBFLの課題を解決した。 既存の作業とは対照的に、FAIR-BFLはモジュラー設計による前例のない柔軟性を提供しており、導入者はビジネス上の要求に応じて動的に機能を調整することができる。 我々の設計は、グローバルな学習プロセスへの各クライアントの貢献を定量化するBFLの能力について説明します。 このような定量化は、フェデレーションされたクライアント間で報酬を分配するための合理的な指標を提供し、グローバルモデルに毒を盛る可能性のある悪意のある参加者を見つけるのに役立つ。

Vanilla Federated learning (FL) relies on the centralized global aggregation mechanism and assumes that all clients are honest. This makes it a challenge for FL to alleviate the single point of failure and dishonest clients. These impending challenges in the design philosophy of FL call for blockchain-based federated learning (BFL) due to the benefits of coupling FL and blockchain (e.g., democracy, incentive, and immutability). However, one problem in vanilla BFL is that its capabilities do not follow adopters' needs in a dynamic fashion. Besides, vanilla BFL relies on unverifiable clients' self-reported contributions like data size because checking clients' raw data is not allowed in FL for privacy concerns. We design and evaluate a novel BFL framework, and resolve the identified challenges in vanilla BFL with greater flexibility and incentive mechanism called FAIR-BFL. In contrast to existing works, FAIR-BFL offers unprecedented flexibility via the modular design, allowing adopters to adjust its capabilities following business demands in a dynamic fashion. Our design accounts for BFL's ability to quantify each client's contribution to the global learning process. Such quantification provides a rational metric for distributing the rewards among federated clients and helps discover malicious participants that may poison the global model.
翻訳日:2022-06-28 15:52:36 公開日:2022-06-26
# まだいるのか? Dense Retrieval システムを用いた項ベース検索のための決定フレームワーク

Are We There Yet? A Decision Framework for Replacing Term Based Retrieval with Dense Retrieval Systems ( http://arxiv.org/abs/2206.12993v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Nick Craswell, Bhaskar Mitra, Hamed Zamani, Allan Hanbury(参考訳) 近年,いくつかの高密度検索(DR)モデルが,検索システムにおいてユビキタスな項ベース検索と競合する性能を示した。 用語ベースのマッチングとは対照的に、drはクエリとドキュメントを密集したベクトル空間に投影し、(ほぼ)近い近傍探索を通じて結果を取得する。 DRのような新しいシステムのデプロイには、パフォーマンス面でのトレードオフが必然的に伴います。 大規模な検索システムは、クエリ待ち時間、インデックス処理のスループット、ストレージ要求など、有効性とコストの観点からよく理解されている。 本研究では,2つの検索システムと,一方のシステムの可読性を評価し,他方のシステムを置き換えることの明確な目標を徹底的に比較するための,単純な有効性尺度を超える一連の基準を持つフレームワークを提案する。 これには、有効性と様々なコスト要因の間の慎重なトレードオフの考慮が含まれる。 さらに,平均的に優れたシステムであっても,少数のクエリで系統的障害が発生する可能性があるため,ガードレールの基準についても述べる。 guardrailsは、特定のクエリ特性の障害と、高密度検索システムでのみ可能な新しい障害タイプをチェックする。 我々はWebランキングのシナリオで意思決定の枠組みを実証する。 このシナリオでは、最先端のdrモデルには驚くほど強力な結果があり、平均的なパフォーマンスだけでなく、さまざまなクエリ特性、語彙マッチング、一般化、回帰数に対する堅牢性を示すガードレールテストのセットをパスする。 将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは、ここで提示されるような意思決定プロセスの繰り返し適用を通じて可能である。

Recently, several dense retrieval (DR) models have demonstrated competitive performance to term-based retrieval that are ubiquitous in search systems. In contrast to term-based matching, DR projects queries and documents into a dense vector space and retrieves results via (approximate) nearest neighbor search. Deploying a new system, such as DR, inevitably involves tradeoffs in aspects of its performance. Established retrieval systems running at scale are usually well understood in terms of effectiveness and costs, such as query latency, indexing throughput, or storage requirements. In this work, we propose a framework with a set of criteria that go beyond simple effectiveness measures to thoroughly compare two retrieval systems with the explicit goal of assessing the readiness of one system to replace the other. This includes careful tradeoff considerations between effectiveness and various cost factors. Furthermore, we describe guardrail criteria, since even a system that is better on average may have systematic failures on a minority of queries. The guardrails check for failures on certain query characteristics and novel failure types that are only possible in dense retrieval systems. We demonstrate our decision framework on a Web ranking scenario. In that scenario, state-of-the-art DR models have surprisingly strong results, not only on average performance but passing an extensive set of guardrail tests, showing robustness on different query characteristics, lexical matching, generalization, and number of regressions. It is impossible to predict whether DR will become ubiquitous in the future, but one way this is possible is through repeated applications of decision processes such as the one presented here.
翻訳日:2022-06-28 15:35:03 公開日:2022-06-26
# マスクでスパースニューラルネットワークを訓練する

Training Your Sparse Neural Network Better with Any Mask ( http://arxiv.org/abs/2206.12755v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Haoyu Ma, Tianlong Chen, Ying Ding, Zhangyang Wang(参考訳) 大規模ニューラルネットワークを用いて高品質で独立したトレーニング可能なスパースマスクを作成することで、高密度のマスクと同じようなパフォーマンスを維持することができる。 研究の取り組みは、スクラッチからトレーニング可能なスパースサブネットに繋がる、より洗練されたプルーニング手法に重点を置いているので、我々は直交し、探索されていないテーマ、すなわちスパーストレーニングの訓練技術を改善することについて議論する。 スパースマスクの品質のみがスパーストレーニングにとって重要であるという一般の信念とは別に,本論文では,次の新たな機会を実証する。 "`ghost"ニューロンの導入とトレーニングの初期段階での接続のスキップ,初期化とラベルの戦略的変更からなる,デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためのスパーストレーニングテクニックを慎重にカスタマイズすることができる。 我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。 新たにキュレートした手法を採用することで、一般的なデータセット(CIFAR-10、CIFAR-100、TinyImageNet)、アーキテクチャ(ResNet-18/32/104、Vgg16、MobileNet)、スパースマスクオプション(ロタリーチケット、SNIP/GRASP、SynFlow、さらにはランダムプルーニング)、そしてデフォルトのトレーニングプロトコル、特に高空間レベルでのパフォーマンス向上を示す。

Pruning large neural networks to create high-quality, independently trainable sparse masks, which can maintain similar performance to their dense counterparts, is very desirable due to the reduced space and time complexity. As research effort is focused on increasingly sophisticated pruning methods that leads to sparse subnetworks trainable from the scratch, we argue for an orthogonal, under-explored theme: improving training techniques for pruned sub-networks, i.e. sparse training. Apart from the popular belief that only the quality of sparse masks matters for sparse training, in this paper we demonstrate an alternative opportunity: one can \textit{carefully customize the sparse training techniques to deviate from the default dense network training protocols}, consisting of introducing ``ghost" neurons and skip connections at the early stage of training, and strategically modifying the initialization as well as labels. Our new sparse training recipe is generally applicable to improving training from scratch with various sparse masks. By adopting our newly curated techniques, we demonstrate significant performance gains across various popular datasets (CIFAR-10, CIFAR-100, TinyImageNet), architectures (ResNet-18/32/104, Vgg16, MobileNet), and sparse mask options (lottery ticket, SNIP/GRASP, SynFlow, or even randomly pruning), compared to the default training protocols, especially at high sparsity levels.
翻訳日:2022-06-28 15:13:21 公開日:2022-06-26
# gleason gradingにおける混合監督による複数インスタンス学習

Multiple Instance Learning with Mixed Supervision in Gleason Grading ( http://arxiv.org/abs/2206.12798v1 )

ライセンス: Link先を確認
Hao Bian, Zhuchen Shao, Yang Chen, Yifeng Wang, Haoqian Wang, Jian Zhang, Yongbing Zhang(参考訳) 計算病理学の発展に伴い、スライド画像全体(WSI)を通してGleasonの深層学習手法が期待できる。 WSIsのサイズは非常に大きいため、画像ラベルは通常、スライドレベルラベルまたは限られたピクセルレベルラベルのみを含む。 現在の主流のアプローチでは、Gleasonの成績を予測するためにマルチインスタンス学習を採用している。 しかし、スライドレベルラベルのみを考慮する方法は、リッチなローカル情報を含む限られたピクセルレベルラベルを無視している。 さらに、画素レベルラベルを付加的に検討する方法は、画素レベルラベルの不正確性を無視する。 これらの問題に対処するために,複数インスタンス学習フレームワークに基づく複合監視変換器を提案する。 このモデルは、スライドレベルラベルとインスタンスレベルラベルの両方を利用して、より正確なGleasonグレーディングを実現する。 混合監視訓練プロセスにおいて,効率的なランダムマスキング戦略を導入することにより,不正確なインスタンスレベルのラベルの影響をさらに低減する。 SICAPv2データセット上での最先端性能を実現し、視覚解析により、インスタンスレベルの正確な予測結果を示す。 ソースコードはhttps://github.com/bianhao123/mixed_supervisionで入手できる。

With the development of computational pathology, deep learning methods for Gleason grading through whole slide images (WSIs) have excellent prospects. Since the size of WSIs is extremely large, the image label usually contains only slide-level label or limited pixel-level labels. The current mainstream approach adopts multi-instance learning to predict Gleason grades. However, some methods only considering the slide-level label ignore the limited pixel-level labels containing rich local information. Furthermore, the method of additionally considering the pixel-level labels ignores the inaccuracy of pixel-level labels. To address these problems, we propose a mixed supervision Transformer based on the multiple instance learning framework. The model utilizes both slide-level label and instance-level labels to achieve more accurate Gleason grading at the slide level. The impact of inaccurate instance-level labels is further reduced by introducing an efficient random masking strategy in the mixed supervision training process. We achieve the state-of-the-art performance on the SICAPv2 dataset, and the visual analysis shows the accurate prediction results of instance level. The source code is available at https://github.com/bianhao123/Mixed_supervision.
翻訳日:2022-06-28 15:12:47 公開日:2022-06-26
# 正規化ドライバと拡張レンダを用いた知覚対話型ヘッド生成

Perceptual Conversational Head Generation with Regularized Driver and Enhanced Renderer ( http://arxiv.org/abs/2206.12837v1 )

ライセンス: Link先を確認
Ailin Huang, Zhewei Huang, Shuchang Zhou(参考訳) 本稿では,音声および参照画像に基づく対話映像の鮮明な生成を目的とした,MultiMedia ViCo 2022 Conversational Head Generation Challengeのソリューションについて報告する。 我々のソリューションは、正規化と高画質レンダラーの組み立てによる一般化されたオーディオ・ツー・ヘッドドライバのトレーニングに焦点を当てている。 我々は,前景・後景融合モジュールを用いて,音声対話モデルと生成映像のポスト処理を慎重に調整する。 公式ランキングでは、聴取ヘッド生成トラックで1位、話しヘッド生成トラックで2位となる。 私たちのコードはリリースされます。

This paper reports our solution for MultiMedia ViCo 2022 Conversational Head Generation Challenge, which aims to generate vivid face-to-face conversation videos based on audio and reference images. Our solution focuses on training a generalized audio-to-head driver using regularization and assembling a high visual quality renderer. We carefully tweak the audio-to-behavior model and post-process the generated video using our foreground-background fusion module. We get first place in the listening head generation track and second place in the talking head generation track in the official ranking. Our code will be released.
翻訳日:2022-06-28 15:12:30 公開日:2022-06-26
# 木造魚眼物体の自律走行検出 --CVPR 2022 オムニCVワークショップチャレンジ

Woodscape Fisheye Object Detection for Autonomous Driving -- CVPR 2022 OmniCV Workshop Challenge ( http://arxiv.org/abs/2206.12912v1 )

ライセンス: Link先を確認
Saravanabalagi Ramachandran, Ganesh Sistu, Varun Ravi Kumar, John McDonald and Senthil Yogamani(参考訳) 物体検出は自動運転において包括的に研究されている問題である。 しかし、魚眼カメラについては、比較的研究が進んでいない。 強いラジアル歪みは、畳み込みニューラルネットワークの変換不変性誘導バイアスを破る。 そこで本研究では, CVPR 2022 Workshop on Omnidirectional Computer Vision (OmniCV) の一環として, 自律走行のためのWoodScape fisheye物体検出チャレンジを開催する。 これは、魚眼カメラオブジェクト検出に焦点を当てた最初のコンペの1つだ。 魚眼画像にネイティブに機能するモデルを修正せずに設計するよう,参加者に勧めた。 私たちはCodaLabを使って、一般公開されているWoodScape fisheyeデータセットに基づいたコンペを開催しました。 本稿では、120のグローバルチームの参加と合計1492の応募を惹き付けたコンペティションについて、詳細な分析を行う。 優勝方法の詳細を簡潔に議論し,その質的,定量的な結果を分析した。

Object detection is a comprehensively studied problem in autonomous driving. However, it has been relatively less explored in the case of fisheye cameras. The strong radial distortion breaks the translation invariance inductive bias of Convolutional Neural Networks. Thus, we present the WoodScape fisheye object detection challenge for autonomous driving which was held as part of the CVPR 2022 Workshop on Omnidirectional Computer Vision (OmniCV). This is one of the first competitions focused on fisheye camera object detection. We encouraged the participants to design models which work natively on fisheye images without rectification. We used CodaLab to host the competition based on the publicly available WoodScape fisheye dataset. In this paper, we provide a detailed analysis on the competition which attracted the participation of 120 global teams and a total of 1492 submissions. We briefly discuss the details of the winning methods and analyze their qualitative and quantitative results.
翻訳日:2022-06-28 15:12:19 公開日:2022-06-26
# 非パラメトリックスタイル転送

Non-Parametric Style Transfer ( http://arxiv.org/abs/2206.12921v1 )

ライセンス: Link先を確認
Jeong-Sik Lee, Hyun-Chul Choi(参考訳) 最近の任意の画像スタイル転送のフィードフォワードニューラルな手法では、主に符号化された特徴マップを2次統計、すなわち、コンテンツ画像の符号化された特徴マップを、ターゲットスタイルの特徴マップの同じ平均と分散(または共分散)を持つように線形に変換した。 本研究では,画像のスタイルが受容体からの応答の分布によって表現されるという理解に基づいて,二階の統計的特徴マッチングを一般分布マッチングに拡張する。 この一般化のために,まず,コンテンツ画像の特徴マップ分布とターゲット画像の特徴マップ分布を正確に一致させる特徴変換層を提案する。 第2に,新しい機能変換層と整合した最近のスタイル損失を分析し,変換された機能マップからスタイル転送画像を生成するデコーダネットワークを訓練する。 実験結果から,本手法により得られたスタイリング画像は,コンテンツクリアネスを損なうことなく,既存のすべてのスタイル尺度において,ターゲットスタイル画像とより類似していることが証明された。

Recent feed-forward neural methods of arbitrary image style transfer mainly utilized encoded feature map upto its second-order statistics, i.e., linearly transformed the encoded feature map of a content image to have the same mean and variance (or covariance) of a target style feature map. In this work, we extend the second-order statistical feature matching into a general distribution matching based on the understanding that style of an image is represented by the distribution of responses from receptive fields. For this generalization, first, we propose a new feature transform layer that exactly matches the feature map distribution of content image into that of target style image. Second, we analyze the recent style losses consistent with our new feature transform layer to train a decoder network which generates a style transferred image from the transformed feature map. Based on our experimental results, it is proven that the stylized images obtained with our method are more similar with the target style images in all existing style measures without losing content clearness.
翻訳日:2022-06-28 15:12:05 公開日:2022-06-26
# 時間境界における不確かさによる映像活動の定位

Video Activity Localisation with Uncertainties in Temporal Boundary ( http://arxiv.org/abs/2206.12923v1 )

ライセンス: Link先を確認
Jiabo Huang, Hailin Jin, Shaogang Gong, Yang Liu(参考訳) ビデオ活動の時間的局所化の現在の方法は、モデルトレーニング用にラベル付けされた活動時間境界が決定的かつ正確であることを暗黙的に仮定している。 しかし、無記述の自然映像では、異なる活動がほとんどスムーズに流れるため、活動が時間とともに開始し終わるタイミングを正確にラベル付けすることは本質的に曖昧である。 このような時間的ラベリングの不確実性は、モデルトレーニングでは無視され、テストの一般化の貧弱さとミスマッチしたビデオテキスト相関の学習に繋がる。 本研究では, 動的かつ適応的な時間的境界に適合する弾力的モーメントバウンディング(EMB)を導入し, 予め固定されたアノテーションの時間的不確実性に対する耐性と普遍的に解釈可能なビデオテキスト相関をモデル化する。 具体的には、ビデオセグメントと問合せ文のアライメントを最大化できるフレームワイズ時間エンドポイントをマイニングし、発見することにより、弾性境界を適応的に構築する。 よりロバストなマッチング(セグメントコンテンツの注目)とより正確な局所化(セグメントの弾性境界)の両方を可能にするため、新しい誘導注意機構により、セグメントコンテンツのフレーム毎のエンドポイントの選択を最適化する。 3つのビデオアクティビティローカライゼーションベンチマークに関する大規模な実験は、不確実性をモデル化せずに既存の手法に対するEMBの利点を大いに示している。

Current methods for video activity localisation over time assume implicitly that activity temporal boundaries labelled for model training are determined and precise. However, in unscripted natural videos, different activities mostly transit smoothly, so that it is intrinsically ambiguous to determine in labelling precisely when an activity starts and ends over time. Such uncertainties in temporal labelling are currently ignored in model training, resulting in learning mis-matched video-text correlation with poor generalisation in test. In this work, we solve this problem by introducing Elastic Moment Bounding (EMB) to accommodate flexible and adaptive activity temporal boundaries towards modelling universally interpretable video-text correlation with tolerance to underlying temporal uncertainties in pre-fixed annotations. Specifically, we construct elastic boundaries adaptively by mining and discovering frame-wise temporal endpoints that can maximise the alignment between video segments and query sentences. To enable both more robust matching (segment content attention) and more accurate localisation (segment elastic boundaries), we optimise the selection of frame-wise endpoints subject to segment-wise contents by a novel Guided Attention mechanism. Extensive experiments on three video activity localisation benchmarks demonstrate compellingly the EMB's advantages over existing methods without modelling uncertainty.
翻訳日:2022-06-28 15:11:48 公開日:2022-06-26
# 適応型クラスアクティベーションマッピングによるマルチビュー機能拡張

Multi-view Feature Augmentation with Adaptive Class Activation Mapping ( http://arxiv.org/abs/2206.12943v1 )

ライセンス: Link先を確認
Xiang Gao and Yingjie Tian(参考訳) モデル性能を向上させるために,複数ビューの局所的特徴を抽出し,活用する画像分類のためのエンドツーエンド・トレーニング可能な機能拡張モジュールを提案する。 グローバル平均プーリング(GAP)を用いて,グローバルビューのみからベクトル化された特徴を抽出するのと異なり,モデルロバスト性を改善するため,多様な多視点局所特徴をサンプリング・アンサンブルすることを提案する。 今回提案したAdaCAM (Adaptive Class Activation Mapping, 適応型クラス活性化マッピング) を通じて, 特徴マップのクラス識別ローカル領域に効率よく適応的に対応できる, 単純な補助的分類器ヘッド(1$\times$1畳み込み層を含む)を組み込んだ。 広範な実験は、マルチビュー機能拡張モジュールによって達成された一貫性と注目すべきパフォーマンスの向上を示しています。

We propose an end-to-end-trainable feature augmentation module built for image classification that extracts and exploits multi-view local features to boost model performance. Different from using global average pooling (GAP) to extract vectorized features from only the global view, we propose to sample and ensemble diverse multi-view local features to improve model robustness. To sample class-representative local features, we incorporate a simple auxiliary classifier head (comprising only one 1$\times$1 convolutional layer) which efficiently and adaptively attends to class-discriminative local regions of feature maps via our proposed AdaCAM (Adaptive Class Activation Mapping). Extensive experiments demonstrate consistent and noticeable performance gains achieved by our multi-view feature augmentation module.
翻訳日:2022-06-28 15:11:22 公開日:2022-06-26
# 結合初期化によるニューラルネットワークの幅の境界 -- 最悪のケース解析

Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis ( http://arxiv.org/abs/2206.12802v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, Zhao Song, David P. Woodruff(参考訳) ニューラルネットワークを訓練する一般的な方法は、すべての重みを独立ガウスベクトルに初期化することである。 代わりにウェイトを独立対に初期化することで、各ペアは2つの同一ガウスベクトルからなるので、収束解析を著しく改善することができる。 同様の手法がランダムな入力 [Daniely, NeurIPS 2020] に対して研究されているが、任意の入力では分析されていない。 Using this technique, we show how to significantly reduce the number of neurons required for two-layer ReLU networks, both in the under-parameterized setting with logistic loss, from roughly $\gamma^{-8}$ [Ji and Telgarsky, ICLR 2020] to $\gamma^{-2}$, where $\gamma$ denotes the separation margin with a Neural Tangent Kernel, as well as in the over-parameterized setting with squared loss, from roughly $n^4$ [Song and Yang, 2019] to $n^2$, implicitly also improving the recent running time bound of [Brand, Peng, Song and Weinstein, ITCS 2021]. パラメータの低い設定に対しては、事前の作業により改善される新しい下限を証明し、ある仮定の下では、最善であることを示す。

A common method in training neural networks is to initialize all the weights to be independent Gaussian vectors. We observe that by instead initializing the weights into independent pairs, where each pair consists of two identical Gaussian vectors, we can significantly improve the convergence analysis. While a similar technique has been studied for random inputs [Daniely, NeurIPS 2020], it has not been analyzed with arbitrary inputs. Using this technique, we show how to significantly reduce the number of neurons required for two-layer ReLU networks, both in the under-parameterized setting with logistic loss, from roughly $\gamma^{-8}$ [Ji and Telgarsky, ICLR 2020] to $\gamma^{-2}$, where $\gamma$ denotes the separation margin with a Neural Tangent Kernel, as well as in the over-parameterized setting with squared loss, from roughly $n^4$ [Song and Yang, 2019] to $n^2$, implicitly also improving the recent running time bound of [Brand, Peng, Song and Weinstein, ITCS 2021]. For the under-parameterized setting we also prove new lower bounds that improve upon prior work, and that under certain assumptions, are best possible.
翻訳日:2022-06-28 14:23:10 公開日:2022-06-26
# 手作り特徴を加味した深達度特徴を用いた乳癌分類

Breast Cancer Classification using Deep Learned Features Boosted with Handcrafted Features ( http://arxiv.org/abs/2206.12815v1 )

ライセンス: Link先を確認
Unaiza Sajid, Dr. Rizwan Ahmed Khan, Dr. Shahid Munir Shah, Dr. Sheeraz Arif(参考訳) 乳がんは世界中で女性の死因の1つだ。 進行段階において検出された場合は治療が困難であるが、早期発見は生存の可能性を大きく増やし、数百万人の女性の生活を改善する可能性がある。 乳がんが広範に流行していることを考えると、早期発見、分類、診断の枠組みを考えることが研究コミュニティにとって最も重要である。 医療従事者と協調する人工知能研究コミュニティは、検出タスクを自動化するためのフレームワークを開発している。 研究活動の急増と、大規模なデータセットの可用性と計算能力の強化により、AIフレームワークの結果は、より多くの臨床医が正しい予測を行うのに役立つと期待されている。 本稿では,マンモグラムを用いた乳癌の分類のための新しい枠組みを提案する。 提案フレームワークは,新しい畳み込みニューラルネットワーク(CNN)特徴とHOG(Histogram of Oriented Gradients)やLBP(Local Binary Pattern)などの手作り特徴とを結合する。 CBIS-DDSMデータセットの得られた結果は,最先端技術を上回る。

Breast cancer is one of the leading causes of death among women across the globe. It is difficult to treat if detected at advanced stages, however, early detection can significantly increase chances of survival and improves lives of millions of women. Given the widespread prevalence of breast cancer, it is of utmost importance for the research community to come up with the framework for early detection, classification and diagnosis. Artificial intelligence research community in coordination with medical practitioners are developing such frameworks to automate the task of detection. With the surge in research activities coupled with availability of large datasets and enhanced computational powers, it expected that AI framework results will help even more clinicians in making correct predictions. In this article, a novel framework for classification of breast cancer using mammograms is proposed. The proposed framework combines robust features extracted from novel Convolutional Neural Network (CNN) features with handcrafted features including HOG (Histogram of Oriented Gradients) and LBP (Local Binary Pattern). The obtained results on CBIS-DDSM dataset exceed state of the art.
翻訳日:2022-06-28 14:20:02 公開日:2022-06-26
# 時空間記憶交換の強化による予測ネットワークによる映像異常検出

Video Anomaly Detection via Prediction Network with Enhanced Spatio-Temporal Memory Exchange ( http://arxiv.org/abs/2206.12914v1 )

ライセンス: Link先を確認
Guodong Shen, Yuqi Ouyang, Victor Sanchez(参考訳) ビデオ異常検出は、ほとんどの異常が希少かつ非決定論的であるため、難しい課題である。 多くのアプローチは正常パターンと異常パターンの再構成の違いを調査しているが、異常は必ずしも大きな再構成誤差に対応していない。 この問題に対処するために,双方向性と高次機構を用いた時空間メモリ交換を拡張した畳み込みLSTM自動エンコーダ予測フレームワークを設計した。 双方向構造は、前方および後方の予測を通じて時間的正則性の学習を促進する。 ユニークな高次機構は、エンコーダとデコーダの間の空間情報相互作用をさらに強化する。 畳み込み型lstmにおける限定受容場を考えると,予測のための情報的特徴を強調するアテンションモジュールも導入する。 最終的に異常は、フレームと対応する予測を比較することで識別される。 3つの人気のあるベンチマークの評価では、既存の予測に基づく異常検出手法よりも優れたフレームワークが示されている。

Video anomaly detection is a challenging task because most anomalies are scarce and non-deterministic. Many approaches investigate the reconstruction difference between normal and abnormal patterns, but neglect that anomalies do not necessarily correspond to large reconstruction errors. To address this issue, we design a Convolutional LSTM Auto-Encoder prediction framework with enhanced spatio-temporal memory exchange using bi-directionalilty and a higher-order mechanism. The bi-directional structure promotes learning the temporal regularity through forward and backward predictions. The unique higher-order mechanism further strengthens spatial information interaction between the encoder and the decoder. Considering the limited receptive fields in Convolutional LSTMs, we also introduce an attention module to highlight informative features for prediction. Anomalies are eventually identified by comparing the frames with their corresponding predictions. Evaluations on three popular benchmarks show that our framework outperforms most existing prediction-based anomaly detection methods.
翻訳日:2022-06-28 14:18:15 公開日:2022-06-26
# 確率的polargmm:未知ポーズの非常にノイズの投影画像の教師なしクラスタ学習

Probabilistic PolarGMM: Unsupervised Cluster Learning of Very Noisy Projection Images of Unknown Pose ( http://arxiv.org/abs/2206.12959v1 )

ライセンス: Link先を確認
Supawit Chockchowwat, Chandrajit L. Bajaj(参考訳) 極低温電子顕微鏡(cryo-em)の単一粒子分析(spa)において重要なステップである2d分類とアライメントは、ノイズの粒子画像の収集によって配向を推定し、類似の画像をグループ化する。 これらのアライメントとクラスタリングされたノイズの画像を平均化すると、クリーンな画像が生成され、3D再構成などのさらなる分析の準備が整う。 Fourier-Bessel steerable principal component analysis (FBsPCA) は、効率的で適応性の高いローランク回転演算子を実現する。 FBsPCAを拡張して翻訳も処理します。 この拡張FBsPCA表現では、確率的極座標ガウス混合モデルを用いて、予測最大化(EM)アルゴリズムを用いて、教師なしの方法でソフトクラスタを学習する。 したがって、得られた回転クラスターは、ペアアライメントの不完全性の存在にさらに頑健である。 シミュレーションされたCryo-EMデータセットからの複数のベンチマークは、標準的な単一粒子Cryo-EMツールであるEMAN2とRELIONと比較して、様々なクラスタリングメトリクスとアライメントエラーの観点から確率論的PolaGMMの性能改善を示している。

A crucial step in single particle analysis (SPA) of cryogenic electron microscopy (Cryo-EM), 2D classification and alignment takes a collection of noisy particle images to infer orientations and group similar images together. Averaging these aligned and clustered noisy images produces a set of clean images, ready for further analysis such as 3D reconstruction. Fourier-Bessel steerable principal component analysis (FBsPCA) enables an efficient, adaptable, low-rank rotation operator. We extend the FBsPCA to additionally handle translations. In this extended FBsPCA representation, we use a probabilistic polar-coordinate Gaussian mixture model to learn soft clusters in an unsupervised fashion using an expectation maximization (EM) algorithm. The obtained rotational clusters are thus additionally robust to the presence of pairwise alignment imperfections. Multiple benchmarks from simulated Cryo-EM datasets show probabilistic PolarGMM's improved performance in comparisons with standard single-particle Cryo-EM tools, EMAN2 and RELION, in terms of various clustering metrics and alignment errors.
翻訳日:2022-06-28 14:18:02 公開日:2022-06-26
# ロバスト変圧器を用いたハイブリッドモデルのためのトレーニングレシピの改善

Improving the Training Recipe for a Robust Conformer-based Hybrid Model ( http://arxiv.org/abs/2206.12955v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen and Jingjing Xu and Christoph L\"uscher and Ralf Schl\"uter and Hermann Ney(参考訳) 話者適応は、堅牢な自動音声認識(ASR)システムを構築する上で重要である。 本研究では,Switchboard 300h データセット上のコンバータベース音響モデル (AM) の特徴空間的アプローチに基づく話者適応訓練 (SAT) の様々な手法について検討する。 本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを付加するWeighted-Simple-Addを提案する。 SATのこの手法を用いて,Hub5'00のコールホーム部とHub5'01のWERの相対的な改善をそれぞれ3.5%と4.5%とした。 さらに,本研究では,コンフォーメータベースのハイブリッドamのための新鮮で競争力のあるトレーニングレシピを提案する。 Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。 また,パラメータの総数を34%削減することで,このレシピを効率化した。

Speaker adaptation is important to build robust automatic speech recognition (ASR) systems. In this work, we investigate various methods for speaker adaptive training (SAT) based on feature-space approaches for a conformer-based acoustic model (AM) on the Switchboard 300h dataset. We propose a method, called Weighted-Simple-Add, which adds weighted speaker information vectors to the input of the multi-head self-attention module of the conformer AM. Using this method for SAT, we achieve 3.5% and 4.5% relative improvement in terms of WER on the CallHome part of Hub5'00 and Hub5'01 respectively. Moreover, we build on top of our previous work where we proposed a novel and competitive training recipe for a conformer-based hybrid AM. We extend and improve this recipe where we achieve 11% relative improvement in terms of word-error-rate (WER) on Switchboard 300h Hub5'00 dataset. We also make this recipe efficient by reducing the total number of parameters by 34% relative.
翻訳日:2022-06-28 14:06:42 公開日:2022-06-26
# 実値関数の逆ロバスト学習

Adversarially Robust Learning of Real-Valued Functions ( http://arxiv.org/abs/2206.12977v1 )

ライセンス: Link先を確認
Idan Attias and Steve Hanneke(参考訳) 我々は,$\ell_p$ロスと任意の摂動セットによる回帰設定において,テスト時間逆行攻撃に対するロバスト性を検討した。 この設定では、どの関数クラスがPACを学習できるかという問題に対処する。 有限分解次元のクラスは学習可能であることを示す。 さらに、凸関数クラスでは、それらは適切に学習可能である。 対照的に、いくつかの非凸関数クラスは不適切な学習アルゴリズムを必要とする。 不可知学習の拡張についても論じる。 本手法は, 対向的に頑健な試料圧縮スキームをファットシェイタリング次元で決定したサイズで構築することに基づく。

We study robustness to test-time adversarial attacks in the regression setting with $\ell_p$ losses and arbitrary perturbation sets. We address the question of which function classes are PAC learnable in this setting. We show that classes of finite fat-shattering dimension are learnable. Moreover, for convex function classes, they are even properly learnable. In contrast, some non-convex function classes provably require improper learning algorithms. We also discuss extensions to agnostic learning. Our main technique is based on a construction of an adversarially robust sample compression scheme of a size determined by the fat-shattering dimension.
翻訳日:2022-06-28 14:05:12 公開日:2022-06-26
# スタンドアロン・リコーリングモードにおける注意に基づくエンドツーエンド音声認識のためのエンコーダの比較

On Comparison of Encoders for Attention based End to End Speech Recognition in Standalone and Rescoring Mode ( http://arxiv.org/abs/2206.12829v1 )

ライセンス: Link先を確認
Raviraj Joshi, Subodh Kumar(参考訳) ストリーミング自動音声認識(ASR)モデルは、より人気があり、音声ベースのアプリケーションに適している。 しかし、非ストリーミングモデルは、オーディオコンテキスト全体を見ることによって、パフォーマンスが向上する。 音声検索のようなストリーミングアプリケーションにおける非ストリーミングモデルの利点を利用するため、second pass re-scoringモードでは一般的に使用される。 蒸気モデルを用いて生成された候補仮説は、非ストリーミングモデルを用いて再描画される。 本研究では,Flipkart音声検索タスクにおける非ストリーミングアテンションに基づく終端ASRモデルを,スタンドアローンモードと再描画モードの両方で評価する。 これらのモデルは Listen-Attend-Spell (LAS) encoder-decoder アーキテクチャに基づいている。 LSTM, Transformer, Conformer に基づく様々なエンコーダ変動実験を行った。 これらのモデルのレイテンシ要件とパフォーマンスを比較します。 全体として、Transformerモデルは最低レイテンシ要件で許容できるWERを提供する。 我々は,第2パスlasで約16%改善し,レイテンシオーバーヘッドが5ms以下となったことを報告する。 また,CNNフロントエンドとTransformerアーキテクチャが同等のワードエラー率(WER)を実現することの重要性を強調した。 さらに、第2パス再スコーリングモードでは、エンコーダが同様の利点を享受する一方、独立したテキスト生成モードではパフォーマンスの違いが顕著である。

The streaming automatic speech recognition (ASR) models are more popular and suitable for voice-based applications. However, non-streaming models provide better performance as they look at the entire audio context. To leverage the benefits of the non-streaming model in streaming applications like voice search, it is commonly used in second pass re-scoring mode. The candidate hypothesis generated using steaming models is re-scored using a non-streaming model. In this work, we evaluate the non-streaming attention-based end-to-end ASR models on the Flipkart voice search task in both standalone and re-scoring modes. These models are based on Listen-Attend-Spell (LAS) encoder-decoder architecture. We experiment with different encoder variations based on LSTM, Transformer, and Conformer. We compare the latency requirements of these models along with their performance. Overall we show that the Transformer model offers acceptable WER with the lowest latency requirements. We report a relative WER improvement of around 16% with the second pass LAS re-scoring with latency overhead under 5ms. We also highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rates (WER). Moreover, we observe that in the second pass re-scoring mode all the encoders provide similar benefits whereas the difference in performance is prominent in standalone text generation mode.
翻訳日:2022-06-28 13:59:11 公開日:2022-06-26
# 音声言語における認知症検出のためのデータ拡張

Data Augmentation for Dementia Detection in Spoken Language ( http://arxiv.org/abs/2206.12879v1 )

ライセンス: Link先を確認
Anna Hl\'edikov\'a, Dominika Woszczyk, Alican Acman, Soteris Demetriou and Bj\"orn Schuller(参考訳) 認知症は社会の高齢化に伴う問題であり、検出法はしばしば侵襲的で高価である。 最近のディープラーニング技術は、より高速な診断を提供し、有望な結果をもたらす。 しかし、それらは認知症検出のタスクでは容易に利用できない大量のラベル付きデータを必要とする。 スパースデータ問題に対する効果的な解決策の1つはデータ拡張であるが、正確な方法は慎重に選択する必要がある。 これまで、nlpおよび音声処理のためのアルツハイマー病(ad)データセットのデータ拡張に関する実証研究は行われていない。 本研究では,AD検出作業のためのデータ拡張手法について検討し,テキストドメインとオーディオドメインの両方の2種類のモデルに対して,異なるアプローチの実証的な評価を行う。 我々は,テキスト領域と音声領域の両方に対してトランスフォーマティブモデルと,svmモデルとランダムフォレストモデルを用いた。 従来型およびディープラーニングベースの手法を用いて追加サンプルを生成し,データ拡張がテキストモデルと音声モデルの両方のパフォーマンスを向上し,その結果が一般的なadressセットの最先端の結果に匹敵することを示した。

Dementia is a growing problem as our society ages, and detection methods are often invasive and expensive. Recent deep-learning techniques can offer a faster diagnosis and have shown promising results. However, they require large amounts of labelled data which is not easily available for the task of dementia detection. One effective solution to sparse data problems is data augmentation, though the exact methods need to be selected carefully. To date, there has been no empirical study of data augmentation on Alzheimer's disease (AD) datasets for NLP and speech processing. In this work, we investigate data augmentation techniques for the task of AD detection and perform an empirical evaluation of the different approaches on two kinds of models for both the text and audio domains. We use a transformer-based model for both domains, and SVM and Random Forest models for the text and audio domains, respectively. We generate additional samples using traditional as well as deep learning based methods and show that data augmentation improves performance for both the text- and audio-based models and that such results are comparable to state-of-the-art results on the popular ADReSS set, with carefully crafted architectures and features.
翻訳日:2022-06-28 13:58:51 公開日:2022-06-26
# appflchain: 連合学習とコンソーシアムブロックチェーンに基づく、プライバシ保護分散型人工知能アーキテクチャ

APPFLChain: A Privacy Protection Distributed Artificial-Intelligence Architecture Based on Federated Learning and Consortium Blockchain ( http://arxiv.org/abs/2206.12790v1 )

ライセンス: Link先を確認
Jun-Teng Yang, Wen-Yuan Chen, Che-Hua Li, Scott C.-H. Huang and Hsiao-Chun Wu(参考訳) モノのインターネットに関する最近の研究は、データとコネクテッドデバイスを指数的に成長させる産業的実践に広く応用されている。 それゆえ、データ駆動型aiモデルは、特定のデータ共有ポリシーを通じて異なる当事者によってアクセスされることになる。 しかし、現在のトレーニング手順のほとんどは集中型データ収集戦略と単一の計算サーバーに依存している。 しかし、このような集中型スキームは多くの問題を引き起こす可能性がある。 集中データベースに格納された顧客データを改ざんすることで、データの出所と信頼性を正当化できない。 前述のセキュリティ上の懸念が発生したら、トレーニングされたAIモデルの信頼性は疑問視され、テスト段階では好ましくない結果が生み出される可能性がある。 最近、Industrial 4.0とWeb 3.0の2つの中核技術であるブロックチェーンとAIが、分散AIトレーニング戦略を促進するために研究されている。 この目的を達成するため,我々は,hyperledgerファブリックベースのブロックチェーンとフェデレート学習パラダイムの統合アーキテクチャであるappflchainと呼ばれる新しいシステムアーキテクチャを提案する。 提案した新しいシステムでは、さまざまなパーティがAIモデルを共同でトレーニングし、顧客や利害関係者はコンソーシアムブロックチェーンベースのネットワークで接続できる。 当社の新しいシステムでは,機密性の高い個人情報をサーバに共有する必要がなく,高いセキュリティとプライバシを維持することが可能です。 実世界のシナリオをシミュレートし,APPFLChainの運用プロセス全体を説明する。 シミュレーションの結果,コンソーシアムブロックチェーンとフェデレーション学習の特性を活かしたAPPFLChainは,不透明性,トレーサビリティ,プライバシ保護,信頼性の高い意思決定など,良好な特性を示すことができた。

Recent research in Internet of things has been widely applied for industrial practices, fostering the exponential growth of data and connected devices. Henceforth, data-driven AI models would be accessed by different parties through certain data-sharing policies. However, most of the current training procedures rely on the centralized data-collection strategy and a single computational server. However, such a centralized scheme may lead to many issues. Customer data stored in a centralized database may be tampered with so the provenance and authenticity of data cannot be justified. Once the aforementioned security concerns occur, the credibility of the trained AI models would be questionable and even unfavorable outcomes might be produced at the test stage. Lately, blockchain and AI, the two core technologies in Industry 4.0 and Web 3.0, have been explored to facilitate the decentralized AI training strategy. To serve on this very purpose, we propose a new system architecture called APPFLChain, namely an integrated architecture of a Hyperledger Fabric-based blockchain and a federated-learning paradigm. Our proposed new system allows different parties to jointly train AI models and their customers or stakeholders are connected by a consortium blockchain-based network. Our new system can maintain a high degree of security and privacy as users do not need to share sensitive personal information to the server. For numerical evaluation, we simulate a real-world scenario to illustrate the whole operational process of APPFLChain. Simulation results show that taking advantage of the characteristics of consortium blockchain and federated learning, APPFLChain can demonstrate favorable properties including untamperability, traceability, privacy protection, and reliable decision-making.
翻訳日:2022-06-28 13:56:39 公開日:2022-06-26
# fETSmcs: 機能ベースのETSモデルコンポーネントの選択

fETSmcs: Feature-based ETS model component selection ( http://arxiv.org/abs/2206.12882v1 )

ライセンス: Link先を確認
Lingzhi Qi and Xixi Li and Qiang Wang and Suling Jia(参考訳) ETS(ExponenTial Smoothing or Error, Trend, Seasonality)法は, 状態空間表現に指数的滑らか化モデル群を組み込んだ手法として, 自動予測に広く用いられている。 既存のets法は、与えられた時系列に適合する全てのモデルの中で最小の情報基準を持つ最適モデルを選択することにより、モデル選択のための情報基準を用いる。 このようなモデル選択方式下でのETS法は,大規模時系列データに適用した場合,計算複雑性に悩まされる。 この問題に対処するために,シミュレーションデータに基づく分類器を訓練し,与えられた時系列に対する適切なモデルコンポーネントフォームを予測することで,ETSモデル選択のための効率的なアプローチを提案する。 本研究では,シミュレーションデータに対する提案手法のモデル選択能力を示すシミュレーション研究を行う。 提案手法は, 点予測と予測間隔の両面から, 広く使用されている予測競合データセットM4に対するアプローチを評価する。 本手法の実用的価値を示すため,毎月の病院データに対するアプローチによる性能改善について紹介する。

The well-developed ETS (ExponenTial Smoothing or Error, Trend, Seasonality) method incorporating a family of exponential smoothing models in state space representation has been widely used for automatic forecasting. The existing ETS method uses information criteria for model selection by choosing an optimal model with the smallest information criterion among all models fitted to a given time series. The ETS method under such a model selection scheme suffers from computational complexity when applied to large-scale time series data. To tackle this issue, we propose an efficient approach for ETS model selection by training classifiers on simulated data to predict appropriate model component forms for a given time series. We provide a simulation study to show the model selection ability of the proposed approach on simulated data. We evaluate our approach on the widely used forecasting competition data set M4, in terms of both point forecasts and prediction intervals. To demonstrate the practical value of our method, we showcase the performance improvements from our approach on a monthly hospital data set.
翻訳日:2022-06-28 13:56:10 公開日:2022-06-26
# 神経状態空間モデルを学ぶ:状態推定器は必要か?

Learning neural state-space models: do we need a state estimator? ( http://arxiv.org/abs/2206.12928v1 )

ライセンス: Link先を確認
Marco Forgione, Manas Mejari, Dario Piga(参考訳) 近年,神経状態空間モデルを用いたシステム同定アルゴリズムがいくつか導入されている。 提案手法の多くは、より長いトレーニングデータセットから抽出した短いサブシーケンスに対して最適化を分割することにより、学習問題の計算複雑性を低減することを目的としている。 異なるシーケンスがミニバッチ内で同時に処理され、ディープラーニングに現代の並列ハードウェアを利用する。 これらの手法で生じる問題は、各サブシーケンスに対して初期状態を割り当てることであり、これはシミュレーションを実行し、したがって適合損失を評価するのに必要である。 本稿では,2つの認識されたシステム同定ベンチマークで行った広範囲な実験と解析に基づく,神経状態空間訓練アルゴリズムの校正に関する知見を提供する。 特に、初期状態推定の選択と役割に焦点が当てられている。 非漸近的に安定な場合、ゼロやランダム初期化のような基本的な手順が既に競合性能をもたらすのに対し、高度な初期状態推定手法は力学系の特定のクラスで高いパフォーマンスを達成するために本当に必要である。

In recent years, several algorithms for system identification with neural state-space models have been introduced. Most of the proposed approaches are aimed at reducing the computational complexity of the learning problem, by splitting the optimization over short sub-sequences extracted from a longer training dataset. Different sequences are then processed simultaneously within a minibatch, taking advantage of modern parallel hardware for deep learning. An issue arising in these methods is the need to assign an initial state for each of the sub-sequences, which is required to run simulations and thus to evaluate the fitting loss. In this paper, we provide insights for calibration of neural state-space training algorithms based on extensive experimentation and analyses performed on two recognized system identification benchmarks. Particular focus is given to the choice and the role of the initial state estimation. We demonstrate that advanced initial state estimation techniques are really required to achieve high performance on certain classes of dynamical systems, while for asymptotically stable ones basic procedures such as zero or random initialization already yield competitive performance.
翻訳日:2022-06-28 13:55:51 公開日:2022-06-26
# クロスサイロ連合学習の課題と機会

Cross-Silo Federated Learning: Challenges and Opportunities ( http://arxiv.org/abs/2206.12949v1 )

ライセンス: Link先を確認
Chao Huang, Jianwei Huang, Xin Liu(参考訳) フェデレートラーニング(FL)は、データを分散してプライベートにしながら、複数のクライアントから機械学習モデルのトレーニングを可能にする新興技術である。 参加するクライアントとモデルトレーニングスケールに基づいて、フェデレートされた学習は2つのタイプに分類される: クロスデバイスFL: クライアントが通常モバイルデバイスであり、クライアント番号が数百万まで到達可能なクロスデバイスFL; クロスサイロFL: クライアントが組織や企業であり、クライアント番号が通常小さい(例えば100ドル以内)。 既存の研究は主にデバイス間FLに焦点を当てているが,本論文はクロスサイロFLの概要を提供する。 具体的には、まずクロスサイロFLの適用について論じ、その主な課題を概説する。 次に、デバイス間FLとの接続と相違点に着目し、クロスサイロFLの課題に対する既存のアプローチの体系的な概要を示す。 最後に,コミュニティによる研究成果を活かした今後の方向性と課題について論じる。

Federated learning (FL) is an emerging technology that enables the training of machine learning models from multiple clients while keeping the data distributed and private. Based on the participating clients and the model training scale, federated learning can be classified into two types: cross-device FL where clients are typically mobile devices and the client number can reach up to a scale of millions; cross-silo FL where clients are organizations or companies and the client number is usually small (e.g., within a hundred). While existing studies mainly focus on cross-device FL, this paper aims to provide an overview of the cross-silo FL. More specifically, we first discuss applications of cross-silo FL and outline its major challenges. We then provide a systematic overview of the existing approaches to the challenges in cross-silo FL by focusing on their connections and differences to cross-device FL. Finally, we discuss future directions and open issues that merit research efforts from the community.
翻訳日:2022-06-28 13:55:34 公開日:2022-06-26
# 説明的かつ高性能なヘイトと攻撃的音声検出

Explainable and High-Performance Hate and Offensive Speech Detection ( http://arxiv.org/abs/2206.12983v1 )

ライセンス: Link先を確認
Marzieh Babaeianjelodar, Gurram Poorna Prudhvi, Stephen Lorenz, Keyu Chen, Sumona Mondal, Soumyabrata Dey, and Navin Kumar(参考訳) ソーシャルメディアプラットフォームを通じた情報の拡散は、潜在的に脆弱なコミュニティに敵対的な環境を作り、社会の特定のグループを黙らせることができる。 このような事例を緩和するために、ヘイトや攻撃的なスピーチを検出するために、いくつかのモデルが開発されている。 ソーシャルメディアプラットフォームにおけるヘイトや不快な発言の検出は、不正確に個人をソーシャルメディアプラットフォームから排除する可能性があるため、説明可能で解釈可能なモデルを作成する必要がある。 そこで本研究では,Twitterデータに基づくXGBoostアルゴリズムに基づく,説明可能な,解釈可能なハイパフォーマンスモデルを構築した。 バランスの取れていないTwitterデータに対して、XGboostはLSTM、AutoGluon、ULMFiTモデルでそれぞれ0.38、0.37、0.38のF1スコアでヘイトスピーチ検出を上回った。 XGBoostはLSTM、AutoGluon、ULMFiTの3つのクラスにデータをダウンサンプリングすると、それぞれ0.79対0.69、0.77、0.66のヘイトスピーチ検出でF1スコアが得られた。 XGBoostはLSTM、AutoGluon、ULMFiTよりも、それぞれ0.83対0.88対0.79対0.79の攻撃的音声検出のためのダウンサンプリング版で性能が向上した。 我々は、XGBoostモデルの出力にShapley Additive Explanations (SHAP)を使用し、ブラックボックスモデルであるLSTM、AutoGluon、ULMFiTと比較して説明可能で解釈可能である。

The spread of information through social media platforms can create environments possibly hostile to vulnerable communities and silence certain groups in society. To mitigate such instances, several models have been developed to detect hate and offensive speech. Since detecting hate and offensive speech in social media platforms could incorrectly exclude individuals from social media platforms, which can reduce trust, there is a need to create explainable and interpretable models. Thus, we build an explainable and interpretable high performance model based on the XGBoost algorithm, trained on Twitter data. For unbalanced Twitter data, XGboost outperformed the LSTM, AutoGluon, and ULMFiT models on hate speech detection with an F1 score of 0.75 compared to 0.38 and 0.37, and 0.38 respectively. When we down-sampled the data to three separate classes of approximately 5000 tweets, XGBoost performed better than LSTM, AutoGluon, and ULMFiT; with F1 scores for hate speech detection of 0.79 vs 0.69, 0.77, and 0.66 respectively. XGBoost also performed better than LSTM, AutoGluon, and ULMFiT in the down-sampled version for offensive speech detection with F1 score of 0.83 vs 0.88, 0.82, and 0.79 respectively. We use Shapley Additive Explanations (SHAP) on our XGBoost models' outputs to makes it explainable and interpretable compared to LSTM, AutoGluon and ULMFiT that are black-box models.
翻訳日:2022-06-28 13:24:34 公開日:2022-06-26
# 協調AIのための一般化された信念

Generalized Beliefs for Cooperative AI ( http://arxiv.org/abs/2206.12765v1 )

ライセンス: Link先を確認
Darius Muglich, Luisa Zintgraf, Christian Schroeder de Witt, Shimon Whiteson, Jakob Foerster(参考訳) セルフプレイ(Self-play)は、マルコフゲームにおけるソリューション構築のための共通のパラダイムであり、協調的な設定で最適なポリシーを作成できる。 しかし、これらの政策は、しばしば、新しいパートナーとの遊びを困難にする高度に専門化された慣習を採用する。 これに対処するために、近年のアプローチでは、対称性と慣習認識をポリシートレーニングにエンコードするが、これらは強い環境上の仮定を必要とし、ポリシートレーニングを複雑にする可能性がある。 そこで我々は,コンベンションの学習を信念空間に移すことを提案する。 具体的には、トレーニング時に見えないポリシーのロールアウトに対する信念を維持でき、テスト時に新しい規約をデコードして適応できる信念学習モデルを提案する。 我々は、このモデルを様々なポリシーに対するベストレスポンスの検索とトレーニングの両方に活用し、アドホックなチームプレイを大幅に改善する方法を示す。 また,我々の設定がニュアンスエージェント規約の説明可能性と解釈可能性をどのように促進するかを示す。

Self-play is a common paradigm for constructing solutions in Markov games that can yield optimal policies in collaborative settings. However, these policies often adopt highly-specialized conventions that make playing with a novel partner difficult. To address this, recent approaches rely on encoding symmetry and convention-awareness into policy training, but these require strong environmental assumptions and can complicate policy training. We therefore propose moving the learning of conventions to the belief space. Specifically, we propose a belief learning model that can maintain beliefs over rollouts of policies not seen at training time, and can thus decode and adapt to novel conventions at test time. We show how to leverage this model for both search and training of a best response over various pools of policies to greatly improve ad-hoc teamplay. We also show how our setup promotes explainability and interpretability of nuanced agent conventions.
翻訳日:2022-06-28 13:20:50 公開日:2022-06-26
# 分散検出のためのバッチセンブル確率ニューラルネットワーク

Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.12911v1 )

ライセンス: Link先を確認
Xiongjie Chen, Yunpeng Li, Yongxin Yang(参考訳) Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。 本稿では,特徴分布のモデル化による不確実性定量化手法を提案する。 さらに、バッチアンサンブルと呼ばれる効率的なアンサンブル機構を導入し、バッチアンブル確率ニューラルネットワーク(BE-SNN)を構築し、特徴崩壊問題を克服する。 提案するbe-snnsの性能を,他の最先端の手法と比較し,be-snnが2つのmoonsデータセット, fashionmnist対mnistデータセット, fashionmnist対notmnistデータセット,cifar10対svhnデータセットなど,いくつかのoodベンチマークにおいて優れたパフォーマンスをもたらすことを示した。

Out-of-distribution (OOD) detection has recently received much attention from the machine learning community due to its importance in deploying machine learning models in real-world applications. In this paper we propose an uncertainty quantification approach by modelling the distribution of features. We further incorporate an efficient ensemble mechanism, namely batch-ensemble, to construct the batch-ensemble stochastic neural networks (BE-SNNs) and overcome the feature collapse problem. We compare the performance of the proposed BE-SNNs with the other state-of-the-art approaches and show that BE-SNNs yield superior performance on several OOD benchmarks, such as the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionMNIST vs NotMNIST dataset, and the CIFAR10 vs SVHN dataset.
翻訳日:2022-06-28 13:20:36 公開日:2022-06-26
# TAM: クラス不均衡ノード分類のためのトポロジ対応マージン損失

TAM: Topology-Aware Margin Loss for Class-Imbalanced Node Classification ( http://arxiv.org/abs/2206.12917v1 )

ライセンス: Link先を確認
Jaeyun Song, Joonhyung Park, Eunho Yang(参考訳) クラス不均衡グラフデータに基づく非バイアスノード表現の学習は、隣接ノード間の相互作用のため困難である。 既存の研究では、主要なノードの偽陽性ケースを必然的に増加させる(グラフのノード接続を無視する)全体的な量に応じて、小さなクラスノードを‘グループとして’補償している。 これらの偽陽性症例の増加は,各ノードのラベル分布に大きく影響し,実験的に確認できると仮定した。 また,この問題に対処するために,局所的なトポロジを学習目的に反映するTopology-Aware Margin (TAM)を提案する。 本手法は,各ノードの接続パターンとクラス平均カウンターパートを比較し,それに基づいてマージンを適応的に調整する。 提案手法は,代表的GNNアーキテクチャを用いたノード分類ベンチマークデータセットのベースラインよりも優れた性能を示す。

Learning unbiased node representations under class-imbalanced graph data is challenging due to interactions between adjacent nodes. Existing studies have in common that they compensate the minor class nodes `as a group' according to their overall quantity (ignoring node connections in graph), which inevitably increase the false positive cases for major nodes. We hypothesize that the increase in these false positive cases is highly affected by the label distribution around each node and confirm it experimentally. In addition, in order to handle this issue, we propose Topology-Aware Margin (TAM) to reflect local topology on the learning objective. Our method compares the connectivity pattern of each node with the class-averaged counter-part and adaptively adjusts the margin accordingly based on that. Our method consistently exhibits superiority over the baselines on various node classification benchmark datasets with representative GNN architectures.
翻訳日:2022-06-28 13:20:16 公開日:2022-06-26
# 単位レベルの変化の根本原因を説明する

Explaining the root causes of unit-level changes ( http://arxiv.org/abs/2206.12986v1 )

ライセンス: Link先を確認
Kailash Budhathoki, George Michailidis, Dominik Janzing(参考訳) 既存の説明可能なAIと解釈可能なMLの方法は、入力値の変化と「力学」(入力から出力へ変換する関数)の変化の観点から、統計単位の出力変数の値の変化を説明できない。 ゲーム理論からのシェープリー値の概念を用いて,様々な入力粒度における単位レベルの変化を説明する2つの手法を提案する。 これらの手法は、単位レベルの変更帰属法に望ましい2つの鍵公理を満たす。 シミュレーションにより,提案手法の信頼性とスケーラビリティについて検討した。 米国における個人に対する収益の変化の要因を特定するためのケーススタディから、賢明な結果が得られます。

Existing methods of explainable AI and interpretable ML cannot explain change in the values of an output variable for a statistical unit in terms of the change in the input values and the change in the "mechanism" (the function transforming input to output). We propose two methods based on counterfactuals for explaining unit-level changes at various input granularities using the concept of Shapley values from game theory. These methods satisfy two key axioms desirable for any unit-level change attribution method. Through simulations, we study the reliability and the scalability of the proposed methods. We get sensible results from a case study on identifying the drivers of the change in the earnings for individuals in the US.
翻訳日:2022-06-28 13:19:04 公開日:2022-06-26
# FlowX: メッセージフローによる説明可能なグラフニューラルネットワークを目指して

FlowX: Towards Explainable Graph Neural Networks via Message Flows ( http://arxiv.org/abs/2206.12987v1 )

ライセンス: Link先を確認
Shurui Gui, Hao Yuan, Jie Wang, Qicheng Lao, Kang Li, Shuiwang Ji(参考訳) グラフニューラルネットワーク(GNN)の動作メカニズム解明へのステップとして,その説明可能性について検討する。 現在のほとんどの手法はグラフノード、エッジ、機能の説明に重点を置いているが、GNNの本質的な機能メカニズムとして、メッセージフローは説明可能性を実現する上でより自然なものである、と我々は主張する。 そこで本研究では,重要なメッセージフローを識別してGNNを説明する新しい手法であるFlowXを提案する。 フローの重要性を定量化するために,協調ゲーム理論からシェープリー値の哲学に従うことを提案する。 連立の限界貢献を計算することの複雑さに対処するため、我々はシェープリーのような値を計算する近似スキームを、さらなる再分配訓練の初期評価として提案する。 次に,フロースコアを学習し,説明可能性を向上させる学習アルゴリズムを提案する。 合成と実世界の両方のデータセットに関する実験的研究により,提案したFlowXがGNNの説明可能性の向上につながることが示された。

We investigate the explainability of graph neural networks (GNNs) as a step towards elucidating their working mechanisms. While most current methods focus on explaining graph nodes, edges, or features, we argue that, as the inherent functional mechanism of GNNs, message flows are more natural for performing explainability. To this end, we propose a novel method here, known as FlowX, to explain GNNs by identifying important message flows. To quantify the importance of flows, we propose to follow the philosophy of Shapley values from cooperative game theory. To tackle the complexity of computing all coalitions' marginal contributions, we propose an approximation scheme to compute Shapley-like values as initial assessments of further redistribution training. We then propose a learning algorithm to train flow scores and improve explainability. Experimental studies on both synthetic and real-world datasets demonstrate that our proposed FlowX leads to improved explainability of GNNs.
翻訳日:2022-06-28 13:18:53 公開日:2022-06-26
# FingerGAN:潜在指紋強調のための制約付き指紋生成方式

FingerGAN: A Constrained Fingerprint Generation Scheme for Latent Fingerprint Enhancement ( http://arxiv.org/abs/2206.12885v1 )

ライセンス: Link先を確認
Yanming Zhu, Xuefei Yin, Jiankun Hu(参考訳) 潜伏指紋強調は潜伏指紋識別に不可欠な前処理ステップである。 ほとんどの潜在指紋強調法は、腐敗した灰色の尾根/谷を復元しようとする。 本稿では,gan(generative adversarial network)フレームワークにおいて,潜在指紋強調を制約付指紋生成問題として定式化する新しい手法を提案する。 提案するネットワークを FingerGAN と呼ぶ。 その生成した指紋(すなわち拡張潜在指紋)は、マイナス位置で重み付けされた指紋骨格マップと、fomfeモデルによって正規化された配向フィールドの観点で、対応する接地例と区別できない。 minutiaは指紋認識の主要な特徴であり、minutiaは指紋の骨格マップから直接検索できるので、minutia情報を直接最適化するという文脈で潜在的な指紋強調を行うことができる包括的枠組みを提供する。 これにより潜在指紋認証の性能が大幅に向上する。 2つの公開潜伏指紋データベースによる実験結果から,本手法が芸術の状態を著しく上回ることが示された。 コードは、非商用目的で、 \url{https://github.com/hubyz/latentenhancement}から利用できる。

Latent fingerprint enhancement is an essential pre-processing step for latent fingerprint identification. Most latent fingerprint enhancement methods try to restore corrupted gray ridges/valleys. In this paper, we propose a new method that formulates the latent fingerprint enhancement as a constrained fingerprint generation problem within a generative adversarial network (GAN) framework. We name the proposed network as FingerGAN. It can enforce its generated fingerprint (i.e, enhanced latent fingerprint) indistinguishable from the corresponding ground-truth instance in terms of the fingerprint skeleton map weighted by minutia locations and the orientation field regularized by the FOMFE model. Because minutia is the primary feature for fingerprint recognition and minutia can be retrieved directly from the fingerprint skeleton map, we offer a holistic framework which can perform latent fingerprint enhancement in the context of directly optimizing minutia information. This will help improve latent fingerprint identification performance significantly. Experimental results on two public latent fingerprint databases demonstrate that our method outperforms the state of the arts significantly. The codes will be available for non-commercial purposes from \url{https://github.com/HubYZ/LatentEnhancement}.
翻訳日:2022-06-28 12:52:36 公開日:2022-06-26
# 画像分類モデル圧縮のための注意機構に基づく代表教師鍵による知識蒸留

Knowledge Distillation with Representative Teacher Keys Based on Attention Mechanism for Image Classification Model Compression ( http://arxiv.org/abs/2206.12788v1 )

ライセンス: Link先を確認
Jun-Teng Yang, Sheng-Che Kao and Scott C.-H. Huang(参考訳) aiチップ(gpu、tpu、npuなど)の改善とiot(internet of things)の急速な発展により、強力なディープニューラルネットワーク(dnn)は、通常は数百万ないし数億のパラメータで構成されており、低計算能力や低容量ユニット(エッジデバイスなど)に直接デプロイするには適さない。 近年,知識蒸留(KD)がモデル圧縮の有効な方法の1つとして認識され,モデルパラメータが減少している。 KDの主な概念は、大きなモデル(例えば教師モデル)の特徴マップから有用な情報を抽出し、モデルサイズが教師モデルよりもはるかに小さい小さなモデル(すなわち学生モデル)をうまく訓練することである。 教師モデルにおける中間層の特徴マップ情報を利用するkdベースの手法は数多く提案されているが,そのほとんどは教師モデルと生徒モデル間の特徴マップの類似性を考慮せず,学生モデルが役に立たない情報を学ぶことが可能であった。 注意機構に着想を得て,特徴マップの類似性だけでなく,目的とする学生モデルの性能向上のために無駄な情報をフィルタリングする,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。 実験では,提案手法を複数のバックボーンネットワーク(ResNetやWideResNetなど)とデータセット(CIFAR10,CIFAR100,SVHN,CINIC10など)で検証した。 その結果,提案したRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上できることがわかった。

With the improvement of AI chips (e.g., GPU, TPU, and NPU) and the fast development of internet of things (IoTs), some powerful deep neural networks (DNNs) are usually composed of millions or even hundreds of millions of parameters, which may not be suitable to be directly deployed on low computation and low capacity units (e.g., edge devices). Recently, knowledge distillation (KD) has been recognized as one of the effective method of model compression to decrease the model parameters. The main concept of KD is to extract useful information from the feature maps of a large model (i.e., teacher model) as a reference to successfully train a small model (i.e., student model) which model size is much smaller than the teacher one. Although many KD-based methods have been proposed to utilize the information from the feature maps of intermediate layers in teacher model, however, most of them did not consider the similarity of feature maps between teacher model and student model, which may let student model learn useless information. Inspired by attention mechanism, we propose a novel KD method called representative teacher key (RTK) that not only consider the similarity of feature maps but also filter out the useless information to improve the performance of the target student model. In the experiments, we validate our proposed method with several backbone networks (e.g., ResNet and WideResNet) and datasets (e.g., CIFAR10, CIFAR100, SVHN, and CINIC10). The results show that our proposed RTK can effectively improve the classification accuracy of the state-of-the-art attention-based KD method.
翻訳日:2022-06-28 12:48:23 公開日:2022-06-26
# メモリガイドによるマルチビューマルチドメインフェイクニュース検出

Memory-Guided Multi-View Multi-Domain Fake News Detection ( http://arxiv.org/abs/2206.12808v1 )

ライセンス: Link先を確認
Yongchun Zhu, Qiang Sheng, Juan Cao, Qiong Nan, Kai Shu, Minghui Wu, Jindong Wang, and Fuzhen Zhuang(参考訳) フェイクニュースの拡散は、個人と社会の両方を脅かしている。 一つのドメイン(例えば政治)で自動的に偽ニュースを検出するための大きな努力がなされている。 しかし、相関関係は複数のニュースドメインに共通して存在し、複数のドメインのフェイクニュースを同時に検出することが期待できる。 分析の結果,マルチドメインフェイクニュース検出には2つの課題があることがわかった。 1) ドメインシフトは、単語、感情、スタイル等におけるドメイン間の相違に起因する。 2) ドメインラベルの不完全性は,ニュースの話題の多様性に関わらず,一つのドメインラベルのみを出力する現実世界の分類から生じる。 本稿では,この2つの課題に対処するために,メモリ誘導型マルチビュー・フェイクニュース検出フレームワーク(m$^3$fend)を提案する。 我々は、セマンティクス、感情、スタイルを含む、多視点の観点からニュースをモデル化する。 具体的には,ニュース記事やモデルドメイン特性に基づいて潜在的なドメインラベルを発見できるドメイン情報を強化するドメインメモリバンクを提案する。 そして、リッチなドメイン情報を入力として、ドメインアダプタは、様々なドメインのニュースに対する複数のビューから識別情報を適応的に集約することができる。 英語と中国語のデータセットに対する大規模なオフライン実験は、M$^3$FENDの有効性を示し、オンラインテストは実際にその優位性を検証する。 私たちのコードはhttps://github.com/ictmcg/m3fendで利用可能です。

The wide spread of fake news is increasingly threatening both individuals and society. Great efforts have been made for automatic fake news detection on a single domain (e.g., politics). However, correlations exist commonly across multiple news domains, and thus it is promising to simultaneously detect fake news of multiple domains. Based on our analysis, we pose two challenges in multi-domain fake news detection: 1) domain shift, caused by the discrepancy among domains in terms of words, emotions, styles, etc. 2) domain labeling incompleteness, stemming from the real-world categorization that only outputs one single domain label, regardless of topic diversity of a news piece. In this paper, we propose a Memory-guided Multi-view Multi-domain Fake News Detection Framework (M$^3$FEND) to address these two challenges. We model news pieces from a multi-view perspective, including semantics, emotion, and style. Specifically, we propose a Domain Memory Bank to enrich domain information which could discover potential domain labels based on seen news pieces and model domain characteristics. Then, with enriched domain information as input, a Domain Adapter could adaptively aggregate discriminative information from multiple views for news in various domains. Extensive offline experiments on English and Chinese datasets demonstrate the effectiveness of M$^3$FEND, and online tests verify its superiority in practice. Our code is available at https://github.com/ICTMCG/M3FEND.
翻訳日:2022-06-28 12:22:14 公開日:2022-06-26
# rxr-habitat vision-and-language navigation competition (cvpr 2022) の第1位

1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022) ( http://arxiv.org/abs/2206.11610v2 )

ライセンス: Link先を確認
Dong An, Zun Wang, Yangguang Li, Yi Wang, Yicong Hong, Yan Huang, Liang Wang, Jing Shao(参考訳) 本稿では,CVPR2022におけるRxR-Habitatコンペティションの入賞方法を紹介する。 このコンペでは、連続環境(vln-ce)における視覚言語ナビゲーションの問題に対処し、エージェントが目標に到達するにはステップバイステップの自然言語命令に従う必要がある。 我々は,このタスクに対してモジュール型計画制御手法を提案する。 本モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。 各決定ループにおいて、CWPはまず、複数の視点からの深度観測に基づいて、候補となる経路の集合を予測する。 アクションスペースの複雑さを低減し、計画を容易にする。 そして、ヒストリ強化プランナーを採用し、候補の1つをサブゴールとして選択する。 プランナーは、特に長距離航法に有効である航法進捗を追跡するために、履歴記憶を符号化する。 最後に、提案するサブゴールに到達するための低レベル動作を実行するためのトライアウトと呼ばれる非パラメトリックヒューリスティックコントローラを提案する。 これは、エージェントが障害を回避し、立ち往生を避けるのに役立つ試行錯誤機構に基づいている。 3つのモジュールはすべて、エージェントが停止するまで階層的に動作する。 さらに,vln(vision-and-language navigation)の最近の進歩により,大規模合成インドメインデータセットに基づく事前学習,環境レベルのデータ拡張,スナップショットモデルアンサンブルなどの性能が向上している。 rxr-habitat competition 2022 では,既存のndtw と sr の指標に対してそれぞれ 48% と 90% の相対的改善がみられた。

This report presents the methods of the winning entry of the RxR-Habitat Competition in CVPR 2022. The competition addresses the problem of Vision-and-Language Navigation in Continuous Environments (VLN-CE), which requires an agent to follow step-by-step natural language instructions to reach a target. We present a modular plan-and-control approach for the task. Our model consists of three modules: the candidate waypoints predictor (CWP), the history enhanced planner and the tryout controller. In each decision loop, CWP first predicts a set of candidate waypoints based on depth observations from multiple views. It can reduce the complexity of the action space and facilitate planning. Then, a history-enhanced planner is adopted to select one of the candidate waypoints as the subgoal. The planner additionally encodes historical memory to track the navigation progress, which is especially effective for long-horizon navigation. Finally, we propose a non-parametric heuristic controller named tryout to execute low-level actions to reach the planned subgoal. It is based on the trial-and-error mechanism which can help the agent to avoid obstacles and escape from getting stuck. All three modules work hierarchically until the agent stops. We further take several recent advances of Vision-and-Language Navigation (VLN) to improve the performance such as pretraining based on large-scale synthetic in-domain dataset, environment-level data augmentation and snapshot model ensemble. Our model won the RxR-Habitat Competition 2022, with 48% and 90% relative improvements over existing methods on NDTW and SR metrics respectively.
翻訳日:2022-06-28 10:32:09 公開日:2022-06-26
# 医用画像分類のための新しい敵対的学習戦略

A novel adversarial learning strategy for medical image classification ( http://arxiv.org/abs/2206.11501v2 )

ライセンス: Link先を確認
Zong Fan, Xiaohui Zhang, Jacob A. Gasienica, Jennifer Potts, Su Ruan, Wade Thorstad, Hiram Gay, Xiaowei Wang, Hua Li(参考訳) 深層学習(DL)技術は医用画像分類に広く利用されている。 ほとんどのDLベースの分類ネットワークは階層的に構成され、ネットワークの終端で測定される単一損失関数の最小化によって最適化される。 しかし、そのような単一損失設計は、ある特定の関心の値を最適化する可能性があるが、分類性能の恩恵を受け、過度に適合するリスクを減らす可能性のある中間層からの情報的特徴を活用することができない。 近年,従来の分類ネットワーク上には補助畳み込みニューラルネットワーク(auxcnns)が用いられ,中間層の訓練が促進され,分類性能とロバスト性が向上している。 本研究では,医用画像分類のための深層ニューラルネットワークのトレーニングを支援するための,対角学習に基づくAuxCNNを提案する。 AuxCNN分類フレームワークでは、2つの主要なイノベーションが採用されました。 まず, 画像生成装置と, 医用画像分類のためのより情報的な画像特徴を抽出する画像判別装置と, 生成型逆ネットワーク (gan) の概念と, その目標データ分布の近似化能力に動機づけられた。 第2に,分類ネットワークとauxcnnの異なる目的を組み込むことにより,モデルトレーニングを導くハイブリッド損失関数を考案した。 包括的実験により,提案モデルの分類性能が向上した。 ネットワーク関連因子が分類性能に及ぼす影響を検討した。

Deep learning (DL) techniques have been extensively utilized for medical image classification. Most DL-based classification networks are generally structured hierarchically and optimized through the minimization of a single loss function measured at the end of the networks. However, such a single loss design could potentially lead to optimization of one specific value of interest but fail to leverage informative features from intermediate layers that might benefit classification performance and reduce the risk of overfitting. Recently, auxiliary convolutional neural networks (AuxCNNs) have been employed on top of traditional classification networks to facilitate the training of intermediate layers to improve classification performance and robustness. In this study, we proposed an adversarial learning-based AuxCNN to support the training of deep neural networks for medical image classification. Two main innovations were adopted in our AuxCNN classification framework. First, the proposed AuxCNN architecture includes an image generator and an image discriminator for extracting more informative image features for medical image classification, motivated by the concept of generative adversarial network (GAN) and its impressive ability in approximating target data distribution. Second, a hybrid loss function is designed to guide the model training by incorporating different objectives of the classification network and AuxCNN to reduce overfitting. Comprehensive experimental studies demonstrated the superior classification performance of the proposed model. The effect of the network-related factors on classification performance was investigated.
翻訳日:2022-06-28 10:30:09 公開日:2022-06-26