このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20221115となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 曲面時空上の一体生まれの規則 The One-Body Born Rule on Curved Spacetime ( http://arxiv.org/abs/2012.05212v4 ) ライセンス: Link先を確認 | Maik Reddiger and Bill Poirier | (参考訳) 1950年代以降、数学物理学者は相対論的量子論のための公式な数学的基礎の構築に取り組んでいる。
対象の公理化は、主に数学的な問題であるとする見解が一般的である。
しかし、この見解は暗黙的に、この公理化は量子論の基本的な概念を読み直すことなく達成できると主張する。
本研究では、粒子位置確率の量子力学ボルン則を一般相対論的設定に一般化する、純粋に統計的観点から非相対論的理論を考察する、上記の問題に対する新しいアプローチを提案する。
このアプローチの利点は、開始から統計理論を得ることができ、それがミンコフスキー時空の特定の力学モデルと対称性とは独立であることである。
ここでは、主にC. Eckart と J. Ehlers の貢献により、スムーズな1ドルボディの一般化を開発する。
この一般化は相対性の一般原理を尊重し、時空の超曲面と大域的双曲性の仮定を時代遅れとする。
我々はこの理論の2つの異なる定式化について論じ、ラグランジアンとオイラーの絵と呼ぶ。
前者の発展はこの研究の主な貢献であるが、これらの一般的な条件下では、どちらもそれまでの文献でそのような包括的扱いを受けていなかった。
ラグランジュ図はまた、多体一般化への潜在的経路を開く。
さらに、身体の数が保存されていない簡単な例を示す。
一般相対論的連続性方程式の理論に興味を持つ読者も、この研究は価値あるものであると考えるだろう。 Since the 1950s mathematical physicists have been working on the construction of a formal mathematical foundation for relativistic quantum theory. The view that the axiomatization of the subject is primarily a mathematical problem has been prevalent. This view, however, implicitly asserts that said axiomatization can be achieved without readdressing the basic concepts of quantum theory -- an assertion that becomes more implausible the longer the debate on the conceptual foundations of quantum mechanics itself continues. In this work we suggest a new approach to the above problem, which views the non-relativistic theory from a purely statistical perspective: to generalize the quantum-mechanical Born rule for particle position probability to the general-relativistic setting. The advantages of this approach are that one obtains a statistical theory from the onset and that it is independent of any particular dynamical models and the symmetries of Minkowski spacetime. Here we develop the smooth $1$-body generalization, based on prior contributions mainly due to C. Eckart and J. Ehlers. This generalization respects the general principle of relativity and exposes the assumptions of spacelikeness of the hypersurface and global hyperbolicity of the spacetime as obsolete. We discuss two distinct formulations of the theory, which, we term the Lagrangian and Eulerian pictures. Though the development of the former one is the main contribution of this work, under these general conditions neither one of the two has received such a comprehensive treatment in the literature before. The Lagrangian picture also opens up a potentially viable path towards the many-body generalization. We further provide a simple example in which the number of bodies is not conserved. Readers interested in the theory of the general-relativistic continuity equation will also find this work to be of value. | 翻訳日:2023-04-21 08:08:43 公開日:2022-11-15 |
# 前処理によるQMAのための古典的検証可能なNIZK Classically Verifiable NIZK for QMA with Preprocessing ( http://arxiv.org/abs/2102.09149v4 ) ライセンス: Link先を確認 | Tomoyuki Morimae and Takashi Yamakawa | (参考訳) 各種前処理モデルにおけるQMAに対する古典的に検証可能なゼロ知識証明と引数(CV-NIZK)の3つの構成を提案する。
信頼されたセットアップが証明器に量子証明鍵、検証器に古典的検証鍵を送信する量子秘密パラメータモデルにおいて、QMA用のCV-NIZKを構築する。
理論上は情報であり、知識はゼロである。
-誤り問題による学習の量子硬度を仮定し、信頼関係がCRSを生成し、検証者が前処理としてインスタンス非依存の量子メッセージを送信するモデルでQMA用のCV-NIZKを構築する。
このモデルは、Coladangelo、Vidick、Zhang(CRYPTO '20)による最近の研究で考慮されたものと同じである。
この構成はいわゆるデュアルモード特性を有しており、crsを生成する計算上区別できないモードが2つあり、一方のモードでは情報理論的な健全性、他方では情報理論的なゼロ知識性を有している。
これは、理論上は健全性またはゼロ知識情報のいずれかを達成するという、colladangeloらによって残されたオープンな問題に答える。
我々の知る限りでは、QMAの任意のモデルにおける最初のデュアルモードNIZKである。
-量子ランダムオラクルモデルにおいて,量子前処理を用いたQMA用CV-NIZKを構築した。
この量子前処理は、検証者が証明者にランダムなパウリ基底状態を送信するものである。
我々の構成はフィアット・シャミール変換を用いる。
量子前処理は、ベル対を証明者と検証者の間で分配する設定に置き換えることができるので、ファイアット・シャミール変換により共有ベル対モデルにおけるQMAに対するNIZKの可能性について、Broadbent and Grilo (FOCS '20) によるオープンな問題を解くことができる。 We propose three constructions of classically verifiable non-interactive zero-knowledge proofs and arguments (CV-NIZK) for QMA in various preprocessing models. - We construct a CV-NIZK for QMA in the quantum secret parameter model where a trusted setup sends a quantum proving key to the prover and a classical verification key to the verifier. It is information theoretically sound and zero-knowledge. - Assuming the quantum hardness of the learning with errors problem, we construct a CV-NIZK for QMA in a model where a trusted party generates a CRS and the verifier sends an instance-independent quantum message to the prover as preprocessing. This model is the same as one considered in the recent work by Coladangelo, Vidick, and Zhang (CRYPTO '20). Our construction has the so-called dual-mode property, which means that there are two computationally indistinguishable modes of generating CRS, and we have information theoretical soundness in one mode and information theoretical zero-knowledge property in the other. This answers an open problem left by Coladangelo et al, which is to achieve either of soundness or zero-knowledge information theoretically. To the best of our knowledge, ours is the first dual-mode NIZK for QMA in any kind of model. - We construct a CV-NIZK for QMA with quantum preprocessing in the quantum random oracle model. This quantum preprocessing is the one where the verifier sends a random Pauli-basis states to the prover. Our construction uses the Fiat-Shamir transformation. The quantum preprocessing can be replaced with the setup that distributes Bell pairs among the prover and the verifier, and therefore we solve the open problem by Broadbent and Grilo (FOCS '20) about the possibility of NIZK for QMA in the shared Bell pair model via the Fiat-Shamir transformation. | 翻訳日:2023-04-10 20:17:59 公開日:2022-11-15 |
# 還元密度行列のワイナ分布について On the Wigner Distribution of the Reduced Density Matrix ( http://arxiv.org/abs/2106.14056v3 ) ライセンス: Link先を確認 | Maurice de Gosson and Charlyne de Gosson | (参考訳) CConsider a bipartite quantum system consisting of two subsystems A and B. The reduced density matrix ofA a is obtained by taking the partial trace with respect to B. In this work, we will show that the Wigner distribution of this reduced density matrix is obtained by integrating the total Wigner distribution with respect to the phase space variables corresponding to subsystem B. The proof we give is rigorous (as opposed to those found in the literature) and makes use of the Weyl--Wigner--Moyal phase space formalism.
我々の主な結果は一般のガウス混合状態に適用され、特に単純で正確な記述を与える。
また、ウィグナー形式論の観点から、混合状態の浄化についても簡単に論じる。 CConsider a bipartite quantum system consisting of two subsystems A and B. The reduced density matrix ofA a is obtained by taking the partial trace with respect to B. In this work, we will show that the Wigner distribution of this reduced density matrix is obtained by integrating the total Wigner distribution with respect to the phase space variables corresponding to subsystem B. The proof we give is rigorous (as opposed to those found in the literature) and makes use of the Weyl--Wigner--Moyal phase space formalism. Our main result is applied to general Gaussian mixed states, of which it gives a particularly simple and precise description. We also briefly discuss the purification of a mixed state from the Wigner formalism point of view. | 翻訳日:2023-03-25 11:48:09 公開日:2022-11-15 |
# スケーラブル再帰アルゴリズムによるトロントの計算における多項式高速化 Polynomial speedup in Torontonian calculation by a scalable recursive algorithm ( http://arxiv.org/abs/2109.04528v3 ) ライセンス: Link先を確認 | \'Agoston Kaposi, Zolt\'an Kolarovszki, Tam\'as Kozsik, Zolt\'an Zimbor\'as, P\'eter Rakyta | (参考訳) トロント関数の評価はガウスボソンサンプリング(GBS)のしきい値検出における中心的な計算課題である。
本研究では,トロントの精度計算における多項式の高速化を,最先端のアルゴリズムと比較した再帰的アルゴリズムを提案する。
我々の数値解析によると、アルゴリズムの複雑さは、問題のサイズが$N$である$N^{1.0691}2^{N/2}$に比例する。
また、この再帰的アルゴリズムは、大規模計算能力の必要なしに、しきい値GBSのシミュレーションを最大35〜40ドルの光子クリックで実現可能なHPCユースケースまで拡張可能であることを示す。 Evaluating the Torontonian function is a central computational challenge in the simulation of Gaussian Boson Sampling (GBS) with threshold detection. In this work, we propose a recursive algorithm providing a polynomial speedup in the exact calculation of the Torontonian compared to state-of-the-art algorithms. According to our numerical analysis the complexity of the algorithm is proportional to $N^{1.0691}2^{N/2}$ with $N$ being the size of the problem. We also show that the recursive algorithm can be scaled up to HPC use cases making feasible the simulation of threshold GBS up to $35-40$ photon clicks without the needs of large-scale computational capacities. | 翻訳日:2023-03-15 18:07:26 公開日:2022-11-15 |
# 断熱量子コンピューティングにおけるギャップ進化を予測するディープリカレントネットワーク Deep recurrent networks predicting the gap evolution in adiabatic quantum computing ( http://arxiv.org/abs/2109.08492v2 ) ライセンス: Link先を確認 | Naeimeh Mohseni, Carlos Navarrete-Benlloch, Tim Byrnes, Florian Marquardt | (参考訳) 量子物理学における大きな課題の1つは、平衡から多体問題における可観測性のダイナミクスを効率的に予測することである。
特定の例は断熱量子コンピューティングにおいて起こり、ハミルトニアンの瞬間的ギャップの構造を見つけることは計算の速度を最適化するために不可欠である。
この課題にインスパイアされた本研究では、ハミルトニアン問題を完全に識別するパラメータから、異なるネットワークアーキテクチャを適用した断熱的なスイープ中のギャップの完全な進化へのマッピングを見つけるためのディープラーニングの可能性を探る。
この例を通して、ダイナミクスの学習可能性の制限要因は入力のサイズ、すなわち、ハミルトニアンスケールをシステムサイズで識別するために必要なパラメータの数であることがわかった。
パラメータ空間がシステムサイズと線形にスケールする場合、長期の短期記憶ネットワークはギャップの予測に成功することを示す。
注目すべきは、このアーキテクチャがモデルの空間構造を扱うために畳み込みニューラルネットワークと組み合わされると、トレーニング中にニューラルネットワークで見られるものよりも大きなシステムサイズに対してギャップ進化を予測できることである。
これにより、ギャップを計算する際の既存の完全および近似アルゴリズムと比較して、大幅な高速化が得られる。 One of the main challenges in quantum physics is predicting efficiently the dynamics of observables in many-body problems out of equilibrium. A particular example occurs in adiabatic quantum computing, where finding the structure of the instantaneous gap of the Hamiltonian is crucial in order to optimize the speed of the computation. Inspired by this challenge, in this work we explore the potential of deep learning for discovering a mapping from the parameters that fully identify a problem Hamiltonian to the full evolution of the gap during an adiabatic sweep applying different network architectures. Through this example, we find that a limiting factor for the learnability of the dynamics is the size of the input, that is, how the number of parameters needed to identify the Hamiltonian scales with the system size. We demonstrate that a long short-term memory network succeeds in predicting the gap when the parameter space scales linearly with system size. Remarkably, we show that once this architecture is combined with a convolutional neural network to deal with the spatial structure of the model, the gap evolution can even be predicted for system sizes larger than the ones seen by the neural network during training. This provides a significant speedup in comparison with the existing exact and approximate algorithms in calculating the gap. | 翻訳日:2023-03-14 11:36:59 公開日:2022-11-15 |
# 超低温ボースガスのスケーリングダイナミクス Scaling dynamics of the ultracold Bose gas ( http://arxiv.org/abs/2112.09280v3 ) ライセンス: Link先を確認 | Ashton S. Bradley, Jordan Clarke, Tyler W. Neely, Brian P Anderson | (参考訳) 量子気体の大規模膨張ダイナミクスは超低温ガス実験の中心的な道具であり、理論にとって大きな課題となっている。
本研究は,超低温ボース気体に対するグロス・ピタエフスキー方程式を,進化中のシステムサイズに適応的にスケールし,拡張中の長い進化時間のシミュレーションや同様の大規模操作を可能にする座標フレームで正確に再構成するものである。
提案手法では, 流体力学的近似は行わず, スケーリングアンサッツ, 調和ポテンシャル, エネルギー固有状態に制限されず, 量子流体の適切な応力テンソルによる非接触相互作用に容易に一般化できる。
応用例として,理想気体の膨張,トーマス・フェルミ法における葉巻状凝縮,逆伝播ガウス波束の線形重ね合わせをシミュレートする。
理想的な気体とトーマス・フェルミ系に対する既知のスケーリングを回復し、アスペクト比保存自由展開の線形な状態を特定する。
本処理は,大規模変化進化における物質波力学における非線形効果の探索を可能にする。 The large-scale expansion dynamics of quantum gases is a central tool for ultracold gas experiments and poses a significant challenge for theory. In this work we provide an exact reformulation of the Gross-Pitaevskii equation for the ultracold Bose gas in a coordinate frame that adaptively scales with the system size during evolution, enabling simulations of long evolution times during expansion or similar large-scale manipulation. Our approach makes no hydrodynamic approximations, is not restricted to a scaling ansatz, harmonic potentials, or energy eigenstates, and can be generalized readily to non-contact interactions via the appropriate stress tensor of the quantum fluid. As applications, we simulate the expansion of the ideal gas, a cigar-shaped condensate in the Thomas-Fermi regime, and a linear superposition of counter propagating Gaussian wavepackets. We recover known scaling for the ideal gas and Thomas-Fermi regimes, and identify a linear regime of aspect-ratio preserving free expansion; analysis of the scaling dynamics equations shows that an exact, aspect-ratio invariant, free expansion does not exist for nonlinear evolution. Our treatment enables exploration of nonlinear effects in matter-wave dynamics over large scale-changing evolution. | 翻訳日:2023-03-04 07:27:22 公開日:2022-11-15 |
# ダークマター探索のためのテスラスケール磁場中の高品質超伝導空洞の測定 Measurement of high quality factor superconducting cavities in tesla-scale magnetic fields for dark matter searches ( http://arxiv.org/abs/2201.10733v4 ) ライセンス: Link先を確認 | S. Posen, M. Checchin, O.S. Melnychuk, T. Ring, I. Gonin, T. Khabiboulline | (参考訳) アクシオンハロスコープを用いた暗黒物質探索において、探索感度はマルチテラ磁場に浸漬された高周波キャビティの品質因子(Q_0$)に依存する。
Q_0$の増加は、関心のパラメータ空間を通してスキャン率を増加させる。
粒子加速器用の超伝導高周波空洞を開発した研究者たちは、超高q_0\sim10^{11}$ in $\mu$t-scale 磁場を得る方法を開発した。
本稿では, Nb$_3$Sn膜を用いた高Qキャビティを粒子加速器キャビティ向けに開発した技術を用いて開発する取り組みについて述べる。
この応用のための幾何最適化を探求し, 既存の粒子加速器型キャビティと高磁場用幾何の2つのキャビティについて検討した。
品質係数(5.3\pm0.3$)$\times 10^5$は3.9〜GHz、6~Tは4.2〜Kである。 In dark matter searches using axion haloscopes, the search sensitivity depends on the quality factors ($Q_0$) of radiofrequency cavities immersed in multi-tesla magnetic fields. Increasing $Q_0$ would increase the scan rate through the parameter space of interest. Researchers developing superconducting radiofrequency cavities for particle accelerators have developed methods for obtaining extremely high $Q_0\sim10^{11}$ in $\mu$T-scale magnetic fields. In this paper, we describe efforts to develop high Q cavities made from Nb$_3$Sn films using a technique developed for particle accelerator cavities. Geometry optimization for this application is explored, and two cavities are tested: an existing particle accelerator-style cavity and a geometry developed and fabricated for use in high fields. A quality factor of ($5.3\pm0.3$)$\times 10^5$ is obtained at 3.9~GHz and 6~T at 4.2~K. | 翻訳日:2023-02-27 20:40:00 公開日:2022-11-15 |
# スピン軌道結合を介する銅酸化物のキラル超伝導とスピノン超流動 Chiral superconductivity in cuprates mediated by spin-orbit coupling to spinon superfluidity ( http://arxiv.org/abs/2202.09965v5 ) ライセンス: Link先を確認 | Sergei Urazhdin | (参考訳) 銅酸化物超伝導体の反強磁性親化合物のドーピングがスピン液体状態の安定化を実証するためにハバードモデルを用いる。
このような状態の超伝導は、電荷電流とスピノン凝縮物の超流動の間のスピン軌道結合によって発生し、秩序パラメータの位相勾配と超電流の間のキラルな関係をもたらす。
提案機構の簡易な実験実験を提案する。 We utilize the Hubbard model to demonstrate that doping of the antiferromagnetic parent compounds of cuprate superconductors stabilizes a spin liquid state. Superconductivity in such a state emerges due to the spin-orbit coupling between charge current and superfluidity of spinon condensate, resulting in a chiral relation between the order parameter phase gradient and supercurrent. We propose simple experimental tests for the presented mechanism. | 翻訳日:2023-02-24 08:20:41 公開日:2022-11-15 |
# 適応回路圧縮による効率的な量子ゲート分解 Efficient quantum gate decomposition via adaptive circuit compression ( http://arxiv.org/abs/2203.04426v2 ) ライセンス: Link先を確認 | P\'eter Rakyta, Zolt\'an Zimbor\'as | (参考訳) 本研究では,パラメトリック2量子ビットゲートを合成プロセスに応用した新しい量子ゲート近似アルゴリズムについて報告する。
回路設計におけるこれらのパラメトリック2量子ゲートの利用により、回路合成の離散組合せ問題を連続変数に対する最適化問題に変換することができる。
その後、回路は設計から2ビットゲートを順次除去することで圧縮され、残りのビルディングブロックは繰り返し学習サイクルにより縮小ゲート構造に継続的に適合する。
開発したアルゴリズムをSQUANDERソフトウェアパッケージに実装し、最先端の量子ゲート合成ツールと比較した。
数値実験により,計算アルゴリズムの優れた回路圧縮能力が明らかとなり,ほとんどの量子回路において最適なゲート数が得られることがわかった。 In this work, we report on a novel quantum gate approximation algorithm based on the application of parametric two-qubit gates in the synthesis process. The utilization of these parametric two-qubit gates in the circuit design allows us to transform the discrete combinatorial problem of circuit synthesis into an optimization problem over continuous variables. The circuit is then compressed by a sequential removal of two-qubit gates from the design, while the remaining building blocks are continuously adapted to the reduced gate structure by iterated learning cycles. We implemented the developed algorithm in the SQUANDER software package and benchmarked it against several state-of-the-art quantum gate synthesis tools. Our numerical experiments revealed outstanding circuit compression capabilities of our compilation algorithm providing the most optimal gate count in the majority of the addressed quantum circuits. | 翻訳日:2023-02-22 19:46:44 公開日:2022-11-15 |
# バルク境界対応による熱力学的境界:速度限界、熱力学的不確実性関係およびハイゼンベルク原理 Thermodynamic bounds via bulk-boundary correspondence: speed limit, thermodynamic uncertainty relation and Heisenberg principle ( http://arxiv.org/abs/2203.12421v4 ) ライセンス: Link先を確認 | Yoshihiko Hasegawa | (参考訳) バルク境界対応は、強相関系と結合系に取り組むための指針となる。
本研究では、古典的および量子マルコフ過程によって記述された熱力学的境界に対するバルク境界対応の概念を適用する。
連続行列積状態を用いて、マルコフ過程を量子場に変換し、マルコフ過程におけるジャンプイベントを量子場における粒子の生成によって表現する。
連続行列積状態の時間発展を導入することで、その時間発展に幾何学的境界を適用する。
幾何学的境界は、系量の観点から境界を表すとき速度極限関係に還元されるのに対し、同じ境界は量子場の量に基づいて表されるときの熱力学的不確かさ関係に還元される。
以上の結果から, 速度限界と熱力学的不確実性の関係は同じ幾何学的境界の2つの側面であることがわかった。 The bulk-boundary correspondence provides a guiding principle for tackling strongly correlated and coupled systems. In the present work, we apply the concept of the bulk-boundary correspondence to thermodynamic bounds described by classical and quantum Markov processes. Using the continuous matrix product state, we convert a Markov process to a quantum field, such that jump events in the Markov process are represented by the creation of particles in the quantum field. Introducing the time evolution of the continuous matrix product state, we apply the geometric bound to its time evolution. We find that the geometric bound reduces to the speed limit relation when we represent the bound in terms of the system quantity, whereas the same bound reduces to the thermodynamic uncertainty relation when expressed based on quantities of the quantum field. Our results show that the speed limit and thermodynamic uncertainty relations are two aspects of the same geometric bound. | 翻訳日:2023-02-21 00:44:53 公開日:2022-11-15 |
# 非断熱的ランダウ-ツェナー-シュタッケルベルク-マヨラナ遷移、ダイナミクス、干渉 Nonadiabatic Landau-Zener-St\"uckelberg-Majorana transitions, dynamics, and interference ( http://arxiv.org/abs/2203.16348v4 ) ライセンス: Link先を確認 | Oleh V. Ivakhnenko, Sergey N. Shevchenko and Franco Nori | (参考訳) Since the pioneering works by Landau, Zener, St\"uckelberg, and Majorana (LZSM), it has been known that driving a quantum two-level system results in tunneling between its states. Even though the interference between these transitions is known to be important, it is only recently that it became both accessible, controllable, and useful for engineering quantum systems. Here, we study systematically various aspects of LZSM physics and review the relevant literature, significantly expanding the review article in [Shevchenko, S. N., S. Ashhab, and F. Nori (2010), "Landau-Zener-St\"uckelberg interferometry," Phys.
原書 492, 1]。 Since the pioneering works by Landau, Zener, St\"uckelberg, and Majorana (LZSM), it has been known that driving a quantum two-level system results in tunneling between its states. Even though the interference between these transitions is known to be important, it is only recently that it became both accessible, controllable, and useful for engineering quantum systems. Here, we study systematically various aspects of LZSM physics and review the relevant literature, significantly expanding the review article in [Shevchenko, S. N., S. Ashhab, and F. Nori (2010), "Landau-Zener-St\"uckelberg interferometry," Phys. Rep. 492, 1]. | 翻訳日:2023-02-20 07:16:20 公開日:2022-11-15 |
# ファクトネット : 関係量子力学の数学的枠組みに向けて Fact-nets: towards a mathematical framework for relational quantum mechanics ( http://arxiv.org/abs/2204.00335v2 ) ライセンス: Link先を確認 | Pierre Martin-Dussaud, Titouan Carette, Jan G{\l}owacki, Vaclav Zatloukal, Federico Zalamea | (参考訳) 量子力学のリレーショナル解釈(rqm)は、1996年に初めて定式化されて以来、関心が高まっている。
通常、通常の量子力学形式論上の解釈的層として提示され、適切な数学的対応を持たない哲学的視点として現れる。
この状況は、いまだ誤解や不正確な声明に苦しむRQMに関する科学的議論に直接的な結果をもたらす。
これらの議論を明らかにするため,本論文では,まずファクトネット(fact-nets)という,量子力学の数学的枠組みの急進的な再構成を提案する。
中心となる考え方は、世界に関する全ての言明、事実は、観察と観察とを対称的に考えることができる2つのシステムを含む2つの実体であるということである。
我々は、fact-nets形式論の研究を開始し、慣れ親しんだ量子機能に新しい関係性光を当てる方法について概説する。 The relational interpretation of quantum mechanics (RQM) has received a growing interest since its first formulation in 1996. Usually presented as an interpretational layer over the usual quantum mechanics formalism, it appears as a philosophical perspective without proper mathematical counterparts. This state of affairs has direct consequences on the scientific debate on RQM which still suffers from misunderstandings and imprecise statements. In an attempt to clarify those debates, the present paper proposes a radical reformulation of the mathematical framework of quantum mechanics which is relational from the start: fact-nets. The core idea is that all statements about the world, facts, are binary entities involving two systems that can be symmetrically thought of as observed and observer. We initiate a study of the fact-nets formalism and outline how it can shed new relational light on some familiar quantum features. | 翻訳日:2023-02-20 02:46:37 公開日:2022-11-15 |
# ICTにおける安全と安全の維持 : 用語・目的・限界の探求 Sustaining Security and Safety in ICT: A Quest for Terminology, Objectives, and Limits ( http://arxiv.org/abs/2206.00288v3 ) ライセンス: Link先を確認 | Jan Tobias Muehlberg | (参考訳) セキュリティと安全性は、コンピューティングの世界において絡み合っている概念です。
近年では「持続可能な安全」と「持続可能な安全」という用語が流行し、効率性から利益性まで様々なシステム特性を指し、時には製品やサービスが人や惑星にとって良いことを意味することもある。
このことは、顧客が児童労働なしで持続可能な製品を開発することを期待する製品に対する混乱を招き、生産者は、その新製品が前世代の製品よりもわずかに少ない電力を使用することを示すために、この用語を使用する。
安全で安全なICTの研究においても、これらの異なる用語の概念が一般的である。
研究者として私たちは、例えば社会的影響、ライフサイクルへの影響、あるいはそのような最適化のリバウンド効果を意識せずに、エネルギー消費という特定のサステナビリティ・メータレットに対する研究対象の最適化に取り組みます。
本稿では, 持続可能な安全と安全という概念を, 何を維持したいのか, 誰が維持したいのかという疑問から考察する。
私は、一般的な「人々と惑星」の答えは、この形の持続可能性は単一の産業セクターの所有物ではなく、社会全体によって対処されなければならないため、ここでは不十分であると信じています。
しかし, ライフサイクルへの影響を十分に理解すれば, 研究・開発活動の創出や, 気候・生態危機の文脈における社会的課題に対処する上で有効な, 統合された安全・安全ソリューションの利用に向けた意思決定プロセスの報告, および, 交叉性や気候正義といった概念と整合することが可能になる。
もちろん、これらのソリューションは、社会的・経済的変化に埋め込まれたデータやICTのより厳密な利用にのみ有効である。 Security and safety are intertwined concepts in the world of computing. In recent years, the terms "sustainable security" and "sustainable safety" came into fashion and are being used referring to a variety of systems properties ranging from efficiency to profitability, and sometimes meaning that a product or service is good for people and planet. This leads to confusing perceptions of products where customers might expect a sustainable product to be developed without child labour, while the producer uses the term to signify that their new product uses marginally less power than the previous generation of that products. Even in research on sustainably safe and secure ICT, these different notions of terminology are prevalent. As researchers we often work towards optimising our subject of study towards one specific sustainability metric - let's say energy consumption - while being blissfully unaware of, e.g., social impacts, life-cycle impacts, or rebound effects of such optimisations. In this paper I dissect the idea of sustainable safety and security, starting from the questions of what we want to sustain, and for whom we want to sustain it. I believe that a general "people and planet" answer is inadequate here because this form of sustainability cannot be the property of a single industry sector but must be addressed by society as a whole. However, with sufficient understanding of life-cycle impacts we may very well be able to devise research and development efforts, and inform decision making processes towards the use of integrated safety and security solutions that help us to address societal challenges in the context of the climate and ecological crises, and that are aligned with concepts such as intersectionality and climate justice. Of course, these solutions can only be effective if they are embedded in societal and economic change towards more frugal uses of data and ICT. | 翻訳日:2023-02-19 17:24:06 公開日:2022-11-15 |
# 責任あるAIに倫理的価値を優先するグループ How Different Groups Prioritize Ethical Values for Responsible AI ( http://arxiv.org/abs/2205.07722v2 ) ライセンス: Link先を確認 | Maurice Jakesch, Zana Bu\c{c}inca, Saleema Amershi, Alexandra Olteanu | (参考訳) 民間企業、公共機関、学術団体は、人工知能技術に責任があると考える倫理的価値を概説している。
彼らの推奨は一連の中央値に収束するが、より代表的な人々が相互作用するai技術にとって重要であり、影響を受ける可能性のある価値についてはほとんど知られていない。
本研究では,米国住民の代表的サンプル(n=743),群集労働者のサンプル(n=755),およびai実践者のサンプル(n=175)の3つのグループに対して,責任あるai値の認識と優先順位付けを行った。
我々の結果は共通の懸念を実証的に裏付けている。AI実践者の価値観の優先順位は一般大衆と異なる。
米国代表のサンプルと比較すると、AI実践者は責任あるAIの価値を重要視せず、異なる価値のセットを強調しているように見える。
対照的に、自己同一性のある女性と黒人の回答者は、責任あるaiの価値が他のグループよりも重要であると考えた。
意外なことに、差別の経験を報告する参加者よりもリベラルな参加者の方が、他のグループよりも公平を優先する傾向があった。
私たちの発見は、誰が責任あるAIを定義するかに注意を払うことの重要性を強調します。 Private companies, public sector organizations, and academic groups have outlined ethical values they consider important for responsible artificial intelligence technologies. While their recommendations converge on a set of central values, little is known about the values a more representative public would find important for the AI technologies they interact with and might be affected by. We conducted a survey examining how individuals perceive and prioritize responsible AI values across three groups: a representative sample of the US population (N=743), a sample of crowdworkers (N=755), and a sample of AI practitioners (N=175). Our results empirically confirm a common concern: AI practitioners' value priorities differ from those of the general public. Compared to the US-representative sample, AI practitioners appear to consider responsible AI values as less important and emphasize a different set of values. In contrast, self-identified women and black respondents found responsible AI values more important than other groups. Surprisingly, more liberal-leaning participants, rather than participants reporting experiences with discrimination, were more likely to prioritize fairness than other groups. Our findings highlight the importance of paying attention to who gets to define responsible AI. | 翻訳日:2023-02-19 16:55:48 公開日:2022-11-15 |
# デジタル自己決定の運用 Operationalizing Digital Self Determination ( http://arxiv.org/abs/2211.08539v1 ) ライセンス: Link先を確認 | Stefaan G. Verhulst | (参考訳) 生活はますます定量化され、民間または公共の利益のために知性へと変換される。
責任を持って使うと、公共の利益に新たな機会がもたらされる。
しかしながら、現在このポテンシャルを制限している3つの主要な非対称性、特にデータ非対称性、情報非対称性、機関非対称性である。
これらの非対称性は、実用的かつ心理的な意味で、人間の潜在能力を制限し、非エンパワーメントの感情と技術に対する大衆の信頼を損なう。
非対称性を制限する既存の方法(例えば、同意)と検討中のいくつかの選択肢(データ所有、集団所有、個人情報管理システム)には、目の前の課題に適切に対処するための制限がある。
そのため、デジタル自己決定(DSD)の新しい原則と実践が必要である。
DSDは、カント哲学や1966年の経済・社会・文化的権利に関する国際条約など様々な資料で説明されているように、既存の自己決定の概念に基づいている。
デジタル時代に向けて更新されたdsdには、個人と集団の両方の次元を持つという事実、特に脆弱で辺縁化されたグループに利益をもたらすように設計されたこと、コンテキスト固有の(強制可能である)ことなど、いくつかの重要な特徴が含まれている。
この(および他の)コンテキストでのDSDの運用は、データの可能性を最大化し、その害を抑えるためには、多くのステップが必要である。
特に、dsdの責任ある運用は、プロセス、人、組織、ポリシー、製品、技術という4つの主要なプロングまたはアクションのカテゴリを考慮すべきである。 We live in an era of datafication, one in which life is increasingly quantified and transformed into intelligence for private or public benefit. When used responsibly, this offers new opportunities for public good. However, three key forms of asymmetry currently limit this potential, especially for already vulnerable and marginalized groups: data asymmetries, information asymmetries, and agency asymmetries. These asymmetries limit human potential, both in a practical and psychological sense, leading to feelings of disempowerment and eroding public trust in technology. Existing methods to limit asymmetries (e.g., consent) as well as some alternatives under consideration (data ownership, collective ownership, personal information management systems) have limitations to adequately address the challenges at hand. A new principle and practice of digital self-determination (DSD) is therefore required. DSD is based on existing concepts of self-determination, as articulated in sources as varied as Kantian philosophy and the 1966 International Covenant on Economic, Social and Cultural Rights. Updated for the digital age, DSD contains several key characteristics, including the fact that it has both an individual and collective dimension; is designed to especially benefit vulnerable and marginalized groups; and is context-specific (yet also enforceable). Operationalizing DSD in this (and other) contexts so as to maximize the potential of data while limiting its harms requires a number of steps. In particular, a responsible operationalization of DSD would consider four key prongs or categories of action: processes, people and organizations, policies, and products and technologies. | 翻訳日:2023-02-19 12:28:14 公開日:2022-11-15 |
# 人間と分析のフィードバックの組み合わせが学生のリフレクティブ・ライティング・タスクへの関与とパフォーマンスに及ぼす影響 Impact of combining human and analytics feedback on students' engagement with, and performance in, reflective writing tasks ( http://arxiv.org/abs/2211.08222v1 ) ライセンス: Link先を確認 | Wannapon Suraworachet, Qi Zhou and Mutlu Cukurova | (参考訳) リフレクティブ・ライティングは、世界中の多くの高等教育コースの一部である。
学習経験を適切に計画し、タイムリーに関与し、深く反映するために、自己統制学習スキルを必要とするため、学生にとって難しい課題であることが多い。
学生のリフレクションを支援することを目的とした、分析の進歩と人間のフィードバックの広範性にもかかわらず、人間のフィードバックと分析を統合して、学生のリフレクティブライティングタスクにおける学習のエンゲージメントとパフォーマンスを改善する方法についてはほとんど知られていない。
本研究は、ユビキタスなオンライン単語処理プラットフォームからのデジタルトレースの時系列分析を利用した、学生の書き込みエンゲージメント分析に基づく行動フィードバックの個人化介入を提案する。
81人の大学院生を対象に1学期にわたる実験を行い,学習のエンゲージメントとパフォーマンスに与える影響について検討した。
その結果,リフレクティブライティングコンテンツに対する人間のフィードバックのみを受信したコントロールコーホートと比較して,複合フィードバックを受けた後のリフレクティブライティングタスクにおいて,介入コーホートが統計的に有意に多く関与したことがわかった。
さらなる分析により,介入コホートが毎週の水準でより頻繁に反映され,毎週のリフレクションの規則性が成績の等級の改善につながり,自己統制能力の低い学生に対する影響が高まった。
本研究は,学生のエンゲージとパフォーマンスを向上させるために,分析と人間フィードバックの強みを合成するフィードバック・アプローチの導入による強力なメリットを強調する。
さらなる研究は、観察された効果の長期的な持続可能性と、他の文脈におけるその妥当性を検討するべきである。 Reflective writing is part of many higher education courses across the globe. It is often considered a challenging task for students as it requires self-regulated learning skills to appropriately plan, timely engage and deeply reflect on learning experiences. Despite an advance in writing analytics and the pervasiveness of human feedback aimed to support student reflections, little is known about how to integrate feedback from humans and analytics to improve students' learning engagement and performance in reflective writing tasks. This study proposes a personalised behavioural feedback intervention based on students' writing engagement analytics utilising time-series analysis of digital traces from a ubiquitous online word processing platform. In a semester-long experimental study involving 81 postgraduate students, its impact on learning engagement and performance was studied. The results showed that the intervention cohort engaged statistically significantly more in their reflective writing task after receiving the combined feedback compared to the control cohort which only received human feedback on their reflective writing content. Further analyses revealed that the intervention cohort reflected more regularly at the weekly level, the regularity of weekly reflection led to better performance grades, and the impact on students with low self-regulated learning skills was higher. This study emphasizes the powerful benefits of implementing combined feedback approaches in which the strengths of analytics and human feedback are synthesized to improve student engagement and performance. Further research should explore the long-term sustainability of the observed effects and their validity in other contexts. | 翻訳日:2023-02-19 12:27:46 公開日:2022-11-15 |
# AI倫理: 実践者と議員の視点に関する実証的研究 AI Ethics: An Empirical Study on the Views of Practitioners and Lawmakers ( http://arxiv.org/abs/2207.01493v2 ) ライセンス: Link先を確認 | Arif Ali Khan, Muhammad Azeem Akbar, Mahdi Fahmideh, Peng Liang, Muhammad Waseem, Aakash Ahmad, Mahmood Niazi, Pekka Abrahamsson | (参考訳) 人工知能(AI)ソリューションや技術は、スマートシステムにおいてますます採用されているが、そのような技術は、倫理的不確実性に継続的に関心を寄せている。
さまざまなガイドライン、原則、規制フレームワークは、ai技術が倫理的な幸福をもたらすように設計されている。
しかし、AI倫理の原則とガイドラインの影響はまだ議論されている。
我々は、AI倫理の原則と関連する課題の重要性をさらに調査するため、5大陸20カ国から99人の代表的AI実践者および議員(例えば、AIエンジニア、弁護士)を対象に調査を行った。
私たちの知る限りでは、これは2つの異なるタイプの集団(AI実践者と立法者)の認識をカプセル化した初めての実証的研究であり、この調査結果は透明性、説明責任、プライバシが最も重要なAI倫理原則であることを証明している。
一方、倫理的知識の欠如、法的枠組みの欠如、監視機関の欠如が、AI倫理の最も一般的な課題である。
AI倫理原則にまたがる課題のインパクト分析は、実践上の対立が非常に深刻な課題であることを示している。
さらに、実践者や議員の認識は、特定の原則(公正、自由など)や課題(監視対象の欠如、機械の歪みなど)に対して有意な差と統計的に相関している。
我々の発見はさらなる研究を刺激し、特に、倫理に配慮したAIシステムの開発と品質評価を支援するために、既存の能力成熟度モデルを強化する。 Artificial Intelligence (AI) solutions and technologies are being increasingly adopted in smart systems context, however, such technologies are continuously concerned with ethical uncertainties. Various guidelines, principles, and regulatory frameworks are designed to ensure that AI technologies bring ethical well-being. However, the implications of AI ethics principles and guidelines are still being debated. To further explore the significance of AI ethics principles and relevant challenges, we conducted a survey of 99 representative AI practitioners and lawmakers (e.g., AI engineers, lawyers) from twenty countries across five continents. To the best of our knowledge, this is the first empirical study that encapsulates the perceptions of two different types of population (AI practitioners and lawmakers) and the study findings confirm that transparency, accountability, and privacy are the most critical AI ethics principles. On the other hand, lack of ethical knowledge, no legal frameworks, and lacking monitoring bodies are found the most common AI ethics challenges. The impact analysis of the challenges across AI ethics principles reveals that conflict in practice is a highly severe challenge. Moreover, the perceptions of practitioners and lawmakers are statistically correlated with significant differences for particular principles (e.g. fairness, freedom) and challenges (e.g. lacking monitoring bodies, machine distortion). Our findings stimulate further research, especially empowering existing capability maturity models to support the development and quality assessment of ethics-aware AI systems. | 翻訳日:2023-02-19 09:39:01 公開日:2022-11-15 |
# Qunity: 量子コンピューティングと古典コンピューティングのための統一言語(拡張バージョン) Qunity: A Unified Language for Quantum and Classical Computing (Extended Version) ( http://arxiv.org/abs/2204.12384v3 ) ライセンス: Link先を確認 | Finn Voichick, Liyi Li, Robert Rand, Michael Hicks | (参考訳) 量子コンピューティングを古典コンピューティングの自然な一般化として扱うために設計された新しい量子プログラミング言語qunityを紹介する。
Qunityは、よく知られたプログラミング構造が量子効果と古典効果の両方を持つような統一構文を示す。
例えば、線形演算子の直接和を実装するためにsum型、射影測定を実装するために例外処理構文、絡み合いを誘発するためにエイリアシングを使うことができる。
さらに、qunity は見落とされた bqp subroutine 定理を活用し、"garbage" 出力の非計算を通じて可逆量子アルゴリズムから可逆サブルーチンを構築することができる。
量子ゲートを持つ古典言語のような)別々のアドオンで量子アスペクトを可能にする既存の言語とは異なり、qunityは統一構文と、プログラムが量子力学的に有効なことを保証する新しい記述意味論を提供する。
qunityの構文、型システム、表記意味論を紹介し、いくつかの量子アルゴリズムをクリーンに表現する方法を示す。
また、qunityがopenqasmのような低レベルの量子ビット回路言語にどのようにコンパイルできるかを詳しく説明します。 We introduce Qunity, a new quantum programming language designed to treat quantum computing as a natural generalization of classical computing. Qunity presents a unified syntax where familiar programming constructs can have both quantum and classical effects. For example, one can use sum types to implement the direct sum of linear operators, exception-handling syntax to implement projective measurements, and aliasing to induce entanglement. Further, Qunity takes advantage of the overlooked BQP subroutine theorem, allowing one to construct reversible subroutines from irreversible quantum algorithms through the uncomputation of "garbage" outputs. Unlike existing languages that enable quantum aspects with separate add-ons (like a classical language with quantum gates bolted on), Qunity provides a unified syntax and a novel denotational semantics that guarantees that programs are quantum mechanically valid. We present Qunity's syntax, type system, and denotational semantics, showing how it can cleanly express several quantum algorithms. We also detail how Qunity can be compiled into a low-level qubit circuit language like OpenQASM, proving the realizability of our design. | 翻訳日:2023-02-15 11:54:31 公開日:2022-11-15 |
# 半導体マイクロキャビティにおける共鳴トンネルダイオード--thz変位電流の偏光特性のモデル化 Resonant tunneling diodes in semiconductor microcavities: modeling polaritonic features in the THz displacement current ( http://arxiv.org/abs/2204.14202v2 ) ライセンス: Link先を確認 | Carlos F. Destefani, Matteo Villani, Xavier Cartoix\`a, Michael Feiginov and Xavier Oriols | (参考訳) 本研究は,双極子近似の下での強い光と物質を結合した単純な量子電子輸送モデルを開発し,時間に依存した電流中における分極シグネチャを捉えることを可能にする。
光共振器内における共鳴トンネルダイオードの変位電流に対する量子化電磁場の影響を解析した。
素電子伝達係数の元のピークは共鳴電子-光子相互作用により2つの新しいピークに分割され、強結合状態において系内で発達する偏光子状態の間でコヒーレントなラビ振動を引き起こした。
これは閉系におけるJaynes-Cummingsモデルによって予測された既知の効果を模倣し、電子と電磁場の完全な量子処理が、新しいTHz電子デバイスを設計するための興味深い経路をいかに開くかを示す。
thz電流のマルチタイム計測にかかわる計算負荷は、光間相互作用をボーム的に記述することで解決される。
また,直流量子電子デバイスの特徴付けに用いられる従来の静的伝送係数を,高周波交流のシナリオで新しい変位電流係数に置き換える必要があることを示した。 We develop in this work a simple qualitative quantum electron transport model, in the strong light-matter coupling regime under dipole approximation, able to capture polaritonic signatures in the time-dependent electrical current. The effect of the quantized electromagnetic field in the displacement current of a resonant tunneling diode inside an optical cavity is analyzed. The original peaks of the bare electron transmission coefficient split into two new peaks due to the resonant electron-photon interaction, leading to coherent Rabi oscillations among the polaritonic states that are developed in the system in the strong coupling regime. This mimics known effects predicted by a Jaynes-Cummings model in closed systems, and shows how a full quantum treatment of electrons and electromagnetic fields may open interesting paths for engineering new THz electron devices. The computational burden involved in the multi-time measurements of THz currents is tackled by invoking a Bohmian description of the light-matter interaction. We also show that the traditional static transmission coefficient used to characterize DC quantum electron devices has to be substituted by a new displacement current coefficient in high-frequency AC scenarios. | 翻訳日:2023-02-15 09:01:46 公開日:2022-11-15 |
# Rydberg原子上のAbrahamとAharonov-Casher力に対するQED補正 QED corrections to Abraham and Aharonov-Casher force on Rydberg atoms ( http://arxiv.org/abs/2205.02696v2 ) ライセンス: Link先を確認 | R. Le Fournis, B.A. Van Tiggelen | (参考訳) 我々は,高励起長寿命リドベルク状態におけるアルカリ原子上の電磁量子真空によるアブラハム力とアハロノフ・カシエ力を計算する。
高い分極性と長寿命のため、これらの原子はこれらの力を観測するのによい候補である。 We calculate the Abraham force and the Aharonov-Casher force exerted by the electromagnetic quantum vacuum on alkaline atoms in highly excited, long-living Rydberg states. Because of their high polarizability and long-life time such atoms are good candidates to observe these forces. | 翻訳日:2023-02-14 06:10:05 公開日:2022-11-15 |
# 多ビットハミルトニアンの効率的かつロバストな推定法 Efficient and robust estimation of many-qubit Hamiltonians ( http://arxiv.org/abs/2205.09567v2 ) ライセンス: Link先を確認 | Daniel Stilck Fran\c{c}a, Liubov A. Markovich, V. V. Dobrovitski, Albert H. Werner, Johannes Borregaard | (参考訳) 量子力学系の相互作用と力学を特徴づけることは、量子技術の発展に欠かせない課題である。
本稿では,多項式補間を用いた数キュービット観測器の時間微分推定に基づく効率的なプロトコルを提案し,マルチキュービット装置のハミルトンダイナミクスとマルコフノイズを特徴付ける。
有限範囲力学では,本プロトコルは測定に必要な時間分解能を指数関数的に緩和し,サンプル全体の複雑性を従来の手法に比べて4次的に低減する。
さらに,本プロトコルは,代数的減衰相互作用を持つ系のダイナミクスを特徴付けることができることを示した。
プロトコルの実装には、製品状態とシングルキュービットの測定のみが必要である。
さらに,独立した興味を持つ量子チャネルに対するシャドウトモグラフィー法を開発した。
このプロトコルは、ハミルトニアンを学ぶために並列化され、現在の量子デバイスと将来の量子デバイスの両方の特徴付けに適用できる。 Characterizing the interactions and dynamics of quantum mechanical systems is an essential task in the development of quantum technologies. We propose an efficient protocol based on the estimation of the time derivatives of few qubit observables using polynomial interpolation for characterizing the underlying Hamiltonian dynamics and Markovian noise of a multi-qubit device. For finite range dynamics, our protocol exponentially relaxes the necessary time resolution of the measurements and quadratically reduces the overall sample complexity compared to previous approaches. Furthermore, we show that our protocol can characterize the dynamics of systems with algebraically decaying interactions. The implementation of the protocol requires only the preparation of product states and single-qubit measurements. Furthermore, we develop a shadow tomography method for quantum channels that is of independent interest. This protocol can be used to parallelize to learn the Hamiltonian, rendering it applicable for the characterization of both current and future quantum devices. | 翻訳日:2023-02-12 15:54:33 公開日:2022-11-15 |
# 境界/界面共形場理論における反射エントロピー Reflected Entropy in Boundary/Interface Conformal Field Theory ( http://arxiv.org/abs/2206.04630v3 ) ライセンス: Link先を確認 | Yuya Kusuki | (参考訳) 境界共形場理論(BCFT)と界面共形場理論(ICFT)は情報パラドックス問題の文脈において注目されている。
この背景から、BCFT/ICFTにおける反射エントロピーの概念を発展させる。
左右反射エントロピー(LRRE)をBCFTに導入し,そのホログラフィック双対がAdS/BCFTを介して絡み合うくさび断面(EWCS)の面積によって与えられることを示す。
また,ICFTにおける反射エントロピーの評価方法について述べる。
この手法を用いることで、マルコフギャップの普遍的挙動を特殊ケースで示すことができる。
さらに、このLRRE/EWCS双対性を用いて境界一次相関関数のホログラム双対を明確化する。 Boundary conformal field theory (BCFT) and interface conformal field theory (ICFT) attract attention in the context of the information paradox problem. On this background, we develop the idea of the reflected entropy in BCFT/ICFT. We first introduce the left-right reflected entropy (LRRE) in BCFT and show that its holographic dual is given by the area of the entanglement wedge cross section (EWCS) through AdS/BCFT. We also present how to evaluate the reflected entropy in ICFT. By using this technique, we can show the universal behavior of the Markov gap in some special cases. Furthermore, we clarify what is the holographic dual of boundary primary correlation functions by using this LRRE/EWCS duality. | 翻訳日:2023-02-10 01:25:00 公開日:2022-11-15 |
# バイモーダルキャビティに単一トラップ原子を有するゼロ閾値相関光子レーザー Zero-threshold correlated-photon laser with a single trapped atom in a bimodal cavity ( http://arxiv.org/abs/2207.12304v2 ) ライセンス: Link先を確認 | Anushree Dey and Arpita Pal and Subhasish Dutta Gupta and Bimalendu Deb | (参考訳) 2つの非コヒーレント源によって励起され、2つのコヒーレント磁場によって駆動される1つのv型3レベル原子を用いるバイモーダルキャビティ設定において、消滅しきい値を持つ相関したエンタングル光ペア生成の実現可能性を示す。
光子ペアは低レベルの非コヒーレントポンプに対してのみ絡み合っていることが示されており、その起源はコヒーレントドライブのみである。
以上の結果から,コヒーレント駆動を伴わない二重非コヒーレントポンプは,強いモード間アンチバンチングによるキャビティフィールドの増幅につながるが,絡み合わなかった。
非コヒーレントパンピングのないコヒーレントドライブだけがエンタングルフォトンパイアを生成することができるが、コヒーレントドライブのみを使用して一定の限界を超えるエンタングルキャビティフィールドを増幅することはできない。
しかし、コヒーレントドライブの存在下での小さな非コヒーレントポンプの使用は、生成した光子対を著しく増幅することができる。
我々は, キャビティドレッシング状態を含むコヒーレントプロセスと非コヒーレントプロセスとの相互作用の観点から, 結果を分析する。
モード間およびモード内hbt関数は、強結合キャビティqedレジームにおいて時間的振動を示す。
非古典的および絡み合った光子対を生成するための理論的スキームは、量子力学と量子情報科学に興味深い応用を見出すことができる。 We demonstrate theoretically the feasibility of correlated entangled photon-pair generation with vanishing threshold in a bimodal cavity setup that uses a single V-type three level atom pumped by dual incoherent sources and driven by two coherent fields. The photon-pair is shown to be entangled only for low levels of the incoherent pumps and owes its origin solely to the coherent drives. Our results show that the dual incoherent pumping with no coherent drive can lead to amplification of the cavity fields with strong inter-mode antibunching but no entanglement. Though only coherent drives with no incoherent pumping can produce entangled photon-pairs, the entangled cavity fields can not be amplified beyond a certain limit using only coherent drives. However, the use of even small incoherent pumping in the presence of the coherent drives can amplify the generated entangled photon-pairs significantly. We analyse our results in terms of an interplay between coherent and incoherent processes involving cavity-dressed states. Both the inter- and intra-mode HBT functions exhibit temporal oscillations in the strong-coupling cavity QED regime. Our theoretical scheme for the generation of nonclassical and entangled photon pairs may find interesting applications in quantum metrology and quantum information science. | 翻訳日:2023-02-03 19:37:56 公開日:2022-11-15 |
# 量子推定理論に基づく量子誤差緩和の普遍的コスト境界 Universal cost bound of quantum error mitigation based on quantum estimation theory ( http://arxiv.org/abs/2208.09385v3 ) ライセンス: Link先を確認 | Kento Tsubouchi, Takahiro Sagawa, and Nobuyuki Yoshioka | (参考訳) 我々は、量子推定理論に基づいて、様々な量子誤差軽減手法のコストを統一的に分析する方法を提供する。
広い範囲の量子誤差緩和手法の演算を効果的に表す仮想量子回路の量子フィッシャー情報を解析することにより、観測可能な観測値の偏りのない推定は、測定コストに基づいて回路深さの低い領域で指数関数的な成長に遭遇する、幅広い種類のマルコフノイズを導出する。
我々は,大域的非分極雑音下での単純な緩和手法により,漸近的に境界を飽和させることができることを見出した。
また, 十分に長い回路深度では, ノイズチャネルは, 量子ビット数とともに指数関数的に強度が増大する大域的非偏極ノイズとして見ることができる。
これは、回路深さとキュービット数の両方に関してコストが指数関数的にスケールするという直感を強く支持する。
本研究は, 量子誤差緩和の物理的限界を明らかにするだけでなく, 量子誤差軽減技術の性能評価のための新たな基準を提供する。 We provide a unified way to analyze the cost of various quantum error mitigation methods on the basis of quantum estimation theory. By analyzing the quantum Fisher information of a virtual quantum circuit that effectively represents the operations of a wide range of quantum error mitigation methods, we derive for a wide class of Markovian noise that, unbiased estimation of an observable encounters an exponential growth with the circuit depth in the lower bound on the measurement cost. We find that we can asymptotically saturate the bound by a simple mitigation technique under the global depolarizing noise. We also perform numerical simulations to obtain a convincing implication that, under sufficiently long circuit depth, noise channels can be seen as a global depolarizing noise whose strength grows exponentially with the qubit number. This strongly supports the intuition that the cost scales exponentially with respect to both the circuit depth and the qubit number. Our results not only reveal the physical limitations of quantum error mitigation, but also provide a new criterion for performance evaluation of quantum error mitigation techniques. | 翻訳日:2023-01-30 12:10:00 公開日:2022-11-15 |
# 磁場抵抗量子制限パラメトリック増幅器 Magnetic field-resilient quantum-limited parametric amplifier ( http://arxiv.org/abs/2209.13652v2 ) ライセンス: Link先を確認 | Mingrui Xu, Risheng Cheng, Yufeng Wu, Gangqiang Liu and Hong X.Tang | (参考訳) 超伝導パラメトリック増幅器は、量子制限信号の読み出しを可能にするためにマイクロ波量子回路の重要な構成要素である。
そのような増幅器の最高性能はしばしばジョセフソン接合に基づいているが、磁場に敏感である。
したがって、磁気シールドが必要であり、スピンアンサンブル量子メモリのような磁場内で動作する他の量子システムと容易には統合できない。
この課題に取り組むために,ジョゼフソン接合の代わりにnbnナノブリッジを特徴とする動力学的インダクタンスに基づくパラメトリック増幅器を開発した。
このナノブリッジ運動インダクタンスパラメトリック増幅器(NKPA)の付加ノイズは校正され、位相保存増幅のための0.59\pm 0.03$ Quantaとなり、0.5quantaの量子限界に近づいた。
最も重要なことは、このような優れたノイズ性能は、実験で利用できる最大磁場である427 mTまでの面内磁場に保持されていることである。
この磁場耐性パラメトリック増幅器は、単一電子スピン共鳴に対処し、マヨラナフェルミオンと同様に軸索のより効率的な探索を行う機会を与える。 Superconducting parametric amplifiers are crucial components in microwave quantum circuits for enabling quantum-limited signal readout. The best-performing such amplifiers are often based on Josephson junctions, which however are sensitive to magnetic fields. Therefore, they require magnetic shields and are not easily integratable with other quantum systems that operates within magnetic fields, such as spin ensemble quantum memories. To tackle this challenge, we have developed a kinetic inductance-based parametric amplifier featuring a NbN nanobridge instead of Josephson Junctions, which provides the desired nonlinearity for a strong parametric gain up to 42 dB. The added noise of this nanobridge kinetic-inductance parametric amplifier (hereby referred as NKPA) is calibrated and found to be $0.59\pm 0.03$ quanta for phase-preserving amplification, approaching the quantum limit of 0.5 quanta. Most importantly, we show that such excellent noise performance is preserved in an in-plane magnetic field up to 427 mT, the maximum field available in our experiment. This magnetic field-resilient parametric amplifier presents an opportunity towards addressing single electron-spin resonance and more efficient search for Axions as well as Majorana Fermions. | 翻訳日:2023-01-25 00:12:33 公開日:2022-11-15 |
# ニューラルネットワークによる未知遺伝子多部絡みの認証 Certifying Unknown Genuine Multipartite Entanglement by Neural Networks ( http://arxiv.org/abs/2210.13837v2 ) ライセンス: Link先を確認 | Zhenyu Chen, Xiaodie Lin and Zhaohui Wei | (参考訳) 未知の多元量子状態があるとすれば、それが真の多元量子の絡み合いであるかどうかを実験的に確かめるにはどうすればよいのか?
密度行列が知られている二部量子状態であっても、それが絡み合っているかどうかを決定することはNP-Hard である。
そのため、一般には効率的に解くことが困難である。
しかし、真の多部絡みは、多体物理学や量子情報処理タスクにおいて重要な役割を果たす基本的な概念であるため、真の多部絡みを認証するための現実的なアプローチを見つけることは間違いなく必要である。
そこで本研究では,局所計測装置を用いた量子状態測定による計測統計データがニューラルネットワークの入力特性として有用であることを示す。
我々のモデルを多くの特定の多部量子状態上でテストすることにより、真の多部量子の絡み合いを非常に正確に証明できることが示される。
また、機能のサイズを小さくすることで、モデルの効率を向上する可能性も示しています。
最後に,本モデルが測定装置の欠陥に対して著しく頑健であることを示し,実験にやさしいことを示唆する。 Suppose we have an unknown multipartite quantum state, how can we experimentally find out whether it is genuine multipartite entangled or not? Recall that even for a bipartite quantum state whose density matrix is known, it is already NP-Hard to determine whether it is entangled or not. Therefore, it is hard to efficiently solve the above problem generally. However, since genuine multipartite entanglement is such a fundamental concept that plays a crucial role in many-body physics and quantum information processing tasks, finding realistic approaches to certify genuine multipartite entanglement is undoubtedly necessary. In this work, we show that neural networks can provide a nice solution to this problem, where measurement statistics data produced by measuring involved quantum states with local measurement devices serve as input features of neural networks. By testing our models on many specific multipartite quantum states, we show that they can certify genuine multipartite entanglement very accurately, which even include some new results unknown before. We also exhibit a possible way to improve the efficiency of our models by reducing the size of features. Lastly, we show that our models enjoy remarkable robustness against flaws in measurement devices, implying that they are very experiment-friendly. | 翻訳日:2023-01-21 16:04:31 公開日:2022-11-15 |
# c*-代数のtsirelson対について On Tsirelson pairs of C*-algebras ( http://arxiv.org/abs/2210.15509v3 ) ライセンス: Link先を確認 | Isaac Goldbring and Bradd Hart | (参考訳) 本稿では, c*-代数のtsirelson対の概念を紹介する。これは, 対の最小テンソル積上の状態を用いて得られる量子戦略の空間と, 対の最大テンソル積上の状態を用いて得られる量子戦略の空間が一致するc*-代数の対である。
極小テンソル積とペアの最大テンソル積が同型でないという意味で「非自明」なそのようなペアの多くの例を示す。
例えば、キルヒベルクの qwep 性質を持つ c*-代数を含む任意の対が tsirelson 対であることを証明する。
次に、Tsirelsonプロパティ (TP) を持つ C*-代数の概念を導入し、このクラスに対する多くのクロージャ特性を確立する。
また、TP を持つ C*-環のクラスは(モデル理論の意味で)公理化可能なクラスを形成するが、このクラスは「有効」公理化を認めないことを示す。 We introduce the notion of a Tsirelson pair of C*-algebras, which is a pair of C*-algebras for which the space of quantum strategies obtained by using states on the minimal tensor product of the pair and the space of quantum strategies obtained by using states on the maximal tensor product of the pair coincide. We exhibit a number of examples of such pairs that are "nontrivial" in the sense that the minimal tensor product and the maximal tensor product of the pair are not isomorphic. For example, we prove that any pair containing a C*-algebra with Kirchberg's QWEP property is a Tsirelson pair. We then introduce the notion of a C*-algebra with the Tsirelson property (TP) and establish a number of closure properties for this class. We also show that the class of C*-algebras with the TP form an axiomatizable class (in the sense of model theory), but that this class admits no "effective" axiomatization. | 翻訳日:2023-01-21 08:15:38 公開日:2022-11-15 |
# 逆アニーリングにおける写像状態遷移感受性 Mapping state transition susceptibility in reverse annealing ( http://arxiv.org/abs/2210.16513v2 ) ライセンス: Link先を確認 | Elijah Pelofske | (参考訳) 量子アニーリング(quantum annealing)は、量子力学的揺らぎを用いてイジング問題の最適解を探すことを目的とした、新しいタイプのアナログ計算である。
D-Waveデバイス上に実装された横フィールドIsingモデルにおける量子アニーリングは、時間依存の逆フィールドを適用し、全てのキュービットを重畳状態にし、その後、ユーザプログラムされたIsing問題を記述した時間をかけてハミルトニアンを適用する。
本稿では,D-Wave量子アニール,逆アニール,h-ゲインスケジュールの2つの制御特性を利用して,Ising問題の2つの古典状態間の感受性,あるいは距離を定量化する手法を提案する。
開始状態は逆アニーリングで符号化され、2番目の状態は問題ハミルトニアンの線形項で符号化される。
線形項の強度を漸進的に増加させ、最終的な測定時にアニールを特定の状態に遷移させるために必要なh-ゲイン強度の定量化を可能にするh-ゲインスケジュールを指定する。
量子アニールの性質により、状態は大域最小化の傾向にあり、従って第2古典状態は与えられたイジング問題の最小解に制限される。
この感受性マッピングは、全ての初期状態に列挙されたときに、逆アニール中の量子アニールの挙動を詳細に示す。
この手順は、d-wave advantage_system4.1上に並列に埋め込まれた3つの小さなテストイジングで実験的に実証されている。
状態遷移マッピングの解析は、状態遷移ネットワークとして視覚的に表現される中間状態遷移経路を含む逆アニール過程の詳細な特性を示す。 Quantum annealing is a novel type of analog computation that aims to use quantum mechanical fluctuations to search for optimal solutions of Ising problems. Quantum annealing in the transverse field Ising model, implemented on D-Wave devices, works by applying a time dependent transverse field, which puts all qubits into a uniform state of superposition, and then applying a Hamiltonian over time which describes a user programmed Ising problem. We present a method which utilizes two control features of D-Wave quantum annealers, reverse annealing and an h-gain schedule, to quantify the susceptibility, or the distance, between two classical states of an Ising problem. The starting state is encoded using reverse annealing, and the second state is encoded on the linear terms of problem Hamiltonian. An h-gain schedule is specified which incrementally increases the strength of the linear terms, thus allowing a quantification of the h-gain strength required to transition the anneal into a specific state at the final measurement. By the nature of quantum annealing, the state tends towards global minima and therefore we restrict the second classical state to a minimum solution of the given Ising problem. This susceptibility mapping, when enumerated across all initial states, shows in detail the behavior of the quantum annealer during reverse annealing. The procedure is experimentally demonstrated on three small test Ising's which were embedded in parallel on the D-Wave Advantage_system4.1. Analysis of the state transition mapping shows detailed characteristics of the reverse annealing process including intermediate state transition paths, which are visually represented as state transition networks. | 翻訳日:2023-01-21 03:07:33 公開日:2022-11-15 |
# Rokhsar-Kivelson-sign波動関数の絡み合い複雑性 Entanglement complexity of the Rokhsar-Kivelson-sign wavefunctions ( http://arxiv.org/abs/2211.01428v2 ) ライセンス: Link先を確認 | Stefano Piemontese, Tommaso Roscilde, Alioscia Hamma | (参考訳) 本稿では,1つのパラメータによって絡み合いの度合いが制御される,模範状態であるロクサー・キベルソン符号波動関数(Rokhsar-Kivelson-sign wavefunctions)の絡み合い複雑性の遷移について検討する。
この状態群は、エントロピーの体積則スケーリングを示す相と、エンタングルメントのサブ拡張スケーリングを持つ相の間の遷移を特徴とすることが知られており、乱れた量子ハミルトンの多体局所化遷移を想起させる[physical review b 92, 214204 (2015)]。
rk符号波動関数の特異性とそれらの絡み合いの複雑さを、量子情報理論のいくつかのツールを用いて研究した: 忠実度計量、絡み合いスペクトル統計、絡み合いエントロピーゆらぎ、安定化器r\'enyiエントロピー、逆絡みアルゴリズムの性能。
体積則フェーズ全体を通して、状態は普遍的絡み合いスペクトル統計量を持つ。
しかし、全てのメトリクスがパラメータ自身から独立になる制御パラメータの小さな値に「超ユニバーサル」の規則が現れる; 絡み合いエントロピーと安定化器 R\'enyi エントロピーは理論的な最大値に近づく; 絡み合いのゆらぎはランダムな普遍回路の出力状態のようにゼロにスケールし、解離アルゴリズムは本質的にゼロ効率を持つ。
これら全ての指標は、一貫して複雑な絡み合いのパターンを示す。
一方、サブボリューム法相では、絡み合いスペクトル統計はもはや普遍的ではなく、絡み合いの変動はより大きく、非ユニバーサルスケーリングを示し、非絡み合いアルゴリズムの効率は有限となる。
モデル波動関数に基づき, エンタングルメントスケーリング特性とエンタングルメント複雑性特性の類似の組み合わせが, 高エネルギーハミルトニアンの固有状態に見られることが示唆された。 In this paper we study the transitions of entanglement complexity in an exemplary family of states - the Rokhsar-Kivelson-sign wavefunctions - whose degree of entanglement is controlled by a single parameter. This family of states is known to feature a transition between a phase exhibiting volume-law scaling of entanglement entropy and a phase with sub-extensive scaling of entanglement, reminiscent of the many-body-localization transition of disordered quantum Hamiltonians [Physical Review B 92, 214204 (2015)]. We study the singularities of the RK-sign wavefunctions and their entanglement complexity across the transition using several tools from quantum information theory: fidelity metric; entanglement spectrum statistics; entanglement entropy fluctuations; stabilizer R\'enyi Entropy; and the performance of a disentangling algorithm. Across the whole volume-law phase the states feature universal entanglement spectrum statistics. Yet a "super-universal" regime appears for small values of the control parameter in which all metrics become independent of the parameter itself; the entanglement entropy as well as the stabilizer R\'enyi entropy appear to approach their theoretical maximum; the entanglement fluctuations scale to zero as in output states of random universal circuits, and the disentangling algorithm has essentially null efficiency. All these indicators consistently reveal a complex pattern of entanglement. In the sub-volume-law phase, on the other hand, the entanglement spectrum statistics is no longer universal, entanglement fluctuations are larger and exhibiting a non-universal scaling; and the efficiency of the disentangling algorithm becomes finite. Our results, based on model wavefunctions, suggest that a similar combination of entanglement scaling properties and of entanglement complexity features may be found in high-energy Hamiltonian eigenstates. | 翻訳日:2023-01-20 16:27:50 公開日:2022-11-15 |
# クラウドベースのnisq量子コンピュータの高速フィンガープリント Fast Fingerprinting of Cloud-based NISQ Quantum Computers ( http://arxiv.org/abs/2211.07880v1 ) ライセンス: Link先を確認 | Kaitlin N. Smith, Joshua Viszlai, Lennart Maximilian Seifert, Jonathan M. Baker, Jakub Szefer, Frederic T. Chong | (参考訳) クラウドベースの量子コンピュータは、数十から100キュービット以上のマシンへのクラウドベースのアクセスを可能にする多くの企業によって現実化されている。
量子コンピュータへの簡単なアクセスにより、量子情報処理は計算に革命をもたらす可能性があり、超伝導トランスモンベースの量子コンピュータは、より有望なデバイスの一つだ。
クラウドサービスプロバイダは現在、さまざまなデバイス特性、サイズ、パフォーマンスを備えた、これらおよびその他のプロトタイプ量子コンピュータをホストしています。
今日の量子コンピュータに存在する変化は、同じ基盤となるハードウェアの中でも、あるデバイスが次のデバイスと明確に区別され識別される方法の研究を動機付けている。
ケーススタディとして、この研究は、数ヶ月から約2.5年に及ぶ、IBMの超伝導、固定周波数トランスモンベースの量子コンピュータの特性に焦点を当てている。
この研究は、現在の量子コンピュータのキャリブレーションデータの解析を通じて、各量子コンピュータのユニークなハードウェア指紋の基礎となる、マシン内の重要な特徴を明らかにする。
本研究は、トランスモン量子ビットのユニークな周波数特性に基づいて、クラウドベースの量子コンピュータを確実に指紋化する新しい高速手法を示す。
登録操作とリコール操作はどちらも非常に高速で、量子マシン上で最小限の実行で指紋データを生成することができる。
クビット周波数ベースの指紋は、デバイス間分離とデバイス内安定性にも優れる。 Cloud-based quantum computers have become a reality with a number of companies allowing for cloud-based access to their machines with tens to more than 100 qubits. With easy access to quantum computers, quantum information processing will potentially revolutionize computation, and superconducting transmon-based quantum computers are among some of the more promising devices available. Cloud service providers today host a variety of these and other prototype quantum computers with highly diverse device properties, sizes, and performances. The variation that exists in today's quantum computers, even among those of the same underlying hardware, motivate the study of how one device can be clearly differentiated and identified from the next. As a case study, this work focuses on the properties of 25 IBM superconducting, fixed-frequency transmon-based quantum computers that range in age from a few months to approximately 2.5 years. Through the analysis of current and historical quantum computer calibration data, this work uncovers key features within the machines that can serve as basis for unique hardware fingerprint of each quantum computer. This work demonstrates a new and fast method to reliably fingerprint cloud-based quantum computers based on unique frequency characteristics of transmon qubits. Both enrollment and recall operations are very fast as fingerprint data can be generated with minimal executions on the quantum machine. The qubit frequency-based fingerprints also have excellent inter-device separation and intra-device stability. | 翻訳日:2023-01-19 12:53:20 公開日:2022-11-15 |
# Imaginary aubry-Andre-Harper 電位による位相遷移 Topological Transitions with an Imaginary Aubry-Andre-Harper Potential ( http://arxiv.org/abs/2211.07853v1 ) ライセンス: Link先を確認 | Bofeng Zhu, Li-Jun Lang, Qiang Wang, Qi Jie Wang and Y. D. Chong | (参考訳) 本研究では,Aubry-Andre-Harper(AAH)ポテンシャルを持つ一次元格子について検討する。
このような格子は、エルミート AAH モデルのエッジ状態と異なり、非エルミート粒子ホール対称性によって安定化される純粋に想像上の固有エネルギーを持つエッジ状態をホストすることができる。
エッジ状態は、虚ポテンシャルの周期が4つの格子定数の倍数であるときに生じる。
それらはトポロジカルな起源を持ち、バルク偏極不変量によって予測されるように、変調周期と位相の異なる格子の間のドメインウォールに現れる。
興味深いことに、実線ギャップが閉じてもエッジ状態は持続し、ローカライズされる。
これらの特徴はレーザーアレイで空間的に拡張されたポンプの下でトポロジカルラシングモードを選択するのに使うことができる。 We study one-dimensional lattices with imaginary-valued Aubry-Andre-Harper (AAH) potentials. Such lattices can host edge states with purely imaginary eigenenergies, which differ from the edge states of the Hermitian AAH model and are stabilized by a non-Hermitian particle-hole symmetry. The edge states arise when the period of the imaginary potential is a multiple of four lattice constants. They are topological in origin, and can manifest on domain walls between lattices with different modulation periods and phases, as predicted by a bulk polarization invariant. Interestingly, the edge states persist and remain localized even if the real line gap closes. These features can be used in laser arrays to select topological lasing modes under spatially extended pumping. | 翻訳日:2023-01-19 12:53:00 公開日:2022-11-15 |
# 重み付きネットワークの形式が量子貯水池計算に与える影響 How the form of weighted networks impacts quantum reservoir computation ( http://arxiv.org/abs/2211.07841v1 ) ライセンス: Link先を確認 | Aoi Hayashi, Akitada Sakurai, Shin Nishio, William J. Munro and Kae Nemoto | (参考訳) quantum extreme reservoir computation (qerc) は、エクストリーム機械学習の概念と量子貯水池計算を結合した汎用量子ニューラルネットワークモデルである。
QERCの鍵となるのは、異なる問題インスタンスに最適化する必要がない複雑な量子貯水池(機能空間)の生成である。
当初、周期駆動系のハミルトン力学が量子特徴写像として用いられた。
本研究では、重み付きネットワークの形でユニタリ行列を特徴付ける手法により、ダイナミクスの時間ステップ数の増加に伴って量子特徴写像がどのように生成されるかを捉える。
さらに, 十分に成長した特徴マップの重要な特性を明らかにするために, 画像分類状況において, 量子貯留層に使用できる重み付きネットワークモデルを用いて評価を行った。
最後に、単純な実装経路を持つ乱れた離散時間結晶に基づく単純なハミルトニアンモデルが、量子プロセッサゲートをゲートごとにプログラミングする必要性をなくしながら、ほぼ最適に近い性能を提供する方法を示す。 Quantum extreme reservoir computation (QERC) is a versatile quantum neural network model that combines the concepts of extreme machine learning with quantum reservoir computation. Key to QERC is the generation of a complex quantum reservoir (feature space) that does not need to be optimized for different problem instances. Originally, a periodically-driven system Hamiltonian dynamics was employed as the quantum feature map. In this work we capture how the quantum feature map is generated as the number of time-steps of the dynamics increases by a method to characterize unitary matrices in the form of weighted networks. Furthermore, to identify the key properties of the feature map that has sufficiently grown, we evaluate it with various weighted network models that could be used for the quantum reservoir in image classification situations. At last, we show how a simple Hamiltonian model based on a disordered discrete time crystal with its simple implementation route provides nearly-optimal performance while removing the necessity of programming of the quantum processor gate by gate. | 翻訳日:2023-01-19 12:52:45 公開日:2022-11-15 |
# 非エルミートブロッホ-ツェナー相転移 Non-Hermitian Bloch-Zener phase transition ( http://arxiv.org/abs/2211.08003v1 ) ライセンス: Link先を確認 | Stefano Longhi | (参考訳) BZO(Bloch-Zener oscillations)とは、BZO(Bloch-Zener oscillation)とZener Tunneling(Zener Tunneling)の相互作用であり、外部dc力下での2バンド格子の相互作用である。
エルミート系では、そのような振動は概して非周期的であり、偶然にのみ周期的であるが、非エルミート格子では、系のNHパラメータとして非エルミート格子BZOは周期的から周期的な遷移を示すことができる。
顕著なことに、相転移は他のNH相転移とは異なり、スムーズまたはシャープのいずれかである。
合成格子上の離散時間フォトニック量子ウォークは、滑らかなBZO相転移の実験的観察のために提案される。 Bloch-Zener oscillations (BZO), i.e. the interplay between Bloch oscillations and Zener tunneling in two-band lattices under an external dc force, are ubiquitous in different areas of wave physics, including photonics. While in Hermitian systems such oscillations are rather generally aperiodic and only accidentally periodic, in non-Hermitian (NH) lattices BZO can show a transition from aperiodic to periodic as a NH parameter in the system is varied. Remarkably, the phase transition can be either smooth or sharp, contrary to other types of NH phase transitions which are universally sharp. A discrete-time photonic quantum walk on a synthetic lattice is suggested for an experimental observation of smooth BZO phase transitions. | 翻訳日:2023-01-19 12:50:03 公開日:2022-11-15 |
# 単一光子対状態における損失su(1,1)干渉計 Lossy SU(1,1) interferometers in the single-photon-pair regime ( http://arxiv.org/abs/2211.07992v1 ) ライセンス: Link先を確認 | Matteo Santandrea, Kai-Hong Luo, Michael Stefszky, Jan Sperling, Harald Herrmann, Benjamin Brecht Christine Silberhorn | (参考訳) 量子技術の成功は、現実世界のアプリケーションでそれを使う可能性と密接に結びついている。
そこで本研究では,単一光子対状態および損失の存在下での量子su(1,1)干渉計のセンシング能力について検討する。
干渉計内部の損失の影響を部分的に緩和するために, 同時測定が有効であることを示す。
最後に、量子su(1,1)干渉計は、類似した実世界条件を考慮すれば、古典的なsu(2)系を上回ることができる。 The success of quantum technologies is intimately connected to the possibility of using them in real-world applications. To this aim, we study the sensing capabilities of quantum SU(1,1) interferometers in the single-photon-pair regime and in the presence of losses, a situation highly relevant to practical realistic measurements of extremely photosensitive materials. We show that coincidence measurement can be exploited to partially mitigate the effect of losses inside the interferometer. Finally, we find that quantum SU(1,1) interferometers are capable of outperforming classical SU(2) systems when analogous real-world conditions are considered. | 翻訳日:2023-01-19 12:49:46 公開日:2022-11-15 |
# 量子資源理論の固有関係と量子メソロジーにおけるその役割 Intrinsic relationships of Quantum Resource Theories and their roles in Quantum Metrology ( http://arxiv.org/abs/2211.07975v1 ) ライセンス: Link先を確認 | Abdallah Slaoui | (参考訳) 量子資源理論により、有用な量子現象を定量化し、その検出のための新しいプロトコルを開発し、実用的なタスクでの使用を最大化する正確なプロセスを決定することができる。
これらの理論は、エンタングルメントや量子コヒーレンスのような物理的現象を、量子情報に関連する具体的なタスクの実行に有用な性質に変換することを目的としている。
この論文では、量子情報理論においてこれまでに最も興味深い量子現象である絡み合い、不和様量子相関、量子コヒーレンスといった資源理論に焦点を当てている。
まず、これらの量子資源の理論ツールを詳細に提示し、最も顕著な技術と計算問題に焦点を当てる。
この意味で、量子化に関連する問題のいくつかを解く数学的方法について議論し、二部量子系の解析結果を与える。
また、これらの量子リソース間の本質的接続を、対応する測度を結合するリンクを抽出することにより検討する。
対照的に、量子技術の革命は量子力学への関心を高め、量子エンタングルメントはいくつかの量子推定プロトコルの古典的な限界を克服するために用いられている。
本研究では,未知パラメータの精度向上における絡み合い以上の量子相関の役割を解析する。
以上の結果から,量子フィッシャー情報を用いて相関を捉えることができ,位相推定プロトコルの精度を確保するために量子不協和相関を利用することができる。
この論文には、オープン量子システムの様々なモデルにおけるこれらの量子資源のダイナミクスへの貢献も含まれている。
本研究の目的は,これらの量子資源に対する環境の影響を調査し,本質的なデコヒーレンスの影響から環境を守る技術を得ることである。 Quantum resource theories allow us to quantify a useful quantum phenomenon, to develop new protocols for its detection and determine the exact processes that maximize its use for practical tasks. These theories aim at transforming physical phenomena, such as entanglement and quantum coherence, into useful properties for the execution of concrete tasks related to quantum information. In this thesis, we focus on the resource theories of entanglement, discord-like quantum correlations, and quantum coherence, the most intriguing quantum phenomena exploited so far in quantum information theory. We begin by presenting in detail the theoretical tools of these quantum resources, focusing on the most remarkable techniques and computational problems. In this sense, we discuss several mathematical methods that solve some problems related to their quantifications, and some analytical results for bipartite quantum systems are given. We also examine the intrinsic connections between these quantum resources by extracting the links that unite the corresponding measures. In contrast, the revolution of quantum technology has led to a growing interest in quantum metrology, and quantum entanglement has been employed to overcome the classical limit in several quantum estimation protocols. In this work, we analyze the role of quantum correlations beyond entanglement in improving the accuracy of an unknown parameter. According to our results, correlations can be captured using quantum Fisher information, and quantum discord correlations can be exploited to ensure the accuracy of phase estimation protocols. This thesis includes also the contributions on the dynamics of these quantum resources in various models of open quantum systems. Among our objectives, is to study the effects of the environment on these quantum resources and to obtain techniques to protect them from the effects of intrinsic decoherence. | 翻訳日:2023-01-19 12:49:18 公開日:2022-11-15 |
# ハイパーキューブ上の量子ウォーキングの均一測度:量子ベルヌーイノイズアプローチ The uniform measure for quantum walk on hypercube: a quantum Bernoulli noises approach ( http://arxiv.org/abs/2211.07948v1 ) ライセンス: Link先を確認 | Ce Wang | (参考訳) 本稿では,超キューブ上の量子ウォークに対する量子ベルヌーイノイズアプローチを提案する。
まず、一般ハイパーキューブの別の記述を求め、それから別の記述に基づいて、作用素 $\partial_k^* + \partial_k$ が実際にシフト作用素として振る舞うことを見出し、ここでそれぞれ$\partial_k$ と $\partial_k^*$ がベルヌーイ汎函数に作用する消滅と生成作用素となる。
上記の演算子を位置空間上のシフト演算子として、一般ハイパーキューブ上に離散時間量子ウォークモデルを導入し、任意のタイミングで確率分布を計算するための明示的な公式を得る。
また,歩行の平均確率分布が一様確率分布に収束する可能性を示す2つの極限定理を定式化する。
最後に,ハイパーキューブ上の定常測度として,歩行が一様測度を生成し,その初期状態が若干の穏やかな条件を満たすことを示した。
その他の結果も示されている。 In this paper, we present a quantum Bernoulli noises approach to quantum walks on hypercubes. We first obtain an alternative description of a general hypercube and then, based on the alternative description, we find that the operators $\partial_k^* + \partial_k$ behave actually as the shift operators, where $\partial_k$ and $\partial_k^*$ are the annihilation and creation operators acting on Bernoulli functionals, respectively. With the above operators as the shift operators on the position space, we introduce a discrete-time quantum walk model on a general hypercube and obtain an explicit formula for calculating its probability distribution at any time. We also establish two limit theorems showing that the averaged probability distribution of the walk even converges to the uniform probability distribution. Finally, we show that the walk produces the uniform measure as its stationary measure on the hypercube provided its initial state satisfies some mild conditions. Some other results are also proven. | 翻訳日:2023-01-19 12:48:28 公開日:2022-11-15 |
# 中間quditを持つクランク問題に対するロバスト量子回路 Robust Quantum Circuit for Clique Problem with Intermediate Qudits ( http://arxiv.org/abs/2211.07947v1 ) ライセンス: Link先を確認 | Arpita Sanyal (Bhaduri), Amit Saha, Banani Saha and Amlan Chakrabarti | (参考訳) clique問題には、パターンマッチング能力のため、幅広いアプリケーションがある。
k$-clique問題やmaximum clique問題など、いくつかのclique問題の定式化がある。
k$-クライク問題は、任意のネットワークがクライクを持つかどうかを判断するが、最大クライク問題はグラフで最大のクライクを見つける。
k$-clique または maximum clique problem (np-problem) は、従来の計算に比べて量子アルゴリズムを用いて漸近的に高速に解くことができることが文献に既に示されている。
高次元の量子コンピューティングは、大きなストレージ容量と計算能力のために人気を博している。
本稿では,k$-clique問題とmaximum clique問題(mcp)に対する量子回路実装の改善を,高次元の中間的一時的quditを用いて初めて,我々の知識を最大限に活用した。
k$-clique問題に対する最先端の量子回路のコストは、n$-qubit の toffoli ゲートが大量に存在するため、非常に高くつく。
一般化された$n$-qubit Toffoliゲートを中間クォート(4次元キューディット)で分解することにより,回路のコストと深さが向上した。 Clique problem has a wide range of applications due to its pattern matching ability. There are various formulation of clique problem like $k$-clique problem, maximum clique problem, etc. The $k$-Clique problem, determines whether an arbitrary network has a clique or not whereas maximum clique problem finds the largest clique in a graph. It is already exhibited in the literature that the $k$-clique or maximum clique problem (NP-problem) can be solved in an asymptotically faster manner by using quantum algorithms as compared to the conventional computing. Quantum computing with higher dimensions is gaining popularity due to its large storage capacity and computation power. In this article, we have shown an improved quantum circuit implementation for the $k$-clique problem and maximum clique problem (MCP) with the help of higher-dimensional intermediate temporary qudits for the first time to the best of our knowledge. The cost of state-of-the-art quantum circuit for $k$-clique problem is colossal due to a huge number of $n$-qubit Toffoli gates. We have exhibited an improved cost and depth over the circuit by applying a generalized $n$-qubit Toffoli gate decomposition with intermediate ququarts (4-dimensional qudits). | 翻訳日:2023-01-19 12:48:10 公開日:2022-11-15 |
# 構成可能なアンシラスによるrydberg原子グラフの量子トモグラフィー Quantum tomography of Rydberg atom graphs by configurable ancillas ( http://arxiv.org/abs/2211.07933v1 ) ライセンス: Link先を確認 | Kangheun Kim and Jaewook Ahn | (参考訳) スケーラブル量子ビット系の多体量子状態のトモグラフィー再構成は、量子コンピューティング技術において最重要となる。
しかし、トモグラフィー的直交基底測定を用いる従来の手法では、しばしば実験的な困難を伴う正確かつ個々の量子ビット制御が必要である。
本稿では, 量子力学的にロバストな代替として, 連続的に調整可能な相互作用が, 量子状態再構成に十分な独立な基数測定をトモグラフィ的に生成できる, 構成可能なアンシラを用いる方法を提案する。
N$-body $W$状態のRydberg原子配列に対して実験を行い、提案手法の信頼性の高い完全量子状態再構成実験を行った。 Tomographic reconstruction of the many-body quantum state of a scalable qubit system is of paramount importance in quantum computing technologies. However, conventional approaches which use tomographically orthogonal base measurements require precise and individual qubit controls which are often experimentally daunting. Here, we propose, as a quantum-mechanically robust alternative, to use configurable ancillas of which the continuously-tunable interactions can generate independent base measurements tomographically sufficient for the quantum state reconstruction of the system of interest. Experimental tests are performed for Rydberg atom arrays in $N$-body $W$ states, of which the results demonstrate reliable high-fidelity full quantum state reconstruction of the proposed method. | 翻訳日:2023-01-19 12:47:50 公開日:2022-11-15 |
# QuDiet:Qubit-Quditハイブリッド量子システムのための古典的なシミュレーションプラットフォーム QuDiet: A Classical Simulation Platform for Qubit-Qudit Hybrid Quantum Systems ( http://arxiv.org/abs/2211.07918v1 ) ライセンス: Link先を確認 | Turbasu Chatterjee, Arnav Das, Subhayu Kumar Bala, Amit Saha, Anupam Chattopadhyay and Amlan Chakrabarti | (参考訳) 近年、多くの研究が量子アルゴリズムの古典的シミュレーションの限界を拡張している。
しかし、最先端の古典的シミュレータのほとんどは、高次元量子コンピューティングシステムの古典的なシミュレーションを制限するバイナリ量子システムに限られている。
近年の高次元量子コンピューティングシステムの発展により、量子回路の漸近的複雑性を低減し、メモリ空間を増大させることで量子アルゴリズムの全体的な性能を向上させることが実現された。
そこで,本稿では,ユーザフレンドリなパイソン型高次元量子コンピューティングシミュレータである \textbf{QuDiet} を紹介する。
\textbf{qudiet} は一般化量子ゲートを抽象化して多値論理演算を提供し、任意のナイーブなユーザがquditシステムを既存のものと比較して簡単にシミュレートできるようにしている。
我々は,各種ベンチマーク量子回路をtextbf{QuDiet} でシミュレートし,精度を損なわない他のシミュレータと比較してシミュレーション時間の相当な高速化を示す。
最後に、 \textbf{qudiet} は量子ビットと量子ビットのハイブリッド量子シミュレータパッケージを提供し、量子回路テンプレートでよく知られた量子アルゴリズムを高速プロトタイピングとシミュレーションを行う。
https://github.com/LegacYFTw/QuDiet.com/textbf{QuDiet}の完全なコードとパッケージはhttps://github.com/LegacYFTw/QuDietで入手できる。 In the recent years, numerous research advancements have extended the limit of classical simulation of quantum algorithms. Although, most of the state-of-the-art classical simulators are only limited to binary quantum systems, which restrict the classical simulation of higher-dimensional quantum computing systems. Through recent developments in higher-dimensional quantum computing systems, it is realized that implementing qudits improves the overall performance of a quantum algorithm by increasing memory space and reducing the asymptotic complexity of a quantum circuit. Hence, in this article, we introduce \textbf{QuDiet}, a state-of-the-art user-friendly python-based higher-dimensional quantum computing simulator. \textbf{QuDiet} offers multi-valued logic operations by utilizing generalized quantum gates with an abstraction so that any naive user can simulate qudit systems with ease as compared to the existing ones. We simulate various benchmark quantum circuits in \textbf{QuDiet} and show the considerable speedup in simulation time as compared to the other simulators without loss in precision. Finally, \textbf{QuDiet} provides a full qubit-qudit hybrid quantum simulator package with quantum circuit templates of well-known quantum algorithms for fast prototyping and simulation. The complete code and packages of \textbf{QuDiet} is available at https://github.com/LegacYFTw/QuDiet so that other platforms can incorporate it as a classical simulation option for qubit-qudit hybrid systems to their platforms. | 翻訳日:2023-01-19 12:47:38 公開日:2022-11-15 |
# 超伝導回路上のロバストかつ高速量子状態転移 Robust and Fast Quantum State Transfer on Superconducting Circuits ( http://arxiv.org/abs/2211.07917v1 ) ライセンス: Link先を確認 | Xiao-Qing Liu, Jia Liu, Zheng-Yuan Xue | (参考訳) 量子計算は高精度な量子操作に重要であり、高い忠実度を持つ量子状態遷移が必要である。
本稿では,量子ビットチェーンにオンサイト電位を付加し,両端と鎖間の結合強度の比率を増大させることにより,高忠実度と長距離の量子状態伝達を実現する新しい手法を提案する。
数値シミュレーションでは,9量子ビットチェーンと11量子ビットチェーンの転送特性はそれぞれ0.999と0.997である。
さらに、超伝導回路における量子状態伝達の詳細な物理的実現法を提案し、デコヒーレンスに対する提案の耐性について論じる。
したがって,本手法は,長鎖と高忠実度量子状態転移を伴う量子計算に光を当てる。 Quantum computation attaches importance to high-precision quantum manipulation, where the quantum state transfer with high fidelity is necessary. Here, we propose a new scheme to implement the quantum state transfer of high fidelity and long distance, by adding on-site potential into the qubit chain and enlarging the proportion of the coupling strength between the two ends and the chain. In the numerical simulation, without decoherence, the transfer fidelities of 9 and 11 qubit chain are 0.999 and 0.997, respectively. Moreover, we give a detailed physical realization scheme of the quantum state transfer in superconducting circuits, and discuss the tolerance of our proposal against decoherence. Therefore, our scheme will shed light on quantum computation with long chain and high-fidelity quantum state transfer. | 翻訳日:2023-01-19 12:47:13 公開日:2022-11-15 |
# 超高速プラズモニクスの進歩 Advances in ultrafast plasmonics ( http://arxiv.org/abs/2211.08241v1 ) ライセンス: Link先を確認 | Alemayehu Nana Koya, Marco Romanelli, Joel Kuttruff, Nils Henriksson, Andrei Stefancu, Gustavo Grinblat, Aitor De Andres, Fritz Schnur, Mirko Vanzan, Margherita Marsili, Mahfujur Rahaman, Alba Viejo Rodr\'iguez, Tilaike Tapani, Haifeng Lin, Bereket Dalga Dana, Jingquan Lin, Gr\'egory Barbillon, Remo Proietti Zaccaria, Daniele Brida, Deep Jariwala, L\'aszl\'o Veisz, Emiliano Cortes, Stefano Corni, Denis Garoli, and Nicol\`o Maccaferri | (参考訳) 過去20年間、我々はナノスケールシステムにおける多くの光駆動現象を広く理解してきた。
励起状態の時間的ダイナミクスは、その代わりに探索し、同時に、基本的な物理的および化学的プロセスの起源を理解するために研究することが極めて重要である。
本稿では,プラズモンによる超高速現象の現状と展望について,基礎的・応用的な観点から検討する。
この研究領域は超高速プラズモンと呼ばれ、超高速光スイッチング、単一光子放出、光化学反応との強い結合相互作用など、ナノスケールでの高速光および電子プロセスの調整と制御に優れた遊び場である。
本稿では, ナノスケール現象のモデリングと実験的キャラクタリゼーションの両面で, 超高速時間スケールでプラズモンを用いたナノスケール現象の監視と制御を行う手法について述べる。
様々な方向が示されており、特に超高速プラズモン駆動化学や多機能プラズモニックにおいて、電荷、スピン、格子の自由度を利用してナノスケール材料の光学的および電子的特性をアクティブに制御している。
全光学トランジスタなどの実用機器の開発に焦点が移るにつれて、超高速プラズモニクスにおける新しい材料や応用を強調し、相対論的領域における最近の発展を強調している。
後者は有望な研究分野であり、核融合研究や、アト秒持続時間のような特性を提供する粒子や光源に応用される可能性がある。 In the past twenty years, we have reached a broad understanding of many light-driven phenomena in nanoscale systems. The temporal dynamics of the excited states are instead quite challenging to explore, and, at the same time, crucial to study for understanding the origin of fundamental physical and chemical processes. In this review we examine the current state and prospects of ultrafast phenomena driven by plasmons both from a fundamental and applied point of view. This research area is referred to as ultrafast plasmonics and represents an outstanding playground to tailor and control fast optical and electronic processes at the nanoscale, such as ultrafast optical switching, single photon emission and strong coupling interactions to tailor photochemical reactions. Here, we provide an overview of the field, and describe the methodologies to monitor and control nanoscale phenomena with plasmons at ultrafast timescales in terms of both modeling and experimental characterization. Various directions are showcased, among others recent advances in ultrafast plasmon-driven chemistry and multi-functional plasmonics, in which charge, spin, and lattice degrees of freedom are exploited to provide active control of the optical and electronic properties of nanoscale materials. As the focus shifts to the development of practical devices, such as all-optical transistors, we also emphasize new materials and applications in ultrafast plasmonics and highlight recent development in the relativistic realm. The latter is a promising research field with potential applications in fusion research or particle and light sources providing properties such as attosecond duration. | 翻訳日:2023-01-19 12:41:41 公開日:2022-11-15 |
# レーザーと拡散駆動による共振器内の類似量子系の最適識別 Laser and Diffusion Driven Optimal Discrimination of Similar Quantum Systems in Resonator ( http://arxiv.org/abs/2211.08214v1 ) ライセンス: Link先を確認 | K. A. Lyakhov, A. N. Pechen | (参考訳) 利用可能な技術手段(共振器長の異なる)を用いて,地上から励起状態への効率的な人口移動問題を解決する方法を提案する。
可変共振器長を持つ共振器内の定常ガス流中に分布する類似の量子系の混合について検討し、最適な共振器に近いレーザーフィールドを実装した。
従来と異なり、この作業では、可変共振器長を操作するための制御手段として圧電トランスデューサ(PZT、アクチュエータ)が使用される。
外部作用は、異なる種の異なる定常状態を選択的に準備するために最適化され、異なる質量によって異なる速度で拡散して分離される。
このシステムは、拡散を伴う定常ガス流を伴う分散システムの状態を最適化する一般的な問題の例を提供する。 A method for solving the problem of efficient population transfer from the ground to some excited state by available technical means (varying resonator length) is proposed. We consider a mixture of similar quantum systems distributed in a stationary gas flow in the resonator with variable resonator length, which implements tailored laser field close to the optimal one. In difference from previous works, in this work piezoelectric transducer (PZT; or actuator) is used as mean of control to manipulate variable resonator length. The external actions are optimized to selectively prepare different stationary states of different species which are then separated using their diffusion with rates which differ due to different masses. This system provides an example of the general problem of optimizing states of distributed systems with stationary gas flow with diffusion. | 翻訳日:2023-01-19 12:41:00 公開日:2022-11-15 |
# 2色励起スキームの服装状態解析 Dressed-state analysis of two-color excitation schemes ( http://arxiv.org/abs/2211.08176v1 ) ライセンス: Link先を確認 | Thomas K. Bracht, Tim Seidelmann, Yusuf Karli, Florian Kappe, Vikas Remesh, Gregor Weihs, Vollrath Martin Axt, Doris E. Reiter | (参考訳) 遷移エネルギーに共鳴するエネルギーを持つパルスをrabi機構を用いてコヒーレントに制御し、一方1つのオフ共振パルスは集団反転を生じない。
驚くべきことに、2つのオフ共振パルスを組み合わせた2色励起は、量子エミッタ集団(super)機構の揺らぎを利用してシステムを反転させることができる。
本稿では,服飾状態画像における SUPER スキームの詳細な解析を行う。
本研究は, SUPER機構が, 着飾った状態間の遷移の駆動であることを示す。
2段階のシステムでは、集団反転をもたらすパルスパラメータの解析式を導出することができる。
我々は、素状態間の強い混合が起こる3レベルシステムへの考慮を拡大する。
これらの結果から得られた知見は、SUPERスキームと類似の2色励起スキームのさらなる実験的実現のためのアクセス可能な規則を見つけるのに役立つ。 To coherently control a few-level quantum emitter, typically pulses with an energy resonant to the transition energy are applied making use of the Rabi mechanism, while a single off-resonant pulse does not result in a population inversion. Surprisingly, a two-color excitation with a combination of two off-resonant pulses making use of the Swing-UP of quantum EmitteR population (SUPER) mechanism is able to invert the system. In this paper, we provide an in-depth analysis of the SUPER scheme within the dressed-state picture. We show that the SUPER mechanism can be understood as a driving of the transition between the dressed states. In the two-level system this allows us to derive analytic expressions for the pulse parameters yielding a population inversion. We extend our considerations to the three-level system, where a strong mixing between the bare states takes place. The insights gained from these results help in finding accessible regimes for further experimental realizations of the SUPER scheme and similar two-color excitation schemes. | 翻訳日:2023-01-19 12:40:46 公開日:2022-11-15 |
# 非分離量子ハミルトニアンに対する指数ユニタリ積分器 Exponential Unitary Integrators for Nonseparable Quantum Hamiltonians ( http://arxiv.org/abs/2211.08155v1 ) ライセンス: Link先を確認 | Maximilian Ciric, Denys I. Bondar and Ole Steuernagel | (参考訳) 非可換作用素の非可分積(例えば$\hat x^m \hat p^n$)を含む量子ハミルトニアン(英語版)は、その積が$T(\hat p) + V(\hat x)$のような可分項の和として表すことができないため、分割演算技術を用いた数値研究において問題となる。
古典物理学では chin [phys] である。
rev. e $\bf 80$, 037701 (2009)] は分離可能な項の項をおよそ表わす手順を開発した。
我々はチンのアイデアを量子系に拡張する。
非分離項 $\hat x^2 \hat p^2 + \hat p^2 \hat x^2$ を含むケラー型発振器のウィグナー分布を数値的に発展させることにより,本知見を実証する。
多項式形式の任意のハミルトニアンに対する chin のアプローチの一般適用性は証明されている。 Quantum Hamiltonians containing nonseparable products of non-commuting operators, such as $\hat x^m \hat p^n$, are problematic for numerical studies using split-operator techniques since such products cannot be represented as a sum of separable terms, such as $T(\hat p) + V(\hat x)$. In the case of classical physics, Chin [Phys. Rev. E $\bf 80$, 037701 (2009)] developed a procedure to approximately represent nonseparable terms in terms of separable ones. We extend Chin's idea to quantum systems. We demonstrate our findings by numerically evolving the Wigner distribution of a Kerr-type oscillator whose Hamiltonian contains the nonseparable term $\hat x^2 \hat p^2 + \hat p^2 \hat x^2$. The general applicability of Chin's approach to any Hamiltonian of polynomial form is proven. | 翻訳日:2023-01-19 12:40:30 公開日:2022-11-15 |
# 最適弱測定による拡張シナリオにおける完全ネットワーク非局所性共有 Full Network nonlocality sharing in extended scenario via Optimal Weak Measurements ( http://arxiv.org/abs/2211.08153v1 ) ライセンス: Link先を確認 | Zinuo Cai and Changliang Ren | (参考訳) 標準ベル定理の枠組みを超えることができる量子ネットワークは、量子非局所性の研究をさらに発展させた。
近年,ネットワーク非局所性よりも強いフル量子ネットワーク非局所性 (fnn) の概念が定義され,kerstjens-gisin-tavakoli (kgt) の不等式 [phys. rev. lett. 128 (2022)] によって見ることができる。
本稿では,異なる組み合わせの観測者間のFNN共有を分析し,量子資源としてのFNNのリサイクルについて検討する。
弱測定による局所的拡張シナリオにおけるFNNの共有は完全に議論されている。
Alice-Bob-Charlie1とAlice-Bob-Charlie2の2種類のFNN共有、受動FNN共有、アクティブFNN共有は、Alice-Bob-Charlie1とAlice-Bob-Charlie2のKGT不平等の同時的違反をチェックすることによって検討できる。
以上の結果から,fnn共有は適切な測定によって実現可能であるが,fnn共有はベル非ローカル共有やネットワーク非ローカル共有に比べて,中間観察者による協力を必要とすることが示唆された。 Quantum networks, which can exceed the framework of standard bell theorem, flourish the investigation of quantum nonlocality further. Recently, a concept of full quantum network nonlocality (FNN) which is stronger than network nonlocality, has been defined and can be witnessed by Kerstjens-Gisin-Tavakoli (KGT) inequalities [Phys. Rev. Lett. 128 (2022)]. In this letter, we explored the recycling of FNN as quantum resources by analyzing the FNN sharing between different combinations of observers. The FNN sharing in extended bilocal scenario via weak measurements has been completely discussed. According to the different motivations of the observer-Charlie1, two types of possible FNN sharing, passive FNN sharing and active FNN sharing, can be investigated by checking the simultaneous violation of KGT inequalities between Alice-Bob-Charlie1 and Alice-Bob- Charlie2. Our results show that passive FNN sharing is impossible while active FNN sharing can be achieved by proper measurements, which indicate that FNN sharing requires more cooperation by the intermediate observers compared with Bell nonlocal sharing and network nonlocal sharing. | 翻訳日:2023-01-19 12:40:08 公開日:2022-11-15 |
# 閉じ込められたイオンの高次カップリング項に対するロバスト量子制御 Robust quantum control for higher order coupling term in trapped ions ( http://arxiv.org/abs/2211.08150v1 ) ライセンス: Link先を確認 | Jing-Bo Wang | (参考訳) 閉じ込められたionハードウェアは近年大きく進歩し、現在量子コンピューティングにおける主要なプラットフォームの1つとなっている。
閉じ込められたイオン中に2量子ビットゲートを構築するため、イオン鎖の実験的操作法が普及している。
制限された制御技術を考えると、高忠実度量子ゲート操作の実装は不可欠である。
現在のパルス設計最適化における多くの研究は、実験欠陥によって引き起こされたこれらの2項の高次展開の影響を無視しながら、イオンフォノンと効果的なイオン結合に焦点を当てている。
本稿では, 捕捉イオンの量子制御最適化手法を提案する。
最適化コスト関数に誤差に起因する高次項を導入することで、ドリフトノイズ範囲$\pm 10$ khzと時間ノイズ範囲$\pm 0.02$の極めて堅牢なmolmer-sorensenゲートを生成した。
本研究は, 捕捉イオンパルス制御最適化における高次結合項, 特に高いイオン-イオンカップリング次数における重要な役割を明らかにし, 捕捉イオンプラットフォームにおけるより効率的な絡み合った状態を実現するためのロバストな最適化手法を提供する。 Trapped ion hardware has made significant progress recently and is now one of the leading platforms for quantum computing. To construct two-qubit gates in trapped ions, experimental manipulation approaches for ion chains are becoming increasingly prevalent. Given the restricted control technology, how implementing high-fidelity quantum gate operations is crucial. Many works in current pulse design optimization focus on ion-phonon and effective ion-ion coupling while ignoring the higher-order expansion impacts of these two terms brought on by experiment defects. This paper proposed a novel robust quantum control optimization method in trapped ions. By introducing the higher-order terms caused by the error into the optimization cost function, we generated an extremely robust Molmer-Sorensen gate with infidelity below $10^{-3}$ under drift noise range $\pm 10$ kHz and time noise range $\pm 0.02$. Our work reveals the vital role of higher-order coupling terms in trapped ion pulse control optimization, especially the higher ion-ion coupling order, and provides a robust optimization scheme for realizing more efficient entangled states in trapped ion platforms. | 翻訳日:2023-01-19 12:39:42 公開日:2022-11-15 |
# マヨラナ零モードを含む超伝導トランスモン量子ビットにおける準粒子中毒速度 Quasiparticle poisoning rate in a superconducting transmon qubit involving Majorana zero modes ( http://arxiv.org/abs/2211.08094v1 ) ライセンス: Link先を確認 | Xiaopei Sun, Zhaozheng Lyu, Enna Zhuo, Bing Li, Zhongqing Ji, Jie Fan, Xiaohui Song, Fanning Qu, Guangtong Liu, Jie Shen, and Li Lu | (参考訳) majoranaのゼロモードは、フォールトトレラントなトポロジカル量子コンピューティングにおける将来的な応用により、かなりの注目を集めている。
近年,超伝導量子ビットを用いたマヨラナゼロモードの検出と操作が提案されている。
しかし、マヨラナゼロモードの操作と読み取りは準粒子中毒の時間窓に置かれなければならない。
本研究では,マヨルカナゼロモードを含むハイブリッドジョセフソン接合を含む分割トランスモン量子ビットにおける準粒子中毒の問題について検討する。
マヨラナカップリングがパリティ混合と4{\pi}ジョセフソン効果を引き起こすことを示した。
さらに, クビットパラメータ依存パリティスイッチング率の式を求め, クビット設計によるE_J/E_C低減により, 準粒子中毒を大幅に抑制できることを示した。 Majorana zero modes have been attracting considerable attention because of their prospective applications in fault-tolerant topological quantum computing. In recent years, some schemes have been proposed to detect and manipulate Majorana zero modes using superconducting qubits. However, manipulating and reading the Majorana zero modes must be kept in the time window of quasiparticle poisoning. In this work, we study the problem of quasiparticle poisoning in a split transmon qubit containing hybrid Josephson junctions involving Majorana zero modes. We show that Majorana coupling will cause parity mixing and 4{\pi} Josephson effect. In addition, we obtained the expression of qubit parameter-dependent parity switching rate and demonstrated that quasiparticle poisoning can be greatly suppressed by reducing E_J/E_C via qubit design. | 翻訳日:2023-01-19 12:39:23 公開日:2022-11-15 |
# アングロンの変分理論とその回転分光 Variational theory of angulons and their rotational spectroscopy ( http://arxiv.org/abs/2211.08070v1 ) ライセンス: Link先を確認 | Zhongda Zeng, Enderalp Yakaboylu, Mikhail Lemeshko, Tao Shi, Richard Schmidt | (参考訳) 多体浴の励起にdressした量子ローターによって形成される準粒子であるアングロンは、流体または固体環境で回転する不純物を記述するために用いられる。
ここでは、コヒーレント状態アンサッツを共回転フレームに提案し、アングロンの包括的理論的記述を提供する。
我々は,エネルギー,準粒子量,スペクトル関数などの準粒子の性質を明らかにし,多体ドレッシングによる不純物の回転定数の持続的な低下が実験結果と一致していることを示す。
今回の研究では、分子の回転によって自己整合的に生成される磁場と相互作用する効果的なスピンとしてアングロンの絵が現れる。
さらに, 回転分子の線形応答過程におけるレーザー摂動に対する応答に着目した回転分光についても検討した。
重要なのは,先行研究で無視された初期状態相互作用を考慮に入れ,励起スペクトルへの影響を明らかにすることである。
アングロン不安定状態を調べるため, 単励起アンサッツを用い, スペクトル線の拡大が観測され, フォノン翼は初期状態相互作用により高度に抑制されたままであった。 The angulon, a quasiparticle formed by a quantum rotor dressed by the excitations of a many-body bath, can be used to describe an impurity rotating in a fluid or solid environment. Here we propose a coherent state ansatz in the co-rotating frame which provides a comprehensive theoretical description of angulons. We reveal the quasiparticle properties, such as energies, quasiparticle weights and spectral functions, and show that our ansatz yields a persistent decrease in the impurity's rotational constant due to many-body dressing, consistent with experimental observations. From our study, a picture of the angulon emerges as an effective spin interacting with a magnetic field that is self-consistently generated by the molecule's rotation. Moreover, we discuss rotational spectroscopy, which focuses on the response of rotating molecules to a laser perturbation in the linear response regime. Importantly, we take into account initial-state interactions that have been neglected in prior studies and reveal their impact on the excitation spectrum. To examine the angulon instability regime, we use a single-excitation ansatz and obtain results consistent with experiments, in which a broadening of spectral lines is observed while phonon wings remain highly suppressed due to initial-state interactions. | 翻訳日:2023-01-19 12:39:10 公開日:2022-11-15 |
# コヒーレント状態重ね合わせを用いたノイズレス線形増幅と損失耐性量子リレー Noiseless Linear Amplification and Loss-Tolerant Quantum Relay using Coherent State Superpositions ( http://arxiv.org/abs/2211.08035v1 ) ライセンス: Link先を確認 | Joshua J. Guanzon, Matthew S. Winnel, Austin P. Lund, Timothy C. Ralph | (参考訳) ノイズレス線形増幅(NLA)は様々な量子プロトコルに有用である。
ここでは, 漸近的に大きなサイズに対して, 任意の量子状態に対して完全忠実度NLAを実現できる完全スケーラブル増幅器を提案する。
しかし、有限資源が与えられたとき、コヒーレント状態とその任意の重ね合わせに対して完全忠実度 NLA を実行するように設計されている。
提案手法は,コヒーレント状態重畳資源状態を用いて実装した多光子量子シザーテレ増幅器の一般化である。
さらに,NLAは多項位相シフトキー付きコヒーレント状態に対する耐損失リレーでもあることを示す。
最後に,我々のNLAは, 現実的な実験的不完全性においても, 連続可変エンタングルメント蒸留にも有用であることを示す。 Noiseless linear amplification (NLA) is useful for a wide variety of quantum protocols. Here we propose a fully scalable amplifier which, for asymptotically large sizes, can perform perfect fidelity NLA on any quantum state. Given finite resources however, it is designed to perform perfect fidelity NLA on coherent states and their arbitrary superpositions. Our scheme is a generalisation of the multi-photon quantum scissor teleamplifier, which we implement using a coherent state superposition resource state. Furthermore, we prove our NLA is also a loss-tolerant relay for multi-ary phase-shift keyed coherent states. Finally, we demonstrate that our NLA is also useful for continuous-variable entanglement distillation, even with realistic experimental imperfections. | 翻訳日:2023-01-19 12:38:33 公開日:2022-11-15 |
# 直交制約軌道最適化:直交多重参照状態に対する最適軌道の変化の評価 Orthogonally Constrained Orbital Optimization: assessing changes of optimal orbitals for orthogonal multi-reference states ( http://arxiv.org/abs/2211.08329v1 ) ライセンス: Link先を確認 | Saad Yalouz and Vincent Robert | (参考訳) 分子軌道の選択は構成相互作用計算において決定的である。
この手紙では、基底と励起状態の民主的な記述が、直交的に制約された軌道最適化に従って、状態特異的な軌道を生成する。
このアプローチは4電子ハバードトリマーの励起エネルギーを忠実に回収するが、状態平均計算では2.5で値が失われる。
この方法は、膨張を減らし、分光精度に到達するために軌道最適化の必要性を強調する。 The choice of molecular orbitals is decisive in configuration interaction calculations. In this letter, a democratic description of the ground and excited states follows an orthogonally constrained orbitals optimization to produce state-specific orbitals. The approach faithfully recovers the excitation energy of afour-electron Hubbard trimer, whereas state-average calculations can miss the value by a factor 2.5. The method emphasises the need for orbitals optimizationto reduce expansions and to reach spectroscopic accuracy. | 翻訳日:2023-01-19 12:28:46 公開日:2022-11-15 |
# 雑音量子デバイスにおける動的相転移の量子シミュレーション Quantum simulation of dynamical phase transitions in noisy quantum devices ( http://arxiv.org/abs/2211.08318v1 ) ライセンス: Link先を確認 | Younes Javanmard, Ugne Liaubaite, Tobias J. Osborne, Luis Santos | (参考訳) ゼロノイズ外挿は、ノイズの多い中間スケール量子デバイスに対して特に有用な誤差緩和法を提供する。
行列積密度演算子に基づく解析により,非平衡多体力学のシミュレーションにおいて,非負極外挿法に係わる利点と本質的な問題の両方を明らかにする。
一方、興味深いことに、ノイズは動的位相遷移時間におけるロスシュミットエコーの挙動を体系的に変化させ、非解析点の数を倍増させ、本質的に緩和できない誤差を誘発する。
一方、ゼロノイズ外挿(zero-noise extrapolation)は、ロスシュミットエコーの量子復調を回復するために用いられ、緩和がなければ完全に欠落し、忠実にノイズのないサイト間相関を取り出す。
本研究の結果は, 量子シミュレータを用いて得られたものとよく一致し, 多数の量子ビットと深い雑音量子回路を持つ量子デバイスの性能を調べるために, 行列積密度演算子のポテンシャルを明らかにした。 Zero-noise extrapolation provides an especially useful error mitigation method for noisy intermediate-scale quantum devices. Our analysis, based on matrix product density operators, of the transverse-field Ising model with depolarizing noise, reveals both advantages and inherent problems associated with zero-noise extrapolation when simulating non-equilibrium many-body dynamics. On the one hand, interestingly, noise alters systematically the behavior of the Loschmidt echo at the dynamical phase transition times, doubling the number of non-analytic points, and hence inducing an error that, inherently, cannot be mitigated. On the other, zero-noise extrapolation may be employed to recover quantum revivals of the Loschmidt echo, which would be completely missed in the absence of mitigation, and to retrieve faithfully noise-free inter-site correlations. Our results, which are in good agreement with those obtained using quantum simulators, reveal the potential of matrix product density operators for the investigation of the performance of quantum devices with a large number of qubits and deep noisy quantum circuits. | 翻訳日:2023-01-19 12:28:39 公開日:2022-11-15 |
# 二重因子化ハミルトニアンの確率的量子クリロフプロトコル A stochastic quantum Krylov protocol with double factorized Hamiltonians ( http://arxiv.org/abs/2211.08274v1 ) ライセンス: Link先を確認 | Nicholas H. Stair, Cristian L. Cortes, Robert M. Parrish, Jeffrey Cohn, Mario Motta | (参考訳) そこで,本研究では,量子リソース要求を適度に満たした固有状態推定問題を解くことができるランダム化量子クリロフ対角化(rQKD)アルゴリズムを提案する。
従来の実時間発展量子krylov部分空間法と比較して,本手法は時間発展演算子 $e^{-i\hat{h} \tau}$ をユニタリの線形結合として表現し,その後,確率的サンプリング法を用いて回路の深さを小さくする。
本手法は高速フォワード可能な部分成分を持つ任意のハミルトニアンに適用できるが,二元分解型電子構造ハミルトニアンへの応用に着目する。
提案したrQKDアルゴリズムの可能性を実証するため,回路ベース状態ベクトルシミュレータを用いて,低ランク決定論的トロッタスズキ分解に必要なものよりも回路深度が桁違いに小さい1〜kcal~mol$^{-1}$の基底状態エネルギー誤差を実現する,様々な分子系の数値ベンチマークを行った。 We propose a class of randomized quantum Krylov diagonalization (rQKD) algorithms capable of solving the eigenstate estimation problem with modest quantum resource requirements. Compared to previous real-time evolution quantum Krylov subspace methods, our approach expresses the time evolution operator, $e^{-i\hat{H} \tau}$, as a linear combination of unitaries and subsequently uses a stochastic sampling procedure to reduce circuit depth requirements. While our methodology applies to any Hamiltonian with fast-forwardable subcomponents, we focus on its application to the explicitly double-factorized electronic-structure Hamiltonian. To demonstrate the potential of the proposed rQKD algorithm, we provide numerical benchmarks for a variety of molecular systems with circuit-based statevector simulators, achieving ground state energy errors of less than 1~kcal~mol$^{-1}$ with circuit depths orders of magnitude shallower than those required for low-rank deterministic Trotter-Suzuki decompositions. | 翻訳日:2023-01-19 12:28:22 公開日:2022-11-15 |
# 古典・量子問題に対する量子貯留層計算の実装 Quantum Reservoir Computing Implementations for Classical and Quantum Problems ( http://arxiv.org/abs/2211.08567v1 ) ライセンス: Link先を確認 | Adam Burgess and Marian Florescu | (参考訳) 本稿では、ロレンツ型フォトニックキャビティに結合した2レベル原子系からなるモデルオープン量子システムを用いて、量子物理貯水池コンピュータのインスタンス化を行う。
次に,従来の画像認識の機械学習問題に量子貯水池計算手法を適用した。
同様のアーキテクチャのニューラルネットワークと量子物理貯水池コンピュータ層を除去した従来の手法と,量子物理貯水池コンピュータの有効性を比較した。
注目すべきは、データセットのサイズが大きくなると、量子物理貯水池コンピュータが従来のニューラルネットワークを実行し始めることである。
さらに、量子物理リザーバコンピュータは、データセットサイズのトレーニングエポック数に対して優れた有効性を提供し、サンプリングされたエポック数毎にニューラルネットワークアプローチを上回った。
最後に,原子系のアンサンブルがフォトニックバンドギャップ物質に関連付けられた構造化フォトニック貯留層と相互作用するオープン量子系の力学に関連した量子問題を探索するために,量子物理貯水池コンピュータアプローチを展開した。
その結果,量子物理貯水池コンピュータは,限られたトレーニングデータサイズであっても,量子問題の有用な表現を生成するのに等しく有効であることがわかった。 In this article we employ a model open quantum system consisting of two-level atomic systems coupled to Lorentzian photonic cavities, as an instantiation of a quantum physical reservoir computer. We then deployed the quantum reservoir computing approach to an archetypal machine learning problem of image recognition. We contrast the effectiveness of the quantum physical reservoir computer against a conventional approach using neural network of the similar architecture with the quantum physical reservoir computer layer removed. Remarkably, as the data set size is increased the quantum physical reservoir computer quickly starts out perform the conventional neural network. Furthermore, quantum physical reservoir computer provides superior effectiveness against number of training epochs at a set data set size and outperformed the neural network approach at every epoch number sampled. Finally, we have deployed the quantum physical reservoir computer approach to explore the quantum problem associated with the dynamics of open quantum systems in which an atomic system ensemble interacts with a structured photonic reservoir associated with a photonic band gap material. Our results demonstrate that the quantum physical reservoir computer is equally effective in generating useful representations for quantum problems, even with limited training data size. | 翻訳日:2023-01-19 12:22:36 公開日:2022-11-15 |
# フォトニックキャビティに結合した原子アンサンブルにおける量子記憶効果 Quantum memory effects in atomic ensembles coupled to photonic cavities ( http://arxiv.org/abs/2211.08562v1 ) ライセンス: Link先を確認 | Adam Burgess and Marian Florescu | (参考訳) 本稿では,単一ローレンツ型フォトニックキャビティと対称に結合した多体原子系のダイナミクスを考察する。
本研究では,非零定常状態,超ラジアント崩壊,エネルギー移動の強化,環境自由度調整による原子系の振動の変調など,興味深い力学特性を明らかにする。
また、フォトニックキャビティ内に埋め込まれた3原子鎖からなる構成も分析した。
同様に、鎖の両端間のエネルギー移動速度が強く向上し、鎖の末端における2つの原子間の散逸を著しく減少させる特定の初期条件が特定された。
興味の他の構成は、原子系に関する2つの対称な変形された貯水池から構成される。
単原子の場合,貯水池のデチューニングを変調することで系の減衰率を高めることができるが,多原子の場合ではオン共振キャビティに類似したダイナミクスが得られる。
最後に, 回転波近似の妥当性について, 数値的に厳密な階層的運動方程式と直接比較して検討する。
中間結合系では定性的類似性を同定するが, 回転波近似の信頼性は低下する。
中間結合状態においては、混合光子原子状態の形成による定常状態の偏差が生じる。 In this article we explore the dynamics of many-body atomic systems symmetrically coupled to a single Lorentzian photonic cavity. Our study reveals interesting dynamical characteristics including non-zero steady states, superradiant decay, enhanced energy transfer and the ability to modulate oscillations in the atomic system by tuning environmental degrees of freedom. We also analyse a configuration consisting of a three-atom chain embedded in a photonic cavity. Similarly, we find a strong enhancement of the energy transfer rate between the two ends of the chain and identified specific initial conditions that lead to significantly reduced dissipation between the two atoms at the end of the chain. Another configuration of interest consists of two symmetrical detuned reservoirs with respect to the atomic system. In the single-atom case, we show that it is possible to enhance the decay rate of the system by modulating its reservoir detuning, while in the many-atom case, this results in dynamics akin to the on-resonant cavity. Finally, we examine the validity of rotating wave approximation through a direct comparison against the numerically exact hierarchical equations of motion approach. We find good agreement in the weak coupling regime while in the intermediate coupling regime, we identify qualitative similarities, but the rotating wave approximation becomes less reliable. In the moderate coupling regime, we find deviation of the steady states due to the formation of mixed photon atom states. | 翻訳日:2023-01-19 12:22:18 公開日:2022-11-15 |
# 量子プロセッサ上のノイズのシミュレーション:量子ビットと共鳴2レベルシステムバスの相互作用 Simulating noise on a quantum processor: interactions between a qubit and resonant two-level system bath ( http://arxiv.org/abs/2211.08535v1 ) ライセンス: Link先を確認 | Yujin Cho, Dipti Jasrasaria, Keith G. Ray, Daniel M. Tennant, Vincenzo Lordi, Jonathan L DuBois, and Yaniv J. Rosen | (参考訳) 材料欠陥は基本的に超伝導量子ビットのコヒーレンス時間を制限し、完全に欠陥のないデバイスを製造することは不可能である。
したがって、実際の量子プロセッサ設計において欠陥と量子ビットの間の相互作用を理解することが不可欠である。
我々は、標準トンネルモデル、量子ビット内の電場分布、オープン量子システムダイナミクスを組み込んだモデルを構築し、現在の2レベルシステム(tls)理論の理解から導出する。
具体的には、キュービットの表面に分散された100万のTLSから始まり、200の最高結合系を選択する。
次に、共振TLS欠陥の時間依存性密度行列をモデル化するために、キュービットとTLS浴の間のコヒーレント結合を明示的に含むリンドブラディアンシミュレーションを行う。
最も強く結合された200個のTLSは、クォービットエネルギー緩和時間を正確に記述できる。
この研究は、電場が強い領域にある共鳴TLSが、ジョセフソン接合から遠くに位置するとしても、クビット緩和時間に大きな影響を与えることを確認した。
同様に、ジョセフソン接合にある強結合共振TLSは、より強く結合されたTLSがジョセフソン接合から遠く離れている場合、量子ビット緩和時間の短縮を保証しない。
TLSと量子ビットの結合強度に加えて、このモデルはデバイスとTLS緩和時間の幾何学が量子ビット力学において重要な役割を果たすことを予測している。
我々の研究は、量子ビットコヒーレンス時間を改善した将来の量子プロセッサ設計のためのガイダンスを提供することができる。 Material defects fundamentally limit the coherence times of superconducting qubits, and manufacturing completely defect-free devices is not yet possible. Therefore, understanding the interactions between defects and a qubit in a real quantum processor design is essential. We build a model that incorporates the standard tunneling model, the electric field distributions in the qubit, and open quantum system dynamics and draw from the current understanding of two-level system (TLS) theory. Specifically, we start with one million TLSs distributed on the surface of a qubit and pick the 200 highest coupling systems. We then perform a full Lindbladian simulation that explicitly includes the coherent coupling between the qubit and the TLS bath to model the time dependent density matrix of resonant TLS defects and the qubit. We find that the 200 most strongly coupled TLSs can accurately describe the qubit energy relaxation time. This work confirms that resonant TLSs located in areas where the electric field is strong can significantly affect the qubit relaxation time, even if they are located far from the Josephson junction. Similarly, a strongly-coupled resonant TLS located in the Josephson junction does not guarantee a reduced qubit relaxation time if a more strongly coupled TLS is far from the Josephson junction. In addition to the coupling strengths between TLSs and the qubit, the model predicts that the geometry of the device and the TLS relaxation time play a significant role in qubit dynamics. Our work can provide guidance for future quantum processor designs with improved qubit coherence times. | 翻訳日:2023-01-19 12:21:59 公開日:2022-11-15 |
# 一般化パンカラトナムベリー相の位相遷移 Topological transitions of the generalized Pancharatnam-Berry phase ( http://arxiv.org/abs/2211.08519v1 ) ライセンス: Link先を確認 | Manuel F. Ferrer-Garcia, Kyrylo Snizhko, Alessio D'Errico, Alessandro Romito, Yuval Gefen and Ebrahim Karimi | (参考訳) 動的相とは別として、循環進化において、系の状態は追加の成分、すなわち幾何学的位相を取得することができる。
後者は状態空間における閉経路の表現である。
幾何相は様々な物理現象、特に多体状態の位相不変量の出現を下支えする。
近年,1量子ビット上に実装された一般化された測定の列によって幾何位相を誘導できることが実証されている。
さらに、このような幾何学的位相相は、測定強度の関数としてトポロジカルな遷移を示すと予測されている。
ここでは,光プラットフォームを用いて,この遷移を実験的に検証する。
我々は、元のプロトコルのある種の一般化とある種の不完全さに対する堅牢性を示す。
我々のプロトコルは環境誘起幾何学的な位相で解釈できる。 Distinct from the dynamical phase, in a cyclic evolution, a system's state may acquire an additional component, a.k.a. geometric phase. The latter is a manifestation of a closed path in state space. Geometric phases underlie various physical phenomena, notably the emergence of topological invariants of many-body states. Recently it has been demonstrated that geometric phases can be induced by a sequence of generalized measurements implemented on a single qubit. Furthermore, it has been predicted that such geometric phases may exhibit a topological transition as function of the measurement strength. Here, we demonstrate and study this transition experimentally employing an optical platform. We show the robustness to certain generalizations of the original protocol, as well as to certain types of imperfections. Our protocol can be interpreted in terms of environment-induced geometric phases. | 翻訳日:2023-01-19 12:21:31 公開日:2022-11-15 |
# 非エルミタン系間の弱から強結合状態への移行に伴うエネルギー輸送 Energy Transport Induced by Transition from Weak to Strong Coupling Regime Between Non-Hermitian systems ( http://arxiv.org/abs/2211.08484v1 ) ライセンス: Link先を確認 | I.V. Vovcenko, A.A. Zyablovsky, A.A. Pukhov, E.S. Andrianov | (参考訳) 近年,異なる性質を持つ非エルミート物理系間の強結合性が広く研究されている。
本研究では,強結合系間のエネルギー輸送について検討する。
弱結合状態から強結合状態への遷移における系のダイナミクスを、サブシステム間の結合が増大する中で、オープン量子システムを記述するために部分的セクシャルアプローチを用いる。
強い結合性を持つ二層原子の例では、系と貯水池の間のエネルギー輸送の遷移点に近いことが示されている。
これは、結合定数に正規化されたエネルギーの流れが、ゼロ周波数および非ゼロ周波数のデチューニングの場合の両方において最大に達するという事実を示す。
弱結合状態から強結合状態への明確な遷移点が存在しない非零デチューニングの場合, 正規化エネルギーフローの最大化は, 強結合状態への遷移を決定するのに有効であることを示す。
高緩和時のエネルギー流れの抑制を実証した。 Recently, strong coupling between non-Hermitian physical systems of different nature is widely investigated due to it endows them with new properties. In this work, we investigate the energy transport between strongly coupled systems. We use a partial-secular approach for the description of an open quantum system to investigate the system dynamics during the transition from a weak to a strong coupling regime with an increase of coupling between subsystems. On the example of strongly coupled two-level atoms, we show that near the transition point enhancement of energy transport between the system and reservoirs takes place. This manifests in the fact that energy flow normalized to the coupling constant reaches the maximum both in the cases of zero and non-zero frequency detuning. We show that maximization of normalized energy flow can be used for the determination of the transition to the strong coupling regime in the case of non-zero detuning when there is no clear transition point from the weak to strong coupling regime. The suppression of the energy flow at high relaxation is demonstrated. | 翻訳日:2023-01-19 12:21:20 公開日:2022-11-15 |
# 一時的または永久的欠陥の存在下での量子誤差補正のための適応的表面符号 Adaptive surface code for quantum error correction in the presence of temporary or permanent defects ( http://arxiv.org/abs/2211.08468v1 ) ライセンス: Link先を確認 | Adam Siegel, Armands Strikis, Thomas Flatters, Simon Benjamin | (参考訳) 例えば、宇宙線のような高エネルギー事象のために、製造段階でも量子計算の過程でも、エラー訂正符号を構成する量子ビットは、動作不能にすることができる。
このような欠陥は個々のキュービットやクラスタに対応し、論理的エラーを発生させるのに十分なコードを乱す可能性がある。
本稿では,欠陥格子上の表面符号の量子誤差補正に対する新しい適応的アプローチについて検討する。
適切な欠陥検出アルゴリズムと識別されたゾーンの隔離を組み合わせることで、欠陥の大きさに応じてスケールする量子ビットオーバーヘッドを犠牲にして、有限コードサイズでの量子誤差補正の利点を保てることが示されている。
例えば、論理キュービット毎に小さな欠陥が繰り返し発生する特定のシナリオでは、ノイズしきい値が2.7\%$である(ただし、欠陥のない場合には$.9\$$である)。
これらの結果は、欠陥が避けられない大規模量子コンピュータの実験的な実装への道を開く。 Whether it is at the fabrication stage or during the course of the quantum computation, e.g. because of high-energy events like cosmic rays, the qubits constituting an error correcting code may be rendered inoperable. Such defects may correspond to individual qubits or to clusters and could potentially disrupt the code sufficiently to generate logical errors. In this paper, we explore a novel adaptive approach for surface code quantum error correction on a defective lattice. We show that combining an appropriate defect detection algorithm and a quarantine of the identified zone allows one to preserve the advantage of quantum error correction at finite code sizes, at the cost of a qubit overhead that scales with the size of the defect. Our numerics indicate that the code's threshold need not be significantly affected; for example, for a certain scenario where small defects repeatedly arise in each logical qubit, the noise threshold is $2.7\%$ (versus the defect-free case of $2.9\%$). These results pave the way to the experimental implementation of large-scale quantum computers where defects will be inevitable. | 翻訳日:2023-01-19 12:21:06 公開日:2022-11-15 |
# 量子計測問題の相対的解法 The Relational Dissolution of the Quantum Measurement Problems ( http://arxiv.org/abs/2211.08465v1 ) ライセンス: Link先を確認 | Andrea Oldofredi | (参考訳) 量子計測問題は、量子力学の哲学における最も議論の的となっている問題の一つであり、これは理論の標準的な定式化の技術的困難だけでなく、量子仮定の意味に関する解釈的論争の源でもある。
Another conundrum intimately connected with the QMP is the Wigner friend paradox, a thought experiment underlining the incoherence between the two dynamical laws governing the behavior of quantum systems, i.e the Schr\"odinger equation and the projection rule. Thus, every alternative interpretation aiming to be considered a sound formulation of QM must provide an explanation to these puzzles associated with quantum measurements. It is the aim of the present essay to discuss them in the context of Relational Quantum Mechanics. In fact, it is shown here how this interpretative framework dissolves the QMP. More precisely, two variants of this issue are considered: on the one hand, I focus on the "the problem of outcomes" contained in Maudlin (1995) - in which the projection postulate is not mentioned - on the other hand, I take into account Rovelli's reformulation of this problem proposed in Rovelli (2022), where the tension between the Schr\"odinger equation and the stochastic nature of the collapse rule is explicitly considered.
さらに、ウィグナーの友人パラドックスに対する関係説明をレビューし、ラウディサ (2019) に含まれるロヴェルリの理論に反する興味深い反論も考慮した。
これらの批判的な発言に答えることで、RQMに対する理解が向上すると思います。
最後に、QMPに対する関係解に対する反対の可能性を提示し、対処する。 The Quantum Measurement Problem is arguably one of the most debated issues in the philosophy of Quantum Mechanics, since it represents not only a technical difficulty for the standard formulation of the theory, but also a source of interpretational disputes concerning the meaning of the quantum postulates. Another conundrum intimately connected with the QMP is the Wigner friend paradox, a thought experiment underlining the incoherence between the two dynamical laws governing the behavior of quantum systems, i.e the Schr\"odinger equation and the projection rule. Thus, every alternative interpretation aiming to be considered a sound formulation of QM must provide an explanation to these puzzles associated with quantum measurements. It is the aim of the present essay to discuss them in the context of Relational Quantum Mechanics. In fact, it is shown here how this interpretative framework dissolves the QMP. More precisely, two variants of this issue are considered: on the one hand, I focus on the "the problem of outcomes" contained in Maudlin (1995) - in which the projection postulate is not mentioned - on the other hand, I take into account Rovelli's reformulation of this problem proposed in Rovelli (2022), where the tension between the Schr\"odinger equation and the stochastic nature of the collapse rule is explicitly considered. Moreover, the relational explanation to the Wigner's friend paradox is reviewed, taking also into account some interesting objections contra Rovelli's theory contained in Laudisa (2019). I contend that answering these critical remarks leads to an improvement of our understanding of RQM. Finally, a possible objection against the relational solution to the QMP is presented and addressed. | 翻訳日:2023-01-19 12:20:50 公開日:2022-11-15 |
# 部分格子対称例外点の強化固有ベクトル感度と代数的分類 Enhanced eigenvector sensitivity and algebraic classification of sublattice-symmetric exceptional points ( http://arxiv.org/abs/2211.08449v1 ) ライセンス: Link先を確認 | Kang Yang and Ipsita Mandal | (参考訳) 例外点 (EPs) は非エルミート・ハミルトニアンの一般的な特徴であり、2つ以上の固有値とその固有ベクトルが合わさったものである。
彼らの命令はヨルダン分解によって与えられる。
ここでは、ハミトロニアンの固有値が$\lbrace E, -E\rbrace $の対に現れることを制限するような、亜格子対称性を持つフェルミオン系で生じる高次EPに焦点を当てる。
したがって、ナイーブな予測は、偶数次epだけがゼロエネルギーで現れるかもしれない。
しかし, 奇数次EPは存在でき, 縮退点にどのようにアプローチするかによって, 固有ベクトル崩壊の挙動の感度が向上することが判明した。
奇数次EPは、より高い値と低い値の偶数次EPの混合として理解することができる。
このような異常な振る舞いは、問題のハミルトニアンの部分空間としてのEPの不規則位相と関連しており、これはジョルダンブロックの特異な特徴である。
拡張固有ベクトル感度は、ターゲット固有ベクトルへの量子距離が0に収束する様子を観察することによって記述することができる。
固有ベクトルCoalescenceを捉えるために、これらのEPの存在条件を記述する代数的方法を提案する。
これは、成果物と差別物に基づく以前の研究を補完し、現在未発見の高次の例外的優越性の構造を明らかにする。 Exceptional points (EPs) are generic features of non-Hermitian Hamiltonians, at which two or more eigenvalues, along with their eigenvectors, coalesce. Their orders are given by the Jordan decomposition. Here, we focus on higher-order EPs arising in fermionic systems with a sublattice symmetry, which restricts the eigenvalues of the Hamitlonian to appear in pairs of $\lbrace E, -E\rbrace $. Thus, a naive prediction might be that only even-order EPs can appear at zero energy. However, we find that odd-order EPs can exist, and exhibit enhanced sensitivity in the behaviour of the eigenvector collapse in their neighbourhood, depending on how we approach the degenerate point. The odd-order EPs can be understood as a mixture of higher- and lower-valued even-order EPs. Such an anomalous behaviour is related to the irregular topology of the EPs as the subspace of the Hamiltonians in question, which is a unique feature of the Jordan blocks. The enhanced eigenvector sensitivity can be described by observing how the quantum distance to the target eigenvector converges to zero. In order to capture the eigenvector-coalescence, we provide an algebraic method to describe the conditions for the existence of these EPs. This complements previous studies based on resultants and discriminants, and unveils here-to-fore unexplored structures of higher-order exceptional degeneracy. | 翻訳日:2023-01-19 12:20:28 公開日:2022-11-15 |
# 量子メモリとしての大容量N$マトリックス量子力学 Large $N$ Matrix Quantum Mechanics as a Quantum Memory ( http://arxiv.org/abs/2211.08448v1 ) ライセンス: Link先を確認 | ChunJun Cao, Gong Cheng, Brian Swingle | (参考訳) 本稿では,大容量N$行列量子力学モデルを用いて,熱雑音に頑健な量子メモリを構築する可能性について検討する。
まず、ゲージ付き$SU(N)$行列調和振動子とその中の量子情報を符号化する方法について検討する。
エンコードされた情報を純化する参照とシステム間の相互情報を計算することにより、エンコードされた量子情報が熱ノイズから保護される遷移温度$t_c$を、メモリタイムスケール$n^2$として識別する。
逆に、T_c$より高い温度では、熱雑音によって情報は急速に破壊される。
第二に、ゲージ不変性の要件を緩和し、大域対称性のみを持つ行列調和振動子モデルを研究する。
最後に、対称性の要件さえ緩和し、近似的な$SU(N)$対称性から導かれる相互作用を持つ、多数の$N^2$の量子ビットからなるモデルを提案する。
どちらのアンゲージモデルにおいても、ガウイングの効果をエネルギーペナルティを用いて模倣し、メモリタイムに同様の結果を与えることができる。
最後の量子ビットモデルも実験室で実現される可能性がある。 In this paper, we explore the possibility of building a quantum memory that is robust to thermal noise using large $N$ matrix quantum mechanics models. First, we investigate the gauged $SU(N)$ matrix harmonic oscillator and different ways to encode quantum information in it. By calculating the mutual information between the system and a reference which purifies the encoded information, we identify a transition temperature, $T_c$, below which the encoded quantum information is protected from thermal noise for a memory time scaling as $N^2$. Conversely, for temperatures higher than $T_c$, the information is quickly destroyed by thermal noise. Second, we relax the requirement of gauge invariance and study a matrix harmonic oscillator model with only global symmetry. Finally, we further relax even the symmetry requirement and propose a model that consists of a large number $N^2$ of qubits, with interactions derived from an approximate $SU(N)$ symmetry. In both ungauged models, we find that the effects of gauging can be mimicked using an energy penalty to give a similar result for the memory time. The final qubit model also has the potential to be realized in the laboratory. | 翻訳日:2023-01-19 12:20:03 公開日:2022-11-15 |
# 光流体中の2次元量子乱流における逆エネルギーカスケード Inverse energy cascade in two-dimensional quantum turbulence in a fluid of light ( http://arxiv.org/abs/2211.08441v1 ) ライセンス: Link先を確認 | Myrann Abobaker, Wei Liu, Tangui Aladjidi, Alberto Bramati and Quentin Glorieux | (参考訳) 量子流体の乱流は、長さのスケールで励起するカスケードを含む古典的な流れと驚くほど共通している。
二次元では、運動エネルギーが小さいから大きな長さのスケールに移される長さスケール(慣性範囲)の範囲は逆エネルギーカスケードとして知られ、石けん膜から木星の大気までいくつかの古典系で観測されている。
量子流体については、これらの逆カスケードの可能性に関する長い議論があり、最近の研究はそれらの存在を示唆しているが、微視的なメカニズムはまだ議論されており、直接の実験的な観測は未だに欠けている。
本研究では,光の量子流体中における小から大スケールの運動エネルギーのフラックスの直接的実験的シグネチャと,非圧縮性運動エネルギースペクトルにおけるコルモゴロフスケール則の観察について報告する。
エネルギースペクトル中の代数指数の微視的起源は、治癒長さ内における量子化された渦の内部構造とその大規模なクラスター化の研究によって理解される。
最後に、逆エネルギーカスケードとクラスター渦の空間的相関の統計的関係を同定する。
これらの結果は、初期状態の精密な調製と圧縮性および非圧縮性流体速度のその場測定が可能な2つの逆流性流体を用いて得られる。
このプラットフォームは、制御された強制機構と均質密度を持つ縮小次元における非平衡乱流力学の研究にエキサイティングな可能性を開く。 Turbulence in quantum fluids has, surprisingly, a lot in common with its classical counterparts, including cascade of excitations across length scales. In two dimensions, the existence of a range of length scales (the inertial range) over which kinetic energy is transferred from small to large length scales is known as an inverse energy cascade and has been observed in several classical systems from soap films to Jupiter's atmosphere. For quantum fluids, there has been a long debate about the possibility of these inverse cascades, and while recent works suggest their existence, the microscopic mechanism is still debated and a direct experimental observation is still missing. In this work, we report a direct experimental signature of a flux of kinetic energy from small to large length scales in a quantum fluid of light and the observation of a Kolmogorov scaling law in the incompressible kinetic energy spectrum. The microscopic origin of the algebraic exponents in the energy spectrum is understood by studying the internal structure of quantized vortices within the healing length and their clustering at large length scales. Finally, we identify the statistical relationship between the inverse energy cascade and the spatial correlations of clustered vortices. These results are obtained using two counter-streaming fluids of light, which allows for a precise preparation of the initial state and the in-situ measurement of the compressible and incompressible fluid velocity. This novel platform opens exciting possibilities for the study of non-equilibrium turbulence dynamics in reduced dimensions with a controlled forcing mechanism and an homogeneous density. | 翻訳日:2023-01-19 12:19:44 公開日:2022-11-15 |
# 変形したボソニックデファスチャンネルの量子容量 Quantum capacity of a deformed bosonic dephasing channel ( http://arxiv.org/abs/2211.09012v1 ) ライセンス: Link先を確認 | Shahram Dehdashti, Janis Notzel and Peter van Loock | (参考訳) 本稿では,非線形コヒーレント状態の概念を用いて,光ファイバーを用いた量子通信において,ケラー媒体が量子状態に与える影響をモデル化する変形ボソニックデファスメントチャネルを定義する。
あるレジームにおいて、カー非線形性はデファスメントを補うことができることを示す。
さらに, 変形したボソニックデファスチャネルの量子容量は, 特定の非線形パラメータに対する非変形型標準ボソニックデファスチャネルの量子容量よりも大きいことを示す。 In this paper, using the notion of nonlinear coherent states, we define a deformed bosonic dephasing channel modelling the impact of a Kerr medium on a quantum state, as it occurs, for instance, in quantum communication based on optical fibers. We show that, in certain regimes, the Kerr nonlinearity is able to compensate the dephasing. In addition, our studies reveal that the quantum capacity of the deformed bosonic dephasing channel can be greater than that of the undeformed, standard bosonic dephasing channel for certain nonlinearity parameters. | 翻訳日:2023-01-19 12:10:36 公開日:2022-11-15 |
# 量子力学におけるリー群表現の誤差境界 Error bounds for Lie Group representations in quantum mechanics ( http://arxiv.org/abs/2211.08582v1 ) ライセンス: Link先を確認 | Lauritz van Luijk, Niklas Galke, Alexander Hahn, Daniel Burgarth | (参考訳) 連結リー群の強連続ユニタリ表現に対する状態依存誤差境界を提供する。
すなわち、表現に付随する基準ハミルトニアンと群上の左不変距離に関して、エネルギーの観点からある状態に適用される2つのユニタリの差を束縛する。
我々の方法は任意の連結リー群に対して作用し、計量は選択された表現とは独立である。
このアプローチは射影表現にも適用され、群の任意の好ましく連続なチャネル表現のエネルギー制限されたダイヤモンドノルム距離に境界を与えることができる。 We provide state-dependent error bounds for strongly continuous unitary representations of connected Lie groups. That is, we bound the difference of two unitaries applied to a state in terms of the energy with respect to a reference Hamiltonian associated to the representation and a left-invariant metric distance on the group. Our method works for any connected Lie group and the metric is independent of the chosen representation. The approach also applies to projective representations and allows us to provide bounds on the energy constrained diamond norm distance of any suitably continuous channel representation of the group. | 翻訳日:2023-01-19 12:10:27 公開日:2022-11-15 |
# ディラック理論の次元還元 Dimensional reduction of the Dirac theory ( http://arxiv.org/abs/2211.08581v1 ) ライセンス: Link先を確認 | Giuliano Angelone, Elisa Ercolessi, Paolo Facchi, Davide Lonigro, Rocco Maggi, Giuseppe Marmo, Saverio Pascazio, Francesco V. Pepe | (参考訳) 電磁場に結合したスピン1/2フェルミオンの物理の3次元から2次元の空間次元にハダマールの降下法を適用して還元する。
まず、運動がディラック方程式によって決定される自由ケース、次にディラック・マクスウェル方程式によって制御される力学電磁場とのカップリングを考える。
1つの空間方向に沿った不変性は、2つの分離された理論で自由ディラック方程式を分割する。
一方、電磁場の存在を次元的に減少させることで、2+1次元のより複雑な理論が得られ、同変微分を用いて降下法が拡張される。
方程式は単純であるが、異なる物理的セクタ間のデカップリングは、特定の解のクラスが考慮されている場合にのみ起こる。 We perform a reduction from three to two spatial dimensions of the physics of a spin-1/2 fermion coupled to the electromagnetic field, by applying Hadamard's method of descent. We consider first the free case, in which motion is determined by the Dirac equation, and then the coupling with a dynamical electromagnetic field, governed by the Dirac-Maxwell equations. We find that invariance along one spatial direction splits the free Dirac equation in two decoupled theories. On the other hand, a dimensional reduction in the presence of an electromagnetic field provides a more complicated theory in 2+1 dimensions, in which the method of descent is extended by using the covariant derivative. Equations simplify, but decoupling between different physical sectors occurs only if specific classes of solutions are considered. | 翻訳日:2023-01-19 12:10:18 公開日:2022-11-15 |
# 複数の個別井戸における捕捉イオンの平行結合 Parallel coupling of trapped ions in multiple individual wells ( http://arxiv.org/abs/2211.07121v2 ) ライセンス: Link先を確認 | Artem Podlesnyy, Yelnury Suleimen, Lianna A. Akopyan and Kirill Lakhmanskiy | (参考訳) 本稿では, 電極の直流電圧を調整することで, 選択した井戸内のイオン運動を10個に結合できる新しい表面トラップ設計を提案する。
2種類のイオンcaおよびbeに対する10個のイオンアーキテクチャの異なる電圧セットに対する様々なフォノンモードスペクトルの実証と特徴付けを行う。
イオンを独自のフォノンモード周波数のセグメントにまとめてパラレルMSゲートを動作させることが可能であることがわかった。
また,各セグメントのフォノン周波数と実験で期待されるフォノン周波数の有限ドリフトとの周波数差の2つの主な寄与を考慮に入れた2つのイオンからなるセグメントに対するMSゲート動作の忠実度をモデル化した。
さらに,各トラップ当たりのイオン数と非調和ポテンシャル項が2つの井戸間のカップリングに与える影響について検討した。 In this paper we offer a new surface trap design capable of coupling the ion motion in the selected wells among ten by adjusting the DC-voltages on a set of electrodes. We demonstrate and characterize a variety of phonon mode spectra for different voltage sets for 10 ion-architecture for two types of ions Ca and Be. We found that it is possible to unite the ions into segments with unique phonon mode frequencies to perform parallel MS-gate operations. We also model the fidelity of the MS-gate operation for a segment comprise of two ions accounting the two main contributions to the gate infidelity: the limited frequency difference between phonon frequencies of the segments and the finite drift of the phonon frequencies expected in experiment. Additionally, we investigate how the number of ions per individual trap and an anharmonic potential terms affect the coupling between the two wells. | 翻訳日:2023-01-18 07:19:46 公開日:2022-11-15 |
# 円錐交叉周りの力学における幾何学的位相の直接観察 Direct observation of geometric phase in dynamics around a conical intersection ( http://arxiv.org/abs/2211.07320v2 ) ライセンス: Link先を確認 | Christophe H. Valahu and Vanessa C. Olaya-Agudelo and Ryan J. MacDonell and Tomas Navickas and Arjun D. Rao and Maverick J. Millican and Juan B. P\'erez-S\'anchez and Joel Yuen-Zhou and Michael J. Biercuk and Cornelius Hempel and Ting Rei Tan and Ivan Kassal | (参考訳) 円錐交差は化学においてユビキタスであり、しばしば光収穫、視覚、光触媒、化学反応性などのプロセスを管理する。
分子の電子状態間のファンネルとして作用し、化学動力学において迅速かつ効率的な緩和を可能にする。
さらに、反応経路が円錐交差を囲むとき、分子波動関数は幾何学的位相を経験し、量子力学的干渉による反応の結果に影響を与える。
過去の実験では散乱パターンや分光観測器の幾何学的位相の間接的なシグネチャを測定してきたが、波束干渉の直接観測は行われていない。
そこで本研究では,プログラム可能な閉じ込めイオン量子シミュレータにおいて,核波束の動力学における幾何学的位相干渉を実験的に観察する。
そこで我々は, 捕捉イオンの2次元波束密度を再構成する新しい手法を開発した。
実験は理論モデルと一致し、トラップされたイオンを用いて実現したアナログ量子シミュレーターの核量子効果を正確に記述する能力を示す。
これらの結果は、化学力学における最も難しい問題を解くためにアナログ量子シミュレータを展開する道を示している。 Conical intersections are ubiquitous in chemistry, often governing processes such as light harvesting, vision, photocatalysis, and chemical reactivity. They act as funnels between electronic states of molecules, allowing rapid and efficient relaxation during chemical dynamics. In addition, when a reaction path encircles a conical intersection, the molecular wavefunction experiences a geometric phase, which affects the outcome of the reaction through quantum-mechanical interference. Past experiments have measured indirect signatures of geometric phases in scattering patterns and spectroscopic observables, but there has been no direct observation of the underlying wavepacket interference. Here, we experimentally observe geometric-phase interference in the dynamics of a nuclear wavepacket travelling around an engineered conical intersection in a programmable trapped-ion quantum simulator. To achieve this, we develop a new technique to reconstruct the two-dimensional wavepacket densities of a trapped ion. Experiments agree with the theoretical model, demonstrating the ability of analog quantum simulators -- such as those realised using trapped ions -- to accurately describe nuclear quantum effects. These results demonstrate a path to deploying analog quantum simulators for solving some of the most difficult problems in chemical dynamics. | 翻訳日:2023-01-18 07:00:08 公開日:2022-11-15 |
# Cheater's Bowl: オープンドメイン質問回答のための人間対コンピュータ検索戦略 Cheater's Bowl: Human vs. Computer Search Strategies for Open-Domain Question Answering ( http://arxiv.org/abs/2212.03296v1 ) ライセンス: Link先を確認 | Wanrong He, Andrew Mao, Jordan Boyd-Graber | (参考訳) 人間とコンピュータにとって、オープンドメインの質問に答える最初のステップは、大きなコーパスから関連する文書の集合を検索することだ。
しかし、コンピュータが使用する戦略は人間の戦略と根本的に異なる。
これらの違いをよりよく理解するために、私たちはデータ収集のためのゲーム化されたインターフェース、すなわちチーターズボウルを設計しました。
我々は、人間の検索セッションのデータセットを収集し、人間の検索戦略を分析し、それらを最先端のマルチホップQAモデルと比較する。
人間は論理的にクエリし、動的検索チェーンを適用し、世界の知識を使って検索を強化する。
本稿では,ヒューマンクエリが既存システムの精度を向上させる方法を示し,qaモデルの将来設計の改善を提案する。 For humans and computers, the first step in answering an open-domain question is retrieving a set of relevant documents from a large corpus. However, the strategies that computers use fundamentally differ from those of humans. To better understand these differences, we design a gamified interface for data collection -- Cheater's Bowl -- where a human answers complex questions with access to both traditional and modern search tools. We collect a dataset of human search sessions, analyze human search strategies, and compare them to state-of-the-art multi-hop QA models. Humans query logically, apply dynamic search chains, and use world knowledge to boost searching. We demonstrate how human queries can improve the accuracy of existing systems and propose improving the future design of QA models. | 翻訳日:2022-12-11 13:08:45 公開日:2022-11-15 |
# 大学進路割当問題に対するハイブリッド進化的アプローチ A Hybrid Evolutionary Approach to Solve University Course Allocation Problem ( http://arxiv.org/abs/2212.02230v1 ) ライセンス: Link先を確認 | Dibyo Fabian Dofadar, Riyo Hayat Khan, Shafqat Hasan, Towshik Anam Taj, Arif Shakil, Mahbub Majumdar | (参考訳) 本稿では,大学進路割当問題に関する課題を克服するための様々な制約,困難,解決策について述べる。
最適なコース割り当てを生成するために、局所修復アルゴリズムと修正遺伝的アルゴリズムを組み合わせたハイブリッド進化アルゴリズムが定義されている。
収集したデータセットを分析した後、必要な制約をすべて定式化した。
これらの制約は、各教職員の衝突のない効率的な授業スケジュールを準備しながら、留意すべき側面をカバーする。
目標は、時間効率を維持しながら、これらの制約を満たす最適化ソリューションを生成し、また、このタスクを手動で処理するワークロードを削減することである。
提案アルゴリズムをベースレベル最適化アルゴリズムと比較し,精度と時間面での効率性を示した。 This paper discusses various types of constraints, difficulties and solutions to overcome the challenges regarding university course allocation problem. A hybrid evolutionary algorithm has been defined combining Local Repair Algorithm and Modified Genetic Algorithm to generate the best course assignment. After analyzing the collected dataset, all the necessary constraints were formulated. These constraints manage to cover the aspects needed to be kept in mind while preparing clash free and efficient class schedules for every faculty member. The goal is to generate an optimized solution which will fulfill those constraints while maintaining time efficiency and also reduce the workload of handling this task manually. The proposed algorithm was compared with some base level optimization algorithms to show the better efficiency in terms of accuracy and time. | 翻訳日:2022-12-11 12:59:28 公開日:2022-11-15 |
# DeepParliament: 議会法案予測のためのドメインベンチマークとデータセット DeepParliament: A Legal domain Benchmark & Dataset for Parliament Bills Prediction ( http://arxiv.org/abs/2211.15424v1 ) ライセンス: Link先を確認 | Ankit Pal | (参考訳) 本稿では,請求書の文書とメタデータを収集し,各種請求書の分類処理を行う法律ドメインベンチマークデータセットであるDeepParliamentを紹介する。
提案したデータセットテキストは、1986年から現在までの幅広い法案をカバーし、議会法案の内容に関する豊富な情報を含んでいる。
論文では、データ収集、詳細な統計、分析について述べる。
さらに,RNNから事前学習まで,さまざまなモデル実験を行い,その結果を報告する。
バイナリとマルチクラスビルのステータス分類という2つの新しいベンチマークを提案しています。
法案文書や関連する支援業務のために開発されたモデルは、議員、大統領、その他の法律実務者を支援することができる。
法案の審査や優先順位付けに役立ち、請求プロセスのスピードアップ、意思決定の質の向上、両院での時間消費の削減に寄与する。
我が国の民主主義の基礎が議会と州議会であることを考えると、我々は我々の研究が法律NLPコミュニティに不可欠な追加になることを期待している。
この作業は、議会法案の予測タスクを最初に提示するものだ。
法的AIリソースのアクセシビリティを改善し、再現性を促進するため、github.com/monk1337/DeepParliamentでコードとデータセットを公開しました。 This paper introduces DeepParliament, a legal domain Benchmark Dataset that gathers bill documents and metadata and performs various bill status classification tasks. The proposed dataset text covers a broad range of bills from 1986 to the present and contains richer information on parliament bill content. Data collection, detailed statistics and analyses are provided in the paper. Moreover, we experimented with different types of models ranging from RNN to pretrained and reported the results. We are proposing two new benchmarks: Binary and Multi-Class Bill Status classification. Models developed for bill documents and relevant supportive tasks may assist Members of Parliament (MPs), presidents, and other legal practitioners. It will help review or prioritise bills, thus speeding up the billing process, improving the quality of decisions and reducing the time consumption in both houses. Considering that the foundation of the country's democracy is Parliament and state legislatures, we anticipate that our research will be an essential addition to the Legal NLP community. This work will be the first to present a Parliament bill prediction task. In order to improve the accessibility of legal AI resources and promote reproducibility, we have made our code and dataset publicly accessible at github.com/monk1337/DeepParliament | 翻訳日:2022-12-04 14:53:09 公開日:2022-11-15 |
# 空中画像における物体検出 Object Detection in Aerial Imagery ( http://arxiv.org/abs/2211.15479v1 ) ライセンス: Link先を確認 | Dmitry Demidov, Rushali Grandhe, Salem AlMarri | (参考訳) 自然画像における物体検出は、長年にわたって顕著な結果をもたらしてきた。
しかし、高解像度画像、インスタンススケールのばらつき、クラス不均衡など、いくつかの課題により、空中物体検出において同様の進歩はみられていない。
iSAIDデータセット上で,2段階,1段階,注目度に基づく物体検出器の性能を示す。
さらに,様々なモデルに対して行った修正と分析について述べる。
a) 2段階検出器: 重み付き注意に基づくfpn、クラスバランスド・サンプラー、密度予測ヘッドを導入した。
b) 1段階検出器:重み付き焦点損失を使用し、FPNを導入する。
c) 注意に基づく検出器:単一マルチスケールの注意を比較し、異なるバックボーンの効果を示す。
最後に、航空画像設定における異なるモデルの長所と短所を強調する比較研究を示す。 Object detection in natural images has achieved remarkable results over the years. However, a similar progress has not yet been observed in aerial object detection due to several challenges, such as high resolution images, instances scale variation, class imbalance etc. We show the performance of two-stage, one-stage and attention based object detectors on the iSAID dataset. Furthermore, we describe some modifications and analysis performed for different models - a) In two stage detector: introduced weighted attention based FPN, class balanced sampler and density prediction head. b) In one stage detector: used weighted focal loss and introduced FPN. c) In attention based detector: compare single,multi-scale attention and demonstrate effect of different backbones. Finally, we show a comparative study highlighting the pros and cons of different models in aerial imagery setting. | 翻訳日:2022-12-04 14:51:19 公開日:2022-11-15 |
# 医用画像における人工知能モデルの一般化 : 症例ベースレビュー Generalization of Artificial Intelligence Models in Medical Imaging: A Case-Based Review ( http://arxiv.org/abs/2211.13230v1 ) ライセンス: Link先を確認 | Rishi Gadepally, Andrew Gomella, Eric Gingold, Paras Lakhani | (参考訳) 人工知能(AI)と医用画像に関する議論は、ディープラーニングアルゴリズムの成功を中心に行われている。
新しいアルゴリズムが市場に参入するにつれ、様々なAIアルゴリズムの落とし穴を理解するために放射線学者を実践することが重要である。
これには、アルゴリズムの開発方法、トレーニングされたデータの種類、デプロイされる設定に関する基本的な理解が伴う。
すべての新しい技術と同様に、AIの使用は、それを支援することを意図した人々に対するリスクとメリットの根本的な理解によって先行するべきである。
このケースベースのレビューは、AIを使うつもりの放射線科医が考慮すべき特定の要因を指摘することを目的としている。 The discussions around Artificial Intelligence (AI) and medical imaging are centered around the success of deep learning algorithms. As new algorithms enter the market, it is important for practicing radiologists to understand the pitfalls of various AI algorithms. This entails having a basic understanding of how algorithms are developed, the kind of data they are trained on, and the settings in which they will be deployed. As with all new technologies, use of AI should be preceded by a fundamental understanding of the risks and benefits to those it is intended to help. This case-based review is intended to point out specific factors practicing radiologists who intend to use AI should consider. | 翻訳日:2022-12-04 14:51:08 公開日:2022-11-15 |
# 結晶構造の等変ネットワーク Equivariant Networks for Crystal Structures ( http://arxiv.org/abs/2211.15420v1 ) ライセンス: Link先を確認 | S\'ekou-Oumar Kaba, Siamak Ravanbakhsh | (参考訳) 深層モデルによる教師付き学習は、材料科学の応用に非常に有益である。
近年、グラフニューラルネットワークがこの文脈で使われ、分子のモデルから直接インスピレーションを得ている。
しかし、一般的に物質は分子よりも構造的であり、これらのモデルでは利用できない特徴である。
本研究では、結晶対称性群に対して同変のモデルのクラスを導入する。
我々は、より一般的な置換群で使用可能なメッセージパッシング操作の一般化を定義するか、またはクリスタルグラフ上の表現的畳み込み演算を定義することでこれを行う。
経験上、これらのモデルはプロパティ予測タスクにおいて最先端の技術で競争的な結果を得る。 Supervised learning with deep models has tremendous potential for applications in materials science. Recently, graph neural networks have been used in this context, drawing direct inspiration from models for molecules. However, materials are typically much more structured than molecules, which is a feature that these models do not leverage. In this work, we introduce a class of models that are equivariant with respect to crystalline symmetry groups. We do this by defining a generalization of the message passing operations that can be used with more general permutation groups, or that can alternatively be seen as defining an expressive convolution operation on the crystal graph. Empirically, these models achieve competitive results with state-of-the-art on property prediction tasks. | 翻訳日:2022-12-04 14:50:40 公開日:2022-11-15 |
# 複雑な文書からの構造化抽出のためのベンチマーク A Benchmark for Structured Extractions from Complex Documents ( http://arxiv.org/abs/2211.15421v1 ) ライセンス: Link先を確認 | Zilong Wang, Yichao Zhou, Wei Wei, Chen-Yu Lee, Sandeep Tata | (参考訳) 視覚的にリッチなビジネス文書を理解して構造化データを抽出し、ビジネスワークフローを自動化することは、学界でも業界でも注目を集めている。
最近のマルチモーダル言語モデルは目覚ましい結果を得たが、既存のベンチマークは業界で見られる実際の文書の複雑さを反映していない。
本稿では、より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型を含むリッチスキーマとネストされたエンティティ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
我々は, 抽出結果を評価するために, 念入りに設計したマッチングアルゴリズムとともに, 少数および従来型の実験設定を設計する。
我々は,(1)新しい文書テンプレートへの一般化は極めて困難であり,(2) 少数の性能はヘッドルームが多く,(3) モデルでは請求書中の行文字などのネストフィールドに苦しむ,という3つの観察結果を報告した。
ベンチマークと評価ツールキットをオープンソース化する予定です。
これは、視覚的にリッチなドキュメントから構造化されたデータを抽出する上で、これらの困難なタスクをコミュニティが前進させるのに役立つことを願っています。 Understanding visually-rich business documents to extract structured data and automate business workflows has been receiving attention both in academia and industry. Although recent multi-modal language models have achieved impressive results, we find that existing benchmarks do not reflect the complexity of real documents seen in industry. In this work, we identify the desiderata for a more comprehensive benchmark and propose one we call Visually Rich Document Understanding (VRDU). VRDU contains two datasets that represent several challenges: rich schema including diverse data types as well as nested entities, complex templates including tables and multi-column layouts, and diversity of different layouts (templates) within a single document type. We design few-shot and conventional experiment settings along with a carefully designed matching algorithm to evaluate extraction results. We report the performance of strong baselines and three observations: (1) generalizing to new document templates is very challenging, (2) few-shot performance has a lot of headroom, and (3) models struggle with nested fields such as line-items in an invoice. We plan to open source the benchmark and the evaluation toolkit. We hope this helps the community make progress on these challenging tasks in extracting structured data from visually rich documents. | 翻訳日:2022-12-04 14:42:17 公開日:2022-11-15 |
# 確率データを用いた作用素方程式の物理インフォームドニューラルネットワーク Physics-informed neural networks for operator equations with stochastic data ( http://arxiv.org/abs/2211.10344v1 ) ライセンス: Link先を確認 | Paul Escapil-Inchausp\'e and Gonzalo A. Ruz | (参考訳) 統計モーメントの計算を確率データを持つ作用素方程式に対して検討する。
TPINNと呼ばれるPINNの応用は、既存のPINNのコードの変更を最小限にして、誘導テンソル作用素方程式を解くことができる。
このスキームは次元の呪いを克服し、非線形および時間依存の演算子をカバーする。
本稿では,バニラとマルチアウトプットTPINNという2種類のアーキテクチャを提案し,その利点と限界について検討する。
探索的な数値実験を行い、適用性と性能を示し、様々な新しい研究の道を開く。 We consider the computation of statistical moments to operator equations with stochastic data. We remark that application of PINNs -- referred to as TPINNs -- allows to solve the induced tensor operator equations under minimal changes of existing PINNs code. This scheme can overcome the curse of dimensionality and covers non-linear and time-dependent operators. We propose two types of architectures, referred to as vanilla and multi-output TPINNs, and investigate their benefits and limitations. Exhaustive numerical experiments are performed; demonstrating applicability and performance; raising a variety of new promising research avenues. | 翻訳日:2022-11-27 13:28:09 公開日:2022-11-15 |
# 機械学習における確率共鳴の創発 Emergence of a stochastic resonance in machine learning ( http://arxiv.org/abs/2211.09955v1 ) ライセンス: Link先を確認 | Zheng-Meng Zhai, Ling-Wei Kong, and Ying-Cheng Lai | (参考訳) カオスシステムの機械学習予測にはノイズが有効か?
貯水池コンピュータをパラダイムとして、トレーニングデータにノイズを注入することで、状態変数の短期的予測とシステムの誘引者の長期的予測の両方に有意な利益をもたらす確率的共振を誘導できることを見出した。
確率共鳴を誘導する鍵は、最適化のためのハイパーパラメータのセットに雑音の振幅を含めることである。
これにより、予測精度、安定性、地平線が劇的に改善される。
確率共鳴現象は、2つの原始的な高次元カオスシステムを用いて示される。 Can noise be beneficial to machine-learning prediction of chaotic systems? Utilizing reservoir computers as a paradigm, we find that injecting noise to the training data can induce a stochastic resonance with significant benefits to both short-term prediction of the state variables and long-term prediction of the attractor of the system. A key to inducing the stochastic resonance is to include the amplitude of the noise in the set of hyperparameters for optimization. By so doing, the prediction accuracy, stability and horizon can be dramatically improved. The stochastic resonance phenomenon is demonstrated using two prototypical high-dimensional chaotic systems. | 翻訳日:2022-11-27 13:17:31 公開日:2022-11-15 |
# Demo Abstract: 移動ロボットにおけるリアルタイムアウトオブディストリビューション検出 Demo Abstract: Real-Time Out-of-Distribution Detection on a Mobile Robot ( http://arxiv.org/abs/2211.11520v1 ) ライセンス: Link先を確認 | Michael Yuhas, Arvind Easwaran | (参考訳) 自動運転車(AV)のようなサイバー物理システムでは、機械学習(ML)モデルを使用して、車両の動作に干渉する可能性のある物体をナビゲートし識別することができる。
しかし、MLモデルはトレーニングディストリビューション外のデータを提示した場合、正確な決定をする可能性は低い。
アウト・オブ・ディストリビューション(OOD)検出は、実行時にそのようなサンプルを特定することで、MLモデルの安全モニターとして機能する。
しかし、AVのような安全クリティカルシステムでは、OOD検出は機能要件に加えてリアルタイムな制約を満たす必要がある。
本実験では,移動ロボットをav用サロゲートとして使用し,ood検出器を用いて潜在的に有害なサンプルを同定する。
ロボットは画像データとyoloオブジェクト検出ネットワークを用いてミニチュアタウンをナビゲートする。
OOD検出器は,物体検出と車線追従を同時に行う組込みプラットフォーム上で,OOD画像をリアルタイムに識別可能であることを示す。
また、未知の新規なサンプルの存在下で車両を停止させるのに使用できることを示した。 In a cyber-physical system such as an autonomous vehicle (AV), machine learning (ML) models can be used to navigate and identify objects that may interfere with the vehicle's operation. However, ML models are unlikely to make accurate decisions when presented with data outside their training distribution. Out-of-distribution (OOD) detection can act as a safety monitor for ML models by identifying such samples at run time. However, in safety critical systems like AVs, OOD detection needs to satisfy real-time constraints in addition to functional requirements. In this demonstration, we use a mobile robot as a surrogate for an AV and use an OOD detector to identify potentially hazardous samples. The robot navigates a miniature town using image data and a YOLO object detection network. We show that our OOD detector is capable of identifying OOD images in real-time on an embedded platform concurrently performing object detection and lane following. We also show that it can be used to successfully stop the vehicle in the presence of unknown, novel samples. | 翻訳日:2022-11-27 13:16:32 公開日:2022-11-15 |
# NEVIS'22:30年間のコンピュータビジョン研究から得られた100のタスクのストリーム NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research ( http://arxiv.org/abs/2211.11747v1 ) ライセンス: Link先を確認 | Jorg Bornschein, Alexandre Galashov, Ross Hemsley, Amal Rannen-Triki, Yutian Chen, Arslan Chaudhry, Xu Owen He, Arthur Douillard, Massimo Caccia, Qixuang Feng, Jiajun Shen, Sylvestre-Alvise Rebuffi, Kitty Stacpoole, Diego de las Casas, Will Hawkins, Angeliki Lazaridou, Yee Whye Teh, Andrei A. Rusu, Razvan Pascanu and Marc'Aurelio Ranzato | (参考訳) 我々は,過去30年間のコンピュータビジョン処理から一様に抽出された文書から,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever Ending VIsual-classification Stream (NEVIS'22)を紹介した。
その結果の流れは、調査コミュニティがどんな時点でも有意義だと考えたことを反映している。
分類に制限されているにもかかわらず,OCRからテクスチャ分析,群集数,シーン認識など,様々なタスクが生み出されている。
この多様性は、広範囲のデータセットサイズにも反映されており、4桁を超える。
全体として、NEVIS'22は、タスクの規模と多様性のため、現在の逐次学習アプローチでは前例のない課題を呈するが、単一のモダリティに制限され、各タスクは古典的な教師付き学習問題である。
さらに,高いベースラインと簡単な評価プロトコルを含む参照実装を提供し,精度と計算のトレードオフの観点からメソッドの比較を行う。
NEVIS'22は、継続的な学習、メタラーニング、AutoML、より一般的にはシーケンシャルな学習に取り組んでいる研究者にとって有用であり、これらのコミュニティが、絶え間ないデータストリームに効率的に適応するより堅牢で効率的なモデルに協力するのに役立つことを期待しています。
実装はhttps://github.com/deepmind/dm_nevisで利用可能である。 We introduce the Never Ending VIsual-classification Stream (NEVIS'22), a benchmark consisting of a stream of over 100 visual classification tasks, sorted chronologically and extracted from papers sampled uniformly from computer vision proceedings spanning the last three decades. The resulting stream reflects what the research community thought was meaningful at any point in time. Despite being limited to classification, the resulting stream has a rich diversity of tasks from OCR, to texture analysis, crowd counting, scene recognition, and so forth. The diversity is also reflected in the wide range of dataset sizes, spanning over four orders of magnitude. Overall, NEVIS'22 poses an unprecedented challenge for current sequential learning approaches due to the scale and diversity of tasks, yet with a low entry barrier as it is limited to a single modality and each task is a classical supervised learning problem. Moreover, we provide a reference implementation including strong baselines and a simple evaluation protocol to compare methods in terms of their trade-off between accuracy and compute. We hope that NEVIS'22 can be useful to researchers working on continual learning, meta-learning, AutoML and more generally sequential learning, and help these communities join forces towards more robust and efficient models that efficiently adapt to a never ending stream of data. Implementations have been made available at https://github.com/deepmind/dm_nevis. | 翻訳日:2022-11-27 13:08:54 公開日:2022-11-15 |
# youtubeのランキング機構とビュー予測のための機械学習モデル Machine Learning enabled models for YouTube Ranking Mechanism and Views Prediction ( http://arxiv.org/abs/2211.11528v1 ) ライセンス: Link先を確認 | Vandit Gupta, Akshit Diwan, Chaitanya Chadha, Ashish Khanna, Deepak Gupta | (参考訳) 今日のインターネット利用の継続的な増加により、誰もがテクノロジーの力の源泉に影響を受けています。
このため、アプリケーションやゲームの台頭は止められない。
人口の大多数は、これらの用途を多目的に使っている。
これらは教育、コミュニケーション、ニュース、エンタテインメントなど多岐にわたる。
このことから、世界が連絡を取っているか、現在の問題と確実に対応しているアプリケーションは、ソーシャルメディアである。
ソーシャルメディアのアプリケーションは過去10年間でブームとなり、スマートフォンやインターネットが手頃な価格で手に入るようになった。
TwitchやYoutubeのようなアプリケーションは、コンテンツを制作し、彼らの才能を表現するのに最適なプラットフォームだ。
すべてのコンテンツクリエーターが、最高の、最も信頼できるコンテンツを投稿することで、認識を得ることが目標です。
人気を得る方法を簡単に知ることが重要であり、本論文は注目を浴びるために提案されている。
コンテンツのリーチを適切な要因で乗算できるパラメータが存在するべきである。
提案する研究は,機械学習とAI技術を用いて,YouTubeビデオのリーチ,人気,ビューを特定・推定することを目的としている。
ランキングシステムは、トレンド動画を考慮に入れておくためにも使われる。
これにより、コンテンツクリエイターはコンテンツがいかに本物かを知ることができ、プラットフォームにビデオをアップロードする前により良いコンテンツを作るための健全な競争が保証される。 With the continuous increase of internet usage in todays time, everyone is influenced by this source of the power of technology. Due to this, the rise of applications and games Is unstoppable. A major percentage of our population uses these applications for multiple purposes. These range from education, communication, news, entertainment, and many more. Out of this, the application that is making sure that the world stays in touch with each other and with current affairs is social media. Social media applications have seen a boom in the last 10 years with the introduction of smartphones and the internet being available at affordable prices. Applications like Twitch and Youtube are some of the best platforms for producing content and expressing their talent as well. It is the goal of every content creator to post the best and most reliable content so that they can gain recognition. It is important to know the methods of achieving popularity easily, which is what this paper proposes to bring to the spotlight. There should be certain parameters based on which the reach of content could be multiplied by a good factor. The proposed research work aims to identify and estimate the reach, popularity, and views of a YouTube video by using certain features using machine learning and AI techniques. A ranking system would also be used keeping the trending videos in consideration. This would eventually help the content creator know how authentic their content is and healthy competition to make better content before uploading the video on the platform will be ensured. | 翻訳日:2022-11-27 13:08:16 公開日:2022-11-15 |
# UAV支援RANスライシングにおける被覆と資源配分を組み合わせた深部強化学習 Deep Reinforcement Learning for Combined Coverage and Resource Allocation in UAV-aided RAN-slicing ( http://arxiv.org/abs/2211.09713v1 ) ライセンス: Link先を確認 | Lorenzo Bellone, Boris Galkin, Emiliano Traversi, Enrico Natalizio | (参考訳) ネットワークスライシングは,第5世代ニューラジオにおける移動体コアと無線アクセスネットワーク(RAN)の仮想化を可能にする,よく評価されたアプローチである。
スライシングは、異質な要件セットを含む、新興で多様な垂直アプリケーションを扱う際に最も重要なものである。
5gはまた、無人航空機(uavs)が携帯電話網の標準の重要な要素となり、航空基地局としての使用と無線ネットワークの性能向上のために柔軟かつ迅速な展開を目標としている。
本研究は、航空基地局(uav-bs)が、一組のユーザのサービスレベルアグリーメント(sla)満足度を最適化することを目的としたネットワークスライシング能力を有する、uav支援5gネットワークを提案する。
ユーザは5gサービスタイプ(enhanced mobile broadband (embb)、ultra-reliable low-latency communication (urllc)、massive machine-type communication (mmtc))の3種類に分類される。
ネットワークスライシングの文脈におけるUAV-BSのマルチエージェントおよび多重決定深度強化学習の第一応用として,UAV-BSの2次元軌道のスライスと改善のための無線リソースの同時割り当てによるユーザのSLA満足度比の最適化を提案する。
提示された戦略のパフォーマンスはテストされ、ベンチマークヒューリスティックスと比較され、さまざまなシナリオにおいて満足度の高いユーザの割合(少なくとも27%以上)が強調されている。 Network slicing is a well assessed approach enabling virtualization of the mobile core and radio access network (RAN) in the emerging 5th Generation New Radio. Slicing is of paramount importance when dealing with the emerging and diverse vertical applications entailing heterogeneous sets of requirements. 5G is also envisioning Unmanned Aerial Vehicles (UAVs) to be a key element in the cellular network standard, aiming at their use as aerial base stations and exploiting their flexible and quick deployment to enhance the wireless network performance. This work presents a UAV-assisted 5G network, where the aerial base stations (UAV-BS) are empowered with network slicing capabilities aiming at optimizing the Service Level Agreement (SLA) satisfaction ratio of a set of users. The users belong to three heterogeneous categories of 5G service type, namely, enhanced mobile broadband (eMBB), ultra-reliable low-latency communication (URLLC), and massive machine-type communication (mMTC). A first application of multi-agent and multi-decision deep reinforcement learning for UAV-BS in a network slicing context is introduced, aiming at the optimization of the SLA satisfaction ratio of users through the joint allocation of radio resources to slices and refinement of the UAV-BSs 2-dimensional trajectories. The performance of the presented strategy have been tested and compared to benchmark heuristics, highlighting a higher percentage of satisfied users (at least 27% more) in a variety of scenarios. | 翻訳日:2022-11-18 17:33:08 公開日:2022-11-15 |
# 自然言語処理における「知識」の分析 Analyse der Entwicklungstreiber milit\"arischer Schwarmdrohnen durch Natural Language Processing ( http://arxiv.org/abs/2211.09680v1 ) ライセンス: Link先を確認 | Manuel Mundt | (参考訳) 軍事用ドローンは、武装紛争においてますます顕著な役割を担っている。
この研究の原動力は何か, サブドメインが存在するのかを解析し, 946研究に基づくNLP技術を用いて視覚的に提示する。
ほとんどの研究は欧米で行われ、アメリカ合衆国、イギリス、ドイツが主導している。
Tf-idfスコアでは、各国が研究対象のサブドメインに有意な差異があることが示されている。
全体としては2019年と2020年が最も多く出版され、2008年には軍用Swarmドローンに大きな関心が寄せられた。
この研究は、この地域の研究を初めて垣間見るもので、さらなる研究を促す。 Military drones are taking an increasingly prominent role in armed conflict, and the use of multiple drones in a swarm can be useful. Who the drivers of the research are and what sub-domains exist is analyzed and visually presented in this research using NLP techniques based on 946 studies. Most research is conducted in the Western world, led by the United States, the United Kingdom, and Germany. Through Tf-idf scoring, it is shown that countries have significant differences in the subdomains studied. Overall, 2019 and 2020 saw the most works published, with significant interest in military swarm drones as early as 2008. This study provides a first glimpse into research in this area and prompts further investigation. | 翻訳日:2022-11-18 15:44:22 公開日:2022-11-15 |
# 動的グラフニューラルネットワークによるインフルエンサー検出 Influencer Detection with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2211.09664v1 ) ライセンス: Link先を確認 | Elena Tiukhova, Emiliano Penaloza, Mar\'ia \'Oskarsd\'ottir, Hernan Garcia, Alejandro Correa Bahnsen, Bart Baesens, Monique Snoeck, Cristi\'an Bravo | (参考訳) 予測タスクにネットワーク情報を活用することは、多くのドメインで一般的なプラクティスとなっている。
ターゲットとするマーケティングの重要な部分であるインフルエンサー検出は、動的ネットワーク表現を組み込むことの恩恵を受ける可能性がある。
本研究では、インフルエンサー検出のための異なる動的グラフニューラルネットワーク(GNN)構成を調査し、ユニークな企業データセットを用いて予測性能を評価する。
GNNにおける深層多面的注意と時間特性の符号化が性能を著しく向上させることを示す。
さらに, ネットワーク集中度を用いた場合よりも, 近隣の表現を捉える方が有益であることを示す。 Leveraging network information for prediction tasks has become a common practice in many domains. Being an important part of targeted marketing, influencer detection can potentially benefit from incorporating dynamic network representation. In this work, we investigate different dynamic Graph Neural Networks (GNNs) configurations for influencer detection and evaluate their prediction performance using a unique corporate data set. We show that using deep multi-head attention in GNN and encoding temporal attributes significantly improves performance. Furthermore, our empirical evaluation illustrates that capturing neighborhood representation is more beneficial that using network centrality measures. | 翻訳日:2022-11-18 15:43:04 公開日:2022-11-15 |
# promptcap:プロンプトガイド付きタスクアウェア画像キャプション PromptCap: Prompt-Guided Task-Aware Image Captioning ( http://arxiv.org/abs/2211.09699v1 ) ライセンス: Link先を確認 | Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo | (参考訳) 画像キャプションは、自然言語文で画像を記述することを目的としており、強力な言語モデルで画像を理解することができる。
画像キャプションと言語モデルを組み合わせるフレームワークは、様々な視覚言語タスクで成功している。
しかし、画像は1つの文よりもはるかに多くの情報を含んでいるため、どの視覚的実体をキャプション文で記述すべきかが不明確になる。
例えば、視覚質問応答(VQA)を行う場合、一般的な画像キャプションは、言語モデルが正しく答えるために必要な視覚的詳細を見逃すことが多い。
そこで本研究では,自然言語プロンプトを用いて生成キャプションの内容を制御するキャプションモデルであるpromptcapを提案する。
プロンプトには、キャプションが答えの助けとなるべき質問が含まれており、画像内のシーンテキストのような補助的なテキスト入力もサポートする。
そこで本研究では,gpt-3と既存のvqaデータセットを用いて,訓練例を合成・フィルタリングするパイプラインを提案する。
評価のために、VQAを実行するために、画像キャプションで言語モデルを誘導する既存のパイプラインから始める。
同じ言語モデルでは、より高いQA精度で、生成したキャプションが質問プロンプトに関連があることが示される。
PromptCapは様々なVQAタスクにおいて一般的なキャプションよりも優れており、OK-VQAでは58.8%、A-OKVQAでは58.0%である。
WebQAでのゼロショット実験は、PromptCapが見えないドメインによく一般化していることを示している。 Image captioning aims to describe an image with a natural language sentence, allowing powerful language models to understand images. The framework of combining image captioning with language models has been successful on various vision-language tasks. However, an image contains much more information than a single sentence, leading to underspecification of which visual entities should be described in the caption sentence. For example, when performing visual questioning answering (VQA), generic image captions often miss visual details that are essential for the language model to answer correctly. To address this challenge, we propose PromptCap, a captioning model that takes a natural-language prompt to control the contents of the generated caption. The prompt contains a question that the caption should help to answer, and also supports taking auxiliary text inputs such as scene text within the image itself. To finetune a general image caption model for prompt-guided captioning, we propose a pipeline to synthesize and filter training examples with GPT-3 and existing VQA datasets. For evaluation, we start with an existing pipeline in which a language model is prompted with image captions to carry out VQA. With the same language model, a higher QA accuracy shows that our generated captions are more relevant to the question prompts. PromptCap outperforms generic captions by a large margin on a variety of VQA tasks and achieves the state-of-the-art accuracy of 58.8 % on OK-VQA and 58.0 % on A-OKVQA. Zero-shot experiments on WebQA show that PromptCap generalizes well to unseen domains. | 翻訳日:2022-11-18 15:16:45 公開日:2022-11-15 |
# DLKoopman:Koopman理論のためのディープラーニングソフトウェアパッケージ DLKoopman: A deep learning software package for Koopman theory ( http://arxiv.org/abs/2211.08992v1 ) ライセンス: Link先を確認 | Sourya Dey, Eric Davis | (参考訳) 我々は,線形空間への非線形力学系の符号化を学習し,同時に線形力学を学習する,Koopman理論のためのソフトウェアパッケージであるDLKoopmanを提案する。
以前のいくつかの取り組みは、エンコーディングを学習する能力を制限するか、特定のシステム向けに特別に設計されたものであるが、dlkoopmanは、あらゆる動的システムのデータ駆動学習と最適化に応用できる一般化されたツールである。
システムの個々の状態(スナップショット)からのデータに基づいてトレーニングしたり、未知の状態を予測したり、システムの軌道からデータをトレーニングしたり、新しい初期状態の未知の軌道を予測するために使用することができる。
DLKoopmanは'dlkoopman'としてPython Package Index(PyPI)で利用可能であり、豊富なドキュメントとチュートリアルを含んでいる。
このパッケージには、パフォーマンスを評価するための平均正規化絶対誤差と呼ばれる新しいメトリックや、パフォーマンスを改善するための使用可能なハイパーパラメータ探索モジュールが含まれている。 We present DLKoopman -- a software package for Koopman theory that uses deep learning to learn an encoding of a nonlinear dynamical system into a linear space, while simultaneously learning the linear dynamics. While several previous efforts have either restricted the ability to learn encodings, or been bespoke efforts designed for specific systems, DLKoopman is a generalized tool that can be applied to data-driven learning and optimization of any dynamical system. It can either be trained on data from individual states (snapshots) of a system and used to predict its unknown states, or trained on data from trajectories of a system and used to predict unknown trajectories for new initial states. DLKoopman is available on the Python Package Index (PyPI) as 'dlkoopman', and includes extensive documentation and tutorials. Additional contributions of the package include a novel metric called Average Normalized Absolute Error for evaluating performance, and a ready-to-use hyperparameter search module for improving performance. | 翻訳日:2022-11-17 17:05:19 公開日:2022-11-15 |
# 階層型ベイズ解析のための正規化流れ:重力波集団研究 Normalizing Flows for Hierarchical Bayesian Analysis: A Gravitational Wave Population Study ( http://arxiv.org/abs/2211.09008v1 ) ライセンス: Link先を確認 | David Ruhe, Kaze Wong, Miles Cranmer, Patrick Forr\'e | (参考訳) 本稿では,重力波群モデルフレームワーク(階層ベイズ解析)の正規化フローによる人口分布のパラメータ化を提案する。
まず,本手法の有効性を実証し,最新のligoデータリリースの4つのパラメータ(一次質量,二次質量,赤方偏移,有効スピン)を解析した。
その結果, 小さくてうるさかったデータセットにもかかわらず, 観測された重力波個体群復元構造の後方予測分布(流れのパラメータに先行して仮定する)は, 従前の強固な現象論的モデリング結果と一致し, 柔軟性の低い分布モデルによって引き起こされるバイアスに影響を受けにくいことがわかった。
そこで本手法は, データのノイズが高い場合でも, 個体群推定分布の柔軟な, 信頼性の高い代替手段となる。 We propose parameterizing the population distribution of the gravitational wave population modeling framework (Hierarchical Bayesian Analysis) with a normalizing flow. We first demonstrate the merit of this method on illustrative experiments and then analyze four parameters of the latest LIGO data release: primary mass, secondary mass, redshift, and effective spin. Our results show that despite the small and notoriously noisy dataset, the posterior predictive distributions (assuming a prior over the parameters of the flow) of the observed gravitational wave population recover structure that agrees with robust previous phenomenological modeling results while being less susceptible to biases introduced by less-flexible distribution models. Therefore, the method forms a promising flexible, reliable replacement for population inference distributions, even when data is highly noisy. | 翻訳日:2022-11-17 17:05:01 公開日:2022-11-15 |
# 情報ボトルネック原理を用いたマスケリコントラスト学習 Masked Reconstruction Contrastive Learning with Information Bottleneck Principle ( http://arxiv.org/abs/2211.09013v1 ) ライセンス: Link先を確認 | Ziwen Liu, Bonan Li, Congying Han, Tiande Guo, Xuecheng Nie | (参考訳) コントラスト学習(cl)は,大規模データ間の洞察相関を捉える能力から,自己教師付き学習において大きな力を発揮している。
現在のCLモデルは、識別的タスク設定によって正と負のペアを識別する能力のみを学ぶようにバイアスされる。
しかし、このバイアスは、他の下流タスクに対する十分性を無視して、差別的な情報過度問題と呼ぶことになる。
本稿では,情報ボトルネック(IB)の原理から上記の問題に対処し,CLのフロンティアをさらに前進させることを提案する。
具体的には、情報圧縮や表現を含むICB原則のインスタンス化について、CLが新たな視点を示す。
理論的には, 最適情報状況を分析し, 最小の増補表現と情報一般化表現が, 下流タスクの最大圧縮と一般化性を達成するための最適要件であることを実証する。
そこで我々は, CLモデルを改善するためのMasked Reconstruction Contrastive Learning~(MRCL)モデルを提案する。
実際の実装では、mrclはマスキング操作を利用してより強化され、冗長でうるさい情報を排除している。
識別情報過適合問題を効果的に緩和するために,識別タスクを正規化するために再構成タスクを用いる。
画像分類,意味セグメンテーション,客観的検出など複数のタスクにおいて,提案モデルの優越性を示すため,包括的な実験を行った。 Contrastive learning (CL) has shown great power in self-supervised learning due to its ability to capture insight correlations among large-scale data. Current CL models are biased to learn only the ability to discriminate positive and negative pairs due to the discriminative task setting. However, this bias would lead to ignoring its sufficiency for other downstream tasks, which we call the discriminative information overfitting problem. In this paper, we propose to tackle the above problems from the aspect of the Information Bottleneck (IB) principle, further pushing forward the frontier of CL. Specifically, we present a new perspective that CL is an instantiation of the IB principle, including information compression and expression. We theoretically analyze the optimal information situation and demonstrate that minimum sufficient augmentation and information-generalized representation are the optimal requirements for achieving maximum compression and generalizability to downstream tasks. Therefore, we propose the Masked Reconstruction Contrastive Learning~(MRCL) model to improve CL models. For implementation in practice, MRCL utilizes the masking operation for stronger augmentation, further eliminating redundant and noisy information. In order to alleviate the discriminative information overfitting problem effectively, we employ the reconstruction task to regularize the discriminative task. We conduct comprehensive experiments and show the superiority of the proposed model on multiple tasks, including image classification, semantic segmentation and objective detection. | 翻訳日:2022-11-17 17:02:14 公開日:2022-11-15 |
# 解釈型MLを用いた不連続時変リスク因子の推定と治療効果 Estimating Discontinuous Time-Varying Risk Factors and Treatment Benefits for COVID-19 with Interpretable ML ( http://arxiv.org/abs/2211.08991v1 ) ライセンス: Link先を確認 | Benjamin Lengerich, Mark E. Nunnally, Yin Aphinyanaphongs, Rich Caruana | (参考訳) 治療の手順や病気の理解、ウイルスの特徴は新型コロナウイルスのパンデミックの過程で変化し、その結果、患者の共生やバイオマーカーに関連するリスクも変化した。
また,2020年3月から2021年8月までのニューヨーク市の病院で, 4000人以上の入院患者の炎症, 止血, 血管機能について, 経時的観察を行った。
この分析を行うために,離散的なプロトコル変更による不連続なリスク変化を回復する時間的相互作用を持つ木ベース一般化加法モデルを適用する。
血栓症のバイオマーカーは2020年3月から2021年8月までの死亡率を増加させ,炎症のバイオマーカーと血栓症との関係は弱まった。
新型コロナウイルス以外にも、未知かつ不連続な時間変化の影響を推定する簡単な方法が提示される。 Treatment protocols, disease understanding, and viral characteristics changed over the course of the COVID-19 pandemic; as a result, the risks associated with patient comorbidities and biomarkers also changed. We add to the conversation regarding inflammation, hemostasis and vascular function in COVID-19 by performing a time-varying observational analysis of over 4000 patients hospitalized for COVID-19 in a New York City hospital system from March 2020 to August 2021. To perform this analysis, we apply tree-based generalized additive models with temporal interactions which recover discontinuous risk changes caused by discrete protocols changes. We find that the biomarkers of thrombosis increasingly predicted mortality from March 2020 to August 2021, while the association between biomarkers of inflammation and thrombosis weakened. Beyond COVID-19, this presents a straightforward methodology to estimate unknown and discontinuous time-varying effects. | 翻訳日:2022-11-17 16:52:05 公開日:2022-11-15 |
# 加速度計信号と差動畳み込みニューラルネットワークを用いた列車の車軸損傷検出 Detecting train driveshaft damages using accelerometer signals and Differential Convolutional Neural Networks ( http://arxiv.org/abs/2211.09011v1 ) ライセンス: Link先を確認 | Ant\'ia L\'opez Galdo, Alejandro Guerrero-L\'opez, Pablo M. Olmos, Mar\'ia Jes\'us G\'omez Garc\'ia | (参考訳) 鉄道軸の保守は壊滅的な故障を避けるために重要である。
現在では、人命の莫大なコストや損害を防ぐための状況監視技術が業界で注目されている。
本稿では,2次元畳み込みニューラルネットワーク(cnn)アーキテクチャを用いた振動信号の時間周波数表現のための鉄道軸状態監視システムの開発を提案する。
この目的のために,複数の前処理ステップと異なるタイプのディープラーニング (dl) と機械学習 (ml) アーキテクチャについて検討し,正確な分類システムを設計する。
その結果、鉄道軸振動信号を時間周波数領域表現(すなわちスペクトログラム)に変換し、2次元cnnを訓練し、ひび割れに応じて分類する。
その結果,提案手法は試験方法よりも優れていることがわかった。
CNNアーキテクチャは3つの異なるホイールセットアセンブリでテストされており、AUCスコアは0.93、0.86、0.75で、他のアーキテクチャよりも優れており、4つの異なるレベルの欠陥を分類する際に高い信頼性を示す。 Railway axle maintenance is critical to avoid catastrophic failures. Nowadays, condition monitoring techniques are becoming more prominent in the industry to prevent enormous costs and damage to human lives. This paper proposes the development of a railway axle condition monitoring system based on advanced 2D-Convolutional Neural Network (CNN) architectures applied to time-frequency representations of vibration signals. For this purpose, several preprocessing steps and different types of Deep Learning (DL) and Machine Learning (ML) architectures are discussed to design an accurate classification system. The resultant system converts the railway axle vibration signals into time-frequency domain representations, i.e., spectrograms, and, thus, trains a two-dimensional CNN to classify them depending on their cracks. The results showed that the proposed approach outperforms several alternative methods tested. The CNN architecture has been tested in 3 different wheelset assemblies, achieving AUC scores of 0.93, 0.86, and 0.75 outperforming any other architecture and showing a high level of reliability when classifying 4 different levels of defects. | 翻訳日:2022-11-17 16:51:27 公開日:2022-11-15 |
# ParticleGrid: 材料の3次元表現によるディープラーニングの実現 ParticleGrid: Enabling Deep Learning using 3D Representation of Materials ( http://arxiv.org/abs/2211.08506v1 ) ライセンス: Link先を確認 | Shehtab Zaman, Ethan Ferguson, Cecile Pereira, Denis Akhiyarov, Mauricio Araya-Polo, Kenneth Chiu | (参考訳) AlexNetからInceptionまで、オートエンコーダから拡散モデル、新しい強力なディープラーニングモデルと学習アルゴリズムの開発は、ブレークネックスピードで進んでいる。
モデルアーキテクチャと学習手法の迅速な反復は、基礎となるエンティティの共通表現に関する研究者の大規模なコミュニティによって、伝達可能な深層学習の知識をもたらすと信じている。
その結果、コンピュータビジョンや自然言語処理において、モデルスケール、精度、忠実度、計算性能が劇的に向上した。
一方、化学構造に対する共通表現の欠如は、同様の進展を阻害している。
伝達可能な深層学習を実現するため,分子や結晶などの材料を3次元的に立体的に表現する必要性を同定する。
目標は3次元構造を用いた材料特性予測と材料生成を可能にすることである。
計算コストは高いが、そのような表現は化学構造の大きな集合をモデル化することができる。
3d構造のためのsimd最適化ライブラリである$\textit{particlegrid}$を提案し、ディープラーニングアプリケーション用に設計し、ディープラーニングフレームワークとシームレスに統合する。
高度に最適化されたグリッド生成は、CPU上で高速にグリッドを生成し、ストレージとGPU計算とメモリ要求を削減します。
3次元畳み込みニューラルネットワークを用いて,$\textit{particlegrid}$で生成された3次元グリッドの有効性を示し,分子エネルギー特性を正確に予測する。
このモデルは平均2乗誤差0.006 を得ることができ、計算コストの高い密度汎関数理論を用いて計算した値とほぼ一致する。 From AlexNet to Inception, autoencoders to diffusion models, the development of novel and powerful deep learning models and learning algorithms has proceeded at breakneck speeds. In part, we believe that rapid iteration of model architecture and learning techniques by a large community of researchers over a common representation of the underlying entities has resulted in transferable deep learning knowledge. As a result, model scale, accuracy, fidelity, and compute performance have dramatically increased in computer vision and natural language processing. On the other hand, the lack of a common representation for chemical structure has hampered similar progress. To enable transferable deep learning, we identify the need for a robust 3-dimensional representation of materials such as molecules and crystals. The goal is to enable both materials property prediction and materials generation with 3D structures. While computationally costly, such representations can model a large set of chemical structures. We propose $\textit{ParticleGrid}$, a SIMD-optimized library for 3D structures, that is designed for deep learning applications and to seamlessly integrate with deep learning frameworks. Our highly optimized grid generation allows for generating grids on the fly on the CPU, reducing storage and GPU compute and memory requirements. We show the efficacy of 3D grids generated via $\textit{ParticleGrid}$ and accurately predict molecular energy properties using a 3D convolutional neural network. Our model is able to get 0.006 mean square error and nearly match the values calculated using computationally costly density functional theory at a fraction of the time. | 翻訳日:2022-11-17 16:44:39 公開日:2022-11-15 |
# ダイナミックグラフとスパースグラフのリンク予測のためのグラフシーケンスニューラルODEプロセス Graph Sequential Neural ODE Process for Link Prediction on Dynamic and Sparse Graphs ( http://arxiv.org/abs/2211.08568v1 ) ライセンス: Link先を確認 | Linhao Luo, Reza Haffari, Shirui Pan | (参考訳) 動的グラフのリンク予測はグラフマイニングにおいて重要なタスクである。
動的グラフニューラルネットワーク(DGNN)に基づく既存のアプローチは、通常、大量の履歴データ(時間的相互作用)を必要とするが、実際には必ずしも利用できない。
グラフデータに共通する現象であるリンクの欠落は、さらに問題を悪化させ、非常にスパースでダイナミックなグラフを生成する。
この問題に対処するため,本手法はgraph sequential neural ode process (gsnop)と呼ばれるニューラルプロセスに基づく新しい手法を提案する。
特に、GSNOPは、動的に変化する確率過程として動的グラフ上のリンク予測をモデル化する神経過程と神経常微分方程式の利点を組み合わせる。
関数上の分布を定義することで、GSNOPは予測に不確実性を導入し、スパースデータに過度に適合するのではなく、より多くの状況に一般化する。
GSNOPはまた、リンク予測のための時系列および幾何学的情報を考えるために、任意のDGNNと統合できるモデル構造にも依存しない。
3つの動的グラフデータセットに対する大規模な実験により、GSNOPは既存のDGNNの性能を大幅に改善し、他のニューラルプロセスの亜種よりも優れていることが示された。 Link prediction on dynamic graphs is an important task in graph mining. Existing approaches based on dynamic graph neural networks (DGNNs) typically require a significant amount of historical data (interactions over time), which is not always available in practice. The missing links over time, which is a common phenomenon in graph data, further aggravates the issue and thus creates extremely sparse and dynamic graphs. To address this problem, we propose a novel method based on the neural process, called Graph Sequential Neural ODE Process (GSNOP). Specifically, GSNOP combines the advantage of the neural process and neural ordinary differential equation that models the link prediction on dynamic graphs as a dynamic-changing stochastic process. By defining a distribution over functions, GSNOP introduces the uncertainty into the predictions, making it generalize to more situations instead of overfitting to the sparse data. GSNOP is also agnostic to model structures that can be integrated with any DGNN to consider the chronological and geometrical information for link prediction. Extensive experiments on three dynamic graph datasets show that GSNOP can significantly improve the performance of existing DGNNs and outperform other neural process variants. | 翻訳日:2022-11-17 16:44:15 公開日:2022-11-15 |
# 潜在空間における共起バイアス調整のための因果表現学習の実現 Realization of Causal Representation Learning to Adjust Confounding Bias in Latent Space ( http://arxiv.org/abs/2211.08573v1 ) ライセンス: Link先を確認 | Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar | (参考訳) ディープラーニング(DL)モデルをグラフィカル因果学習に適用することは、優れた効果と効率性をもたらしたが、ドメイン科学で広く使われるには程遠い。
EHR (Electronic Healthcare Records) の研究において, DL が自動的に調整できない因果的データには, 偏見が本質的に存在することがわかった。
ソースへのトレースは、非循環因果グラフが多次元である可能性があるため、バイアスと因果学習は2つの部分空間で起こるため、学習プロセスからは観察できない。
本稿ではまず,因果グラフの次元性の概念を提起する。
この場合、3次元dag(directed acyclic graph)空間は因果変数の軸、絶対タイムライン、相対タイムラインによって定義される。
本研究では,潜在空間におけるグラフィカルな因果学習を実現するための新しいフレームワークであるcausal representation learning (crl)を提案する。
1)本質的なバイアス調整と
2) DL因果モデル一般化問題。
また、当初設計したアーキテクチャによるCRLの実現を実証し、その実現可能性について実験的に確認する。 Applying Deep Learning (DL) models to graphical causal learning has brought outstanding effectiveness and efficiency but is still far from widespread use in domain sciences. In research of EHR (Electronic Healthcare Records), we realize that some confounding bias inherently exists in the causally formed data, which DL cannot automatically adjust. Trace to the source is because the Acyclic Causal Graph can be Multi-Dimensional, so the bias and causal learning happen in two subspaces, which makes it unobservable from the learning process. This paper initially raises the concept of Dimensionality for causal graphs. In our case, the 3-Dimensional DAG (Directed Acyclic Graph) space is defined by the axes of causal variables, the Absolute timeline, and Relative timelines; This is also the essential difference between Causality and Correlation problems. We propose a novel new framework Causal Representation Learning (CRL), to realize Graphical Causal Learning in latent space, which aims to provide general solutions for 1) the inherent bias adjustment and 2) the DL causal models generalization problem. We will also demonstrate the realization of CRL with originally designed architecture and experimentally confirm its feasibility. | 翻訳日:2022-11-17 16:43:54 公開日:2022-11-15 |
# ソーシャル・メカニズムデザイン:低レベルの紹介 Social Mechanism Design: A Low-Level Introduction ( http://arxiv.org/abs/2211.08501v1 ) ライセンス: Link先を確認 | Ben Abramowitz and Nicholas Mattei | (参考訳) エージェントが意思決定結果と意思決定に使用するルールや手順の両方を優先するという事実にどう対処すればよいのか?
規則よりも優先事項を集約するルールを作成すると、優先事項と規則を連続的に高い「レベル」で無限の回帰に陥るように見える。
私たちの分析の出発点は、無限レグレッシブは実際には問題であってはならない、なぜならそのような選好は必然的に複雑性に拘束され、いくつかの(おそらく潜在性のある)規範的原則に従って、一貫性を持って構成されるからである。
本研究の中核となる貢献は,(1)低レベルの単純直感的な選好構造を同定し,より高いレベルの選好の構成要素を形成するように一般化し,(2)低レベルの選好を「受け入れ」するエージェント数を最大化するアルゴリズムの開発である。
非対称双調選択法と憲法修正法という2つの異なる領域における受容最大化のアルゴリズムを分析した。
どちらの環境でも、適切なアルゴリズムの最悪の場合のパフォーマンスを調べ、普遍的な受け入れられる状況を明らかにする。
特に、アブラモヴィッツ、シャピロ、タルモン(2021年)が最近提案した憲法改正手続きが、普遍的に受け入れられることを示した。 How do we deal with the fact that agents have preferences over both decision outcomes and the rules or procedures used to make decisions? If we create rules for aggregating preferences over rules, it would appear that we run into infinite regress with preferences and rules at successively higher "levels." The starting point of our analysis is the claim that infinite regress should not be a problem in practice, as any such preferences will necessarily be bounded in complexity and structured coherently in accordance with some (possibly latent) normative principles. Our core contributions are (1) the identification of simple, intuitive preference structures at low levels that can be generalized to form the building blocks of preferences at higher levels, and (2) the development of algorithms for maximizing the number of agents with such low-level preferences who will "accept" a decision. We analyze algorithms for acceptance maximization in two different domains: asymmetric dichotomous choice and constitutional amendment. In both settings we study the worst-case performance of the appropriate algorithms, and reveal circumstances under which universal acceptance is possible. In particular, we show that constitutional amendment procedures proposed recently by Abramowitz, Shapiro, and Talmon (2021) can achieve universal acceptance. | 翻訳日:2022-11-17 16:36:32 公開日:2022-11-15 |
# 高速接続型話者適応 Rapid Connectionist Speaker Adaptation ( http://arxiv.org/abs/2211.08978v1 ) ライセンス: Link先を確認 | Michael Witbrock and Patrick Haffner | (参考訳) 本稿では,話者変動をモデル化するシステムであるSVCnetを提案する。
各音声に特化したエンコーダニューラルネットワークは、音響変動の低次元モデルを生成し、これらのモデルはさらに音声変動の全体モデルに結合される。
音声が発声されたこのモデルの依存性を最小限に抑える訓練手順について述べる。
訓練されたモデル(SVCnet)と、新しい話者の声の短時間で制約のないサンプルを用いて、システムは、新しい話者に認識システムを適応させるのに使える話者音声コードを生成する。
SVCnetとMS-TDNN認識器を組み合わせたシステムについて述べる。 We present SVCnet, a system for modelling speaker variability. Encoder Neural Networks specialized for each speech sound produce low dimensionality models of acoustical variation, and these models are further combined into an overall model of voice variability. A training procedure is described which minimizes the dependence of this model on which sounds have been uttered. Using the trained model (SVCnet) and a brief, unconstrained sample of a new speaker's voice, the system produces a Speaker Voice Code that can be used to adapt a recognition system to the new speaker without retraining. A system which combines SVCnet with an MS-TDNN recognizer is described | 翻訳日:2022-11-17 16:35:12 公開日:2022-11-15 |
# ヘテロシedastic gaussian sequence modelにおけるスパース信号検出:シャープミニマックスレート Sparse Signal Detection in Heteroscedastic Gaussian Sequence Models: Sharp Minimax Rates ( http://arxiv.org/abs/2211.08580v1 ) ライセンス: Link先を確認 | Julien Chhor, Rajarshi Mukherjee, Subhabrata Sen | (参考訳) 平均 $\theta \in \mathbb r^d$ と共分散行列 $\sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$ のガウス列モデルが与えられたとき、信号検出問題をスパース代替問題に対して検討する。
すなわち、高い確率で null 仮説を区別するために、$\epsilon^*>0$ がどれだけ大きいかを特徴づける。$\mathbb R^d$ のスパースベクトルからなる代替品 $\theta=0$ は、少なくとも$$$\epsilon^*$ によって$0$ in $L^t$ ノルム$t \geq 1$) から分離される。
minimax分離半径 $\epsilon^*$ の上の上限と下限を見つけ、それらが常に一致することを証明します。
また、これらの境界を達成するためのミニマックステストも導出する。
以上の結果から,スパルシティのレベル,l^t$のメートル法,\sigma$のヘテロシステキシティプロファイルに対する$\epsilon^*$の挙動に関する新たな相転移が明らかになった。
ユークリッド分離(すなわち$L^2$)の場合、文献の残りのギャップを埋める。 Given a heterogeneous Gaussian sequence model with mean $\theta \in \mathbb R^d$ and covariance matrix $\Sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$, we study the signal detection problem against sparse alternatives. Namely, we characterize how large $\epsilon^*>0$ should be, in order to distinguish with high probability the null hypothesis $\theta=0$ from the alternative composed of sparse vectors in $\mathbb R^d$, separated from $0$ in $L^t$ norm ($t \geq 1$) by at least~$\epsilon^*$. We find minimax upper and lower bounds over the minimax separation radius $\epsilon^*$ and prove that they are always matching. We also derive the corresponding minimax tests achieving these bounds. Our results reveal new phase transitions regarding the behavior of $\epsilon^*$ with respect to the level of sparsity, to the $L^t$ metric, and to the heteroscedasticity profile of $\Sigma$. In the case of the Euclidean (i.e. $L^2$) separation, we bridge the remaining gaps in the literature. | 翻訳日:2022-11-17 16:35:01 公開日:2022-11-15 |
# ループ内フレーム予測による学習映像圧縮の促進 Advancing Learned Video Compression with In-loop Frame Prediction ( http://arxiv.org/abs/2211.07004v2 ) ライセンス: Link先を確認 | Ren Yang, Radu Timofte, Luc Van Gool | (参考訳) 近年、エンド・ツー・エンドの学習ビデオ圧縮への関心が高まっている。
これまでのほとんどの作品は、基準フレームを目標フレームに向けてゆるめるためにモーションマップを検出して圧縮することで、時間的冗長性を探求している。
しかし、逐次参照フレームの歴史的な優先事項を十分に活用できなかった。
本稿では,従来圧縮されていたフレームからターゲットフレームを効果的に予測可能な,ループ内フレーム予測モジュールを用いた高度学習ビデオ圧縮(ALVC)手法を提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受ける。
提案するループ内予測モジュールは、エンドツーエンドのビデオ圧縮の一部であり、フレームワーク全体で共同最適化されている。
PフレームとBフレームをそれぞれ圧縮するリカレントおよび双方向のループ内予測モジュールを提案する。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示す。
また、PSNRの観点からは、デフォルトの階層Bモードx265より優れており、MS-SSIM上でのSSIMチューニングx265の最も遅いモードよりも優れている。
プロジェクトページ:https://github.com/RenYang-home/ALVC。 Recent years have witnessed an increasing interest in end-to-end learned video compression. Most previous works explore temporal redundancy by detecting and compressing a motion map to warp the reference frame towards the target frame. Yet, it failed to adequately take advantage of the historical priors in the sequential reference frames. In this paper, we propose an Advanced Learned Video Compression (ALVC) approach with the in-loop frame prediction module, which is able to effectively predict the target frame from the previously compressed frames, \textit{without consuming any bit-rate}. The predicted frame can serve as a better reference than the previously compressed frame, and therefore it benefits the compression performance. The proposed in-loop prediction module is a part of the end-to-end video compression and is jointly optimized in the whole framework. We propose the recurrent and the bi-directional in-loop prediction modules for compressing P-frames and B-frames, respectively. The experiments show the state-of-the-art performance of our ALVC approach in learned video compression. We also outperform the default hierarchical B mode of x265 in terms of PSNR and beat the slowest mode of the SSIM-tuned x265 on MS-SSIM. The project page: https://github.com/RenYang-home/ALVC. | 翻訳日:2022-11-17 16:17:05 公開日:2022-11-15 |
# 水中無脊椎動物検出のためのコンテキストマッチングコラージュ生成 Context-Matched Collage Generation for Underwater Invertebrate Detection ( http://arxiv.org/abs/2211.08479v1 ) ライセンス: Link先を確認 | R. Austin McEver, Bowen Zhang, B.S. Manjunath | (参考訳) トレーニングセットの品質とサイズは、しばしばアートオブジェクト検出器の多くの状態のパフォーマンスを制限する。
しかし、多くのシナリオにおいて、これらのオブジェクト検出器のトレーニングに適したアノテーションの収集に関連するコストは言うまでもなく、トレーニングのための画像収集は困難である。
これらの理由から、DUSIA(Dataset for Underwater Substrate and Invertebrate Analysis)のような挑戦的なビデオデータセットでは、予算は部分的なアノテーションの収集と提供しかできない。
これは、明示的なコンテキストラベルを利用して、未使用のバックグラウンドサンプルと既存の注釈付きデータを組み合わせて、オブジェクト検出性能を最終的に向上する追加のトレーニングサンプルを合成するものだ。
生成したコラージュ画像と元のトレーニングセットを組み合わせることで、DUSIA上の3つの異なるオブジェクト検出器によるパフォーマンスが改善され、最終的にデータセット上でのアートオブジェクト検出性能が達成される。 The quality and size of training sets often limit the performance of many state of the art object detectors. However, in many scenarios, it can be difficult to collect images for training, not to mention the costs associated with collecting annotations suitable for training these object detectors. For these reasons, on challenging video datasets such as the Dataset for Underwater Substrate and Invertebrate Analysis (DUSIA), budgets may only allow for collecting and providing partial annotations. To aid in the challenges associated with training with limited and partial annotations, we introduce Context Matched Collages, which leverage explicit context labels to combine unused background examples with existing annotated data to synthesize additional training samples that ultimately improve object detection performance. By combining a set of our generated collage images with the original training set, we see improved performance using three different object detectors on DUSIA, ultimately achieving state of the art object detection performance on the dataset. | 翻訳日:2022-11-17 16:16:24 公開日:2022-11-15 |
# DCTパーセプトロン層:畳み込み層に対する変換領域アプローチ DCT Perceptron Layer: A Transform Domain Approach for Convolution Layer ( http://arxiv.org/abs/2211.08577v1 ) ライセンス: Link先を確認 | Hongyi Pan, Xin Zhu, Salih Atici, Ahmet Enis Cetin | (参考訳) 本稿では,Residual Neural Network (ResNet)における3ドル3ドルのConv2Dレイヤを置き換えるために,DCTパーセプトロンと呼ばれる新しい離散コサイン変換(DCT)ベースのニューラルネットワーク層を提案する。
畳み込みフィルタリング操作は、フーリエとDCTの畳み込み定理を利用して要素ワイド乗算を用いてDCT領域で実行される。
dctパーセプトロンの非線形性として、トレーニング可能な軟弱層を用いる。
ResNetのConv2D層と比較すると,提案層は位置固有であり,チャネル固有である。
DCTパーセプトロン層は、CIFAR-10とImageNet-1Kの通常のResNetの精度を同等に保ちながら、パラメータと乗算の数を著しく削減する。
さらに、DCT-パーセプトロン層を従来のResNetのグローバル平均プーリング層の前にバッチ正規化層で挿入することで、分類精度を向上させることができる。 In this paper, we propose a novel Discrete Cosine Transform (DCT)-based neural network layer which we call DCT-perceptron to replace the $3\times3$ Conv2D layers in the Residual neural Network (ResNet). Convolutional filtering operations are performed in the DCT domain using element-wise multiplications by taking advantage of the Fourier and DCT Convolution theorems. A trainable soft-thresholding layer is used as the nonlinearity in the DCT perceptron. Compared to ResNet's Conv2D layer which is spatial-agnostic and channel-specific, the proposed layer is location-specific and channel-specific. The DCT-perceptron layer reduces the number of parameters and multiplications significantly while maintaining comparable accuracy results of regular ResNets in CIFAR-10 and ImageNet-1K. Moreover, the DCT-perceptron layer can be inserted with a batch normalization layer before the global average pooling layer in the conventional ResNets as an additional layer to improve classification accuracy. | 翻訳日:2022-11-17 16:15:56 公開日:2022-11-15 |
# 線形遺伝的プログラミングのためのPhenotype Search Trajectory Networks Phenotype Search Trajectory Networks for Linear Genetic Programming ( http://arxiv.org/abs/2211.08516v1 ) ライセンス: Link先を確認 | Ting Hu and Gabriela Ochoa and Wolfgang Banzhaf | (参考訳) 遺伝子型からフェノタイプへのマッピングは、突然変異などの遺伝子型変異を表現型変化に変換する。
中立性は、一部の変異が表現型の変化を起こさないという観察である。
遺伝子型および表現型空間における探索軌跡の研究、特に中性突然変異は、進化の進行とそのアルゴリズム的振る舞いをよりよく理解するのに役立ちます。
本研究では,遺伝的プログラミングシステムの探索軌跡をグラフベースモデルとして視覚化し,ノードは遺伝子型/フェノタイプ,エッジは突然変異遷移を表す。
また,遺伝子型の存在量(中立性要件)やコルモゴロフ複雑性を含む表現型の特徴を定量的に測定した。
我々はこれらの定量化指標を探索軌跡の可視化と結びつけ、より複雑な表現型がより少ない遺伝子型によって過小評価されており、発見が困難であることを示す。
一方、より複雑な表現型は遺伝子型によって過剰に発現され、発見が容易であり、しばしば進化の踏み台となる。 Genotype-to-phenotype mappings translate genotypic variations such as mutations into phenotypic changes. Neutrality is the observation that some mutations do not lead to phenotypic changes. Studying the search trajectories in genotypic and phenotypic spaces, especially through neutral mutations, helps us to better understand the progression of evolution and its algorithmic behaviour. In this study, we visualise the search trajectories of a genetic programming system as graph-based models, where nodes are genotypes/phenotypes and edges represent their mutational transitions. We also quantitatively measure the characteristics of phenotypes including their genotypic abundance (the requirement for neutrality) and Kolmogorov complexity. We connect these quantified metrics with search trajectory visualisations, and find that more complex phenotypes are under-represented by fewer genotypes and are harder for evolution to discover. Less complex phenotypes, on the other hand, are over-represented by genotypes, are easier to find, and frequently serve as stepping-stones for evolution. | 翻訳日:2022-11-17 16:06:23 公開日:2022-11-15 |
# 決定論的l2ロバスト性向上技術 Improved techniques for deterministic l2 robustness ( http://arxiv.org/abs/2211.08453v1 ) ライセンス: Link先を確認 | Sahil Singla, Soheil Feizi | (参考訳) l_{2}$ノルムの下で厳格な1-リプシッツ制約を持つトレーニング畳み込みニューラルネットワーク(cnns)は、敵対的堅牢性、解釈可能な勾配、安定したトレーニングに有用である。
1-リプシッツcnnは通常、各層を直交ヤコビ行列(全ての入力に対して)を持つように強制して、逆プロパゲーション中に勾配が消えないように設計されている。
しかし、それらの性能は、結果のCNNがtextit{provably} 1-Lipschitzでないリプシッツ制約を強制するヒューリスティックメソッドよりも著しく遅れることが多い。
この作業では、導入によってこのギャップを減らします。
(a) 1-Lipschitz CNNのロバスト性を証明する手順は、最終線形層を 1-Hdden 層 MLP に置き換えることにより、標準的かつ確実にロバストな精度で性能を著しく向上させる。
(b)スキュー直交畳み込み(SOC)層におけるエポック当たりのトレーニング時間を著しく短縮する手法(より深いネットワークでは>30\%削減)と
(c) 多様体への入力の$l_{2}$距離が 1-Lipschitz であるという数学的性質を用いたプール層のクラス。
これらの手法を用いることで、CIFAR-10(+1.79\%および+3.82\%)およびCIFAR-100(+3.78\%および+4.75\%)の標準および証明可能な堅牢な精度を著しく向上させる。
コードは \url{https://github.com/singlasahil14/improved_l2_robustness} で入手できる。 Training convolutional neural networks (CNNs) with a strict 1-Lipschitz constraint under the $l_{2}$ norm is useful for adversarial robustness, interpretable gradients and stable training. 1-Lipschitz CNNs are usually designed by enforcing each layer to have an orthogonal Jacobian matrix (for all inputs) to prevent the gradients from vanishing during backpropagation. However, their performance often significantly lags behind that of heuristic methods to enforce Lipschitz constraints where the resulting CNN is not \textit{provably} 1-Lipschitz. In this work, we reduce this gap by introducing (a) a procedure to certify robustness of 1-Lipschitz CNNs by replacing the last linear layer with a 1-hidden layer MLP that significantly improves their performance for both standard and provably robust accuracy, (b) a method to significantly reduce the training time per epoch for Skew Orthogonal Convolution (SOC) layers (>30\% reduction for deeper networks) and (c) a class of pooling layers using the mathematical property that the $l_{2}$ distance of an input to a manifold is 1-Lipschitz. Using these methods, we significantly advance the state-of-the-art for standard and provable robust accuracies on CIFAR-10 (gains of +1.79\% and +3.82\%) and similarly on CIFAR-100 (+3.78\% and +4.75\%) across all networks. Code is available at \url{https://github.com/singlasahil14/improved_l2_robustness}. | 翻訳日:2022-11-17 15:58:54 公開日:2022-11-15 |
# 健康サプライチェーン最適化のための意思決定学習 Decision-Aware Learning for Optimizing Health Supply Chains ( http://arxiv.org/abs/2211.08507v1 ) ライセンス: Link先を確認 | Tsai-Hsuan Chung, Vahid Rostami, Hamsa Bastani, Osbert Bastani | (参考訳) 開発途上国,特にシエラレオネにおいて,医療資源の供給が限られている問題について検討する。
機械学習(需要予測)と最適化(アロケーションの最適化)を組み合わせることでこの問題に対処する。
重要な課題は、機械学習モデルのトレーニングに使用する損失関数を、下流最適化問題に関連する決定損失と整合させることである。
従来のソリューションはモデルアーキテクチャの柔軟性が限られており、大規模なデータセットではスケールが貧弱である。
本稿では,最適決定損失のテイラー展開を用いて,機械学習損失を導出する意思決定認識学習アルゴリズムを提案する。
重要なことは、我々のアプローチはトレーニングデータの単純な再重み付けのみを必要としており、柔軟性と拡張性の両方を確保している。
我々は,シエラレオネの政策立案者と協力して,本質的な医薬品の流通を最適化する枠組みを適用した。
サンプル調査の結果、シエラレオネの1040の医療施設において、エンド・ツー・エンドのアプローチが大幅に需要を削減できることが分かりました。 We study the problem of allocating limited supply of medical resources in developing countries, in particular, Sierra Leone. We address this problem by combining machine learning (to predict demand) with optimization (to optimize allocations). A key challenge is the need to align the loss function used to train the machine learning model with the decision loss associated with the downstream optimization problem. Traditional solutions have limited flexibility in the model architecture and scale poorly to large datasets. We propose a decision-aware learning algorithm that uses a novel Taylor expansion of the optimal decision loss to derive the machine learning loss. Importantly, our approach only requires a simple re-weighting of the training data, ensuring it is both flexible and scalable, e.g., we incorporate it into a random forest trained using a multitask learning framework. We apply our framework to optimize the distribution of essential medicines in collaboration with policymakers in Sierra Leone; highly uncertain demand and limited budgets currently result in excessive unmet demand. Out-of-sample results demonstrate that our end-to-end approach can significantly reduce unmet demand across 1040 health facilities throughout Sierra Leone. | 翻訳日:2022-11-17 15:58:20 公開日:2022-11-15 |
# 選択機械学習アルゴリズムにおけるハイパーパラメータの挙動:実証的研究 Behavior of Hyper-Parameters for Selected Machine Learning Algorithms: An Empirical Investigation ( http://arxiv.org/abs/2211.08536v1 ) ライセンス: Link先を確認 | Anwesha Bhattacharyya, Joel Vaughan, and Vijayan N. Nair | (参考訳) ハイパーパラメータ(hps)は機械学習(ml)モデル開発の重要な部分であり、パフォーマンスに大きな影響を与える。
本稿では,これらのアルゴリズムの動作について検討する。xgb(extreme gradient boosting),rf(random forest),ffnn(feedforward neural network)の3つである。
実験により,HPの変動に伴うモデル性能の質的挙動を検証し,各HPのMLアルゴリズムの重要性を定量化し,最適領域に近い性能の安定性を検証した。
そこで本研究では,検索空間の縮小による効率的なhpチューニングのためのガイドラインを提案する。 Hyper-parameters (HPs) are an important part of machine learning (ML) model development and can greatly influence performance. This paper studies their behavior for three algorithms: Extreme Gradient Boosting (XGB), Random Forest (RF), and Feedforward Neural Network (FFNN) with structured data. Our empirical investigation examines the qualitative behavior of model performance as the HPs vary, quantifies the importance of each HP for different ML algorithms, and stability of the performance near the optimal region. Based on the findings, we propose a set of guidelines for efficient HP tuning by reducing the search space. | 翻訳日:2022-11-17 15:58:02 公開日:2022-11-15 |
# SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media ( http://arxiv.org/abs/2211.08447v1 ) ライセンス: Link先を確認 | Aiqi Jiang, Arkaitz Zubiaga | (参考訳) 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。
しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。
本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。
新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。
意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。
これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。
他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。
また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。
私たちのコードと性差別に関連する単語ベクトルは公開されます。 The goal of sexism detection is to mitigate negative online content targeting certain gender groups of people. However, the limited availability of labeled sexism-related datasets makes it problematic to identify online sexism for low-resource languages. In this paper, we address the task of automatic sexism detection in social media for one low-resource language -- Chinese. Rather than collecting new sexism data or building cross-lingual transfer learning models, we develop a cross-lingual domain-aware semantic specialisation system in order to make the most of existing data. Semantic specialisation is a technique for retrofitting pre-trained distributional word vectors by integrating external linguistic knowledge (such as lexico-semantic relations) into the specialised feature space. To do this, we leverage semantic resources for sexism from a high-resource language (English) to specialise pre-trained word vectors in the target language (Chinese) to inject domain knowledge. We demonstrate the benefit of our sexist word embeddings (SexWEs) specialised by our framework via intrinsic evaluation of word similarity and extrinsic evaluation of sexism detection. Compared with other specialisation approaches and Chinese baseline word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064 in both intrinsic and extrinsic evaluations, respectively. The ablative results and visualisation of SexWEs also prove the effectiveness of our framework on retrofitting word vectors in low-resource languages. Our code and sexism-related word vectors will be publicly available. | 翻訳日:2022-11-17 15:48:39 公開日:2022-11-15 |
# Mind Your Bias: 文脈言語モデルのためのバイアス検出手法の批判的レビュー Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models ( http://arxiv.org/abs/2211.08461v1 ) ライセンス: Link先を確認 | Silke Husse and Andreas Spitz | (参考訳) バイアスの認識と緩和は、文脈言語モデルの公正かつ透明な使用において基本的な重要性であるが、それらは前駆体としてのバイアスの正確な検出に決定的に依存する。
その結果, 様々なバイアス検出手法が提案されており, そのアプローチ, 検討されたバイアスの種類, 評価に用いるデータが異なる。
しかし、ほとんどの検出方法は静的単語埋め込みのための単語埋め込み関連試験から導かれるが、報告された結果は不均一であり、一貫性がなく、究極的には不確定である。
この問題に対処するために、文脈言語モデルに対する厳密な分析とバイアス検出手法の比較を行う。
その結果,マイナーな設計と実装の決定(あるいはエラー)は,導出バイアススコアに大きな影響を与えることが判明した。
全体として、実装の体系的および伝播的エラーにより、フィールドの状態が以前よりも悪くなっているが、実装エラーを考慮し、文献が均質化した結果、予想以上に良い結果が得られた。
その結果,より堅牢で一貫したバイアス検出手法への道筋について考察した。 The awareness and mitigation of biases are of fundamental importance for the fair and transparent use of contextual language models, yet they crucially depend on the accurate detection of biases as a precursor. Consequently, numerous bias detection methods have been proposed, which vary in their approach, the considered type of bias, and the data used for evaluation. However, while most detection methods are derived from the word embedding association test for static word embeddings, the reported results are heterogeneous, inconsistent, and ultimately inconclusive. To address this issue, we conduct a rigorous analysis and comparison of bias detection methods for contextual language models. Our results show that minor design and implementation decisions (or errors) have a substantial and often significant impact on the derived bias scores. Overall, we find the state of the field to be both worse than previously acknowledged due to systematic and propagated errors in implementations, yet better than anticipated since divergent results in the literature homogenize after accounting for implementation errors. Based on our findings, we conclude with a discussion of paths towards more robust and consistent bias detection methods. | 翻訳日:2022-11-17 15:48:16 公開日:2022-11-15 |
# 自然言語処理を用いたディシプリンの拡散星間バンドのキャリヤ探索 Searching for Carriers of the Diffuse Interstellar Bands Across Disciplines, using Natural Language Processing ( http://arxiv.org/abs/2211.08513v1 ) ライセンス: Link先を確認 | Corentin van den Broek Dobrenan, Frederic Galliano, Jeremy Minton, Viktor Botev, Ronin Wu | (参考訳) 科学出版物の爆発は、研究者に情報を積み重ねる。
これは、いくつかの分野を探求する必要がある学際的な研究にとってさらに劇的である。
研究者がこれを克服するためのツールが自然言語処理(NLP)である。機械学習(ML)技術で、科学者は多くの記事から情報を自動で合成する。
実用的な例として,天体物理学における長年の疑問である拡散型星間バンド (dibs) のキャリアになりうる化合物の学際探索にnlpを用いた。
我々は、オープンアクセスで150万のクロスドメイン記事のコーパス上でNLPモデルをトレーニングし、DIBに関する天体物理論文のコーパスを用いて、このモデルを微調整した。
我々の分析は、主に生物学で研究され、数個のジブの波長で遷移し、豊富な星間原子からなるいくつかの分子を指し示している。
これらの分子のいくつかは、分子の色に責任を持つ小さな分子群であるクロモフォアを含んでいる。
有効なキャリアを特定することは、学際的な方法で、オープンな科学的問題に取り組むためにNLPを使うことの価値を示す。 The explosion of scientific publications overloads researchers with information. This is even more dramatic for interdisciplinary studies, where several fields need to be explored. A tool to help researchers overcome this is Natural Language Processing (NLP): a machine-learning (ML) technique that allows scientists to automatically synthesize information from many articles. As a practical example, we have used NLP to conduct an interdisciplinary search for compounds that could be carriers for Diffuse Interstellar Bands (DIBs), a long-standing open question in astrophysics. We have trained a NLP model on a corpus of 1.5 million cross-domain articles in open access, and fine-tuned this model with a corpus of astrophysical publications about DIBs. Our analysis points us toward several molecules, studied primarily in biology, having transitions at the wavelengths of several DIBs and composed of abundant interstellar atoms. Several of these molecules contain chromophores, small molecular groups responsible for the molecule's colour, that could be promising candidate carriers. Identifying viable carriers demonstrates the value of using NLP to tackle open scientific questions, in an interdisciplinary manner. | 翻訳日:2022-11-17 15:47:57 公開日:2022-11-15 |
# 医用画像セグメンテーションのためのコントラスト表現学習を改善する教師なし特徴クラスタリング Unsupervised Feature Clustering Improves Contrastive Representation Learning for Medical Image Segmentation ( http://arxiv.org/abs/2211.08557v1 ) ライセンス: Link先を確認 | Yejia Zhang, Xinrong Hu, Nishchal Sapkota, Yiyu Shi, Danny Z. Chen | (参考訳) 自己監督型インスタンス識別は、特徴表現を学習し、限られた医療画像アノテーションに対処する効果的なコントラスト的前提課題である。
このアイデアは、同じ画像の変換されたバージョンの特徴を、他のすべての拡張イメージの表現をコントラストに強制しながら、類似させることである。
しかし、このインスタンスベースのコントラスト学習は、類似したコンテンツを持つ画像間の特徴親和性を最大化せず、その表現を非生産的に分割することで、テーブル上のパフォーマンスを損なう。
このパラダイムの最近の改善(例えば、マルチモーダルデータ、縦断研究における異なる画像、空間対応)は、追加のビューに依存したり、データプロパティに関する厳密な仮定を行ったりすることで、汎用性と適用性を犠牲にすることができる。
この課題に対処するために,教師なし特徴クラスタリングを用いた自己教師付きコントラスト学習手法を提案する。
より具体的には、自動エンコーダによって得られた階層的クラスタリング機能により擬似クラスを生成し、同じ擬似クラスからの負の選択を回避し、対照的な学習における破壊的干渉を防止する。
2次元皮膚内視鏡的画像分割と3次元マルチクラス心筋CT分割の実験により,本手法はこれらの課題に対して,最先端の自己監督的コントラスト法より優れていることが示された。 Self-supervised instance discrimination is an effective contrastive pretext task to learn feature representations and address limited medical image annotations. The idea is to make features of transformed versions of the same images similar while forcing all other augmented images' representations to contrast. However, this instance-based contrastive learning leaves performance on the table by failing to maximize feature affinity between images with similar content while counter-productively pushing their representations apart. Recent improvements on this paradigm (e.g., leveraging multi-modal data, different images in longitudinal studies, spatial correspondences) either relied on additional views or made stringent assumptions about data properties, which can sacrifice generalizability and applicability. To address this challenge, we propose a new self-supervised contrastive learning method that uses unsupervised feature clustering to better select positive and negative image samples. More specifically, we produce pseudo-classes by hierarchically clustering features obtained by an auto-encoder in an unsupervised manner, and prevent destructive interference during contrastive learning by avoiding the selection of negatives from the same pseudo-class. Experiments on 2D skin dermoscopic image segmentation and 3D multi-class whole heart CT segmentation demonstrate that our method outperforms state-of-the-art self-supervised contrastive techniques on these tasks. | 翻訳日:2022-11-17 15:24:09 公開日:2022-11-15 |
# ロバスト・アルツハイマー病進行モデルのためのクロスドメイン自己監督型深層学習 Cross-Domain Self-Supervised Deep Learning for Robust Alzheimer's Disease Progression Modeling ( http://arxiv.org/abs/2211.08559v1 ) ライセンス: Link先を確認 | Saba Dadsetan, Mohsen Hejrati, Shandong Wu, Somaye Hashemifar | (参考訳) 実際に成功した人工知能システムの開発は、堅牢なディープラーニングモデルと、大規模な高品質データの両方に依存する。
臨床疾患モデルのような現実の多くの応用において、データの取得とラベル付けは違法に高価で時間を要する可能性がある。
自己教師付き学習は、小さなデータ体制においてモデル精度と堅牢性を高める大きな可能性を示している。
加えて、多くの臨床画像および疾患モデリングアプリケーションは連続量の回帰に大きく依存している。
しかし,これらの医用画像回帰課題に対する自己教師付き学習の適用性は広く研究されていない。
本研究では,3次元画像入力を用いた回帰問題として,疾患予測モデルのためのクロスドメイン自己教師付き学習手法を開発した。
自己教師付き事前学習は脳mriからアルツハイマー病の進行予測を改善できることを実証する。
また,脳MRIデータの拡張(ラベル付きではない)による事前トレーニングは,自然画像の事前トレーニングよりも優れていた。
さらに, 自然画像と拡張脳mriデータの両方を事前学習に用いた場合, 最高性能が得られた。 Developing successful artificial intelligence systems in practice depends both on robust deep learning models as well as large high quality data. Acquiring and labeling data can become prohibitively expensive and time-consuming in many real-world applications such as clinical disease models. Self-supervised learning has demonstrated great potential in increasing model accuracy and robustness in small data regimes. In addition, many clinical imaging and disease modeling applications rely heavily on regression of continuous quantities. However, the applicability of self-supervised learning for these medical-imaging regression tasks has not been extensively studied. In this study, we develop a cross-domain self-supervised learning approach for disease prognostic modeling as a regression problem using 3D images as input. We demonstrate that self-supervised pre-training can improve the prediction of Alzheimer's Disease progression from brain MRI. We also show that pre-training on extended (but not labeled) brain MRI data outperforms pre-training on natural images. We further observe that the highest performance is achieved when both natural images and extended brain-MRI data are used for pre-training. | 翻訳日:2022-11-17 15:23:42 公開日:2022-11-15 |
# ConvFormer:医療画像分割のためのCNNとTransformerの組み合わせ ConvFormer: Combining CNN and Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2211.08564v1 ) ライセンス: Link先を確認 | Pengfei Gu, Yejia Zhang, Chaoli Wang, Danny Z. Chen | (参考訳) 畳み込みニューラルネットワーク(cnn)ベースの手法は医用画像分割において大きな成功を収めているが、畳み込み操作の小さな効果的な受容領域を使用することで、グローバル表現を学習する能力はまだ限られている。
トランスフォーマティブベースのメソッドは、グローバル表現をキャプチャするために情報の長距離依存性をモデル化することができるが、ローカルコンテキストをモデル化する能力は不足している。
cnnとtransformerを統合してローカル表現とグローバル表現の両方を学習し、マルチスケールな機能を探求することは、医療画像のセグメンテーションをさらに改善するのに役立つ。
本稿では,医療画像セグメンテーションのための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
convformerはいくつかのシンプルで効果的な設計に基づいている。
1)Deformable Transformer(DeTrans)のフィードフォワードモジュールは、拡張DeTransと呼ばれるローカル情報の導入のために再設計される。
2) コンボリューションと拡張デトランスの組み合わせによる残留形状のハイブリッドステムを開発し, 局所的およびグローバルな表現を捕捉し, 表現能力を高める。
(3) エンコーダは階層的に残差形状のハイブリッドステムを用いて異なるスケールの特徴マップを生成するとともに,複数スケールの特徴マップを入力として利用するために,残差接続を付加した拡張DeTransエンコーダを構築した。
いくつかのデータセットの実験によると、スクラッチからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャを上回り、最先端のパフォーマンスを実現しています。 Convolutional neural network (CNN) based methods have achieved great successes in medical image segmentation, but their capability to learn global representations is still limited due to using small effective receptive fields of convolution operations. Transformer based methods are capable of modelling long-range dependencies of information for capturing global representations, yet their ability to model local context is lacking. Integrating CNN and Transformer to learn both local and global representations while exploring multi-scale features is instrumental in further improving medical image segmentation. In this paper, we propose a hierarchical CNN and Transformer hybrid architecture, called ConvFormer, for medical image segmentation. ConvFormer is based on several simple yet effective designs. (1) A feed forward module of Deformable Transformer (DeTrans) is re-designed to introduce local information, called Enhanced DeTrans. (2) A residual-shaped hybrid stem based on a combination of convolutions and Enhanced DeTrans is developed to capture both local and global representations to enhance representation ability. (3) Our encoder utilizes the residual-shaped hybrid stem in a hierarchical manner to generate feature maps in different scales, and an additional Enhanced DeTrans encoder with residual connections is built to exploit multi-scale features with feature maps of different scales as input. Experiments on several datasets show that our ConvFormer, trained from scratch, outperforms various CNN- or Transformer-based architectures, achieving state-of-the-art performance. | 翻訳日:2022-11-17 15:23:28 公開日:2022-11-15 |
# 補助情報を用いた人物再同定 -- チュートリアル概要 Using Auxiliary Information for Person Re-Identification -- A Tutorial Overview ( http://arxiv.org/abs/2211.08565v1 ) ライセンス: Link先を確認 | Tharindu Fernando, Clinton Fookes, Sridha Sridharan, Dana Michalski | (参考訳) 人物再識別(re-id)は、インテリジェントな監視パイプラインにおける重要なタスクであり、挑戦的なベンチマークで十分なパフォーマンスを達成する多くの再識別フレームワークが存在する。
しかし、これらのシステムは、カメラビュー、照明条件、またはオクルージョンの間に大きな違いがある場合、許容できる結果を生成するのに苦労する。
この結果は、最近提案された多くのre-idパイプラインにおいて、外観に基づく特徴が優先的に駆動され、re-idを支援する他の補助情報にはほとんど注意が払われていないことに起因する。
本稿では,現状のsota(state-of-the-art)メソッドを,単モーダルとマルチモーダルの人リidの両方で体系的に検討する。
概念的枠組みを超えて,既存のSOTA手法を拡張してこれらの補助情報をサポートし,対象物に印字されたロゴや被写体が着用する衣服に印字されたロゴから,その行動軌跡に至るまで,補助情報の有用性を定量的に評価する方法について述べる。
我々の知る限りでは、複数の情報の融合を探求し、より差別的な人物記述子を生成する最初の研究であり、本論文の主な目的は、そのようなフレームワークの実装に関する詳細な理論的分析を提供することである。
さらに,モデル解釈手法を用いて,補助情報の異なる組み合わせと,ソタパーソンリidモデルが抽出した元の特徴の寄与を検証する。
本稿では,提案手法の限界を概説し,マルチモーダルな人物再認識の領域を推し進めるための今後の研究方向を提案する。 Person re-identification (re-id) is a pivotal task within an intelligent surveillance pipeline and there exist numerous re-id frameworks that achieve satisfactory performance in challenging benchmarks. However, these systems struggle to generate acceptable results when there are significant differences between the camera views, illumination conditions, or occlusions. This result can be attributed to the deficiency that exists within many recently proposed re-id pipelines where they are predominately driven by appearance-based features and little attention is paid to other auxiliary information that could aid the re-id. In this paper, we systematically review the current State-Of-The-Art (SOTA) methods in both uni-modal and multimodal person re-id. Extending beyond a conceptual framework, we illustrate how the existing SOTA methods can be extended to support these additional auxiliary information and quantitatively evaluate the utility of such auxiliary feature information, ranging from logos printed on the objects carried by the subject or printed on the clothes worn by the subject, through to his or her behavioural trajectories. To the best of our knowledge, this is the first work that explores the fusion of multiple information to generate a more discriminant person descriptor and the principal aim of this paper is to provide a thorough theoretical analysis regarding the implementation of such a framework. In addition, using model interpretation techniques, we validate the contributions from different combinations of the auxiliary information versus the original features that the SOTA person re-id models extract. We outline the limitations of the proposed approaches and propose future research directions that could be pursued to advance the area of multi-modal person re-id. | 翻訳日:2022-11-17 15:23:02 公開日:2022-11-15 |
# Dynamic-Pix2Pix:限られた訓練データを用いた入力領域とターゲット領域の関節分布のモデル化のためのノイズ注入cGAN Dynamic-Pix2Pix: Noise Injected cGAN for Modeling Input and Target Domain Joint Distributions with Limited Training Data ( http://arxiv.org/abs/2211.08570v1 ) ライセンス: Link先を確認 | Mohammadreza Naderi, Nader Karimi, Ali Emami, Shahram Shirani, Shadrokh Samavi | (参考訳) 簡単な線画から油絵への変換などの応用により,ソースからターゲット領域への変換を学習することが注目されている。
翻訳画像の品質は、2つの重要な問題に直接関係している。
まず、出力分布と対象の出力分布の整合性が不可欠である。
第二に、生成された出力は入力と高い相関を持つべきである。
cgan (conditional generative adversarial network) は、画像変換の最も一般的なモデルである。
cGANのパフォーマンスは、限られたトレーニングデータセットを使用すると低下します。
本研究では,動的ニューラルネットワーク理論を用いて,pix2pix(cganの一形態)のターゲット分布モデリング能力を向上させる。
私たちのモデルは2つの学習サイクルがあります。
モデルは、入力と基底の真理の相関を第一サイクルで学習する。
そして、モデルアーキテクチャを第2サイクルで洗練し、ノイズ入力から目標分布を学習する。
これらのプロセスはトレーニング手順の各イテレーションで実行される。
cGANがノイズ入力から対象の分布を学習するのを助けることで、テスト期間中のモデル一般化がより良くなり、対象の領域分布にほぼ完全に適合する。
その結果、HC18とモンゴメリーの胸部X線画像の分割においてPix2Pixモデルを上回った。
質的スコアとダイススコアの両方が、我々のモデルの優越性を示している。
提案手法は事前学習に数千の付加データを使用しないが,最先端の手法と比較して内外領域の一般化に匹敵する結果が得られる。 Learning to translate images from a source to a target domain with applications such as converting simple line drawing to oil painting has attracted significant attention. The quality of translated images is directly related to two crucial issues. First, the consistency of the output distribution with that of the target is essential. Second, the generated output should have a high correlation with the input. Conditional Generative Adversarial Networks, cGANs, are the most common models for translating images. The performance of a cGAN drops when we use a limited training dataset. In this work, we increase the Pix2Pix (a form of cGAN) target distribution modeling ability with the help of dynamic neural network theory. Our model has two learning cycles. The model learns the correlation between input and ground truth in the first cycle. Then, the model's architecture is refined in the second cycle to learn the target distribution from noise input. These processes are executed in each iteration of the training procedure. Helping the cGAN learn the target distribution from noise input results in a better model generalization during the test time and allows the model to fit almost perfectly to the target domain distribution. As a result, our model surpasses the Pix2Pix model in segmenting HC18 and Montgomery's chest x-ray images. Both qualitative and Dice scores show the superiority of our model. Although our proposed method does not use thousand of additional data for pretraining, it produces comparable results for the in and out-domain generalization compared to the state-of-the-art methods. | 翻訳日:2022-11-17 15:22:32 公開日:2022-11-15 |
# ホメオスタシスによる目標のスケーリング:進化シミュレーション,実験,分析 The scaling of goals via homeostasis: an evolutionary simulation, experiment and analysis ( http://arxiv.org/abs/2211.08522v1 ) ライセンス: Link先を確認 | Leo Pio-Lopez, Johanna Bischof, Jennifer V. LaPalme, and Michael Levin | (参考訳) すべての認知エージェントは複合存在である。
具体的には、複雑な生活因子は、それ自体が生理的および代謝的空間をナビゲートする有能なサブエージェントである細胞から構成される。
行動科学、進化進化生物学、そして機械知能の分野はすべて、生物学的認知のスケーリングに対する答えを求めています。 進化のダイナミクスによって個々の細胞が自分の活動を統合して、その部分ではなく、それに属する目標と能力を持つ、新しい高レベルの知性が出現するのです。
本稿では,生体形成過程の中心における目標状態のスケールアップにより,身体の形態形成過程における細胞の集団的知性が,従来の行動知性へと変化したことを示唆する,meiフレームワークに基づくシミュレーションの結果を報告する。
形態空間における問題である身体全体の位置情報軸の組織化(古典的フランス国旗問題)を解決するために、最小限の進化的枠組みは、細胞の代謝ホメオスタシスの小規模で低レベルな集合体(tissues)にスケールアップするのに十分である、という仮説を検証した。
これらの創発性形態形成剤は, 目標形態を達成するための応力伝播ダイナミクスの利用, 摂動(乱れ)から回復する能力, 長期安定性(いずれも直接選択されていないが)など, 予測される多くの特徴を有することがわかった。
また,システム安定化後,突然のリモデリングの予期せぬ挙動を観察した。
この予測を生物系(再生プランナリア)で検証し、非常によく似た現象を観測した。
本システムは, 進化が最小限の目標指向行動(ホメオスタティックループ)を, 形態学的およびその他の空間における高レベルな問題解決エージェントにスケールするかを定量的に理解するための第一歩である。 All cognitive agents are composite beings. Specifically, complex living agents consist of cells, which are themselves competent sub-agents navigating physiological and metabolic spaces. Behavior science, evolutionary developmental biology, and the field of machine intelligence all seek an answer to the scaling of biological cognition: what evolutionary dynamics enable individual cells to integrate their activities to result in the emergence of a novel, higher-level intelligence that has goals and competencies that belong to it and not to its parts? Here, we report the results of simulations based on the TAME framework, which proposes that evolution pivoted the collective intelligence of cells during morphogenesis of the body into traditional behavioral intelligence by scaling up the goal states at the center of homeostatic processes. We tested the hypothesis that a minimal evolutionary framework is sufficient for small, low-level setpoints of metabolic homeostasis in cells to scale up into collectives (tissues) which solve a problem in morphospace: the organization of a body-wide positional information axis (the classic French Flag problem). We found that these emergent morphogenetic agents exhibit a number of predicted features, including the use of stress propagation dynamics to achieve its target morphology as well as the ability to recover from perturbation (robustness) and long-term stability (even though neither of these was directly selected for). Moreover we observed unexpected behavior of sudden remodeling long after the system stabilizes. We tested this prediction in a biological system - regenerating planaria - and observed a very similar phenomenon. We propose that this system is a first step toward a quantitative understanding of how evolution scales minimal goal-directed behavior (homeostatic loops) into higher-level problem-solving agents in morphogenetic and other spaces. | 翻訳日:2022-11-17 15:15:32 公開日:2022-11-15 |
# テーブル検出と構造認識のための深層学習:調査 Deep learning for table detection and structure recognition: A survey ( http://arxiv.org/abs/2211.08469v1 ) ライセンス: Link先を確認 | Mahmoud Kasem, Abdelrahman Abdallah, Alexander Berendeyev, Ebrahem Elkady, Mahmoud Abdalla, Mohamed Mahmoud, Mohamed Hamada, Daniyar Nurseitov, Islam Taj-Eddin | (参考訳) テーブルは科学雑誌、新聞、ウェブサイト、新聞からスーパーマーケットで購入した商品まで、至るところにある。
それらを検出することは、文書の内容を自動的に理解する上で最も重要である。
深層学習ネットワークの急速な発展により,テーブル検出の性能は大幅に向上した。
この調査の目的は、テーブル検出の分野における主要な発展を深く理解し、異なる方法論についての洞察を提供し、異なるアプローチの体系的分類を提供することである。
さらに,この分野の古典的アプリケーションと新しいアプリケーションの分析も提供する。
最後に、既存のモデルのデータセットとソースコードが整理され、読者にこの膨大な文献に対するコンパスを提供する。
最後に、さまざまなオブジェクト検出とテーブル構造認識手法を利用して効率的かつ効率的なシステムを構築するアーキテクチャと、最先端のアルゴリズムと将来の研究に追従する開発動向のセットについて検討する。
私たちはまた、最新の出版物、オープンデータ、ソースコードを更新する、パブリックなGitHubリポジトリも設置しました。
githubリポジトリはhttps://github.com/abdoelsayed2016/table-detection-structure-recognitionで入手できる。 Tables are everywhere, from scientific journals, papers, websites, and newspapers all the way to items we buy at the supermarket. Detecting them is thus of utmost importance to automatically understanding the content of a document. The performance of table detection has substantially increased thanks to the rapid development of deep learning networks. The goals of this survey are to provide a profound comprehension of the major developments in the field of Table Detection, offer insight into the different methodologies, and provide a systematic taxonomy of the different approaches. Furthermore, we provide an analysis of both classic and new applications in the field. Lastly, the datasets and source code of the existing models are organized to provide the reader with a compass on this vast literature. Finally, we go over the architecture of utilizing various object detection and table structure recognition methods to create an effective and efficient system, as well as a set of development trends to keep up with state-of-the-art algorithms and future research. We have also set up a public GitHub repository where we will be updating the most recent publications, open data, and source code. The GitHub repository is available at https://github.com/abdoelsayed2016/table-detection-structure-recognition. | 翻訳日:2022-11-17 15:13:07 公開日:2022-11-15 |
# APT:強化学習を用いた適応型知覚品質カメラチューニング APT: Adaptive Perceptual quality based camera Tuning using reinforcement learning ( http://arxiv.org/abs/2211.08504v1 ) ライセンス: Link先を確認 | Sibendu Paul, Kunal Rao, Giuseppe Coviello, Murugan Sankaradas, Oliver Po, Y. Charlie Hu and Srimat Chakradhar | (参考訳) カメラは、公共の安全、インテリジェント交通、小売、ヘルスケア、製造において多くの応用を可能にするために、都市、企業、道路にますます展開されている。
多くの場合、カメラの初期展開後、環境条件や周囲のシーンが変化し、この変化が映像分析からの洞察の正確さに悪影響を及ぼすことが実験によって示されている。
これは、カメラパラメータの設定が配置時に最適だが、操作中のカメラの周囲の環境条件やシーンが変化するため、良質なビデオキャプチャには最適ではないためである。
画質の悪いビデオのキャプチャは、分析の精度に悪影響を及ぼす。
そこで本研究では,映像解析の精度を低下させる高品質な映像撮影を実現するために,動的かつ遠隔(5gネットワーク上)でカメラパラメータをチューニングする新しい強化学習型システムaptを提案する。
これにより、環境条件やシーン内容が変化した場合の洞察の正確性が回復する。
APTは、報酬関数として非参照の知覚品質推定を伴う強化学習を用いる。
そこで我々は,企業駐車場を並べて2台のカメラを同時に配置した(一方のカメラはメーカー提案のデフォルト設定のみで,他方のカメラは動作中にAPTによって動的に調整される)。
我々の実験では、APTによる動的チューニングにより、分析の洞察は一日中常に改善され、オブジェクト検出ビデオ分析アプリケーションの精度は平均42%向上した。
我々の報酬関数は任意の分析タスクとは独立しているため、APTは様々なビデオ分析タスクに容易に利用できる。 Cameras are increasingly being deployed in cities, enterprises and roads world-wide to enable many applications in public safety, intelligent transportation, retail, healthcare and manufacturing. Often, after initial deployment of the cameras, the environmental conditions and the scenes around these cameras change, and our experiments show that these changes can adversely impact the accuracy of insights from video analytics. This is because the camera parameter settings, though optimal at deployment time, are not the best settings for good-quality video capture as the environmental conditions and scenes around a camera change during operation. Capturing poor-quality video adversely affects the accuracy of analytics. To mitigate the loss in accuracy of insights, we propose a novel, reinforcement-learning based system APT that dynamically, and remotely (over 5G networks), tunes the camera parameters, to ensure a high-quality video capture, which mitigates any loss in accuracy of video analytics. As a result, such tuning restores the accuracy of insights when environmental conditions or scene content change. APT uses reinforcement learning, with no-reference perceptual quality estimation as the reward function. We conducted extensive real-world experiments, where we simultaneously deployed two cameras side-by-side overlooking an enterprise parking lot (one camera only has manufacturer-suggested default setting, while the other camera is dynamically tuned by APT during operation). Our experiments demonstrated that due to dynamic tuning by APT, the analytics insights are consistently better at all times of the day: the accuracy of object detection video analytics application was improved on average by ~ 42%. Since our reward function is independent of any analytics task, APT can be readily used for different video analytics tasks. | 翻訳日:2022-11-17 15:12:50 公開日:2022-11-15 |
# 正しい方向のポイント:空間認識型自己教師型ボリューム表現学習のためのベクトル予測 A Point in the Right Direction: Vector Prediction for Spatially-aware Self-supervised Volumetric Representation Learning ( http://arxiv.org/abs/2211.08533v1 ) ライセンス: Link先を確認 | Yejia Zhang, Pengfei Gu, Nishchal Sapkota, Hao Zheng, Peixian Liang, Danny Z. Chen | (参考訳) 高いアノテーションコストと高密度な3D医療画像タスクの限定ラベルは、最近、トランスファー学習性能を向上させる3D自己教師付き事前学習手法を取り入れた動機となっている。
しかし,これらの手法は,有効な3次元画像解析を可能にする中心性に拘わらず,空間的認識を欠いている。
より具体的には、位置、スケール、方向は情報的だけでなく、訓練用の画像作物を生成する際にも自動的に利用できる。
しかし、今のところ、すべての重要な空間的特徴を抽出するプレテキストタスクは提案されていない。
このニーズを満たすために、ベクトル予測(VP)と境界焦点再構成(BFR)という2つの新しいプレテキストタスクで空間的理解を向上する自己教師型手法VectorPOSEを開発した。
VPはグローバル空間の概念(すなわち3Dパッチの特性)に焦点を当て、BFRはより効率的な局所表現を学ぶために最近の再構成手法の弱点に対処する。
本稿では,3つの3次元医用画像分割作業におけるVectorPOSEの評価を行い,特にアノテーション設定において,最先端の手法よりも優れていることを示す。 High annotation costs and limited labels for dense 3D medical imaging tasks have recently motivated an assortment of 3D self-supervised pretraining methods that improve transfer learning performance. However, these methods commonly lack spatial awareness despite its centrality in enabling effective 3D image analysis. More specifically, position, scale, and orientation are not only informative but also automatically available when generating image crops for training. Yet, to date, no work has proposed a pretext task that distills all key spatial features. To fulfill this need, we develop a new self-supervised method, VectorPOSE, which promotes better spatial understanding with two novel pretext tasks: Vector Prediction (VP) and Boundary-Focused Reconstruction (BFR). VP focuses on global spatial concepts (i.e., properties of 3D patches) while BFR addresses weaknesses of recent reconstruction methods to learn more effective local representations. We evaluate VectorPOSE on three 3D medical image segmentation tasks, showing that it often outperforms state-of-the-art methods, especially in limited annotation settings. | 翻訳日:2022-11-17 15:12:23 公開日:2022-11-15 |
# 物体ナビゲーションのための指示強化による構造化探索 Structured Exploration Through Instruction Enhancement for Object Navigation ( http://arxiv.org/abs/2211.08467v1 ) ライセンス: Link先を確認 | Matthias Hutsebaut-Buysse, Kevin Mets, Tom De Schepper, Steven Latr\'e | (参考訳) 見えない環境で特定のクラスのオブジェクトを見つけることは、未解決のナビゲーション問題である。
そこで本研究では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルは高レベルな計画が可能で、フロアプランレベルでメモリを構築することができる(例えば、エージェントが次に訪れるのに一番意味のある部屋は、エージェントがすでにどこにいたか?
下位層は部屋の間を効率的に行き来し、その中のオブジェクトを探す。
簡単な合成言語を用いて、エージェントに指示を与えることができる。
トップレベルは、全体的なタスクをより魅力的にするために、命令をインテリジェントに強化する。
言語接地、視覚観察へのマッピング指示は、別々に訓練された目標評価モジュールを用いて行われる。
動的構成可能な家庭環境における本手法の有効性を実証する。 Finding an object of a specific class in an unseen environment remains an unsolved navigation problem. Hence, we propose a hierarchical learning-based method for object navigation. The top-level is capable of high-level planning, and building a memory on a floorplan-level (e.g., which room makes the most sense for the agent to visit next, where has the agent already been?). While the lower-level is tasked with efficiently navigating between rooms and looking for objects in them. Instructions can be provided to the agent using a simple synthetic language. The top-level intelligently enhances the instructions in order to make the overall task more tractable. Language grounding, mapping instructions to visual observations, is performed by utilizing an additional separate supervised trained goal assessment module. We demonstrate the effectiveness of our method on a dynamic configurable domestic environment. | 翻訳日:2022-11-17 15:03:32 公開日:2022-11-15 |
# 読み出し予測におけるxgboostよりも医師の単語感受性に適合する言語モデル分類器 Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction ( http://arxiv.org/abs/2211.07047v2 ) ライセンス: Link先を確認 | Grace Yang, Ming Cao, Lavender Y. Jiang, Xujin C. Liu, Alexander T.M. Cheung, Hannah Weiss, David Kurland, Kyunghyun Cho, Eric K. Oermann | (参考訳) 曲線の下の精度や領域といった自然言語処理における分類のための従来の評価基準は、類似のパフォーマンス指標にもかかわらず、異なる予測行動を持つモデル間で区別できない。
モデルの振る舞いを語彙レベルで精査し、意思決定ロジックの差異に関する洞察を提供する指標である感度スコアを導入する。
本研究は, 病院入所分類のための2つの分類器を用いて, テストセットにおける代表語群に対する感度スコアを評価した。
本実験は,感度スコアのランク相関に基づく臨床医と分類士の意思決定論理を比較した。
その結果, 言語モデルの感度スコアは, tf-idf埋め込みにおけるxgboost分類器よりも, プロとよく一致していることが示唆された。
全体として、この指標はモデルの堅牢性を評価するための新しい視点を提供する。
私たちのコードはgithubで入手できる(https://github.com/nyuolab/model_sensitivity)。 Traditional evaluation metrics for classification in natural language processing such as accuracy and area under the curve fail to differentiate between models with different predictive behaviors despite their similar performance metrics. We introduce sensitivity score, a metric that scrutinizes models' behaviors at the vocabulary level to provide insights into disparities in their decision-making logic. We assess the sensitivity score on a set of representative words in the test set using two classifiers trained for hospital readmission classification with similar performance statistics. Our experiments compare the decision-making logic of clinicians and classifiers based on rank correlations of sensitivity scores. The results indicate that the language model's sensitivity score aligns better with the professionals than the xgboost classifier on tf-idf embeddings, which suggests that xgboost uses some spurious features. Overall, this metric offers a novel perspective on assessing models' robustness by quantifying their discrepancy with professional opinions. Our code is available on GitHub (https://github.com/nyuolab/Model_Sensitivity). | 翻訳日:2022-11-17 14:56:17 公開日:2022-11-15 |
# kogito: commonsense の知識推論ツールキット kogito: A Commonsense Knowledge Inference Toolkit ( http://arxiv.org/abs/2211.08451v1 ) ライセンス: Link先を確認 | Mete Ismayilzada, Antoine Bosselut | (参考訳) 本稿では,テキストに記述された状況に関するコモンセンス推論を生成するオープンソースツールであるkogitoを提案する。
Kogitoは、自然言語生成モデルと対話する直感的で拡張可能なインターフェースを提供しており、テキスト入力から常識知識推論を仮説化するのに使用できる。
特に,対象とする多粒度知識生成には,いくつかの特徴がある。
これには、知識モデルのトレーニングと評価のための標準化されたAPI、推論の生成とフィルタリングが含まれる。
また、自然言語のテキストを知識モデルで読み取れない形式に変換するヘルパー機能 - テキストからの知識ヘッド抽出のような中間パイプラインステージ、ヒューリスティックでモデルベースな知識ヘッドリレーションマッチング、カスタム知識関係の定義と利用、などを含む。
Kogitoのコードはhttps://github.com/epfl-nlp/kogitoで公開しています。 In this paper, we present kogito, an open-source tool for generating commonsense inferences about situations described in text. kogito provides an intuitive and extensible interface to interact with natural language generation models that can be used for hypothesizing commonsense knowledge inference from a textual input. In particular, kogito offers several features for targeted, multi-granularity knowledge generation. These include a standardized API for training and evaluating knowledge models, and generating and filtering inferences from them. We also include helper functions for converting natural language texts into a format ingestible by knowledge models - intermediate pipeline stages such as knowledge head extraction from text, heuristic and model-based knowledge head-relation matching, and an ability to define and use custom knowledge relations. We make the code for kogito available at https://github.com/epfl-nlp/kogito along with thorough documentation at https://kogito.readthedocs.io. | 翻訳日:2022-11-17 14:55:31 公開日:2022-11-15 |
# タスク指向対話システムによる接続メモリのナビゲーション Navigating Connected Memories with a Task-oriented Dialog System ( http://arxiv.org/abs/2211.08462v1 ) ライセンス: Link先を確認 | Seungwhan Moon, Satwik Kottur, Alborz Geramifard, Babak Damavandi | (参考訳) 近年、スマートフォンやスマートグラスの出現により、ユーザーによって捉えられたパーソナルメディアの量が増加し、大きなメディアコレクションが生まれている。
会話は人間とコンピュータの直感的なインターフェースであるにもかかわらず、現在の取り組みは主に、ユーザーが自分のメディアを問い合わせて記憶を生き返らせるために、シングルショットの自然言語ベースのメディア検索に焦点を当てている。
これは、ユーザーが1ターンのクエリを記述せずにフォローアップクエリや情報を得ることができないため、検索機能を厳しく制限する。
本研究では,マルチターン対話によるメディアコレクションを検索するための強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
そこで我々は,11.5k$のユーザ<->アシスタントダイアログを含むタスク指向ダイアログデータセットCOMETを,シミュレーションされたパーソナルメモリグラフに基づいて収集した。
本研究では,(1)メモリグラフ上に構築された合成ダイアログフローを生成する新しいマルチモーダルダイアログシミュレータ,(2)自然言語の発話を得るための手動パラフレーズを用いて,資源効率のよい2段階データ収集パイプラインを構築した。
我々はCOMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最新の言語モデルを強力なベースラインとして採用し、データセットが捉えたマルチモーダル課題を強調します。 Recent years have seen an increasing trend in the volume of personal media captured by users, thanks to the advent of smartphones and smart glasses, resulting in large media collections. Despite conversation being an intuitive human-computer interface, current efforts focus mostly on single-shot natural language based media retrieval to aid users query their media and re-live their memories. This severely limits the search functionality as users can neither ask follow-up queries nor obtain information without first formulating a single-turn query. In this work, we propose dialogs for connected memories as a powerful tool to empower users to search their media collection through a multi-turn, interactive conversation. Towards this, we collect a new task-oriented dialog dataset COMET, which contains $11.5k$ user<->assistant dialogs (totaling $103k$ utterances), grounded in simulated personal memory graphs. We employ a resource-efficient, two-phase data collection pipeline that uses: (1) a novel multimodal dialog simulator that generates synthetic dialog flows grounded in memory graphs, and, (2) manual paraphrasing to obtain natural language utterances. We analyze COMET, formulate four main tasks to benchmark meaningful progress, and adopt state-of-the-art language models as strong baselines, in order to highlight the multimodal challenges captured by our dataset. | 翻訳日:2022-11-17 14:55:16 公開日:2022-11-15 |
# ED-FAITH: 忠実度に基づく対話要約の評価 ED-FAITH: Evaluating Dialogue Summarization on Faithfulness ( http://arxiv.org/abs/2211.08464v1 ) ライセンス: Link先を確認 | Sicong Huang, Asli Celikyilmaz, Haoran Li | (参考訳) 抽象要約モデルは通常、入力に不信なコンテンツを生成し、生成された要約の忠実さを評価することの重要性を強調する。
ほとんどの信頼度指標はニュースドメインでのみ評価され、他の要約タスクに転送できますか?
本稿ではまず,対話要約のための忠実度尺度の体系的研究を行う。
対話データセットにおける共通忠実度指標を評価し,ニュースデータセット上では良好に機能するにも関わらず,ほとんどの指標が人間の判断と不相関であることを観察する。
これらの結果から,対話要約における既存のメトリクスの性能を向上させるために,まずドメイン内のデータセットを微調整し,負のサンプルに対して異なる訓練を施し,対話データ上でのメトリック性能を向上できることを示す。
t0言語モデルの強力なゼロショットパフォーマンスに触発されて、私たちはさらに、忠実性評価のための新しいメトリクスであるt0-scoreを提案しました。 Abstractive summarization models typically generate content unfaithful to the input, thus highlighting the significance of evaluating the faithfulness of generated summaries. Most faithfulness metrics are only evaluated on news domain, can they be transferred to other summarization tasks? In this work, we first present a systematic study of faithfulness metrics for dialogue summarization. We evaluate common faithfulness metrics on dialogue datasets and observe that most metrics correlate poorly with human judgements despite performing well on news datasets. Given these findings, to improve existing metrics' performance on dialogue summarization, we first finetune on in-domain dataset, then apply unlikelihood training on negative samples, and show that they can successfully improve metric performance on dialogue data. Inspired by the strong zero-shot performance of the T0 language model, we further propose T0-Score -- a new metric for faithfulness evaluation, which shows consistent improvement against baseline metrics across multiple domains. | 翻訳日:2022-11-17 14:54:50 公開日:2022-11-15 |
# 推論回路:構造的合理的なマルチホップ質問生成 Reasoning Circuits: Few-shot Multihop Question Generation with Structured Rationales ( http://arxiv.org/abs/2211.08466v1 ) ライセンス: Link先を確認 | Saurabh Kulshreshtha and Anna Rumshisky | (参考訳) マルチホップ質問生成(Multi-hop Question Generation)は、読者が複数の経路にまたがる情報を複数の推論ステップで組み合わせることを要求する質問を生成するタスクである。
連鎖論理生成は、多段階推論タスクの性能を改善し、モデル予測をより解釈可能にすることが示されている。
しかし、合理性を含むわずかなショットのパフォーマンス向上は主に+100b言語モデルでのみ観察されており、それ以外は大規模な手動合理性アノテーションを必要とする。
本研究では、非常に低い監督体制(8~128ショット)の下で、チェーン・オブ・インスパイアされた構造的理性生成をマルチホップ質問生成に適用するための新しい枠組みを提案する。
提案する多段階合理化スキーマに従って,各推論ステップを生成言語モデルによって実行されるタスクとして扱い,少数の例を注釈化する。
自動評価と人的評価の両面において,本フレームワークは,有理性のないベースラインと比較して,生成した質問の難易度を制御し,性能を向上させることを実証した。
重要なのは、これは控えめなモデルサイズで実現可能であることを示しています。 Multi-hop Question Generation is the task of generating questions which require the reader to reason over and combine information spread across multiple passages using several reasoning steps. Chain-of-thought rationale generation has been shown to improve performance on multi-step reasoning tasks and make model predictions more interpretable. However, few-shot performance gains from including rationales have been largely observed only in +100B language models, and otherwise require large scale manual rationale annotation. In this work, we introduce a new framework for applying chain-of-thought inspired structured rationale generation to multi-hop question generation under a very low supervision regime (8- to 128-shot). We propose to annotate a small number of examples following our proposed multi-step rationale schema, treating each reasoning step as a separate task to be performed by a generative language model. We show that our framework leads to improved control over the difficulty of the generated questions and better performance compared to baselines trained without rationales, both on automatic evaluation metrics and in human evaluation. Importantly, we show that this is achievable with a modest model size. | 翻訳日:2022-11-17 14:54:33 公開日:2022-11-15 |
# 不正確な判断で専門家を重くする Weighting Experts with Inaccurate Judges ( http://arxiv.org/abs/2211.08494v1 ) ライセンス: Link先を確認 | Ben Abramowitz and Nicholas Mattei | (参考訳) 我々は,各専門家が独立確率で正しく投票する,根底にある二元的事実を明らかにするために,専門家集団から二元投票を集約する問題を考える。
エージェントの数は漸近的な結果が適用できないほど小さく、多くの専門家は低い確率で正しく投票する可能性があり、専門家の能力や正しく投票する確率を知っている中央機関は存在しない。
我々のアプローチは、専門家を重み付けて全体的な正確性を改善するために、第2のタイプのエージェント -- 裁判官 -- を指定することです。
問題は、裁判官が専門家と同じように不完全な能力を持っていることだ。
我々は、最小限の能力を持つ裁判官を1人持つことが、全く持たないよりも良いことを実証する。
専門家の重み付けに裁判官のアンサンブルを使用すると、どの裁判官よりも重み付けが良くなり、適切な条件下での最適重み付けもできる。
その結果,審査員が有能な専門家と無能な専門家を区別する能力が最も重要であることがわかった。
最後に、共通の分布から引き出された未知の能力を持つエージェントの固定されたセットを考えると、審査員と専門家のエージェントの最適な分割が分布に依存するかを示す。 We consider the problem of aggregating binary votes from an ensemble of experts to reveal an underlying binary ground truth where each expert votes correctly with some independent probability. We focus on settings where the number of agents is too small for asymptotic results to apply, many experts may vote correctly with low probability, and there is no central authority who knows the experts' competences, or their probabilities of voting correctly. Our approach is to designate a second type of agent -- a judge -- to weight the experts to improve overall accuracy. The catch is that the judge has imperfect competence just like the experts. We demonstrate that having a single minimally competent judge is often better than having none at all. Using an ensemble of judges to weight the experts can provide a better weighting than any single judge; even the optimal weighting under the right conditions. As our results show, the ability of the judge(s) to distinguish between competent and incompetent experts is paramount. Lastly, given a fixed set of agents with unknown competences drawn i.i.d. from a common distribution, we show how the optimal split of the agents between judges and experts depends on the distribution. | 翻訳日:2022-11-17 14:45:27 公開日:2022-11-15 |
# 脆弱性のあるコード行検出のための階層型ディープニューラルネットワーク A Hierarchical Deep Neural Network for Detecting Lines of Codes with Vulnerabilities ( http://arxiv.org/abs/2211.08517v1 ) ライセンス: Link先を確認 | Arash Mahyari | (参考訳) ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の主な根本原因である。
ソースコード静的解析は意図しない欠陥、すなわちソフトウェア開発者がソースコードに導入した脆弱性を検出するために広く使われている。
本稿では,自然言語処理で使用されている手法に基づいて,LLVM IR表現から脆弱性を検出するためのディープラーニング手法を提案する。
提案手法は階層的なプロセスを用いて、まず脆弱性のあるソースコードを識別し、次に検出されたソースコード内の脆弱性に寄与するコードの行を特定する。
この2段階のアプローチは、脆弱な線を検出する誤報を減らす。
nvdとsardで収集した実世界および合成コードの広範な実験は,ソースコードの脆弱性検出において高い精度(約98\%)を示す。 Software vulnerabilities, caused by unintentional flaws in source codes, are the main root cause of cyberattacks. Source code static analysis has been used extensively to detect the unintentional defects, i.e. vulnerabilities, introduced into the source codes by software developers. In this paper, we propose a deep learning approach to detect vulnerabilities from their LLVM IR representations based on the techniques that have been used in natural language processing. The proposed approach uses a hierarchical process to first identify source codes with vulnerabilities, and then it identifies the lines of codes that contribute to the vulnerability within the detected source codes. This proposed two-step approach reduces the false alarm of detecting vulnerable lines. Our extensive experiment on real-world and synthetic codes collected in NVD and SARD shows high accuracy (about 98\%) in detecting source code vulnerabilities. | 翻訳日:2022-11-17 14:45:08 公開日:2022-11-15 |
# LEAN-DMKDE:異常検出のための量子潜在密度推定 LEAN-DMKDE: Quantum Latent Density Estimation for Anomaly Detection ( http://arxiv.org/abs/2211.08525v1 ) ライセンス: Link先を確認 | Joseph Gallego-Mejia, Oscar Bustos-Brinez, Fabio A. Gonz\'alez | (参考訳) 本稿では,密度推定に基づく異常検出手法の強い統計的基礎と,ディープラーニングモデルの表現学習能力を組み合わせた異常検出モデルを提案する。
この手法は、データの低次元表現を学習するためのオートエンコーダと、勾配に基づく最適化手法を用いてトレーニング可能なエンドツーエンドアーキテクチャにおけるランダムフーリエ特徴と密度行列に基づく密度推定モデルを組み合わせる。
本手法は, 推定密度に基づいて新しい試料の正常度を予測する。
異なるベンチマークデータセットで系統的な実験評価を行った。
実験結果から,本手法が他の最先端手法と同等あるいは同等に動作することを示す。 This paper presents an anomaly detection model that combines the strong statistical foundation of density-estimation-based anomaly detection methods with the representation-learning ability of deep-learning models. The method combines an autoencoder, for learning a low-dimensional representation of the data, with a density-estimation model based on random Fourier features and density matrices in an end-to-end architecture that can be trained using gradient-based optimization techniques. The method predicts a degree of normality for new samples based on the estimated density. A systematic experimental evaluation was performed on different benchmark datasets. The experimental results show that the method performs on par with or outperforms other state-of-the-art methods. | 翻訳日:2022-11-17 14:44:57 公開日:2022-11-15 |
# ガウス過程における混合カテゴリー相関核 A mixed-categorical correlation kernel for Gaussian process ( http://arxiv.org/abs/2211.08262v1 ) ライセンス: Link先を確認 | P. Saves and Y. Diouane and N. Bartoli and T. Lefebvre and J. Morlier | (参考訳) 近年,ガウス過程(gp)サロゲートに基づく混合分類メタモデルへの関心が高まっている。
この設定では、いくつかの既存のアプローチは、連続カーネル(例えば、連続緩和とガウワー距離に基づくGP)または相関行列の直接推定によって異なる戦略を使用する。
本稿では,連続指数型カーネルを拡張し,混合カテゴリ変数を扱うカーネルベースアプローチを提案する。
提案したカーネルは、連続緩和とゴーワー距離に基づくGPモデルの両方を一般化する新しいGPサロゲートを導く。
解析的および工学的問題の両方において、提案したGPモデルは、他のカーネルベースの最先端モデルよりも高い確率と残差誤差を与えることを示した。
本手法はオープンソースソフトウェアsmtで利用可能である。 Recently, there has been a growing interest for mixed-categorical meta-models based on Gaussian process (GP) surrogates. In this setting, several existing approaches use different strategies either by using continuous kernels (e.g., continuous relaxation and Gower distance based GP) or by using a direct estimation of the correlation matrix. In this paper, we present a kernel-based approach that extends continuous exponential kernels to handle mixed-categorical variables. The proposed kernel leads to a new GP surrogate that generalizes both the continuous relaxation and the Gower distance based GP models. We demonstrate, on both analytical and engineering problems, that our proposed GP model gives a higher likelihood and a smaller residual error than the other kernel-based state-of-the-art models. Our method is available in the open-source software SMT. | 翻訳日:2022-11-17 14:39:58 公開日:2022-11-15 |
# CaDM:ニューラルエンハンスビデオストリーミングのためのコーデック対応拡散モデリング CaDM: Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming ( http://arxiv.org/abs/2211.08428v1 ) ライセンス: Link先を確認 | Qihua Zhou, Ruibin Li, Song Guo, Yi Liu, Jingcai Guo, Zhenda Xu | (参考訳) 近年、インターネットビデオのトラフィックが劇的に増加しており、ビデオビットストリームはしばしば圧縮され、ストリームのアップリンク帯域に合うように低品質で配信されている。
品質劣化を軽減するために、Neural-enhanced Video Streaming(NVS)が登場し、メディアサーバにニューラル・スーパーレゾリューション(SR)を主に配置することで、低品質のビデオを回復する大きな可能性を示している。
Despite its benefit, we reveal that current mainstream works with SR enhancement have not achieved the desired rate-distortion trade-off between bitrate saving and quality restoration, due to: (1) overemphasizing the enhancement on the decoder side while omitting the co-design of encoder, (2) inherent limited restoration capacity to generate high-fidelity perceptual details, and (3) optimizing the compression-and-restoration pipeline from the resolution perspective solely, without considering color bit-depth.
これらの制限を克服するために、私たちは拡散モデルの視覚合成天才を活用してエンコーダ・デコーダ(コーデック)のシナジーを最初に行う。
具体的には,既存の手法よりもかなり高い復元能力を持ちながら,ストリーミング配信ビットレートを大幅に削減する,新しいnssパラダイムであるcodec-aware diffusion modeling (cadm)を提案する。
第一に、ビデオフレームの解像度とカラービット深度を同時に低減し、エンコーダの圧縮効率を向上する。
第2に、CaDMは、デコーダの分解色条件を意識して拡散復元を行うことにより、デコーダに完全な品質向上を提供する。
OpenMMLabベンチマークによるパブリッククラウドサービスの評価によると、CaDMはバニラH.264に比べてストリーミングビットレートを100倍近く削減し、最先端のニューラルエンハンシング手法よりもはるかに優れたリカバリ品質(FIDは0.61)を達成する。 Recent years have witnessed the dramatic growth of Internet video traffic, where the video bitstreams are often compressed and delivered in low quality to fit the streamer's uplink bandwidth. To alleviate the quality degradation, it comes the rise of Neural-enhanced Video Streaming (NVS), which shows great prospects to recover low-quality videos by mostly deploying neural super-resolution (SR) on the media server. Despite its benefit, we reveal that current mainstream works with SR enhancement have not achieved the desired rate-distortion trade-off between bitrate saving and quality restoration, due to: (1) overemphasizing the enhancement on the decoder side while omitting the co-design of encoder, (2) inherent limited restoration capacity to generate high-fidelity perceptual details, and (3) optimizing the compression-and-restoration pipeline from the resolution perspective solely, without considering color bit-depth. Aiming at overcoming these limitations, we are the first to conduct the encoder-decoder (i.e., codec) synergy by leveraging the visual-synthesis genius of diffusion models. Specifically, we present the Codec-aware Diffusion Modeling (CaDM), a novel NVS paradigm to significantly reduce streaming delivery bitrate while holding pretty higher restoration capacity over existing methods. First, CaDM improves the encoder's compression efficiency by simultaneously reducing resolution and color bit-depth of video frames. Second, CaDM provides the decoder with perfect quality enhancement by making the denoising diffusion restoration aware of encoder's resolution-color conditions. Evaluation on public cloud services with OpenMMLab benchmarks shows that CaDM significantly saves streaming bitrate by a nearly 100 times reduction over vanilla H.264 and achieves much better recovery quality (e.g., FID of 0.61) over state-of-the-art neural-enhancing methods. | 翻訳日:2022-11-17 14:36:33 公開日:2022-11-15 |
# 分割型ラベルアテンションを用いた自動IDD符号化ネットワーク An Automatic ICD Coding Network Using Partition-Based Label Attention ( http://arxiv.org/abs/2211.08429v1 ) ライセンス: Link先を確認 | Daeseong Kim, Haanju Yoo, Sewon Kim | (参考訳) international classification of diseases (icd) は、患者の臨床記録に適した診断と治療のためのユニークなコードを提供する世界的な医療分類システムである。
しかし、人間のコーダによる手動コーディングは高価でエラーを起こしやすい。
自動ICD符号化はこの問題を解決する可能性がある。
ディープラーニング技術の進歩に伴い、自動ICD符号化のための多くのディープラーニングベースの手法が開発されている。
特に、ラベル注意機構はマルチラベル分類、すなわちicd符号化に有効である。
入力された臨床記録からラベル特異的表現を効果的に取得する。
しかし、既存のラベルアテンション機構は、テキスト全体のキートークンを一度に見つけるため、各段落に分散された重要な情報をアテンションマップから省略することができる。
そこで本研究では,2種類のエンコーダと2種類のラベルアテンション層からなるニューラルネットワークアーキテクチャを提案する。
入力テキストは、前者エンコーダにセグメント符号化され、従者によって統合される。
次に、従来および分割に基づくラベルアテンション機構は、重要なグローバルおよび局所的な特徴表現を抽出する。
我々の分類器はICD符号化性能を高めるために効果的に統合する。
ICD符号化のベンチマークデータセットMIMIC-IIIを用いて提案手法の検証を行った。
その結果,ネットワークは分割機構に基づくICD符号化性能の向上を図っている。 International Classification of Diseases (ICD) is a global medical classification system which provides unique codes for diagnoses and procedures appropriate to a patient's clinical record. However, manual coding by human coders is expensive and error-prone. Automatic ICD coding has the potential to solve this problem. With the advancement of deep learning technologies, many deep learning-based methods for automatic ICD coding are being developed. In particular, a label attention mechanism is effective for multi-label classification, i.e., the ICD coding. It effectively obtains the label-specific representations from the input clinical records. However, because the existing label attention mechanism finds key tokens in the entire text at once, the important information dispersed in each paragraph may be omitted from the attention map. To overcome this, we propose a novel neural network architecture composed of two parts of encoders and two kinds of label attention layers. The input text is segmentally encoded in the former encoder and integrated by the follower. Then, the conventional and partition-based label attention mechanisms extract important global and local feature representations. Our classifier effectively integrates them to enhance the ICD coding performance. We verified the proposed method using the MIMIC-III, a benchmark dataset of the ICD coding. Our results show that our network improves the ICD coding performance based on the partition-based mechanism. | 翻訳日:2022-11-17 14:28:45 公開日:2022-11-15 |
# 有限混合モデルに基づく空間的不均一性を考慮したSOCと土地価格の関係 The Association Between SOC and Land Prices Considering Spatial Heterogeneity Based on Finite Mixture Modeling ( http://arxiv.org/abs/2211.08566v1 ) ライセンス: Link先を確認 | Woo Seok Kang, Eunchan Kim and Wookjae Heo | (参考訳) ソーシャル・オーバーヘッド・キャピタル(SOC)が地域社会の土地価値とどのように結びついているかを理解することは効果的な都市計画に重要である。
しかし、地区内でも、異なる目的のために使われる複数のセクションがあり、その用語は空間的異質性である。
土地価格を把握しようとする場合、空間的異質性の問題を考える必要がある。
地区内に空間的不均一性がある場合、空間的クラスタリング手法を用いて土地価格を管理することができる。
本研究では, 特定地区におけるSOC, 社会デコグラフィ, 空間情報などの空間特性をFMM(Finite Mixture Modeling)を用いて分析した。
(a)クラスターの最適数、及び
(b)SOC、社会デミノグラフィー的特徴及び土地価格の関連
FMMは、クラスタと属性の係数を同時に見つけるために使われるツールである。
FMM法を用いて, 各地区に4つのクラスタが存在し, 4つのクラスタは, SOC, 人口統計学的特徴, 土地価格に異なる相関関係を持つことを示した。
政策立案者や管理官は、土地価格に関する政策を行うための情報を探す必要がある。
本研究は, 土地価格に影響を及ぼす要因として, SOCとの密接性を考慮し, SOCに関する政策方向性を示唆している。 An understanding of how Social Overhead Capital (SOC) is associated with the land value of the local community is important for effective urban planning. However, even within a district, there are multiple sections used for different purposes; the term for this is spatial heterogeneity. The spatial heterogeneity issue has to be considered when attempting to comprehend land prices. If there is spatial heterogeneity within a district, land prices can be managed by adopting the spatial clustering method. In this study, spatial attributes including SOC, socio-demographic features, and spatial information in a specific district are analyzed with Finite Mixture Modeling (FMM) in order to find (a) the optimal number of clusters and (b) the association among SOCs, socio-demographic features, and land prices. FMM is a tool used to find clusters and the attributes' coefficients simultaneously. Using the FMM method, the results show that four clusters exist in one district and the four clusters have different associations among SOCs, demographic features, and land prices. Policymakers and managerial administration need to look for information to make policy about land prices. The current study finds the consideration of closeness to SOC to be a significant factor on land prices and suggests the potential policy direction related to SOC. | 翻訳日:2022-11-17 14:28:26 公開日:2022-11-15 |
# ベイズ型固定予算ベストアーム識別 Bayesian Fixed-Budget Best-Arm Identification ( http://arxiv.org/abs/2211.08572v1 ) ライセンス: Link先を確認 | Alexia Atsidakou, Sumeet Katariya, Sujay Sanghavi, Branislav Kveton | (参考訳) 固定予算ベストアーム識別(英語: Fixed-budget best-arm Identification, BAI)は、学習エージェントが一定回数の観測後に最適な腕を特定する確率を最大化する盗難問題である。
本研究では,ベイジアン・セッティングにおけるこの問題の研究に着手する。
ベイズ除去アルゴリズムを提案し,最適アームの同定に失敗する確率の上界を導出する。
境界は前者の品質を反映し、この設定では最初のそのような境界である。
私たちは、事前の処理を行い、最後にランダムなbanditインスタンスを統合するという、頻繁な議論を使ってそれを証明します。
上界の漸近は、新たに確立された下界の2ドルの武器と一致する。
実験の結果,ベイジアン除去は頻繁な手法よりも優れており,保証のない最先端のベイジアンアルゴリズムと競合することがわかった。 Fixed-budget best-arm identification (BAI) is a bandit problem where the learning agent maximizes the probability of identifying the optimal arm after a fixed number of observations. In this work, we initiate the study of this problem in the Bayesian setting. We propose a Bayesian elimination algorithm and derive an upper bound on the probability that it fails to identify the optimal arm. The bound reflects the quality of the prior and is the first such bound in this setting. We prove it using a frequentist-like argument, where we carry the prior through, and then integrate out the random bandit instance at the end. Our upper bound asymptotically matches a newly established lower bound for $2$ arms. Our experimental results show that Bayesian elimination is superior to frequentist methods and competitive with the state-of-the-art Bayesian algorithms that have no guarantees in our setting. | 翻訳日:2022-11-17 14:20:51 公開日:2022-11-15 |
# N2V2 -- 改良サンプリング戦略とネットワークアーキテクチャによるノイズ2型チェッカーボードアーチファクトの修正 N2V2 -- Fixing Noise2Void Checkerboard Artifacts with Modified Sampling Strategies and a Tweaked Network Architecture ( http://arxiv.org/abs/2211.08512v1 ) ライセンス: Link先を確認 | Eva H\"ock, Tim-Oliver Buchholz, Anselm Brachmann, Florian Jug, Alexander Freytag | (参考訳) 近年,ニューラルネットワークを用いた画像分類手法が,生体顕微鏡データの解析に革命をもたらしている。
noise2void(n2v)のような自己教師あり方式は、専用のトレーニングデータがなくても、事実上すべてのノイズデータセットに適用できる。
恐らくこれは、N2Vの生命科学における急速な普及を促した。
残念なことに、N2Vの基礎となる盲点トレーニングは、かなり目に見えるチェッカーボードのアーティファクトにつながり、最終的な予測の品質を大幅に低下させる。
本研究では,バニラN2V装置に2つの改良を加え,不要なアーティファクトを大幅に削減する。
まず、使用中のU-Net全体にわたってMaxPool層の代わりにBlurPoolを使用し、残留するU-Netを非残留U-Netにロールバックし、最上位U-Netレベルでのスキップ接続を除去する改良型ネットワークアーキテクチャを提案する。
さらに,選択した盲点画素を埋める画素強度値を決定するための新しい代替戦略を提案する。
我々は顕微鏡と自然画像データを用いて修正を検証する。
複数種類のノイズから合成ノイズを付加し, 振幅を変化させることで, 両モデルとも, 完全に自己監督された画像のデノナイジングの最先端を推し進めることを示す。 In recent years, neural network based image denoising approaches have revolutionized the analysis of biomedical microscopy data. Self-supervised methods, such as Noise2Void (N2V), are applicable to virtually all noisy datasets, even without dedicated training data being available. Arguably, this facilitated the fast and widespread adoption of N2V throughout the life sciences. Unfortunately, the blind-spot training underlying N2V can lead to rather visible checkerboard artifacts, thereby reducing the quality of final predictions considerably. In this work, we present two modifications to the vanilla N2V setup that both help to reduce the unwanted artifacts considerably. Firstly, we propose a modified network architecture, i.e., using BlurPool instead of MaxPool layers throughout the used U-Net, rolling back the residual U-Net to a non-residual U-Net, and eliminating the skip connections at the uppermost U-Net level. Additionally, we propose new replacement strategies to determine the pixel intensity values that fill in the elected blind-spot pixels. We validate our modifications on a range of microscopy and natural image data. Based on added synthetic noise from multiple noise types and at varying amplitudes, we show that both proposed modifications push the current state-of-the-art for fully self-supervised image denoising. | 翻訳日:2022-11-17 14:19:35 公開日:2022-11-15 |
# イントラビューとインタートラスト学習を用いた領域埋め込み Region Embedding with Intra and Inter-View Contrastive Learning ( http://arxiv.org/abs/2211.08975v1 ) ライセンス: Link先を確認 | Liang Zhang, Cheng Long, and Gao Cong | (参考訳) 教師なし地域表現学習は、ラベルなしの都市データから高密度で効果的な特徴を抽出することを目的としている。
複数のビューに基づいてこの問題を解決するためにいくつかの努力がなされているが、既存のメソッドではビュー内の表現の抽出や異なるビューからの表現の取り込みが不十分である。
表現学習におけるコントラスト学習の成功に動機づけられ、これを多視点領域表現学習に活用し、remvc(multi-view contrastive learning)と呼ばれるモデルを2つのガイドラインで設計する。
一 有効表現抽出のために各ビュー内の他地域と比較すること
二 クロスビュー情報共有のための異なる視点にまたがる地域の比較。
本研究では,異なる領域埋め込みの学習を支援するビュー内コントラスト学習モジュールを設計し,マルチビューにまたがる埋め込みパラメータの制約や知識の伝達を行うソフトコレギュラライザとして機能するビュー間コントラスト学習モジュールを設計する。
ランド利用クラスタリングと地域人気予測という2つの下流タスクで学習した領域埋め込みを活用した。
大規模実験により, 土地利用クラスタリングタスクのマージンは30%を超え, 従来の7つのベースライン手法と比較して, 優れた改善が得られた。 Unsupervised region representation learning aims to extract dense and effective features from unlabeled urban data. While some efforts have been made for solving this problem based on multiple views, existing methods are still insufficient in extracting representations in a view and/or incorporating representations from different views. Motivated by the success of contrastive learning for representation learning, we propose to leverage it for multi-view region representation learning and design a model called ReMVC (Region Embedding with Multi-View Contrastive Learning) by following two guidelines: i) comparing a region with others within each view for effective representation extraction and ii) comparing a region with itself across different views for cross-view information sharing. We design the intra-view contrastive learning module which helps to learn distinguished region embeddings and the inter-view contrastive learning module which serves as a soft co-regularizer to constrain the embedding parameters and transfer knowledge across multi-views. We exploit the learned region embeddings in two downstream tasks named land usage clustering and region popularity prediction. Extensive experiments demonstrate that our model achieves impressive improvements compared with seven state-of-the-art baseline methods, and the margins are over 30% in the land usage clustering task. | 翻訳日:2022-11-17 14:18:25 公開日:2022-11-15 |
# 放射線学レポートの要約範囲を複数の解剖学とモダリティに広げる Toward expanding the scope of radiology report summarization to multiple anatomies and modalities ( http://arxiv.org/abs/2211.08584v1 ) ライセンス: Link先を確認 | Jean-Benoit Delbrouck and Maya Varma and Curtis P. Langlotz | (参考訳) 放射線学レポートの要約は研究の領域の増大である。
放射線学レポートの知見や背景セクションを考えると、その目的は、放射線学研究の重要な観察と結論を強調する要約(印象セクションと呼ばれる)を作ることである。
近年,BLEU や ROUGE など,広く使用されている要約指標によって測定される有望な性能を実現するシステムをリリースしている。
しかし, 放射線医学研究領域の要約は, 現在, 重要な限界に直面している。
まず、ほとんどの結果はプライベートデータセットで報告される。
この制限は、結果を再現し、異なるシステムとソリューションをかなり比較する能力を妨げる。
第二に、我々の知る限りでは、ほとんどの研究は胸部x線で行われている。
時々、研究は、実験に使われた放射線学の報告において、関連するモダリティと解剖について言及することさえ省略する。
これらの制約を緩和するために,MIMIC-IIIデータベースに基づく6つの異なるモダリティと解剖のデータセットを提案する。
結果をさらにリリースし、実験に使用したデータを分割します。
最後に、既存のデータセットのレプリカブル研究に匹敵する単純なレポート要約システムを提案する。 Radiology report summarization is a growing area of research. Given the Findings and/or Background sections of a radiology report, the goal is to generate a summary (called an Impression section) that highlights the key observations and conclusions of the radiology study. Recent efforts have released systems that achieve promising performance as measured by widely used summarization metrics such as BLEU and ROUGE. However, the research area of radiology report summarization currently faces important limitations. First, most of the results are reported on private datasets. This limitation prevents the ability to reproduce results and fairly compare different systems and solutions. Secondly, to the best of our knowledge, most research is carried out on chest X-rays. Sometimes, studies even omit to mention the concerned modality and anatomy in the radiology reports used for their experiments. To palliate these limitations, we propose a new dataset of six different modalities and anatomies based on the MIMIC-III database. We further release our results and the data splits used to carry out our experiments. Finally, we propose a simple report summarization system that outperforms the previous replicable research on the existing dataset. | 翻訳日:2022-11-17 14:12:36 公開日:2022-11-15 |
# 潜在ボトルネック型注意神経過程 Latent Bottlenecked Attentive Neural Processes ( http://arxiv.org/abs/2211.08458v1 ) ライセンス: Link先を確認 | Leo Feng, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed | (参考訳) ニューラルネットワーク(NP)は、コンテキストデータセットに条件付けすることで、ターゲットデータポイントの予測不確実性を推定できるメタラーニングにおいて一般的な手法である。
従来の最先端手法であるTransformer Neural Processs (TNP) は、高い性能を実現するが、コンテキストデータポイントの数に関して2次計算を必要とするため、スケーラビリティは著しく制限される。
逆に、既存のサブクワッドラティックNP変種は、NPの変種よりも著しく悪化する。
この問題に対処するため、我々は、コンテキストデータポイント数に依存しないクエリ計算複雑性を持つ計算効率の低いNP変種であるLBANP(Latent Bottlenecked Attentive Neural Processs)を提案する。
モデルは、コンテキストデータセットを、自己アテンションが実行される定数の潜在ベクトルに符号化する。
予測を行う際、モデルは潜在ベクトル上の複数のクロスアテンション機構を介してコンテキストデータセットから高次情報を取得する。
我々は,LBANPがメタ回帰,画像補完,コンテキスト的マルチアームバンディットの最先端技術と競合する結果を実証的に示す。
LBANPは遅延ベクトルの数に応じて計算コストと性能をトレードオフできることを示す。
最後に、LBANPは、既存の注目に基づくNP変種を超えて、より大きなデータセット設定にスケール可能であることを示す。 Neural Processes (NPs) are popular methods in meta-learning that can estimate predictive uncertainty on target datapoints by conditioning on a context dataset. Previous state-of-the-art method Transformer Neural Processes (TNPs) achieve strong performance but require quadratic computation with respect to the number of context datapoints, significantly limiting its scalability. Conversely, existing sub-quadratic NP variants perform significantly worse than that of TNPs. Tackling this issue, we propose Latent Bottlenecked Attentive Neural Processes (LBANPs), a new computationally efficient sub-quadratic NP variant, that has a querying computational complexity independent of the number of context datapoints. The model encodes the context dataset into a constant number of latent vectors on which self-attention is performed. When making predictions, the model retrieves higher-order information from the context dataset via multiple cross-attention mechanisms on the latent vectors. We empirically show that LBANPs achieve results competitive with the state-of-the-art on meta-regression, image completion, and contextual multi-armed bandits. We demonstrate that LBANPs can trade-off the computational cost and performance according to the number of latent vectors. Finally, we show LBANPs can scale beyond existing attention-based NP variants to larger dataset settings. | 翻訳日:2022-11-17 14:11:32 公開日:2022-11-15 |
# アウト・オブ・ディストリビューション一般化のための最適化選択に関する実証的研究 Empirical Study on Optimizer Selection for Out-of-Distribution Generalization ( http://arxiv.org/abs/2211.08583v1 ) ライセンス: Link先を確認 | Hiroki Naganuma, Kartik Ahuja, Ioannis Mitliagkas, Shiro Takagi, Tetsuya Motokawa, Rio Yokota, Kohta Ishikawa, Ikuro Sato | (参考訳) 現代のディープラーニングシステムは脆弱であり、分散シフト下ではうまく一般化しない。
これらの懸念に対処するために多くの有望な研究がなされているが、オプティマイザの役割とその分散一般化性能に関する体系的な研究は行われていない。
本研究では,経験的リスク最小化と不変リスク最小化の下での分布シフトの異なるクラスに対する一般的な一階最適化器の性能について検討する。
本研究では,DomainBed,WILDS,バックグラウンドチャレンジをアウト・オブ・ディストリビューション・データセットとして用いた画像分類とテキスト分類の問題点に対処する。
我々は,広い範囲のハイパーパラメータを探索し,20,000モデル以上の分類精度(分布内および分布外)を検討した。
私たちは以下の発見に到達します
一 従来の知恵に反して、適応最適化器(例えばアダム)は非適応最適化器(例えば、SGD、運動量ベースSGD)よりも性能が劣る。
二 分配内性能及び分配外性能は、データセットに応じて、リニアリターン、リターンの増加、リターンの減少の3つのタイプの振舞いを示す。
これらの発見は、実践者が適切なオプティマイザを選択し、期待すべき行動を知るのに役立つと信じています。 Modern deep learning systems are fragile and do not generalize well under distribution shifts. While much promising work has been accomplished to address these concerns, a systematic study of the role of optimizers and their out-of-distribution generalization performance has not been undertaken. In this study, we examine the performance of popular first-order optimizers for different classes of distributional shift under empirical risk minimization and invariant risk minimization. We address the problem settings for image and text classification using DomainBed, WILDS, and Backgrounds Challenge as out-of-distribution datasets for the exhaustive study. We search over a wide range of hyperparameters and examine the classification accuracy (in-distribution and out-of-distribution) for over 20,000 models. We arrive at the following findings: i) contrary to conventional wisdom, adaptive optimizers (e.g., Adam) perform worse than non-adaptive optimizers (e.g., SGD, momentum-based SGD), ii) in-distribution performance and out-of-distribution performance exhibit three types of behavior depending on the dataset - linear returns, increasing returns, and diminishing returns. We believe these findings can help practitioners choose the right optimizer and know what behavior to expect. | 翻訳日:2022-11-17 14:11:12 公開日:2022-11-15 |
# 連続時間イベントシーケンスの確率的クエリ Probabilistic Querying of Continuous-Time Event Sequences ( http://arxiv.org/abs/2211.08499v1 ) ライセンス: Link先を確認 | Alex Boyd, Yuxin Chang, Stephan Mandt, Padhraic Smyth | (参考訳) 連続時間イベントシーケンス、すなわち、連続時間スタンプと関連するイベントタイプ(マーク)で構成されるシーケンスは、多くの応用、例えば、臨床医学やユーザー行動モデリングにおいて重要な種類のシーケンシャルデータである。
これらのデータは一般的に自己回帰的にモデル化されるため(例えば、ニューラルホークスプロセスやそれらの古典的手法を使用するなど)、「次にどんなイベントが起こるか」や「タイプA$のイベントがB$の1つの前に起こるか」といった将来のシナリオについて質問することは自然である。
残念ながら、これらのクエリのいくつかは、現在のメソッドが単純なシミュレーションに制限されているため、対処が難しいことで知られている。
本稿では,クエリタイプの新しいタイプと,重要サンプリングを用いた対応フレームワークを提案する。
例えば、$n^\text{th}$イベントタイプをシーケンスで予測したり、1つ以上のイベントタイプのヒットタイム分布を予測したりする。
また,これらの知見を活用して,一般的な "a$ before $b$" 型のクエリを推定する。
理論上,提案手法はナイーブシミュレーションよりも常に優れていることを示し,実世界の3つのデータセットに基づいて経験的に,従来の手法の1000倍の効率性を示す。 Continuous-time event sequences, i.e., sequences consisting of continuous time stamps and associated event types ("marks"), are an important type of sequential data with many applications, e.g., in clinical medicine or user behavior modeling. Since these data are typically modeled autoregressively (e.g., using neural Hawkes processes or their classical counterparts), it is natural to ask questions about future scenarios such as "what kind of event will occur next" or "will an event of type $A$ occur before one of type $B$". Unfortunately, some of these queries are notoriously hard to address since current methods are limited to naive simulation, which can be highly inefficient. This paper introduces a new typology of query types and a framework for addressing them using importance sampling. Example queries include predicting the $n^\text{th}$ event type in a sequence and the hitting time distribution of one or more event types. We also leverage these findings further to be applicable for estimating general "$A$ before $B$" type of queries. We prove theoretically that our estimation method is effectively always better than naive simulation and show empirically based on three real-world datasets that it is on average 1,000 times more efficient than existing approaches. | 翻訳日:2022-11-17 14:09:26 公開日:2022-11-15 |
# MapQA:Choropleth Mapsの質問回答データセット MapQA: A Dataset for Question Answering on Choropleth Maps ( http://arxiv.org/abs/2211.08545v1 ) ライセンス: Link先を確認 | Shuaichen Chang, David Palzer, Jialin Li, Eric Fosler-Lussier, Ningchuan Xiao | (参考訳) choroplethマップは、地域固有の表データのための共通の視覚的表現であり、様々な場所(新聞、記事など)で使われている。
これらの地図は可読性があるが、画面リーダー、分析、その他の関連タスクのデータ抽出を試みる場合、対処が難しい場合が多い。
VQA(Visual-Question Answering)に関する最近の研究は、バー、ライン、パイチャートなどの人為的生成チャート(ChartQA)の質問応答について研究している。
しかし、一般的なVQAモデルやChartQAモデルなど、地図の理解にはほとんど関心が払われていない。
この領域の研究を促進するために,約60Kの地図画像上に800Kの質問応答対の大規模データセットであるMapQAを提案する。
私たちのタスクは、マップスタイルに関する表面的な質問から、基礎となるデータに対する推論を必要とする複雑な質問まで、さまざまなレベルのマップ理解をテストします。
本稿では,ChartQAタスクや一般的なVQAタスクのために設計された,最も強力なベースラインアルゴリズムをフラストレーションするMapQAのユニークな課題について述べる。
また,MapQAのためのビジュアル多出力データ抽出に基づくQA(V-MODEQA)を提案する。
V-MODEQAは、マルチ出力モデルを用いて地図画像から基盤となる構造化データを抽出し、抽出したデータに基づいて推論を行う。
実験結果から,V-MODEQAは現状のChartQAアルゴリズムやVQAアルゴリズムよりも,MapQAの全体的な性能とロバスト性が高いことがわかった。 Choropleth maps are a common visual representation for region-specific tabular data and are used in a number of different venues (newspapers, articles, etc). These maps are human-readable but are often challenging to deal with when trying to extract data for screen readers, analyses, or other related tasks. Recent research into Visual-Question Answering (VQA) has studied question answering on human-generated charts (ChartQA), such as bar, line, and pie charts. However, little work has paid attention to understanding maps; general VQA models, and ChartQA models, suffer when asked to perform this task. To facilitate and encourage research in this area, we present MapQA, a large-scale dataset of ~800K question-answer pairs over ~60K map images. Our task tests various levels of map understanding, from surface questions about map styles to complex questions that require reasoning on the underlying data. We present the unique challenges of MapQA that frustrate most strong baseline algorithms designed for ChartQA and general VQA tasks. We also present a novel algorithm, Visual Multi-Output Data Extraction based QA (V-MODEQA) for MapQA. V-MODEQA extracts the underlying structured data from a map image with a multi-output model and then performs reasoning on the extracted data. Our experimental results show that V-MODEQA has better overall performance and robustness on MapQA than the state-of-the-art ChartQA and VQA algorithms by capturing the unique properties in map question answering. | 翻訳日:2022-11-17 14:03:03 公開日:2022-11-15 |
# ABANICCO: マルチラベル画素分類とカラーセグメンテーションのための新しいカラースペース ABANICCO: A New Color Space for Multi-Label Pixel Classification and Color Segmentation ( http://arxiv.org/abs/2211.08460v1 ) ライセンス: Link先を確認 | Laura Nicol\'as-S\'aenz, Agapito Ledezma, Javier Pascau, Arrate Mu\~noz-Barrutia | (参考訳) カラー画像を含むコンピュータビジョンタスクでは、色に応じてピクセルを分類し、各領域をセグメント化する必要がある。
しかし、この課題を成功させる方法の開発は、主に人間の色知覚、言語色用語、デジタル表現のギャップのために困難であることが証明されている。
本稿では,色理論,ファジィ色空間,マルチラベルシステムの幾何学的解析と12種類の標準色カテゴリ(緑,黄,明るいオレンジ,深オレンジ,赤,ピンク,紫,ウルトラマリン,青,青,青,茶色,中性)による画素の自動分類を組み合わせた新しい手法を提案する。
さらに,統計と色理論に基づく色命名のためのロバストで教師なし,偏りのない戦略を提案する。
ABANICCOは、色分類の最先端と、ISCC-NBSカラーシステムでテストされ、正確な分類と、人間や機械で認識可能な色名に対する標準的で分かりやすい代替手段を提供する。
我々はこのソリューションが、地域特性、病理組織学的分析、火災検出、製品品質予測、オブジェクト記述、ハイパースペクトルイメージングなど、コンピュータビジョンのあらゆる分野における無数の問題に対処する基盤になることを期待している。 In any computer vision task involving color images, a necessary step is classifying pixels according to color and segmenting the respective areas. However, the development of methods able to successfully complete this task has proven challenging, mainly due to the gap between human color perception, linguistic color terms, and digital representation. In this paper, we propose a novel method combining geometric analysis of color theory, fuzzy color spaces, and multi-label systems for the automatic classification of pixels according to 12 standard color categories (Green, Yellow, Light Orange, Deep Orange, Red, Pink, Purple, Ultramarine, Blue, Teal, Brown, and Neutral). Moreover, we present a robust, unsupervised, unbiased strategy for color naming based on statistics and color theory. ABANICCO was tested against the state of the art in color classification and with the standarized ISCC-NBS color system, providing accurate classification and a standard, easily understandable alternative for hue naming recognizable by humans and machines. We expect this solution to become the base to successfully tackle a myriad of problems in all fields of computer vision, such as region characterization, histopathology analysis, fire detection, product quality prediction, object description, and hyperspectral imaging. | 翻訳日:2022-11-17 14:02:15 公開日:2022-11-15 |
# インコンテキスト学習における合成一般化ギャップについて On the Compositional Generalization Gap of In-Context Learning ( http://arxiv.org/abs/2211.08473v1 ) ライセンス: Link先を確認 | Arian Hosseini, Ankit Vani, Dzmitry Bahdanau, Alessandro Sordoni, Aaron Courville | (参考訳) 事前訓練された大規模生成言語モデルは、多くのタスクで優れた性能を示すが、合成汎化能力は低い。
このようなモデルのスケーリングは、微調整(in-context learningとも呼ばれる)なしでタスクを解くためにいくつかの例に条件を付けるだけで、さまざまなNLPタスクのパフォーマンスを改善することが示されている。
そこで本研究では,テキスト内学習を伴う意味解析タスクにおいて,そのようなモデルの分布内(ID)と分布外(OOD)のパフォーマンスのギャップについて検討する。
ID設定では、デモはモデルが評価されているのと同じスプリット(テストまたはトレイン)から行われ、OOD設定では、他のスプリットから行われる。
モデルのスケールアップに伴って、コンテキスト内学習の相対的一般化ギャップがどのように進化するかを検討する。
我々は,OPT,BLOOM,CodeGen,Codexの3つのセマンティック解析データセット,CFQ,SCAN,GeoQueryの4つのモデルファミリを評価し,モデルのスケールアップに伴う相対一般化ギャップの減少傾向を観察する。 Pretrained large generative language models have shown great performance on many tasks, but exhibit low compositional generalization abilities. Scaling such models has been shown to improve their performance on various NLP tasks even just by conditioning them on a few examples to solve the task without any fine-tuning (also known as in-context learning). In this work, we look at the gap between the in-distribution (ID) and out-of-distribution (OOD) performance of such models in semantic parsing tasks with in-context learning. In the ID settings, the demonstrations are from the same split (test or train) that the model is being evaluated on, and in the OOD settings, they are from the other split. We look at how the relative generalization gap of in-context learning evolves as models are scaled up. We evaluate four model families, OPT, BLOOM, CodeGen and Codex on three semantic parsing datasets, CFQ, SCAN and GeoQuery with different number of exemplars, and observe a trend of decreasing relative generalization gap as models are scaled up. | 翻訳日:2022-11-17 14:00:15 公開日:2022-11-15 |
# 現象学的因果性 Phenomenological Causality ( http://arxiv.org/abs/2211.09024v1 ) ライセンス: Link先を確認 | Dominik Janzing and Sergio Hernan Garrido Mejia | (参考訳) 実生活における因果関係に関する議論は、それぞれの変数への介入の概念が曖昧であるため、因果関係の定義が不明確である変数をよく考慮する。
変数 X への介入に対するアクションの資格を問うと、アクションが X を通してのみ他の変数に影響を与えているのか、それとも直接的なのかという疑問が持ち上がる。
このような循環を避けるために、基本的な概念が基本的な行動の集合である「現象因果性」の概念を提案する。
すると、因果構造は、基本的な作用が1つのノード(例えばマルコフ分解における因果条件の一つ)で因果機構だけを変えるように定義される。
このように独立機構の原理は、因果関係がより抽象的な現象である領域における因果構造の定義的性質となり、有形物体間のハードワイヤリング因果関係に依存する客観的な事実である。
おもちゃの因果性に対するこの現象論的アプローチと仮想実世界の例について述べ、検討中のシステムが基本作用を制御する他の変数と相互作用する場合、因果的マルコフ条件と一致していると主張する。 Discussions on causal relations in real life often consider variables for which the definition of causality is unclear since the notion of interventions on the respective variables is obscure. Asking 'what qualifies an action for being an intervention on the variable X' raises the question whether the action impacted all other variables only through X or directly, which implicitly refers to a causal model. To avoid this known circularity, we instead suggest a notion of 'phenomenological causality' whose basic concept is a set of elementary actions. Then the causal structure is defined such that elementary actions change only the causal mechanism at one node (e.g. one of the causal conditionals in the Markov factorization). This way, the Principle of Independent Mechanisms becomes the defining property of causal structure in domains where causality is a more abstract phenomenon rather than being an objective fact relying on hard-wired causal links between tangible objects. We describe this phenomenological approach to causality for toy and hypothetical real-world examples and argue that it is consistent with the causal Markov condition when the system under consideration interacts with other variables that control the elementary actions. | 翻訳日:2022-11-17 13:54:43 公開日:2022-11-15 |
# パワーロースケーリングによる人工知能の重要な課題 Power-law Scaling to Assist with Key Challenges in Artificial Intelligence ( http://arxiv.org/abs/2211.08430v1 ) ライセンス: Link先を確認 | Yuval Meir, Shira Sardi, Shiri Hodassman, Karin Kisos, Itamar Ben-Noam, Amir Goldental and Ido Kanter | (参考訳) 批判現象の中心的な概念であるパワーロースケーリングは、手書き桁の例に最適化されたテストエラーが、データベースサイズとともにゼロのパワーローとして収束する深層学習において有用である。
1つのトレーニングエポックによる迅速な意思決定のために、各例はトレーニングされたネットワークに一度だけ提示される。
最も大きなデータセットでは、得られたテスト誤差は、大規模なエポック数に対する最先端アルゴリズムに近いと推定された。
パワーロースケーリングは、現在の人工知能アプリケーションで見られる重要な課題を支援し、望まれるテスト精度を達成するために、事前データセットサイズ推定を容易にする。
機械学習タスクとアルゴリズムのトレーニング複雑性と定量的階層を測定するベンチマークを確立している。 Power-law scaling, a central concept in critical phenomena, is found to be useful in deep learning, where optimized test errors on handwritten digit examples converge as a power-law to zero with database size. For rapid decision making with one training epoch, each example is presented only once to the trained network, the power-law exponent increased with the number of hidden layers. For the largest dataset, the obtained test error was estimated to be in the proximity of state-of-the-art algorithms for large epoch numbers. Power-law scaling assists with key challenges found in current artificial intelligence applications and facilitates an a priori dataset size estimation to achieve a desired test accuracy. It establishes a benchmark for measuring training complexity and a quantitative hierarchy of machine learning tasks and algorithms. | 翻訳日:2022-11-17 13:54:22 公開日:2022-11-15 |
# バイアスゼロのスカラー不変量ネットワーク Scalar Invariant Networks with Zero Bias ( http://arxiv.org/abs/2211.08486v1 ) ライセンス: Link先を確認 | Chuqin Geng, Xiaojie Xu, Haolin Ye, Xujie Si | (参考訳) weightsと同じく、バイアス項はニューラルネットワークを含む多くの一般的な機械学習モデルの学習可能なパラメータである。
バイアスは、コンピュータビジョンの幅広いタスクを解決するために、ニューラルネットワークの表現力を効果的に増加させると考えられている。
しかし、入力空間における画像の本質的な分布と、モデルが第一原理から持つべき所望の特性を考えると、画像分類などの多くの画像関連課題に対処する際にバイアスは完全に無視できる。
我々の観察では、ゼロバイアスニューラルネットワークは、少なくとも実用的な画像分類タスクにおいてバイアスのあるニューラルネットワークと相容れない性能を示す。
さらに,ゼロバイアスニューラルネットワークがスカラー(乗算)不変性(scalr invariance)と呼ばれる優れた特性を持っていることを証明した。
次にスカラー不変性をより一般的なケースに拡張し、入力空間の凸領域を検証できるようにする。
実験結果から,低照度条件(スカラー0.01を乗じて)下での映像の予測において,ゼロバイアスモデルは非常に大きなマージン(60%以上)を達成でき,通常のモデルと同等の性能を達成できることがわかった。 Just like weights, bias terms are the learnable parameters of many popular machine learning models, including neural networks. Biases are believed to effectively increase the representational power of neural networks to solve a wide range of tasks in computer vision. However, we argue that if we consider the intrinsic distribution of images in the input space as well as some desired properties a model should have from the first principles, biases can be completely ignored in addressing many image-related tasks, such as image classification. Our observation indicates that zero-bias neural networks could perform comparably to neural networks with bias at least on practical image classification tasks. In addition, we prove that zero-bias neural networks possess a nice property called scalar (multiplication) invariance, which has great potential in learning and understanding images captured under poor illumination conditions. We then extend scalar invariance to more general cases that allow us to verify certain convex regions of the input space. Our experimental results show that zero-bias models could outperform the state-of-art models by a very large margin (over 60%) when predicting images under a low illumination condition (multiplying a scalar of 0.01); while achieving the same-level performance as normal models. | 翻訳日:2022-11-17 13:54:07 公開日:2022-11-15 |
# ALIGN-MLM:多言語事前学習のための単語埋め込みアライメント ALIGN-MLM: Word Embedding Alignment is Crucial for Multilingual Pre-training ( http://arxiv.org/abs/2211.08547v1 ) ライセンス: Link先を確認 | Henry Tang, Ameet Deshpande, Karthik Narasimhan | (参考訳) ソース言語で微調整されたモデルは、ターゲット言語で驚くほど優れたパフォーマンスを達成します。
研究は移動の理解を試みているが、それらはmlmのみに焦点を当てており、自然言語間の多くの違いは異なる性質の重要性を区別することが困難である。
本研究では,補助的損失が異なる言語で類似語を導く事前学習目標(align-mlm)を提案することで,単語埋め込みアライメントの重要性を特に強調する。
ALIGN-MLMは、スクリプトのような特定の特性を体系的に修正して作成した自然言語のペアとそれら間の移動を評価する際に、広く採用されている3つの目的(MLM, XLM, DICT-MLM)より優れるか、あるいは適合する。
特に、ALIGN-MLM は XLM と MLM を 35 と 30 F1 で上回り、スクリプトと単語順で異なる言語(左対右対右対右)間で POS タグ付けを行う。
また、ALIGN-MLMの多言語モデルに対する単語埋め込みを明示的に整合させる強力な性能要求とともに、全ての目的(例えば、XNLIのrho=0.727)に対するアライメントと転送の間に強い相関関係を示す。 Multilingual pre-trained models exhibit zero-shot cross-lingual transfer, where a model fine-tuned on a source language achieves surprisingly good performance on a target language. While studies have attempted to understand transfer, they focus only on MLM, and the large number of differences between natural languages makes it hard to disentangle the importance of different properties. In this work, we specifically highlight the importance of word embedding alignment by proposing a pre-training objective (ALIGN-MLM) whose auxiliary loss guides similar words in different languages to have similar word embeddings. ALIGN-MLM either outperforms or matches three widely adopted objectives (MLM, XLM, DICT-MLM) when we evaluate transfer between pairs of natural languages and their counterparts created by systematically modifying specific properties like the script. In particular, ALIGN-MLM outperforms XLM and MLM by 35 and 30 F1 points on POS-tagging for transfer between languages that differ both in their script and word order (left-to-right v.s. right-to-left). We also show a strong correlation between alignment and transfer for all objectives (e.g., rho=0.727 for XNLI), which together with ALIGN-MLM's strong performance calls for explicitly aligning word embeddings for multilingual models. | 翻訳日:2022-11-17 13:45:28 公開日:2022-11-15 |
# インコンテキスト学習によるアルゴリズム推論の指導 Teaching Algorithmic Reasoning via In-context Learning ( http://arxiv.org/abs/2211.09066v1 ) ライセンス: Link先を確認 | Hattie Zhou, Azade Nova, Hugo Larochelle, Aaron Courville, Behnam Neyshabur, Hanie Sedghi | (参考訳) 大規模言語モデル(LLM)では、モデルとデータサイズをスケールアップすることで、コンテキスト内学習能力が向上している。
この進歩にもかかわらず、LLMはアルゴリズムの推論問題をまだ解決できない。
最終回答を根拠として、マルチステップ推論問題をさらに改善する一方で、anilら2022はパリティのような単純なアルゴリズム推論タスクでさえ解決にはほど遠いことを示した。
本研究では,(1)アルゴリズムをスキルとして表現すること,(2)複数のスキルを同時に教えること(スキルの蓄積),(3)スキル(スキル構成)を組み合わせる方法,(4)スキルをツールとして使う方法を教えること,の4つの重要な段階を特定し,学習する。
本稿では,LLMのアルゴリズム推論を文脈内学習によって教えることが可能であることを示す。
我々は,様々な算術的および定量的推論タスクに対するアプローチを評価し,既存のプロンプト技術よりも高い性能を示す。
特に, 長パリティ, 加算, 乗算, 減算では, 最良ベースラインに比べて約10x, 9x, 5x, 2xの誤差低減を実現している。 Large language models (LLMs) have shown increasing in-context learning capabilities through scaling up model and data size. Despite this progress, LLMs are still unable to solve algorithmic reasoning problems. While providing a rationale with the final answer has led to further improvements in multi-step reasoning problems, Anil et al. 2022 showed that even simple algorithmic reasoning tasks such as parity are far from solved. In this work, we identify and study four key stages for successfully teaching algorithmic reasoning to LLMs: (1) formulating algorithms as skills, (2) teaching multiple skills simultaneously (skill accumulation), (3) teaching how to combine skills (skill composition) and (4) teaching how to use skills as tools. We show that it is possible to teach algorithmic reasoning to LLMs via in-context learning, which we refer to as algorithmic prompting. We evaluate our approach on a variety of arithmetic and quantitative reasoning tasks, and demonstrate significant boosts in performance over existing prompting techniques. In particular, for long parity, addition, multiplication and subtraction, we achieve an error reduction of approximately 10x, 9x, 5x and 2x respectively compared to the best available baselines. | 翻訳日:2022-11-17 13:44:09 公開日:2022-11-15 |
# オートエンコーダの解釈可能性と固有潜在分解について On interpretability and proper latent decomposition of autoencoders ( http://arxiv.org/abs/2211.08345v1 ) ライセンス: Link先を確認 | Luca Magri and Anh Khoa Doan | (参考訳) 乱流のダイナミクスは、統計的に定常的な状態において位相空間の一部のみを占める傾向がある。
動的システムの観点からすると、この部分が引き金になります。
乱流引力の知識は、少なくとも2つの目的に有用である。
(i)乱流(アトラクタの形状と形状は何か)の物理的洞察を得ることができ、また
(ii)乱流力学を正確に記述するための自由度が最小となる。
オートエンコーダは、ダイナミクスの低階表現である最適潜在空間の計算を可能にする。
適切に訓練され、正しく設計されたオートエンコーダは、Doan, Racca and Magri (2022) が示すように、乱流の引力の近似を学習することができる。
本稿では,オートエンコーダの変換を理論的に解釈する。
まず、潜在空間は曲線座標を持つ曲面多様体であり、リーマン幾何学の簡単なツールを用いて解析することができることを述べる。
第二に、潜在空間の幾何学的性質を特徴づける。
我々は、多様体の数学的記述を提供する計量テンソルを数学的に導出する。
第3に,自己エンコーダ潜在空間上の乱流の固有直交分解を一般化する手法である固有潜時分解(pld)を提案する。
この分解は、曲線付き潜在空間における支配的な方向を見つける。
この理論的研究は、オートエンコーダを解釈し、乱流の低次モデルを作成するための計算機会を開く。 The dynamics of a turbulent flow tend to occupy only a portion of the phase space at a statistically stationary regime. From a dynamical systems point of view, this portion is the attractor. The knowledge of the turbulent attractor is useful for two purposes, at least: (i) We can gain physical insight into turbulence (what is the shape and geometry of the attractor?), and (ii) it provides the minimal number of degrees of freedom to accurately describe the turbulent dynamics. Autoencoders enable the computation of an optimal latent space, which is a low-order representation of the dynamics. If properly trained and correctly designed, autoencoders can learn an approximation of the turbulent attractor, as shown by Doan, Racca and Magri (2022). In this paper, we theoretically interpret the transformations of an autoencoder. First, we remark that the latent space is a curved manifold with curvilinear coordinates, which can be analyzed with simple tools from Riemann geometry. Second, we characterize the geometrical properties of the latent space. We mathematically derive the metric tensor, which provides a mathematical description of the manifold. Third, we propose a method -- proper latent decomposition (PLD) -- that generalizes proper orthogonal decomposition of turbulent flows on the autoencoder latent space. This decomposition finds the dominant directions in the curved latent space. This theoretical work opens up computational opportunities for interpreting autoencoders and creating reduced-order models of turbulent flows. | 翻訳日:2022-11-16 16:21:01 公開日:2022-11-15 |
# 脳波スペクトログラムを用いた運動画像分類 Motor imagery classification using EEG spectrograms ( http://arxiv.org/abs/2211.08350v1 ) ライセンス: Link先を確認 | Saadat Ullah Khan, Muhammad Majid, Syed Muhammad Anwar | (参考訳) 脊髄損傷による四肢運動の喪失は、日々の活動中に人々に影響を及ぼす可能性がある障害である。
四肢運動の回復により、脊髄損傷のある人がより自然に環境と相互作用できるようになり、ここではbci(brain-computer interface)システムが有用である。
四肢運動想像力(MI)の検出は、検出されたMIがコンピュータシステムを誘導できるようなBCIにとって重要である。
脳波(eeg)によるmi検出により,ユーザの運動の想像力を認識し,それを物理的運動に変換することができる。
本稿では,前訓練型深層学習(dl)アルゴリズムを用いて,想像上の上肢運動の分類を行う。
我々は、手足の動きの7つのクラスを表すデータを備えた、利用可能なEEGデータセットを使用する。
我々は時系列脳波信号のスペクトルを計算し、それをMI分類のためのDLモデルへの入力として利用する。
予備学習したdlアルゴリズムとスペクトログラムを用いて上肢運動を分類する新しいアプローチは,7つの動作クラスにおいて有意に改善した。
近年提案された最先端手法と比較すると,7つの動作を分類したアルゴリズムの平均精度は84.9%であった。 The loss of limb motion arising from damage to the spinal cord is a disability that could effect people while performing their day-to-day activities. The restoration of limb movement would enable people with spinal cord injury to interact with their environment more naturally and this is where a brain-computer interface (BCI) system could be beneficial. The detection of limb movement imagination (MI) could be significant for such a BCI, where the detected MI can guide the computer system. Using MI detection through electroencephalography (EEG), we can recognize the imagination of movement in a user and translate this into a physical movement. In this paper, we utilize pre-trained deep learning (DL) algorithms for the classification of imagined upper limb movements. We use a publicly available EEG dataset with data representing seven classes of limb movements. We compute the spectrograms of the time series EEG signal and use them as an input to the DL model for MI classification. Our novel approach for the classification of upper limb movements using pre-trained DL algorithms and spectrograms has achieved significantly improved results for seven movement classes. When compared with the recently proposed state-of-the-art methods, our algorithm achieved a significant average accuracy of 84.9% for classifying seven movements. | 翻訳日:2022-11-16 16:20:41 公開日:2022-11-15 |
# 楽器分類の見直し Music Instrument Classification Reprogrammed ( http://arxiv.org/abs/2211.08379v1 ) ライセンス: Link先を確認 | Hsin-Hung Chen and Alexander Lerch | (参考訳) 音楽情報検索における一般的なタスクである楽器分類へのアプローチのパフォーマンスは、しばしば、訓練のための注釈付きデータの可用性の欠如によって制限される。
そこで本研究では,プリトレーニングモデルの入力と出力の両方を修正・マッピングすることで,異なるタスクをターゲットとした,事前トレーニングされた深層および複雑なニューラルネットワークを活用する手法である「リプログラミング」を提案する。
本研究では,異なるタスクで学習した表現のパワーを効果的に活用できることを実証し,結果として得られた再プログラムシステムは,訓練パラメータのごく一部で,同等あるいはそれ以上の性能を持つシステムでも実行可能であることを実証する。
その結果,再プログラミングはデータ不足によって妨げられる他のタスクに適用可能な有望な手法であることが示唆された。 The performance of approaches to Music Instrument Classification, a popular task in Music Information Retrieval, is often impacted and limited by the lack of availability of annotated data for training. We propose to address this issue with "reprogramming," a technique that utilizes pre-trained deep and complex neural networks originally targeting a different task by modifying and mapping both the input and output of the pre-trained model. We demonstrate that reprogramming can effectively leverage the power of the representation learned for a different task and that the resulting reprogrammed system can perform on par or even outperform state-of-the-art systems at a fraction of training parameters. Our results, therefore, indicate that reprogramming is a promising technique potentially applicable to other tasks impeded by data scarcity. | 翻訳日:2022-11-16 16:20:23 公開日:2022-11-15 |
# 複数のニューラルネットワークを用いたコンパクト銀河、星、クエーサーの光度同定 Photometric identification of compact galaxies, stars and quasars using multiple neural networks ( http://arxiv.org/abs/2211.08388v1 ) ライセンス: Link先を確認 | Siddharth Chaini, Atharva Bagul, Anish Deshpande, Rishi Gondkar, Kaushal Sharma, M. Vivek, Ajit Kembhavi | (参考訳) 本研究では,sloan digital sky survey (sdss) data release 16 (dr16) カタログの測光パラメータと画像を用いて,恒星,クエーサー,コンパクト銀河を識別する深層学習に基づく分類器margnetを提案する。
MargNetは、畳み込みニューラルネットワーク(CNN)とArtificial Neural Network(ANN)アーキテクチャの組み合わせで構成されている。
24万個のコンパクトオブジェクトと15万個のかすかなオブジェクトからなる注意深くキュレートされたデータセットを使用して、マシンはデータから直接分類を学習し、人間の介入の必要性を最小化する。
MargNetは、小さな銀河にのみ焦点をあてた最初の分類器であり、恒星やクエーサーから小さな銀河を微等級でも分類する他の方法よりも優れている。
このようなディープラーニングアーキテクチャにおけるこのモデルと特徴工学は、ダークエネルギーサーベイ(DES)やベラ・C・ルービン天文台の画像など、進行中および今後の調査で対象を特定する上で、より大きな成功をもたらすだろう。 We present MargNet, a deep learning-based classifier for identifying stars, quasars and compact galaxies using photometric parameters and images from the Sloan Digital Sky Survey (SDSS) Data Release 16 (DR16) catalogue. MargNet consists of a combination of Convolutional Neural Network (CNN) and Artificial Neural Network (ANN) architectures. Using a carefully curated dataset consisting of 240,000 compact objects and an additional 150,000 faint objects, the machine learns classification directly from the data, minimising the need for human intervention. MargNet is the first classifier focusing exclusively on compact galaxies and performs better than other methods to classify compact galaxies from stars and quasars, even at fainter magnitudes. This model and feature engineering in such deep learning architectures will provide greater success in identifying objects in the ongoing and upcoming surveys, such as Dark Energy Survey (DES) and images from the Vera C. Rubin Observatory. | 翻訳日:2022-11-16 16:20:09 公開日:2022-11-15 |
# 分散連合学習 : 基礎,最新技術,フレームワーク,トレンド,課題 Decentralized Federated Learning: Fundamentals, State-of-the-art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v1 ) ライセンス: Link先を確認 | Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an | (参考訳) 過去10年間で、フェデレートラーニング(FL)は、機密データを共有せずにコラボレーティブモデルのトレーニングに関連がある。
その誕生以来、CFL(Centralized FL)は文学において最も一般的なアプローチであり、ユニークな実体がグローバルモデルを作成する。
しかし、集中型アプローチを使うことは、サーバノードのボトルネック、単一障害点、信頼の必要性といった欠点がある。
分散連合学習(dfl)は、集中型アーキテクチャに頼ることなく、データ共有の最小化と分散モデル集約の原則を取り入れることで、これらの問題を解決するために生まれた。
しかし、DFLでの作業にもかかわらず、文献は残っていない。
(i)DFLとCFLを区別する主な基礎研究。
(二)DFLを用いたアプリケーションシナリオとソリューションの見直し、及び
(iii)新しいソリューションを作成し評価するためにDFLフレームワークを分析した。
この目的のために、本稿では、DFLの主な基礎を、フェデレーションアーキテクチャ、トポロジ、通信機構、セキュリティアプローチ、キーパフォーマンスインジケータの観点から特定し、分析する。
さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。
そして、この研究は、以前に定義された基本に従って最もよく使われるDFLアプリケーションシナリオとソリューションを分析し、比較します。
その後、現在のDFLフレームワークの最も重要な機能はレビューされ、比較される。
最後に、既存のDFLソリューションの進化を分析し、トレンド、学んだ教訓、オープンな課題のリストを提供する。 In the last decade, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a unique entity creates global models. However, using a centralized approach has the disadvantages of bottleneck at the server node, single point of failure, and trust needs. Decentralized Federated Learning (DFL) arose to solve these aspects by embracing the principles of data sharing minimization and decentralized model aggregation without relying on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main fundamentals differentiating DFL and CFL; (ii) reviewed application scenarios and solutions using DFL; and (iii) analyzed DFL frameworks to create and evaluate new solutions. To this end, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, this work analyzes and compares the most used DFL application scenarios and solutions according to the fundamentals previously defined. After that, the most relevant features of the current DFL frameworks are reviewed and compared. Finally, the evolution of existing DFL solutions is analyzed to provide a list of trends, lessons learned, and open challenges. | 翻訳日:2022-11-16 16:19:51 公開日:2022-11-15 |
# 人間中心型aiの参加インタフェース Participation Interfaces for Human-Centered AI ( http://arxiv.org/abs/2211.08419v1 ) ライセンス: Link先を確認 | Sean McGregor | (参考訳) 新興人工知能(AI)の応用は、多種多様な利害関係者グループの間での好みと影響のバランスをとることが多い。
システム設計、開発、デプロイメントの間、これらのステークホルダーグループを収容するには、異なるシステム利害関係を引き出すためのツールが必要である。
本稿では,マルコフ決定プロセス(MDP)のためのインタラクティブな視覚的「参加インタフェース」と協調的なランキング問題を紹介する。 Emerging artificial intelligence (AI) applications often balance the preferences and impacts among diverse and contentious stakeholder groups. Accommodating these stakeholder groups during system design, development, and deployment requires tools for the elicitation of disparate system interests and collaboration interfaces supporting negotiation balancing those interests. This paper introduces interactive visual "participation interfaces" for Markov Decision Processes (MDPs) and collaborative ranking problems as examples restoring a human-centered locus of control. | 翻訳日:2022-11-16 16:19:29 公開日:2022-11-15 |
# データ駆動型および物理に基づく自動ゴルフパッティング Autonomous Golf Putting with Data-Driven and Physics-Based Methods ( http://arxiv.org/abs/2211.08081v1 ) ライセンス: Link先を確認 | Annika Junker, Niklas Fittkau, Julia Timmermann, Ansgar Tr\"achtler | (参考訳) 我々は、データ駆動型と物理ベースを組み合わせた自己学習型メカトロニックゴルフロボットを開発し、グリーン上の任意の点からボールを置くことを自律的に学ばせるようにしている。
ロボットのメカトロニクス制御設計とは別に、このタスクは画像認識を備えたカメラシステムと、ホールインワンの成功に必要なストローク速度ベクトルを予測するニューラルネットワークによって達成される。
実システムとの時間消費相互作用を最小化するために、グリーン面のゴルフボールダイナミクスをデータ駆動方式で近似するモデルの基本物理法則を評価することにより、ニューラルネットワークを事前学習する。
そこで,本稿では,ゴルフロボットにおけるデータ駆動法と物理ベース法の相乗的組み合わせをメカトロニクスの例システムとして示す。 We are developing a self-learning mechatronic golf robot using combined data-driven and physics-based methods, to have the robot autonomously learn to putt the ball from an arbitrary point on the green. Apart from the mechatronic control design of the robot, this task is accomplished by a camera system with image recognition and a neural network for predicting the stroke velocity vector required for a successful hole-in-one. To minimize the number of time-consuming interactions with the real system, the neural network is pretrained by evaluating basic physical laws on a model, which approximates the golf ball dynamics on the green surface in a data-driven manner. Thus, we demonstrate the synergetic combination of data-driven and physics-based methods on the golf robot as a mechatronic example system. | 翻訳日:2022-11-16 16:19:21 公開日:2022-11-15 |
# 特徴階層エッジ推論によるAI品質制御の実現 Enabling AI Quality Control via Feature Hierarchical Edge Inference ( http://arxiv.org/abs/2211.07860v1 ) ライセンス: Link先を確認 | Jinhyuk Choi, Seong-Lyun Kim, Seung-Woo Ko | (参考訳) エッジコンピューティングの台頭に伴い、エッジ推論(EI)と呼ばれるネットワークエッジで動作するディープニューラルネットワーク(DNN)に基づく推論を通じて、さまざまなAIサービスがモバイル側で利用できるようになることが期待されている。
一方、結果として得られるAI品質(例えば、客観的検出における平均精度)は、与えられた要因とみなされており、異なるユーザの多様な要求に対処することの重要性にもかかわらず、AI品質制御はまだ検討されていない。
本研究の目的は,機能階層型EI(FHEI)を提案し,エッジサーバに展開する機能ネットワークと,対応するモバイルに展開する推論ネットワークをそれぞれ構成することである。
具体的には、機能ネットワークは、異なるスケールの1方向の機能依存である機能階層に基づいて設計されている。
より高いスケールの機能は、より良いAI品質を提供する一方で、より多くの計算と通信負荷を必要とする。
このトレードオフにより、FHEIは、通信と計算の負荷を徐々に制御し、アップリンク \&ダウンリンク送信とエッジサーバとモバイル計算能力の制約の下で、マルチユーザAI品質を最大化する、ほぼ最適なソリューションを導出する。
提案したFHEIアーキテクチャの連成通信・計算制御は,通信条件や計算条件に応じて,各ユーザのAI品質を差別化することにより,常にいくつかのベンチマークを上回ります。 With the rise of edge computing, various AI services are expected to be available at a mobile side through the inference based on deep neural network (DNN) operated at the network edge, called edge inference (EI). On the other hand, the resulting AI quality (e.g., mean average precision in objective detection) has been regarded as a given factor, and AI quality control has yet to be explored despite its importance in addressing the diverse demands of different users. This work aims at tackling the issue by proposing a feature hierarchical EI (FHEI), comprising feature network and inference network deployed at an edge server and corresponding mobile, respectively. Specifically, feature network is designed based on feature hierarchy, a one-directional feature dependency with a different scale. A higher scale feature requires more computation and communication loads while it provides a better AI quality. The tradeoff enables FHEI to control AI quality gradually w.r.t. communication and computation loads, leading to deriving a near-to-optimal solution to maximize multi-user AI quality under the constraints of uplink \& downlink transmissions and edge server and mobile computation capabilities. It is verified by extensive simulations that the proposed joint communication-and-computation control on FHEI architecture always outperforms several benchmarks by differentiating each user's AI quality depending on the communication and computation conditions. | 翻訳日:2022-11-16 16:14:21 公開日:2022-11-15 |
# 発作発症域の局所化を支援する皮質皮質誘発電位への機械学習の適用 Machine Learning Methods Applied to Cortico-Cortical Evoked Potentials Aid in Localizing Seizure Onset Zones ( http://arxiv.org/abs/2211.07867v1 ) ライセンス: Link先を確認 | Ian G. Malone, Kaleb E. Smith, Morgan E. Urdaneta, Tyler S. Davis, Daria Nesterovich Anderson, Brian J. Phillip, John D. Rolston, Christopher R. Butson | (参考訳) てんかんは何百万人もの人に影響を与え、生活の質を下げ、早死にのリスクを増す。
てんかん症例の3分の1は薬剤耐性であり、治療の手術を必要とする。
皮質皮質誘発電位 (CCEPs) を用いてSOZの局在を改善する試みがなされているが, 臨床応用には不十分であった。
ここでは、CCEPデータからSOZをローカライズする10の機械学習分類器の性能を比較する。
この予備研究は機械学習の新たな応用を検証し,今後の研究が期待できる有望な研究ラインとしてのアプローチを確立した。
この研究は、同僚の機械学習やてんかん研究者との議論やコラボレーションを促進するのにも役立ちます。 Epilepsy affects millions of people, reducing quality of life and increasing risk of premature death. One-third of epilepsy cases are drug-resistant and require surgery for treatment, which necessitates localizing the seizure onset zone (SOZ) in the brain. Attempts have been made to use cortico-cortical evoked potentials (CCEPs) to improve SOZ localization but none have been successful enough for clinical adoption. Here, we compare the performance of ten machine learning classifiers in localizing SOZ from CCEP data. This preliminary study validates a novel application of machine learning, and the results establish our approach as a promising line of research that warrants further investigation. This work also serves to facilitate discussion and collaboration with fellow machine learning and/or epilepsy researchers. | 翻訳日:2022-11-16 16:13:55 公開日:2022-11-15 |
# ET-AL:材料データにおけるバイアス軽減のためのエントロピー型アクティブラーニング ET-AL: Entropy-Targeted Active Learning for Bias Mitigation in Materials Data ( http://arxiv.org/abs/2211.07881v1 ) ライセンス: Link先を確認 | Hengrui Zhang, Wei Wayne Chen, James M. Rondinelli, Wei Chen | (参考訳) 材料データとデータセントリックインフォマティクスツールの成長は、材料の発見と設計を劇的に促進する。
機械学習のようなデータ駆動型モデルは、多くの注目を集め、大きな進歩を観察してきたが、データリソースの品質は等しく重要であるが、研究は少ない。
本研究では,材料データ品質の重要な側面であるバイアス緩和に焦点をあてる。
異なる結晶系の安定性の多様性を定量化するために, 材料データ中の構造安定性バイアスを測定する指標を提案する。
バイアスを軽減するため, エントロピーターゲット型アクティブラーニング(ET-AL)フレームワークを開発し, 未表現結晶系の多様性が向上し, バイアスを緩和する。
材料データセットに関する実験により,et-alの能力と,バイアス緩和によるバイアス軽減を実現する機械学習モデルの改善を実証する。
このアプローチは、他の科学領域のデータ中心情報学に適用できる。 Growing materials data and data-centric informatics tools drastically promote the discovery and design of materials. While data-driven models, such as machine learning, have drawn much attention and observed significant progress, the quality of data resources is equally important but less studied. In this work, we focus on bias mitigation, an important aspect of materials data quality. Quantifying the diversity of stability in different crystal systems, we propose a metric for measuring structure-stability bias in materials data. To mitigate the bias, we develop an entropy-target active learning (ET-AL) framework, guiding the acquisition of new data so that diversities of underrepresented crystal systems are improved, thus mitigating the bias. With experiments on materials datasets, we demonstrate the capability of ET-AL and the improvement in machine learning models that mitigating bias offers through bias mitigation. The approach is applicable to data-centric informatics in other scientific domains. | 翻訳日:2022-11-16 16:13:39 公開日:2022-11-15 |
# 楽器を見せてくれ:混合オーディオからの楽器の検索 Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio ( http://arxiv.org/abs/2211.07951v1 ) ライセンス: Link先を確認 | Kyungsu Kim, Minju Park, Haesun Joung, Yunkee Chae, Yeongbeom Hong, Seonghyeon Go and Kyogu Lee | (参考訳) デジタル音楽の制作が主流になると、適切な仮想楽器の選択は音楽の質を決定する上で重要な役割を果たす。
好みの音を出す楽器のサンプルや仮想楽器を探索するために、音楽プロデューサーは耳を使ってそれぞれの楽器のサンプルを聴いて比較する。
本稿では,この課題を楽器検索と呼び,レファレンス・ミュージック・ミキシングを問合せとして,所望の楽器を検索する方法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツエンコーダとマルチインスツルメンツエンコーダで構成されている。
single-instrumentエンコーダは、シングルトラックオーディオで使用される楽器を分類するために訓練され、そのペナルティメート層のアクティベーションを楽器埋め込みとしてとらえる。
マルチインストゥルメントエンコーダは、シングルインスツルメントエンコーダによって計算されたインスツルメントエンコーダを対象埋め込みの集合として、複数のインスツルメントエンコーダを推定するように訓練される。
より一般化されたトレーニングと現実的な評価のために、Nlakhと呼ばれる新しいデータセットも提案する。
実験の結果,シングルインスツルメンツエンコーダは楽器の音響信号から楽器の埋め込み空間へのマッピングを学習することができ,マルチインツルメンツエンコーダは音楽の混合から複数の埋め込みを抽出し,目的の楽器をうまく回収することができた。
実験とオーディオサンプルに使われるコードは、https://github.com/minju0821/musical_instrument_retrieval.comで公開されている。 As digital music production has become mainstream, the selection of appropriate virtual instruments plays a crucial role in determining the quality of music. To search the musical instrument samples or virtual instruments that make one's desired sound, music producers use their ears to listen and compare each instrument sample in their collection, which is time-consuming and inefficient. In this paper, we call this task as Musical Instrument Retrieval and propose a method for retrieving desired musical instruments using reference music mixture as a query. The proposed model consists of the Single-Instrument Encoder and the Multi-Instrument Encoder, both based on convolutional neural networks. The Single-Instrument Encoder is trained to classify the instruments used in single-track audio, and we take its penultimate layer's activation as the instrument embedding. The Multi-Instrument Encoder is trained to estimate multiple instrument embeddings using the instrument embeddings computed by the Single-Instrument Encoder as a set of target embeddings. For more generalized training and realistic evaluation, we also propose a new dataset called Nlakh. Experimental results showed that the Single-Instrument Encoder was able to learn the mapping from the audio signal of unseen instruments to the instrument embedding space and the Multi-Instrument Encoder was able to extract multiple embeddings from the mixture of music and retrieve the desired instruments successfully. The code used for the experiment and audio samples are available at: https://github.com/minju0821/musical_instrument_retrieval | 翻訳日:2022-11-16 16:13:25 公開日:2022-11-15 |
# ハードウェアトロイの木馬に対するICレイアウトのセキュリティ閉鎖 Security Closure of IC Layouts Against Hardware Trojans ( http://arxiv.org/abs/2211.07997v1 ) ライセンス: Link先を確認 | Fangzhou Wang, Qijing Wang, Bangqi Fu, Shui Jiang, Xiaopeng Zhang, Lilas Alrahis, Ozgur Sinanoglu, Johann Knechtel, Tsung-Yi Ho, Evangeline F. Y. Young | (参考訳) コスト効果のため、近年は集積回路(IC)のサプライチェーンがアウトソースされている。
しかし、ICを様々なサードパーティプロバイダに渡すと、IC知的財産権の海賊行為やハードウェアのトロイの木馬の挿入、すなわち悪意のある回路変更など、多くの脅威が発生する。
本研究では,設計後のトロイの木馬の挿入に対するICの物理的配置を積極的に,体系的に強化する。
そこで我々は,マルチプレクサに基づく論理ロック方式を提案する。
一 レイアウトレベルのトロイア予防のために考案されたもの
(ii)最先端のoracleレス機械学習攻撃に対する弾力性、及び
(iii)完全統合された、しかし、汎用的で商用レベルの設計フロー。
私たちの作業は、困難なベンチマークスイートに関する詳細なセキュリティとレイアウト分析を提供します。
我々は、トロイの木馬の挿入に対して、そして二階攻撃(すなわち、オラクルのない環境でロック防御をバイパスしようとする敵)に対して、合理的なオーバーヘッドで、レイアウトをレジリエントにレンダリングできることを示します。
独立した検証のためのレイアウトアーティファクト[29]をリリースし、方法論のソースコードをリリースします。 Due to cost benefits, supply chains of integrated circuits (ICs) are largely outsourced nowadays. However, passing ICs through various third-party providers gives rise to many threats, like piracy of IC intellectual property or insertion of hardware Trojans, i.e., malicious circuit modifications. In this work, we proactively and systematically harden the physical layouts of ICs against post-design insertion of Trojans. Toward that end, we propose a multiplexer-based logic-locking scheme that is (i) devised for layout-level Trojan prevention, (ii) resilient against state-of-the-art, oracle-less machine learning attacks, and (iii) fully integrated into a tailored, yet generic, commercial-grade design flow. Our work provides in-depth security and layout analysis on a challenging benchmark suite. We show that ours can render layouts resilient, with reasonable overheads, against Trojan insertion in general and also against second-order attacks (i.e., adversaries seeking to bypass the locking defense in an oracle-less setting). We release our layout artifacts for independent verification [29] and we will release our methodology's source code. | 翻訳日:2022-11-16 16:12:56 公開日:2022-11-15 |
# SSM-Net:自己相似行列に基づく損失を用いた音楽構造解析のための特徴学習 SSM-Net: feature learning for Music Structure Analysis using a Self-Similarity-Matrix based loss ( http://arxiv.org/abs/2211.08141v1 ) ライセンス: Link先を確認 | Geoffroy Peeters and Florian Angulo | (参考訳) 本稿では,音楽構造解析(MSA)のための音声特徴を学習するための新しいパラダイムを提案する。
我々は、深層エンコーダを訓練し、SSM (Self-Similarity-Matrix) という特徴を学習する。
これは両方のssm間の損失を最小限にすることで行われる。
この損失はw.r.t.と区別できるので、直接的にエンコーダを訓練することができる。
RWC-Popデータセット上で、AUC(Area Under the Curve ROC)を用いて、このトレーニングパラダイムの使用を実証した。 In this paper, we propose a new paradigm to learn audio features for Music Structure Analysis (MSA). We train a deep encoder to learn features such that the Self-Similarity-Matrix (SSM) resulting from those approximates a ground-truth SSM. This is done by minimizing a loss between both SSMs. Since this loss is differentiable w.r.t. its input features we can train the encoder in a straightforward way. We successfully demonstrate the use of this training paradigm using the Area Under the Curve ROC (AUC) on the RWC-Pop dataset. | 翻訳日:2022-11-16 16:12:39 公開日:2022-11-15 |
# Reads2Vec: Readsデータの高速な高スループットシークエンシング Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads Data ( http://arxiv.org/abs/2211.08267v1 ) ライセンス: Link先を確認 | Prakash Chourasia, Sarwan Ali, Simone Ciccolella, Gianluca Della Vedova, Murray Patterson | (参考訳) 新型コロナウイルス(COVID-19)パンデミックの開始以来、SARS-CoV-2に現れる膨大なゲノムデータが、そのダイナミクスを研究する従来の方法に挑戦してきた。
その結果、現在利用可能なSARS-CoV-2の数百万のサンプルにスケールできるパンゴリンのような新しい手法が現れた。
このようなツールは、GISAIDデータベースに見られるような、入力を組み立て、アライメントし、キュレートされたフル長シーケンスとして扱うように調整されている。
高スループットシークエンシング技術が進歩を続けるにつれ、アセンブリ、アライメント、キュレーションがボトルネックとなり、生のシークエンシングを直接処理できる方法の必要性が生じる。
本稿では,アライメントフリーな組込み手法であるreads2vecを提案する。このアプローチでは,アセンブリを必要とせず,生のシークエンシング読み込みから直接固定長特徴ベクトル表現を生成することができる。
さらに、そのような埋め込みは数値表現であるため、高度に最適化された分類およびクラスタリングアルゴリズムに適用することができる。
シミュレーションデータを用いた実験により,既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とクラスタリング特性が得られた。
実データでは、アライメントのない埋め込みはパンゴリンツールよりも優れたクラスタリング特性を示し、SARS-CoV-2ゲノムのスパイク領域は、現在のSARS-CoV-2の生物学的知識と一致したアライメントのないクラスタリングを強く通知する。 The massive amount of genomic data appearing for SARS-CoV-2 since the beginning of the COVID-19 pandemic has challenged traditional methods for studying its dynamics. As a result, new methods such as Pangolin, which can scale to the millions of samples of SARS-CoV-2 currently available, have appeared. Such a tool is tailored to take as input assembled, aligned and curated full-length sequences, such as those found in the GISAID database. As high-throughput sequencing technologies continue to advance, such assembly, alignment and curation may become a bottleneck, creating a need for methods which can process raw sequencing reads directly. In this paper, we propose Reads2Vec, an alignment-free embedding approach that can generate a fixed-length feature vector representation directly from the raw sequencing reads without requiring assembly. Furthermore, since such an embedding is a numerical representation, it may be applied to highly optimized classification and clustering algorithms. Experiments on simulated data show that our proposed embedding obtains better classification results and better clustering properties contrary to existing alignment-free baselines. In a study on real data, we show that alignment-free embeddings have better clustering properties than the Pangolin tool and that the spike region of the SARS-CoV-2 genome heavily informs the alignment-free clusterings, which is consistent with current biological knowledge of SARS-CoV-2. | 翻訳日:2022-11-16 16:12:27 公開日:2022-11-15 |
# 分布からの微分的プライベートサンプリング Differentially Private Sampling from Distributions ( http://arxiv.org/abs/2211.08193v1 ) ライセンス: Link先を確認 | Sofya Raskhodnikova, Satchit Sivakumar, Adam Smith, Marika Swanberg | (参考訳) 我々は,分布からの個人サンプリングの調査を開始する。
未知の分布から独立して$P$のデータセットが与えられた場合、サンプリングアルゴリズムは、差分プライバシーを満足しながら、全変動距離が$P$に近い分布から単一の観測を出力しなければならない。
サンプリングは、少量のリアルなデータを生成するという目標を抽象化する。
我々は、このタスクに必要なデータセットサイズについて、3つの自然な分布の任意の分布である$\{1,\ldots ,k\}$, $\{0,1\}^d$, $\{0,1\}^d$, $\{0,1\}^d$の任意の積分布と、各座標に偏りがある$\{0,1\}^d$を与える。
いくつかのパラメータレジームでは、プライベートサンプリングは非プライベートで$p$の記述を学ぶよりも漸近的に少ない観察を必要とするが、他のレジームではプライベートサンプリングはプライベート学習と同じくらい難しいことが証明されている。
特に、分布のクラスによっては、非プライベート学習と比較してプライベート学習に必要な観察回数のオーバーヘッドが、プライベートサンプリングに必要な観測回数によって完全に把握される。 We initiate an investigation of private sampling from distributions. Given a dataset with $n$ independent observations from an unknown distribution $P$, a sampling algorithm must output a single observation from a distribution that is close in total variation distance to $P$ while satisfying differential privacy. Sampling abstracts the goal of generating small amounts of realistic-looking data. We provide tight upper and lower bounds for the dataset size needed for this task for three natural families of distributions: arbitrary distributions on $\{1,\ldots ,k\}$, arbitrary product distributions on $\{0,1\}^d$, and product distributions on $\{0,1\}^d$ with bias in each coordinate bounded away from 0 and 1. We demonstrate that, in some parameter regimes, private sampling requires asymptotically fewer observations than learning a description of $P$ nonprivately; in other regimes, however, private sampling proves to be as difficult as private learning. Notably, for some classes of distributions, the overhead in the number of observations needed for private learning compared to non-private learning is completely captured by the number of observations needed for private sampling. | 翻訳日:2022-11-16 16:06:30 公開日:2022-11-15 |
# Perona: リソース効率の良いビッグデータ分析のためのロバストインフラストラクチャフィンガープリント Perona: Robust Infrastructure Fingerprinting for Resource-Efficient Big Data Analytics ( http://arxiv.org/abs/2211.08227v1 ) ライセンス: Link先を確認 | Dominik Scheinert, Soeren Becker, Jonathan Bader, Lauritz Thamsen, Jonathan Will, Odej Kao | (参考訳) ビッグデータ分析アプリケーションのための優れたリソース構成の選択は、特にクラウド環境では困難である。
自動アプローチは、低い意思決定によってパフォーマンスが低下し、コストが上昇するので望ましい。
既存の自動化アプローチの大部分は、以前のワークロード実行からパフォーマンスモデルを構築するか、ほぼ最適に近いソリューションが見つかるまで反復的なリソース構成プロファイリングを実行する。
そうすることで、基盤となるインフラストラクチャの暗黙の理解しか得られず、代替インフラストラクチャへの転送が困難になるため、プロファイリングやモデリングの洞察は、非常に特定の状況を超えては維持されない。
我々は,ビッグデータ分析の文脈におけるロバストなインフラストラクチャフィンガープリント手法であるperonaを提案する。
Peronaは、ベンチマークツールの共通セットと設定をターゲットリソースに採用しているため、ベンチマークメトリクスは直接比較され、ランキングが有効になる。
入力メトリックベクトルの低次元表現を学習することで重要なベンチマークメトリクスを破棄し、以前のベンチマークの実行もコンテキスト認識にも考慮し、リソース劣化を検出する。
我々は、我々の実験から収集したデータと関連するリソース構成最適化の作業の両方に基づいて、このアプローチを評価し、peronaがベンチマーク実行時の特性をコンパクトに捉え、直接使用できる表現を生成することを実証した。 Choosing a good resource configuration for big data analytics applications can be challenging, especially in cloud environments. Automated approaches are desirable as poor decisions can reduce performance and raise costs. The majority of existing automated approaches either build performance models from previous workload executions or conduct iterative resource configuration profiling until a near-optimal solution has been found. In doing so, they only obtain an implicit understanding of the underlying infrastructure, which is difficult to transfer to alternative infrastructures and, thus, profiling and modeling insights are not sustained beyond very specific situations. We present Perona, a novel approach to robust infrastructure fingerprinting for usage in the context of big data analytics. Perona employs common sets and configurations of benchmarking tools for target resources, so that resulting benchmark metrics are directly comparable and ranking is enabled. Insignificant benchmark metrics are discarded by learning a low-dimensional representation of the input metric vector, and previous benchmark executions are taken into consideration for context-awareness as well, allowing to detect resource degradation. We evaluate our approach both on data gathered from our own experiments as well as within related works for resource configuration optimization, demonstrating that Perona captures the characteristics from benchmark runs in a compact manner and produces representations that can be used directly. | 翻訳日:2022-11-16 16:05:41 公開日:2022-11-15 |
# 配電フィーダデータを用いた機械学習による医療機器の識別と停電応答の伝達 Identification of medical devices using machine learning on distribution feeder data for informing power outage response ( http://arxiv.org/abs/2211.08310v1 ) ライセンス: Link先を確認 | Paraskevi Kourtza, Maitreyee Marathe, Anuj Shetty, Diego Kiedanski | (参考訳) 気候変動による極端な気象現象による停電は、過去20年間で米国で2倍になっている。
停電は、在宅医療機器に依存する440万人以上の個人に深刻な健康リスクをもたらす。
特定の地域に居住する個人数に関するデータは限られている。
本研究では,電力供給装置の背後にある医療機器数を予測するための負荷分散モデルを提案する。
このデータは、計画と応答の通知に使用できる。
提案手法は気候変動適応の指標として有用である。 Power outages caused by extreme weather events due to climate change have doubled in the United States in the last two decades. Outages pose severe health risks to over 4.4 million individuals dependent on in-home medical devices. Data on the number of such individuals residing in a given area is limited. This study proposes a load disaggregation model to predict the number of medical devices behind an electric distribution feeder. This data can be used to inform planning and response. The proposed solution serves as a measure for climate change adaptation. | 翻訳日:2022-11-16 16:04:54 公開日:2022-11-15 |
# ユーザ特化ビクラスタに基づく協調フィルタリング--選好の局所性、空間性、主観性を扱う User-Specific Bicluster-based Collaborative Filtering: Handling Preference Locality, Sparsity and Subjectivity ( http://arxiv.org/abs/2211.08366v1 ) ライセンス: Link先を確認 | Miguel G. Silva, Rui Henriques, Sara C. Madeira | (参考訳) Recommender Systemsを構築するための最も一般的なアプローチであるCollaborative Filtering(CF)は、製品やサービスのコンシューマとして私たちの日常生活に広まりました。
しかし, ユーザの嗜好の多様性と局所性, ユーザ・イテム評価の構造的空間性, 評価尺度の主観性, 項目次元やユーザベースの増加などにより, 推薦データを扱う場合の協調フィルタリング手法の有効性が制限される。
これらの課題に答えるために、一部の著者はcfとバイクラスタ技術を組み合わせた成功したアプローチを提案した。
この研究は、アルゴリズムの選択の影響を比較して、CFに対するBiclusteringアプローチの有効性を評価し、優れたBiclusteringベースのCFの原則を特定する。
その結果,ユーザ間で共有された嗜好のサブスペースに対応する,強い一貫性と統計的に有意な評価パターンからユーザ固有のモデルを生成する,BiclusteringベースのCFアプローチであるUSBFCを提案する。
実世界のデータを評価すると、USBCFは最先端のCF手法に対して競合予測精度を達成していることがわかる。
さらにusbfcは,従来提案されていた最先端のバイクラスタベースcfと,サブスペースの均質性を強化することで,共クラスタベースcfの主な欠点を抑制することに成功した。 Collaborative Filtering (CF), the most common approach to build Recommender Systems, became pervasive in our daily lives as consumers of products and services. However, challenges limit the effectiveness of Collaborative Filtering approaches when dealing with recommendation data, mainly due to the diversity and locality of user preferences, structural sparsity of user-item ratings, subjectivity of rating scales, and increasingly high item dimensionality and user bases. To answer some of these challenges, some authors proposed successful approaches combining CF with Biclustering techniques. This work assesses the effectiveness of Biclustering approaches for CF, comparing the impact of algorithmic choices, and identifies principles for superior Biclustering-based CF. As a result, we propose USBFC, a Biclustering-based CF approach that creates user-specific models from strongly coherent and statistically significant rating patterns, corresponding to subspaces of shared preferences across users. Evaluation on real-world data reveals that USBCF achieves competitive predictive accuracy against state-of-the-art CF methods. Moreover, USBFC successfully suppresses the main shortcomings of the previously proposed state-of-the-art biclustering-based CF by increasing coverage, and coclustering-based CF by strengthening subspace homogeneity. | 翻訳日:2022-11-16 16:04:48 公開日:2022-11-15 |
# 費用対効果ロボットシステムを用いたJengaの深部インスタンス分割と視覚サーボ Deep Instance Segmentation and Visual Servoing to Play Jenga with a Cost-Effective Robotic System ( http://arxiv.org/abs/2211.07977v1 ) ライセンス: Link先を確認 | Luca Marchionna, Giulio Pugliese, Mauro Martini, Simone Angarano, Francesco Salvetti, Marcello Chiaberge | (参考訳) Jengaのゲームは、複雑なタスクに対する革新的な操作ソリューションを開発するための刺激的なベンチマークである。
実際、タワーからブロックをうまく取り出すための新しいロボティクス手法の研究を奨励した。
ジェンガゲームラウンドは、多段階の戦略、視覚データと触覚データの組み合わせ、ロボットアームの高精度な動きを必要とせず、複雑な工業的または外科的な操作タスクの多くの特徴を埋め込み、単一のブロック抽出を行う。
本研究では,コモウ製6自由度人工マニピュレータ,標準深度カメラ,安価な単方向力センサを用いて,Jengaをe.Doで演奏するための新しい費用対効果アーキテクチャを提案する。
提案手法は,視覚に基づく制御戦略に焦点を絞って,エンドエフェクタを所望のブロックと正確に整合させ,押下によるブロック抽出を可能にする。
この目的のために,合成カスタムデータセット上でインスタンスセグメンテーションディープラーニングモデルをトレーニングし,ジェンガタワーの各ピースをセグメンテーションし,マニピュレータの動作中に所望のブロックのポーズを視覚的に追跡する。
視覚的戦略を1次元力センサと統合し、力閾値を識別することでブロックを安全に除去できるかどうかを検出する。
提案手法により,e.doが取り外し可能なブロックに精度よく到達し,14個の連続抽出を連続して行うことができることを示した。 The game of Jenga represents an inspiring benchmark for developing innovative manipulation solutions for complex tasks. Indeed, it encouraged the study of novel robotics methods to extract blocks from the tower successfully. A Jenga game round undoubtedly embeds many traits of complex industrial or surgical manipulation tasks, requiring a multi-step strategy, the combination of visual and tactile data, and the highly precise motion of the robotic arm to perform a single block extraction. In this work, we propose a novel cost-effective architecture for playing Jenga with e.Do, a 6-DOF anthropomorphic manipulator manufactured by Comau, a standard depth camera, and an inexpensive monodirectional force sensor. Our solution focuses on a visual-based control strategy to accurately align the end-effector with the desired block, enabling block extraction by pushing. To this aim, we train an instance segmentation deep learning model on a synthetic custom dataset to segment each piece of the Jenga tower, allowing visual tracking of the desired block's pose during the motion of the manipulator. We integrate the visual-based strategy with a 1D force sensor to detect whether the block can be safely removed by identifying a force threshold value. Our experimentation shows that our low-cost solution allows e.DO to precisely reach removable blocks and perform up to 14 consecutive extractions in a row. | 翻訳日:2022-11-16 16:04:00 公開日:2022-11-15 |
# FlowGrad: モーションを用いた視覚音源定位 FlowGrad: Using Motion for Visual Sound Source Localization ( http://arxiv.org/abs/2211.08367v1 ) ライセンス: Link先を確認 | Rajsuryan Singh, Pablo Zinemanas, Xavier Serra, Juan Pablo Bello, Magdalena Fuentes | (参考訳) 視覚音源のローカライゼーションに関する最近の研究は、自己教師方式で学習したセマンティックな音声・視覚表現に依存しており、設計上、ビデオに存在する時間情報を排除している。
広く使われているベンチマークデータセットに有効であることが証明されているが、この方法は都市交通のような困難なシナリオでは不足している。
本研究は, 映像情報をエンコードする手法として光フローを用いた都市シーンにおける音源定位手法に, 時間的文脈を導入するものである。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。 Most recent work in visual sound source localization relies on semantic audio-visual representations learned in a self-supervised manner, and by design excludes temporal information present in videos. While it proves to be effective for widely used benchmark datasets, the method falls short for challenging scenarios like urban traffic. This work introduces temporal context into the state-of-the-art methods for sound source localization in urban scenes using optical flow as a means to encode motion information. An analysis of the strengths and weaknesses of our methods helps us better understand the problem of visual sound source localization and sheds light on open challenges for audio-visual scene understanding. | 翻訳日:2022-11-16 16:03:33 公開日:2022-11-15 |
# 時系列におけるバックドア攻撃: 生成的アプローチ Backdoor Attacks on Time Series: A Generative Approach ( http://arxiv.org/abs/2211.07915v1 ) ライセンス: Link先を確認 | Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani, James Bailey | (参考訳) バックドア攻撃は、トレーニング時にモデルにバックドアトリガを事前に注入することで、モデルのテスト時間予測を容易に制御できるため、ディープラーニングモデルに対するセキュリティ上の脅威の1つとして現れている。
バックドア攻撃は画像上で広く研究されているが、時系列データに対するバックドア攻撃の脅威を調査する研究は少ない。
本稿では,このギャップを埋めるために,ディープラーニングに基づく時系列分類器に対する時系列バックドア攻撃の新たな生成手法を提案する。
バックドア攻撃の主な目標は2つあり、高いステルス性と高い攻撃成功率である。
私たちは、画像と比較して、時系列で2つの目標を達成するのがより難しいと感じています。
これは、時系列が入力次元が少なく、自由度が低いため、ステルス性を損なうことなく高い攻撃成功率を達成することが難しいためである。
私たちの生成アプローチでは、リアルタイムの時系列パターンと同じくらい現実的なトリガーパターンを生成しながら、クリーンな精度を損なうことなく高い攻撃成功率を達成し、この課題に対処しています。
また,提案した攻撃はバックドア防御に対する耐性を示す。
さらに,新しい時系列データセットの生成モデルを微調整することなく,単一のジェネレータで任意の種類の時系列を汚染し,ユニバーサルアタックを可能にする新しいユニバーサルジェネレータを提案する。 Backdoor attacks have emerged as one of the major security threats to deep learning models as they can easily control the model's test-time predictions by pre-injecting a backdoor trigger into the model at training time. While backdoor attacks have been extensively studied on images, few works have investigated the threat of backdoor attacks on time series data. To fill this gap, in this paper we present a novel generative approach for time series backdoor attacks against deep learning based time series classifiers. Backdoor attacks have two main goals: high stealthiness and high attack success rate. We find that, compared to images, it can be more challenging to achieve the two goals on time series. This is because time series have fewer input dimensions and lower degrees of freedom, making it hard to achieve a high attack success rate without compromising stealthiness. Our generative approach addresses this challenge by generating trigger patterns that are as realistic as real-time series patterns while achieving a high attack success rate without causing a significant drop in clean accuracy. We also show that our proposed attack is resistant to potential backdoor defenses. Furthermore, we propose a novel universal generator that can poison any type of time series with a single generator that allows universal attacks without the need to fine-tune the generative model for new time series datasets. | 翻訳日:2022-11-16 15:58:14 公開日:2022-11-15 |
# グラフ表現学習のための適応型多目的注意型トランス Adaptive Multi-Neighborhood Attention based Transformer for Graph Representation Learning ( http://arxiv.org/abs/2211.07970v1 ) ライセンス: Link先を確認 | Gaichao Li, Jinsong Chen, Kun He | (参考訳) 近年,グラフ構造情報を変換器に組み込むことで,グラフ変換器はグラフ表現学習に有望な性能を示した。
既存のグラフトランスフォーマーは、ノードの構造的特徴を保存し、バニラトランスに供給してノードの表現を学ぶために、ラプラシアン固有ベクトルやノード対の最短経路などの特定の戦略を利用する。
このような事前定義された規則は、トポロジー構造が大きく変化する任意のグラフの有益グラフ構造の特徴を抽出し、モデルの学習能力を制限することは困難である。
本研究では,多目的注意機構から各ノードのグラフ構造情報を適応的に取得する多目的注意型グラフトランス(mna-gt)を提案する。
スケールドドット製品を実行する入力を注目カーネルとして定義することにより、MNA-GTは、各注目カーネルが各ノードペアごとに対応する近傍の特定のグラフ構造情報をキャプチャできるように、近隣の異なるホップに基づいて複数の注目カーネルを構築する。
このようにして、MNA-GTは異なる注目カーネルが学習したノード表現を組み込むことで、グラフ構造情報を効率的に保存することができる。
MNA-GTはさらに、異なる注目カーネルの重要性を学ぶために注意層を使用し、モデルが異なるノードのグラフ構造情報を適応的にキャプチャできるようにする。
様々なグラフベンチマークで広範な実験が行われ、mna-gtが多くの強力なベースラインを上回ることが実証された。 By incorporating the graph structural information into Transformers, graph Transformers have exhibited promising performance for graph representation learning in recent years. Existing graph Transformers leverage specific strategies, such as Laplacian eigenvectors and shortest paths of the node pairs, to preserve the structural features of nodes and feed them into the vanilla Transformer to learn the representations of nodes. It is hard for such predefined rules to extract informative graph structural features for arbitrary graphs whose topology structure varies greatly, limiting the learning capacity of the models. To this end, we propose an adaptive graph Transformer, termed Multi-Neighborhood Attention based Graph Transformer (MNA-GT), which captures the graph structural information for each node from the multi-neighborhood attention mechanism adaptively. By defining the input to perform scaled-dot product as an attention kernel, MNA-GT constructs multiple attention kernels based on different hops of neighborhoods such that each attention kernel can capture specific graph structural information of the corresponding neighborhood for each node pair. In this way, MNA-GT can preserve the graph structural information efficiently by incorporating node representations learned by different attention kernels. MNA-GT further employs an attention layer to learn the importance of different attention kernels to enable the model to adaptively capture the graph structural information for different nodes. Extensive experiments are conducted on a variety of graph benchmarks, and the empirical results show that MNA-GT outperforms many strong baselines. | 翻訳日:2022-11-16 15:57:54 公開日:2022-11-15 |
# 制約付き変分不等式におけるブレグマン近似法の収束率について On the rate of convergence of Bregman proximal methods in constrained variational inequalities ( http://arxiv.org/abs/2211.08043v1 ) ライセンス: Link先を確認 | Wa\"iss Azizian and Franck Iutzeler and J\'er\^ome Malick and Panayotis Mertikopoulos | (参考訳) ミラー降下からミラープロックスまでのブレグマン近位法の制約付き変分不等式におけるラストイットレート収束率について検討した。
解析により, 提案手法の収束速度は, 基礎となるブレグマン正則化器(ユークリッド, エントロピーなど)のレジェンド指数に大きく依存することが明らかとなった。
特に、境界解は、それぞれゼロとゼロでないルジャンドル指数を持つ方法と、後者に対する前者対部分線型の線形収束との間で、規則の明確な分離を示すことを示す。
この二分法は、特にユークリッド法が有限ステップで鋭い方向に沿って収束する線形制約付き問題において、エントロピー法に対する線形速度よりもさらに顕著になる。 We examine the last-iterate convergence rate of Bregman proximal methods - from mirror descent to mirror-prox - in constrained variational inequalities. Our analysis shows that the convergence speed of a given method depends sharply on the Legendre exponent of the underlying Bregman regularizer (Euclidean, entropic, or other), a notion that measures the growth rate of said regularizer near a solution. In particular, we show that boundary solutions exhibit a clear separation of regimes between methods with a zero and non-zero Legendre exponent respectively, with linear convergence for the former versus sublinear for the latter. This dichotomy becomes even more pronounced in linearly constrained problems where, specifically, Euclidean methods converge along sharp directions in a finite number of steps, compared to a linear rate for entropic methods. | 翻訳日:2022-11-16 15:57:28 公開日:2022-11-15 |
# 協調血友病増悪によるグラフ逆行攻撃の残存 Resisting Graph Adversarial Attack via Cooperative Homophilous Augmentation ( http://arxiv.org/abs/2211.08068v1 ) ライセンス: Link先を確認 | Zhihao Zhu, Chenwang Wu, Min Zhou, Hao Liao, Defu Lian, Enhong Chen | (参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)は、小さな摂動によって脆弱で容易に騙され、様々な安全クリティカルなアプリケーションにGNNを適用することを懸念している。
本研究では,既存の構造やノード属性を変更する代わりに,偽のノードを注入することで,相手がグラフに毒を盛る,グラフ注入攻撃(Graph Injection Attack, GIA)に焦点を当てる。
逆境攻撃が摂動グラフのヘテロフィリーの増加(逆境は異種ノードを接続する傾向がある)に関連しているという知見に触発されて,グラフデータとモデルの協調的な相同性強化を通じて,giaに対する一般的な防衛フレームワークchagnnを提案する。
具体的には、トレーニング毎にラベルのないノードの擬似ラベルを生成し、異なるラベルを持つノードの異種エッジを削減する。
よりクリーンなグラフはモデルにフィードバックされ、より情報的な擬似ラベルを生成する。
このような反復的な方法で、モデルロバスト性は有望に強化される。
本稿では,同好性増強の効果に関する理論的解析を行い,提案の妥当性の保証を行う。
実験により,CHAGNNの有効性を実世界の多様なデータセット上で実証的に実証した。 Recent studies show that Graph Neural Networks(GNNs) are vulnerable and easily fooled by small perturbations, which has raised considerable concerns for adapting GNNs in various safety-critical applications. In this work, we focus on the emerging but critical attack, namely, Graph Injection Attack(GIA), in which the adversary poisons the graph by injecting fake nodes instead of modifying existing structures or node attributes. Inspired by findings that the adversarial attacks are related to the increased heterophily on perturbed graphs (the adversary tends to connect dissimilar nodes), we propose a general defense framework CHAGNN against GIA through cooperative homophilous augmentation of graph data and model. Specifically, the model generates pseudo-labels for unlabeled nodes in each round of training to reduce heterophilous edges of nodes with distinct labels. The cleaner graph is fed back to the model, producing more informative pseudo-labels. In such an iterative manner, model robustness is then promisingly enhanced. We present the theoretical analysis of the effect of homophilous augmentation and provide the guarantee of the proposal's validity. Experimental results empirically demonstrate the effectiveness of CHAGNN in comparison with recent state-of-the-art defense methods on diverse real-world datasets. | 翻訳日:2022-11-16 15:57:12 公開日:2022-11-15 |
# 二重疎ガウス過程を用いたヨーロッパ古気候の時空間モデリング Spatiotemporal modeling of European paleoclimate using doubly sparse Gaussian processes ( http://arxiv.org/abs/2211.08160v1 ) ライセンス: Link先を確認 | Seth D. Axen, Alexandra Gessner, Christian Sommer, Nils Weitzel, \'Alvaro Tejero-Cantero | (参考訳) 過去の気候の研究である古気候学は、過去の人類の分散を理解するために考古学や人類学など、気候科学自体に関係している。
地球の古気候に関する情報は、物理的および生物地球化学的過程のシミュレーションと、自然に存在するアーカイブにあるプロキシ記録から得られる。
気候場再構成(CFR)は、これらのデータを統計的空間または時空間モデルに組み合わせる。
現在まで、時空と時間に連続し、不確実性を伴う予測を生み出し、様々な情報源からのデータを含むコンセンサス時空間古気候モデルは存在しない。
ガウス過程(GP)モデルはこれらの望ましい性質を持つが、GPはCFRを構築するのに典型的な大きさのデータで好ましくスケールする。
本稿では,変数の誘導に基づく変分法とGPの状態空間の定式化を組み合わせ,計算負担を軽減するため,スパース時空間GPの最近の進歩を構築することを提案する。
この2倍のgpを用いて,最終氷期最大値 (lgm) から中期完新世 (mh) までのヨーロッパ古気候の確率モデルを構築し,古気候シミュレーションと花粉プロキシデータを合成した。 Paleoclimatology -- the study of past climate -- is relevant beyond climate science itself, such as in archaeology and anthropology for understanding past human dispersal. Information about the Earth's paleoclimate comes from simulations of physical and biogeochemical processes and from proxy records found in naturally occurring archives. Climate-field reconstructions (CFRs) combine these data into a statistical spatial or spatiotemporal model. To date, there exists no consensus spatiotemporal paleoclimate model that is continuous in space and time, produces predictions with uncertainty, and can include data from various sources. A Gaussian process (GP) model would have these desired properties; however, GPs scale unfavorably with data of the magnitude typical for building CFRs. We propose to build on recent advances in sparse spatiotemporal GPs that reduce the computational burden by combining variational methods based on inducing variables with the state-space formulation of GPs. We successfully employ such a doubly sparse GP to construct a probabilistic model of European paleoclimate from the Last Glacial Maximum (LGM) to the mid-Holocene (MH) that synthesizes paleoclimate simulations and fossilized pollen proxy data. | 翻訳日:2022-11-16 15:56:32 公開日:2022-11-15 |
# 音声言語理解のための継続学習におけるリハーサルと知識蒸留の併用の検討 Exploring the Joint Use of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language Understanding ( http://arxiv.org/abs/2211.08161v1 ) ライセンス: Link先を確認 | Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti | (参考訳) 連続学習は、モデルまたはエージェントが時間とともに静止しないデータのストリームを受け取り、以前に取得した知識を保持しながら新しいデータに適応しなければならない動的なフレームワークを指す。
残念ながら、ディープニューラルネットワークはこれら2つのデシデラータを満たせず、いわゆる破滅的な忘れる現象を引き起こしている。
コンピュータビジョンの領域における忘れを弱めるための戦略が数多く提案されているが、音声関連のタスクについては、一方で多くの作品がある。
本稿では,リハーサル・ナレッジ蒸留 (kd) の授業学習シナリオにおける音声言語理解へのアプローチについて考察する。
ネットワーク内の異なるレベルにおける複数のKD組み合わせについて報告し、特徴レベルと予測レベルのKDの組み合わせが最良の結果をもたらすことを示す。
最後に、低リソースデバイスに対する我々のアプローチの妥当性を裏付けるリハーサルメモリのサイズの影響について、アブレーション研究を行った。 Continual learning refers to a dynamical framework in which a model or agent receives a stream of non-stationary data over time and must adapt to new data while preserving previously acquired knowledge. Unfortunately, deep neural networks fail to meet these two desiderata, incurring the so-called catastrophic forgetting phenomenon. Whereas a vast array of strategies have been proposed to attenuate forgetting in the computer vision domain, for speech-related tasks, on the other hand, there is a dearth of works. In this paper, we turn our attention toward the joint use of rehearsal and knowledge distillation (KD) approaches for spoken language understanding under a class-incremental learning scenario. We report on multiple KD combinations at different levels in the network, showing that combining feature-level and predictions-level KDs leads to the best results. Finally, we provide an ablation study on the effect of the size of the rehearsal memory that corroborates the appropriateness of our approach for low-resource devices. | 翻訳日:2022-11-16 15:56:14 公開日:2022-11-15 |
# エネルギー材料設計のための人工知能的アプローチ--現状と課題,今後の方向性 Artificial intelligence approaches for materials-by-design of energetic materials: state-of-the-art, challenges, and future directions ( http://arxiv.org/abs/2211.08179v1 ) ライセンス: Link先を確認 | Joseph B. Choi, Phong C. H. Nguyen, Oishik Sen, H. S. Udaykumar, Stephen Baek | (参考訳) 人工知能(AI)は、様々な複雑な材料設計問題を解決するためのツールとして急速に発展しつつある。
本稿では,AIによる材料設計の最近の進歩とエネルギー材料(EM)への応用を概観する。
数値シミュレーションや物理実験のデータでトレーニングされたAIモデルは、デザインパラメータ空間内のトレンドとパターンを同化し、最適な材料設計(マイクロモルフォロジー、複合材料の組み合わせなど)を特定し、優れた/ターゲットのプロパティとパフォーマンスメトリクスで設計を指差すことができる。
本稿では, 構造形態(形状記述子)の表現学習, structure-property-performance (s-p-p) のリンケージ推定, 最適化・設計探索という, 材料別設計の3つの主要段階に着目したアプローチについて検討する。
材料・デザインの実現に向けた可能性,実用性,有効性の観点から,これらの手法の展望を提供する。
具体的には,少数のデータから学習する能力,計算複雑性,他の物質種や操作条件への一般化可能性・スケーリング性,モデル予測の解釈可能性,監視・データアノテーションの負担などの観点から評価する。
最後に,機械学習研究とEM研究のギャップを埋めるために,メタラーニング,アクティブラーニング,ベイズラーニング,半/弱教師付きラーニングなど,EM教材の設計に関する将来的な研究方向性を提案する。 Artificial intelligence (AI) is rapidly emerging as an enabling tool for solving various complex materials design problems. This paper aims to review recent advances in AI-driven materials-by-design and their applications to energetic materials (EM). Trained with data from numerical simulations and/or physical experiments, AI models can assimilate trends and patterns within the design parameter space, identify optimal material designs (micro-morphologies, combinations of materials in composites, etc.), and point to designs with superior/targeted property and performance metrics. We review approaches focusing on such capabilities with respect to the three main stages of materials-by-design, namely representation learning of microstructure morphology (i.e., shape descriptors), structure-property-performance (S-P-P) linkage estimation, and optimization/design exploration. We provide a perspective view of these methods in terms of their potential, practicality, and efficacy towards the realization of materials-by-design. Specifically, methods in the literature are evaluated in terms of their capacity to learn from a small/limited number of data, computational complexity, generalizability/scalability to other material species and operating conditions, interpretability of the model predictions, and the burden of supervision/data annotation. Finally, we suggest a few promising future research directions for EM materials-by-design, such as meta-learning, active learning, Bayesian learning, and semi-/weakly-supervised learning, to bridge the gap between machine learning research and EM research. | 翻訳日:2022-11-16 15:55:57 公開日:2022-11-15 |
# ユークリッド$k$-Meansのための改善されたCoreset Improved Coresets for Euclidean $k$-Means ( http://arxiv.org/abs/2211.08184v1 ) ライセンス: Link先を確認 | Vincent Cohen-Addad and Kasper Green Larsen and David Saulpic and Chris Schwiegelshohn and Omar Ali Sheikh-Omar | (参考訳) d$次元において n$ 個の点が与えられると、ユークリッドの $k$-means 問題(つまり、ユークリッドの $k$-median 問題)は、すべての点から最も近い中心までの距離(距離の和)の和が最小となるような $k$ 中心を見つけることで成り立っている。
ビッグデータ設定でこの問題に対処する最も一般的な方法は、まずcoresetとして知られる重み付きサブセットを演算し、次にこのサブセット上でアルゴリズムを実行することでデータを圧縮することである。
コアセットの保証は、任意の候補解に対して、コアセットコストと元のインスタンスのコストの比率が$(1\pm \varepsilon)$ factor未満であることである。
現在のアートコアセットサイズは$\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for Euclidean $k$-means and $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3})$ for Euclidean $k$-medianである。
両問題の最もよく知られた下限は$\omega(k \varepsilon^{-2})$である。
本稿では、上界を$\tilde O(\min(k^{3/2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4})$ for $k$-means and $\tilde O(\min(k^{4/3} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3})$ for $k$-medianとする。
特に、最初の証明可能な境界は$k^2$障壁を破り、$\varepsilon$への最適な依存を維持している。 Given a set of $n$ points in $d$ dimensions, the Euclidean $k$-means problem (resp. the Euclidean $k$-median problem) consists of finding $k$ centers such that the sum of squared distances (resp. sum of distances) from every point to its closest center is minimized. The arguably most popular way of dealing with this problem in the big data setting is to first compress the data by computing a weighted subset known as a coreset and then run any algorithm on this subset. The guarantee of the coreset is that for any candidate solution, the ratio between coreset cost and the cost of the original instance is less than a $(1\pm \varepsilon)$ factor. The current state of the art coreset size is $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for Euclidean $k$-means and $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3}))$ for Euclidean $k$-median. The best known lower bound for both problems is $\Omega(k \varepsilon^{-2})$. In this paper, we improve the upper bounds $\tilde O(\min(k^{3/2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for $k$-means and $\tilde O(\min(k^{4/3} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3}))$ for $k$-median. In particular, ours is the first provable bound that breaks through the $k^2$ barrier while retaining an optimal dependency on $\varepsilon$. | 翻訳日:2022-11-16 15:55:29 公開日:2022-11-15 |
# 因子化階層型変分オートエンコーダにおけるコントラスト学習による不等角化音声表現の改善 Improved disentangled speech representations using contrastive learning in factorized hierarchical variational autoencoder ( http://arxiv.org/abs/2211.08191v1 ) ライセンス: Link先を確認 | Yuying Xie, Thomas Arildsen, Zheng-Hua Tan | (参考訳) 話者のアイデンティティと内容が異なる時間スケールで異なるという事実を利用して、 \acrlong{fhvae} (\acrshort{fhvae}) は2つの属性を象徴するために逐次潜在変数とセグメント潜在変数を使用する。
話者とコンテンツを表す潜伏変数は、シーケンス依存およびシーケンス非依存の先行に従わなければならない。
シーケンス依存前もって、\acr short{fhvae} は発話スケールの変化平均と固定された小さな分散を持つガウス分布を仮定する。
トレーニングプロセスは、小さなばらつきで事前値の平均に近づいたシーケンシャル変数を促進する。
しかし、この制約は比較的弱い。
そこで我々は,<acrshort{fhvae} フレームワークでコントラスト学習を導入する。
提案手法は,同じ話者を表す場合の逐次変数のクラスタリングを,他の話者と可能な限り距離を置いて行うことを目的としている。
提案手法ではフレームワークの構造は変更されていないが, トレーニングプロセスのみであり, テスト中にそれ以上のコストがかからない。
本論文の応用例として音声変換が選択されている。
潜在変数評価には、逐次潜在変数に対する話者増分検証と識別、セグメント潜在変数に対する音声認識が含まれる。
さらに,話者照合と音声認識実験の結果から,音声変換性能の評価を行った。
実験結果から,提案手法は<acrshort{fhvae}と比較して逐次的特徴抽出とセグメント的特徴抽出を両立し,声質変換性能を適度に改善した。 By utilizing the fact that speaker identity and content vary on different time scales, \acrlong{fhvae} (\acrshort{fhvae}) uses a sequential latent variable and a segmental latent variable to symbolize these two attributes. Disentanglement is carried out by assuming the latent variables representing speaker and content follow sequence-dependent and sequence-independent priors. For the sequence-dependent prior, \acrshort{fhvae} assumes a Gaussian distribution with an utterance-scale varying mean and a fixed small variance. The training process promotes sequential variables getting close to the mean of its prior with small variance. However, this constraint is relatively weak. Therefore, we introduce contrastive learning in the \acrshort{fhvae} framework. The proposed method aims to make the sequential variables clustering when representing the same speaker, while distancing themselves as far as possible from those of other speakers. The structure of the framework has not been changed in the proposed method but only the training process, thus no more cost is needed during test. Voice conversion has been chosen as the application in this paper. Latent variable evaluations include speakerincrease verification and identification for the sequential latent variable, and speech recognition for the segmental latent variable. Furthermore, assessments of voice conversion performance are on the grounds of speaker verification and speech recognition experiments. Experiment results show that the proposed method improves both sequential and segmental feature extraction compared with \acrshort{fhvae}, and moderately improved voice conversion performance. | 翻訳日:2022-11-16 15:54:43 公開日:2022-11-15 |
# 多視点屋内撮影による深部シーンスケール材料推定 Deep scene-scale material estimation from multi-view indoor captures ( http://arxiv.org/abs/2211.08047v1 ) ライセンス: Link先を確認 | Siddhant Prakash and Gilles Rainer and Adrien Bousseau and George Drettakis | (参考訳) 映画やビデオゲーム業界は、実世界のシーンの複数の写真からデジタル3dアセットを作成する方法として、フォトグラメトリーを採用した。
しかし、フォトグラメトリーアルゴリズムは通常、シーンのrgbテクスチャアトラスを出力し、熟練アーティストが物理的にベースとなるレンダリングに適したマテリアルマップを作成するための視覚的ガイダンスとしてのみ機能する。
本稿では,屋内シーンの多視点撮影から,物理的レンダリングに適したデジタルアセットを自動生成する学習ベースの手法を提案する。
提案手法は,各入力画像上で実行する材料推定畳み込みニューラルネットワーク(CNN)に基づく。
与えられた画像の各画素に対して、他の画像中の対応する点の色を収集することにより、シーンの複数の観察によって提供される視点依存の視覚手がかりを活用する。
この画像空間cnnは、私たちがアプローチの最後のステップとしてテクスチャ空間にマージする予測のアンサンブルを提供します。
以上の結果から, 回収した資産は, リアル屋内シーンの物理的レンダリングと編集に, あらゆる視点から, 斬新な照明で直接利用できることを示した。
提案手法は, 最寄りの解に比べて, 短時間で近似材料マップを生成する。 The movie and video game industries have adopted photogrammetry as a way to create digital 3D assets from multiple photographs of a real-world scene. But photogrammetry algorithms typically output an RGB texture atlas of the scene that only serves as visual guidance for skilled artists to create material maps suitable for physically-based rendering. We present a learning-based approach that automatically produces digital assets ready for physically-based rendering, by estimating approximate material maps from multi-view captures of indoor scenes that are used with retopologized geometry. We base our approach on a material estimation Convolutional Neural Network (CNN) that we execute on each input image. We leverage the view-dependent visual cues provided by the multiple observations of the scene by gathering, for each pixel of a given image, the color of the corresponding point in other images. This image-space CNN provides us with an ensemble of predictions, which we merge in texture space as the last step of our approach. Our results demonstrate that the recovered assets can be directly used for physically-based rendering and editing of real indoor scenes from any viewpoint and novel lighting. Our method generates approximate material maps in a fraction of time compared to the closest previous solutions. | 翻訳日:2022-11-16 15:48:56 公開日:2022-11-15 |
# Webサイトにおける視線位置の予測 Predicting Eye Gaze Location on Websites ( http://arxiv.org/abs/2211.08074v1 ) ライセンス: Link先を確認 | Ciheng Zhang, Decky Aspandi, Steffen Staab | (参考訳) ウェブとウェブページを主インターフェースとする世界規模のウェブは、重要な情報の拡散を促進する。
したがって、より優れたユーザーインタラクションのために最適化することが重要であり、主にユーザーの行動、特にユーザーの視線の位置を分析して行われる。
しかし、これらのデータの収集は依然として労働力と時間を要すると考えられている。
本研究では,Webサイトのスクリーンショットを入力として,視線自動推定の開発を可能にする。
これは、webサイトのスクリーンショット、アイゲイズヒートマップ、および画像とテキストマスクの形でwebサイトのレイアウト情報で構成される統一データセットのキュレーションによって行われる。
画像とテキストの空間的位置を併用し,注意機構を組み合わせることで,アイ・ガゼ予測を効果的に行う,効果的な深層学習モデルを提案する。
実験では,眼球運動予測の精度を向上させるために,統一データセットを用いた注意深い微調整の利点を示す。
さらに,対象領域(画像とテキスト)に焦点を合わせることで,高精度化を実現している。
最後に、他の代替案との比較により、視線予測タスクのベンチマークを確立するモデルの現状を示す。 World-wide-web, with the website and webpage as the main interface, facilitates the dissemination of important information. Hence it is crucial to optimize them for better user interaction, which is primarily done by analyzing users' behavior, especially users' eye-gaze locations. However, gathering these data is still considered to be labor and time intensive. In this work, we enable the development of automatic eye-gaze estimations given a website screenshots as the input. This is done by the curation of a unified dataset that consists of website screenshots, eye-gaze heatmap and website's layout information in the form of image and text masks. Our pre-processed dataset allows us to propose an effective deep learning-based model that leverages both image and text spatial location, which is combined through attention mechanism for effective eye-gaze prediction. In our experiment, we show the benefit of careful fine-tuning using our unified dataset to improve the accuracy of eye-gaze predictions. We further observe the capability of our model to focus on the targeted areas (images and text) to achieve high accuracy. Finally, the comparison with other alternatives shows the state-of-the-art result of our model establishing the benchmark for the eye-gaze prediction task. | 翻訳日:2022-11-16 15:48:35 公開日:2022-11-15 |
# DeepRGVP:dMRIトラクトグラフィーを用いた網膜発生経路の自動同定のための新しい組織インフォームドスーパービジョンコントラスト学習フレームワーク DeepRGVP: A Novel Microstructure-Informed Supervised Contrastive Learning Framework for Automated Identification Of The Retinogeniculate Pathway Using dMRI Tractography ( http://arxiv.org/abs/2211.08119v1 ) ライセンス: Link先を確認 | Sipei Li, Jianzhong He, Tengfei Xue, Guoqiang Xie, Shun Yao, Yuqian Chen, Erickson F. Torio, Yuanjing Feng, Dhiego CA Bastos, Yogesh Rathi, Nikos Makris, Ron Kikinis, Wenya Linda Bi, Alexandra J Golby, Lauren J O'Donnell, Fan Zhang | (参考訳) retinogeniculate pathway (rgvp) は網膜から側原性核への視覚情報を伝達する役割を担っている。
RGVPの同定と可視化は、視覚系の解剖を研究する上で重要であり、関連する脳疾患の治療を知らせることができる。
拡散MRI(Diffusion MRI:dMRI)は、RGVPの3次元軌跡の生体内マッピングを独自に可能にする高度な画像診断法である。
現在, トラクトグラフィーデータからのRGVPの同定には, 時間を要するトラクトグラフィー・ストリームラインの専門的(手動)選択に依存しており, 臨床・専門的作業コストが高く, サーバ間変動の影響を受けている。
本稿では,DMRIトラクトグラフィーデータからRGVPを高速かつ正確に同定するための,最初のディープラーニングフレームワークであるDeepRGVPについて述べる。
そこで我々は, ストリーラインラベルと組織微細構造情報を利用して, 正と負のペアを決定する新しいマイクロ構造インフォーム型教師付きコントラスト学習法を設計した。
本研究では,非rgvpの流線よりもrgvpの流線数がはるかに少ない高バランスなトレーニングデータに対処するための,簡易かつ成功した流線レベルのデータ拡張手法を提案する。
トラクトログラフィ解析のために設計されたいくつかの最先端ディープラーニング手法との比較を行い,DeepRGVPを用いた優れたRGVP識別結果を示す。 The retinogeniculate pathway (RGVP) is responsible for carrying visual information from the retina to the lateral geniculate nucleus. Identification and visualization of the RGVP are important in studying the anatomy of the visual system and can inform treatment of related brain diseases. Diffusion MRI (dMRI) tractography is an advanced imaging method that uniquely enables in vivo mapping of the 3D trajectory of the RGVP. Currently, identification of the RGVP from tractography data relies on expert (manual) selection of tractography streamlines, which is time-consuming, has high clinical and expert labor costs, and affected by inter-observer variability. In this paper, we present what we believe is the first deep learning framework, namely DeepRGVP, to enable fast and accurate identification of the RGVP from dMRI tractography data. We design a novel microstructure-informed supervised contrastive learning method that leverages both streamline label and tissue microstructure information to determine positive and negative pairs. We propose a simple and successful streamline-level data augmentation method to address highly imbalanced training data, where the number of RGVP streamlines is much lower than that of non-RGVP streamlines. We perform comparisons with several state-of-the-art deep learning methods that were designed for tractography parcellation, and we show superior RGVP identification results using DeepRGVP. | 翻訳日:2022-11-16 15:48:18 公開日:2022-11-15 |
# 不明瞭な草刈り Grasping the Inconspicuous ( http://arxiv.org/abs/2211.08182v1 ) ライセンス: Link先を確認 | Hrishikesh Gupta, Stefan Thalhammer, Markus Leitner, Markus Vincze | (参考訳) 透明な物体は日々の生活で一般的であり、ロボットの把握を必要とする多くの応用を見出す。
オブジェクトの把握に対する多くの解は、非透明なオブジェクトに対して存在する。
しかし、透明な物体の独特の視覚特性のため、標準の3Dセンサーはノイズや歪みを測定する。
現代のアプローチでは、ノイズの深さ測定を洗練するか、あるいは深さの中間表現を使用することでこの問題に対処している。
そこで本研究では,RGB画像からの深層学習による6次元ポーズ推定について検討した。
RGBベースのオブジェクトポーズ推定の適合性を訓練し、テストするために、6Dポーズアノテーションを用いたRGBのみの画像データセットを構築した。
実験は透明物体の把握におけるrgb画像空間の有効性を示す。 Transparent objects are common in day-to-day life and hence find many applications that require robot grasping. Many solutions toward object grasping exist for non-transparent objects. However, due to the unique visual properties of transparent objects, standard 3D sensors produce noisy or distorted measurements. Modern approaches tackle this problem by either refining the noisy depth measurements or using some intermediate representation of the depth. Towards this, we study deep learning 6D pose estimation from RGB images only for transparent object grasping. To train and test the suitability of RGB-based object pose estimation, we construct a dataset of RGB-only images with 6D pose annotations. The experiments demonstrate the effectiveness of RGB image space for grasping transparent objects. | 翻訳日:2022-11-16 15:47:48 公開日:2022-11-15 |
# 遅延干渉推定のための因果推論を用いた重み付きサムレート最大化 Weighted Sum-Rate Maximization With Causal Inference for Latent Interference Estimation ( http://arxiv.org/abs/2211.08327v1 ) ライセンス: Link先を確認 | Lei You | (参考訳) 本稿では,電力割当方針が制御不能な既知のネットワーク外における潜在干渉源の重み付き和率最大化(wsrm)問題について検討する。
本稿では、遅延干渉下でWSRMに対処するために、因果推論フレームワークの下で、有名な代替最適化アルゴリズムである重み付き最小平均二乗誤差(WMMSE)[1]を拡張した。
すなわち、隠れたネットワークにおける電力政策シフトの可能性から、観測された干渉に基づく反復方向の計算は、本質的には、意思決定において反事実を無視することを意味する。
反事実を推定するために合成制御(SC)法を用いる。
既知のネットワーク内の任意のリンクに対して、SCは他のリンクに対する干渉の凸結合を構築し、見積もりとして利用する。
パワーイテレーションは観測された干渉ではなく推定値上で実行される。
提案されたSC-WMMSEは、その起源以上の情報を必要としない。
本論文は,従来の無線最適化問題に対処する際の数学的最適化を支援するための因果推論の可能性を探る最初の論文である。
数値計算の結果, SC-WMMSEは, コンバージェンスと目的の両方において, オリジナルよりも優れていたことが示唆された。 The paper investigates the weighted sum-rate maximization (WSRM) problem with latent interfering sources outside the known network, whose power allocation policy is hidden from and uncontrollable to optimization. The paper extends the famous alternate optimization algorithm weighted minimum mean square error (WMMSE) [1] under a causal inference framework to tackle with WSRM under latent interference. Namely, with the possibility of power policy shifting in the hidden network, computing an iterating direction based on the observed interference inherently implies that counterfactual is ignored in decision making. A synthetic control (SC) method is used to estimate the counterfactual. For any link in the known network, SC constructs a convex combination of the interference on other links and uses it as an estimate. Power iteration is performed on the estimated rather than the observed interference. The proposed SC-WMMSE requires no more information than its origin. To our best knowledge, this is the first paper explores the potential of causal inference to assist mathematical optimization in addressing classic wireless optimization problems. Numerical results suggest the superiority of the SC-WMMSE over the original in both convergence and objective. | 翻訳日:2022-11-16 15:47:37 公開日:2022-11-15 |
# ベイジアングラフニューラルネットワークを用いた測光カタログからのレンズ収束の階層的推論 Hierarchical Inference of the Lensing Convergence from Photometric Catalogs with Bayesian Graph Neural Networks ( http://arxiv.org/abs/2211.07807v1 ) ライセンス: Link先を確認 | Ji Won Park, Simon Birrer, Madison Ueland, Miles Cranmer, Adriano Agnello, Sebastian Wagner-Carena, Philip J. Marshall, Aaron Roodman, and the LSST Dark Energy Science Collaboration | (参考訳) 本稿では、銀河の視線上の光度測定から弱いレンズ収束度(\kappa$)を推定できるベイズグラフニューラルネットワーク(BGNN)を提案する。
この方法は強い重力時間遅延宇宙論 (tdc) に特に興味を持ち、レンズ環境と視線からの「外収束」(\kappa_{\rm ext}$) を特徴付けることはハッブル定数(h_0$)の正確な推定に必要である。
大規模なシミュレーションから始まり、$\sim $1$'$の解像度で、ギャラクシー-ギャラクシーレンズのスケールに$\sim$1''$のゆらぎを導入し、bgnnをトレーニングするためにランダムな視線を抽出します。
次に、トレーニング分布と重なる度合いの異なるテストセット上でモデルを評価した。
BGNNは、1000の視線からなるテストセットに対して、個々の$\kappa$aftersを推定し、階層的ベイズモデルで組み合わせて、人口を管理するハイパーパラメータに制約を与える。
トレーニングセットで十分にサンプリングされたテストフィールドでは、bgnnは、正確にバイアスなしで$\kappa$の人口平均を回復し、その結果、$h_0$エラー予算は1\%以下になる。
スパース標本を用いたトレーニングセットの尾部では、各視線について利用可能な情報を全て取り込むことができるBGNNは、サンプルのばらつきによって制限される銀河数数に基づいて従来の手法の単純化版に比べて、さらに$\kappa$シグナルを抽出する。
BGNNを用いた階層型推論パイプラインは、精度TDCのキャラクタリゼーションとして$\kappa_{\rm ext}$を改善することを約束します。
私たちのパイプラインの実装は、node to joyというpythonパッケージとして公開されています。 We present a Bayesian graph neural network (BGNN) that can estimate the weak lensing convergence ($\kappa$) from photometric measurements of galaxies along a given line of sight. The method is of particular interest in strong gravitational time delay cosmography (TDC), where characterizing the "external convergence" ($\kappa_{\rm ext}$) from the lens environment and line of sight is necessary for precise inference of the Hubble constant ($H_0$). Starting from a large-scale simulation with a $\kappa$ resolution of $\sim$1$'$, we introduce fluctuations on galaxy-galaxy lensing scales of $\sim$1$''$ and extract random sightlines to train our BGNN. We then evaluate the model on test sets with varying degrees of overlap with the training distribution. For each test set of 1,000 sightlines, the BGNN infers the individual $\kappa$ posteriors, which we combine in a hierarchical Bayesian model to yield constraints on the hyperparameters governing the population. For a test field well sampled by the training set, the BGNN recovers the population mean of $\kappa$ precisely and without bias, resulting in a contribution to the $H_0$ error budget well under 1\%. In the tails of the training set with sparse samples, the BGNN, which can ingest all available information about each sightline, extracts more $\kappa$ signal compared to a simplified version of the traditional method based on matching galaxy number counts, which is limited by sample variance. Our hierarchical inference pipeline using BGNNs promises to improve the $\kappa_{\rm ext}$ characterization for precision TDC. The implementation of our pipeline is available as a public Python package, Node to Joy. | 翻訳日:2022-11-16 15:46:46 公開日:2022-11-15 |
# Neighborhood Convolutional Network: ノード分類のためのグラフニューラルネットワークの新しいパラダイム Neighborhood Convolutional Network: A New Paradigm of Graph Neural Networks for Node Classification ( http://arxiv.org/abs/2211.07845v1 ) ライセンス: Link先を確認 | Jinsong Chen, Boyu Li, Kun He | (参考訳) グラフ畳み込みネットワーク(GCN)は、各畳み込み層における近傍の集約と特徴変換を分離するGCNの最近の開発であり、グラフ表現学習において有望な性能を示している。
既存の分離GCNはまず、ノードの隠れた特徴を学習するために単純なニューラルネットワーク(例えば、MLP)を使用し、その後、複数のホップ近傍の情報を集めるための固定ステップでグラフ上の学習した特徴を伝播する。
実効性にもかかわらず、アグリゲーション操作は、入力として全ての隣接行列を必要とするが、モデルトレーニングに関係しており、大きなグラフのポテンシャルを阻害する高いトレーニングコストを引き起こす。
一方で、ノード属性を入力として独立にすることで、分離gcnで使用されるニューラルネットワークは非常に単純であり、モデリングに高度な技術を適用することはできない。
この目的のために、分離されたGCNからアグリゲーション操作をさらに解放し、アグリゲーション入力から表現的ノード表現を抽出するように設計された特別な畳み込みニューラルネットワークにより、近隣のアグリゲーション結果を入力として利用するGCN(Neighborhood Convolutional Network, NCN)と呼ばれる新しいパラダイムを提案する。
このようにして、モデルは、近隣情報を集約するための分離GCNの利点を継承すると同時に、より強力な特徴学習モジュールを開発することができる。
マスクトレーニングと呼ばれるトレーニング戦略が組み込まれ、モデルのパフォーマンスをさらに向上させる。
その結果,多種多様同好グラフと異好グラフにおけるノード分類タスクに対するモデルの有効性が示された。 The decoupled Graph Convolutional Network (GCN), a recent development of GCN that decouples the neighborhood aggregation and feature transformation in each convolutional layer, has shown promising performance for graph representation learning. Existing decoupled GCNs first utilize a simple neural network (e.g., MLP) to learn the hidden features of the nodes, then propagate the learned features on the graph with fixed steps to aggregate the information of multi-hop neighborhoods. Despite effectiveness, the aggregation operation, which requires the whole adjacency matrix as the input, is involved in the model training, causing high training cost that hinders its potential on larger graphs. On the other hand, due to the independence of node attributes as the input, the neural networks used in decoupled GCNs are very simple, and advanced techniques cannot be applied to the modeling. To this end, we further liberate the aggregation operation from the decoupled GCN and propose a new paradigm of GCN, termed Neighborhood Convolutional Network (NCN), that utilizes the neighborhood aggregation result as the input, followed by a special convolutional neural network tailored for extracting expressive node representations from the aggregation input. In this way, the model could inherit the merit of decoupled GCN for aggregating neighborhood information, at the same time, develop much more powerful feature learning modules. A training strategy called mask training is incorporated to further boost the model performance. Extensive results demonstrate the effectiveness of our model for the node classification task on diverse homophilic graphs and heterophilic graphs. | 翻訳日:2022-11-16 15:46:13 公開日:2022-11-15 |
# 化学シミュレーションと薬物発見のための変分量子アルゴリズム Variational Quantum Algorithms for Chemical Simulation and Drug Discovery ( http://arxiv.org/abs/2211.07854v1 ) ライセンス: Link先を確認 | Hasan Mustafa, Sai Nandan Morapakula, Prateek Jain, Srinjoy Ganguly | (参考訳) 量子コンピューティングは近年注目を集めており、量子コンピューティングを暗号化と機械学習とヘルスケアへのコミュニケーションに応用する可能性を見出している。
タンパク質の折りたたみは、最も興味深い分野の一つであり、生化学における最大の問題の1つである。
それぞれのタンパク質は特異的に折り畳み、鎖内のアミノ酸の数が増えると、その安定な形状を見つけるのが困難になる。
適度なタンパク質は約100個のアミノ酸を持ち、安定な構造を見つけるのに必要な組み合わせの数は膨大である。
ある時点では、これらの組み合わせの数は膨大であり、古典的なコンピュータはそれを解こうともしない。
本稿では,Qiskit Nature を用いた変分量子固有解法 (VQE) と量子近似最適化アルゴリズム (QAOA) の2つの異なるアルゴリズムを用いて,量子コンピューティングの助けを借りてこの問題を解く方法について検討する。
異なる量子ハードウェアとシミュレータの結果を比較し,誤差低減が性能に与える影響を確認する。
さらに,SoTAアルゴリズムとの比較を行い,その信頼性を評価する。 Quantum computing has gained a lot of attention recently, and scientists have seen potential applications in this field using quantum computing for Cryptography and Communication to Machine Learning and Healthcare. Protein folding has been one of the most interesting areas to study, and it is also one of the biggest problems of biochemistry. Each protein folds distinctively, and the difficulty of finding its stable shape rapidly increases with an increase in the number of amino acids in the chain. A moderate protein has about 100 amino acids, and the number of combinations one needs to verify to find the stable structure is enormous. At some point, the number of these combinations will be so vast that classical computers cannot even attempt to solve them. In this paper, we examine how this problem can be solved with the help of quantum computing using two different algorithms, Variational Quantum Eigensolver (VQE) and Quantum Approximate Optimization Algorithm (QAOA), using Qiskit Nature. We compare the results of different quantum hardware and simulators and check how error mitigation affects the performance. Further, we make comparisons with SoTA algorithms and evaluate the reliability of the method. | 翻訳日:2022-11-16 15:45:46 公開日:2022-11-15 |
# 多視点注意による階層的発音評価 Hierarchical Pronunciation Assessment with Multi-Aspect Attention ( http://arxiv.org/abs/2211.08102v1 ) ライセンス: Link先を確認 | Heejin Do, Yunsu Kim, Gary Geunbae Lee | (参考訳) 自動発音評価はコンピュータによる発音訓練システムの主要な構成要素である。
音素、単語、発話などの様々なレベルの粒度で発音をスコアリングし、正確性、流束性、完全性といった多様な側面を欠かせない奥行きフィードバックを提供する。
しかし,既存の多アスペクト多粒度手法は,すべての粒度レベルを同時に予測するので,音素,単語,発話の言語的階層を捉えることは困難である。
この制限により、同一言語単位における親密な対面関係は無視される。
本稿では,言語構造を直接捉えるために,粒度レベルを階層的に表現する階層的発音評価(hipama,multi-aspect attention)モデルを提案する。
粒度とアスペクトの両面から関係情報を取得することで、HiPAMAはマルチタスク学習を最大限に活用することができる。
speachocean762データセットにおける実験結果の顕著な改善はヒパマのロバスト性、特に評価の難しい側面を示している。 Automatic pronunciation assessment is a major component of a computer-assisted pronunciation training system. To provide in-depth feedback, scoring pronunciation at various levels of granularity such as phoneme, word, and utterance, with diverse aspects such as accuracy, fluency, and completeness, is essential. However, existing multi-aspect multi-granularity methods simultaneously predict all aspects at all granularity levels; therefore, they have difficulty in capturing the linguistic hierarchy of phoneme, word, and utterance. This limitation further leads to neglecting intimate cross-aspect relations at the same linguistic unit. In this paper, we propose a Hierarchical Pronunciation Assessment with Multi-aspect Attention (HiPAMA) model, which hierarchically represents the granularity levels to directly capture their linguistic structures and introduces multi-aspect attention that reflects associations across aspects at the same level to create more connotative representations. By obtaining relational information from both the granularity- and aspect-side, HiPAMA can take full advantage of multi-task learning. Remarkable improvements in the experimental results on the speachocean762 datasets demonstrate the robustness of HiPAMA, particularly in the difficult-to-assess aspects. | 翻訳日:2022-11-16 15:39:38 公開日:2022-11-15 |
# AgileAvatar: Cascaded Domain Bridgingによる3Dアバター作成 AgileAvatar: Stylized 3D Avatar Creation via Cascaded Domain Bridging ( http://arxiv.org/abs/2211.07818v1 ) ライセンス: Link先を確認 | Shen Sang, Tiancheng Zhi, Guoxian Song, Minghao Liu, Chunpong Lai, Jing Liu, Xiang Wen, James Davis, Linjie Luo | (参考訳) スティル化された3Dアバターは、現代の生活でますます顕著になっている。
これらのアバターを手動で作成するには、連続的および離散的なパラメータの選択と調整に手間がかかり、平均的なユーザにとっては時間がかかります。
ユーザーセルフィーから3dアバターを自動的に作成するセルフ教師ドアプローチは、アノテーションコストを少なくして高品質を約束するが、大きなスタイルのドメインギャップのため、スタイリッシュなアバターには適用できない。
連続パラメータと離散パラメータを組み合わせた高品質な3dアバターを作成するための,新しい自己教師付き学習フレームワークを提案する。
筆者らはまず, 3次元アバターのターゲットとして, 入力セルフィーをスタイル化されたアバターレンダリングに変換するために, ポートレート・スタイリゼーション・アプローチを採用した。
次に、アバターグラフィックスエンジンを模倣するために訓練した差別化可能な模倣機を通して、スタイル化されたアバターレンダリングにマッチするアバターの最良のパラメータを見つける。
離散パラメータを効果的に最適化するために、カスケード型緩和探索パイプラインを採用する。
我々は人選好研究を用いて,従来の作業と手作業による作業と比較して,ユーザのアイデンティティをいかに保存するかを評価する。
その結果,従来の作業よりもずっと高い選好スコアが得られ,手作業に近い結果が得られた。
パイプラインの設計選択を正当化するためのアブレーション調査も提供しています。 Stylized 3D avatars have become increasingly prominent in our modern life. Creating these avatars manually usually involves laborious selection and adjustment of continuous and discrete parameters and is time-consuming for average users. Self-supervised approaches to automatically create 3D avatars from user selfies promise high quality with little annotation cost but fall short in application to stylized avatars due to a large style domain gap. We propose a novel self-supervised learning framework to create high-quality stylized 3D avatars with a mix of continuous and discrete parameters. Our cascaded domain bridging framework first leverages a modified portrait stylization approach to translate input selfies into stylized avatar renderings as the targets for desired 3D avatars. Next, we find the best parameters of the avatars to match the stylized avatar renderings through a differentiable imitator we train to mimic the avatar graphics engine. To ensure we can effectively optimize the discrete parameters, we adopt a cascaded relaxation-and-search pipeline. We use a human preference study to evaluate how well our method preserves user identity compared to previous work as well as manual creation. Our results achieve much higher preference scores than previous work and close to those of manual creation. We also provide an ablation study to justify the design choices in our pipeline. | 翻訳日:2022-11-16 15:37:57 公開日:2022-11-15 |
# DINER: 障害不変型インプシットニューラル表現 DINER: Disorder-Invariant Implicit Neural Representation ( http://arxiv.org/abs/2211.07871v1 ) ライセンス: Link先を確認 | Shaowen Xie, Hao Zhu, Zhen Liu, Qi Zhang, You Zhou, Xun Cao, Zhan Ma | (参考訳) 入射神経表現(INR)は、信号の属性を対応する座標の関数として特徴づけ、逆問題を解決するための鋭い武器として現れる。
しかし、INRの容量はネットワークトレーニングにおけるスペクトルバイアスによって制限される。
本稿では,従来のINRバックボーンにハッシュテーブルを付加することにより,障害不変の暗黙的ニューラル表現(DINER)を提案する。
同じ属性のヒストグラムと異なる配置順序を共有する離散的な信号が与えられると、ハッシュテーブルは座標を後のinrネットワークを用いてより良くモデル化できる同じ分布に投影し、スペクトルバイアスを大幅に軽減することができる。
実験では、異なるINRバックボーン(MLP vs. SIREN)と様々なタスク(画像/ビデオ表現、位相検索、屈折率回復)に対するDINERの一般化だけでなく、品質と速度の両方において最先端のアルゴリズムよりも優れていることを示す。 Implicit neural representation (INR) characterizes the attributes of a signal as a function of corresponding coordinates which emerges as a sharp weapon for solving inverse problems. However, the capacity of INR is limited by the spectral bias in the network training. In this paper, we find that such a frequency-related problem could be largely solved by re-arranging the coordinates of the input signal, for which we propose the disorder-invariant implicit neural representation (DINER) by augmenting a hash-table to a traditional INR backbone. Given discrete signals sharing the same histogram of attributes and different arrangement orders, the hash-table could project the coordinates into the same distribution for which the mapped signal can be better modeled using the subsequent INR network, leading to significantly alleviated spectral bias. Experiments not only reveal the generalization of the DINER for different INR backbones (MLP vs. SIREN) and various tasks (image/video representation, phase retrieval, and refractive index recovery) but also show the superiority over the state-of-the-art algorithms both in quality and speed. | 翻訳日:2022-11-16 15:37:32 公開日:2022-11-15 |
# 視覚探索のための学習型モデルベースプランニング Learning-Augmented Model-Based Planning for Visual Exploration ( http://arxiv.org/abs/2211.07898v1 ) ライセンス: Link先を確認 | Yimeng Li, Arnab Debnath, Gregory Stein, Jana Kosecka | (参考訳) 我々は,事前定義された時間によって探索が制限された未発見環境における時間制限型ロボット探索の問題を考える。
学習型モデルベースプランニングを用いた新しい探索手法を提案する。
我々は,現在の地図上でフロンティアに関連する一連のサブゴールを生成し,これらのサブゴールを用いた探索のためのベルマン方程式を導出する。
視覚センシングと室内シーンの意味マッピングの進歩は、それぞれのフロンティアに関連する特性を推定するために深い畳み込みニューラルネットワークを訓練するために活用されている。
提案したモデルベースプランナは,時間的許諾があれば,全シーンを探索することが保証される。
habitat simulatorを用いた大規模疑似現実的屋内データセット(matterport3d)のアプローチを徹底的に評価した。
我々は,従来のRLに基づく探索手法と比較し,いくつかの設定で明らかな利点を示す。 We consider the problem of time-limited robotic exploration in previously unseen environments where exploration is limited by a predefined amount of time. We propose a novel exploration approach using learning-augmented model-based planning. We generate a set of subgoals associated with frontiers on the current map and derive a Bellman Equation for exploration with these subgoals. Visual sensing and advances in semantic mapping of indoor scenes are exploited for training a deep convolutional neural network to estimate properties associated with each frontier: the expected unobserved area beyond the frontier and the expected timesteps (discretized actions) required to explore it. The proposed model-based planner is guaranteed to explore the whole scene if time permits. We thoroughly evaluate our approach on a large-scale pseudo-realistic indoor dataset (Matterport3D) with the Habitat simulator. We compare our approach with classical and more recent RL-based exploration methods, demonstrating its clear advantages in several settings. | 翻訳日:2022-11-16 15:37:11 公開日:2022-11-15 |
# nerffaceediting:neural radiance fieldにおける異方性顔編集 NeRFFaceEditing: Disentangled Face Editing in Neural Radiance Fields ( http://arxiv.org/abs/2211.07968v1 ) ライセンス: Link先を確認 | Kaiwen Jiang, Shu-Yu Chen, Feng-Lin Liu, Hongbo Fu, Lin Gao | (参考訳) 近年の3次元顔画像合成法は, 神経放射場により急速に発展し, 高品質で高速な推論速度を実現している。
しかしながら、顔の形状や外観を独立して編集する既存のソリューションは、通常、再訓練を必要とし、最近の生成作業に最適化されていないため、生成プロセスに遅れが生じる傾向がある。
これらの問題に対処するため,我々は,事前学習された三面体に基づく神経放射場における幾何学と外観の編集と分離を可能にしつつ,高品質で高速な推論速度を保ちながら,nerffaceeditingを導入する。
我々は三面体の統計を用いて、対応する顔の容積の高レベルな外観を表現する。
さらに,生成した3次元連続的なセマンティックマスクを幾何学的編集の仲介手段として活用する。
形状デコーダ(外観が変化しても出力が変化しない)と外観デコーダを考案する。
ジオメトリデコーダは、元の顔容積とセマンティックマスク容積を整列する。
また、顔成分ごとに色分布を別々に表わすように、同一の外観で異なる形状のレンダリング画像を明示的に規則化することにより、異方性を高める。
提案手法では,ユーザが幾何学と外観の分離した制御でセマンティックマスクで編集できる。
質的および定量的評価は, 既存の解および代替解と比較して, 優れた幾何学的, 外観制御能力を示す。 Recent methods for synthesizing 3D-aware face images have achieved rapid development thanks to neural radiance fields, allowing for high quality and fast inference speed. However, existing solutions for editing facial geometry and appearance independently usually require retraining and are not optimized for the recent work of generation, thus tending to lag behind the generation process. To address these issues, we introduce NeRFFaceEditing, which enables editing and decoupling geometry and appearance in the pretrained tri-plane-based neural radiance field while retaining its high quality and fast inference speed. Our key idea for disentanglement is to use the statistics of the tri-plane to represent the high-level appearance of its corresponding facial volume. Moreover, we leverage a generated 3D-continuous semantic mask as an intermediary for geometry editing. We devise a geometry decoder (whose output is unchanged when the appearance changes) and an appearance decoder. The geometry decoder aligns the original facial volume with the semantic mask volume. We also enhance the disentanglement by explicitly regularizing rendered images with the same appearance but different geometry to be similar in terms of color distribution for each facial component separately. Our method allows users to edit via semantic masks with decoupled control of geometry and appearance. Both qualitative and quantitative evaluations show the superior geometry and appearance control abilities of our method compared to existing and alternative solutions. | 翻訳日:2022-11-16 15:36:55 公開日:2022-11-15 |
# 交差現実再レンダリング:デジタルと物理の相互作用 Cross-Reality Re-Rendering: Manipulating between Digital and Physical Realities ( http://arxiv.org/abs/2211.08005v1 ) ライセンス: Link先を確認 | Siddhartha Datta | (参考訳) パーソナライズされた現実の出現が到来した。
ar/mr/vrの急速な発展により、ユーザーは物理的な世界に対する認識を増減できる。
デジタルインターフェース修正のためのロバストなツールにより、ユーザはソフトウェアの動作方法を変更できる。
デジタル現実が人間の生活においてますます重要になっていくにつれて、ユーザーは身体的現実とデジタル現実の両方の知覚を操作できるシステムの設計について検討する。
ユーザは、両方の現実からビュー履歴を検査し、リアルタイムに相互運用可能な介入を生成することができる。
パーソナライズされた介入は、マスク、テキスト、モデルフックで生成される。
ユーザ間のコラボレーションは、介入の可用性を拡大する。
我々は、認知的ウォークスルー、ペルソナ、スケーラビリティテストによる設計要件に対する実装を検証する。 The advent of personalized reality has arrived. Rapid development in AR/MR/VR enables users to augment or diminish their perception of the physical world. Robust tooling for digital interface modification enables users to change how their software operates. As digital realities become an increasingly-impactful aspect of human lives, we investigate the design of a system that enables users to manipulate the perception of both their physical realities and digital realities. Users can inspect their view history from either reality, and generate interventions that can be interoperably rendered cross-reality in real-time. Personalized interventions can be generated with mask, text, and model hooks. Collaboration between users scales the availability of interventions. We verify our implementation against our design requirements with cognitive walkthroughs, personas, and scalability tests. | 翻訳日:2022-11-16 15:36:31 公開日:2022-11-15 |
# 完全な情報を完結するベイズ連邦ニューラルマッチング Bayesian Federated Neural Matching that Completes Full Information ( http://arxiv.org/abs/2211.08010v1 ) ライセンス: Link先を確認 | Peng Xiao, Samuel Cheng | (参考訳) 連合学習は、現地で訓練されたモデルをグローバルモデルに蒸留する現代の機械学習パラダイムである。
ニューラルネットワークの固有の置換不変性のため、確率的フェデレートニューラルマッチング(PFNM)は局所ニューロンの生成過程においてベイズ非パラメトリックのフレームワークを使用し、それぞれの代替最適化イテレーションで線形和割り当ての定式化を作成する。
しかし、理論解析によれば、pfnmの最適化イテレーションは既存の情報からグローバル情報を省略する。
本研究では,各イテレーションにkullback-leibler divergence penaltyを導入することにより,この欠陥を克服する新しい手法を提案する。
本手法の有効性は画像分類とセマンティックセグメンテーションの両タスクの実験によって実証された。 Federated learning is a contemporary machine learning paradigm where locally trained models are distilled into a global model. Due to the intrinsic permutation invariance of neural networks, Probabilistic Federated Neural Matching (PFNM) employs a Bayesian nonparametric framework in the generation process of local neurons, and then creates a linear sum assignment formulation in each alternative optimization iteration. But according to our theoretical analysis, the optimization iteration in PFNM omits global information from existing. In this study, we propose a novel approach that overcomes this flaw by introducing a Kullback-Leibler divergence penalty at each iteration. The effectiveness of our approach is demonstrated by experiments on both image classification and semantic segmentation tasks. | 翻訳日:2022-11-16 15:30:18 公開日:2022-11-15 |
# マルチラベル量子化 Multi-Label Quantification ( http://arxiv.org/abs/2211.08063v1 ) ライセンス: Link先を確認 | Alejandro Moreo and Manuel Francisco and Fabrizio Sebastiani | (参考訳) 定量化(英: quantification)とは、非ラベルデータサンプルに関心のあるクラスの相対周波数(すなわち「前値」)の予測子を生成する教師付き学習タスクである。
かつてはバイナリ問題に対して多くの定量化法が提案されてきたが、より少ない範囲では、マルチラベル設定(つまり、興味のあるクラスが互いに排他的でないシナリオ)はいまだ大きな未探索のままである。
マルチラベル量子化問題の簡単な解法は、単に独立なバイナリ量子化問題の集合として問題を再キャストすることである。
このような解は単純だがna\"iveである。なぜなら、それが収まる独立な仮定は、ほとんどの場合、満足できないからである。
これらの場合、あるクラスの相対周波数を知ることは、他の関連するクラスの頻度を決定するのに役立つ。
本稿では,興味のあるクラス間の確率的依存関係を活用し,その相対周波数をより正確に予測するための,最初の真のマルチラベル量化手法,すなわちクラス有病率の推定法を提案する。
我々は,ネイティブにマルチラベルの解がna\" のアプローチよりも大きなマージンで勝るという実証的な証拠を示す。
すべての実験を再現するコードはオンラインで利用可能です。 Quantification, variously called "supervised prevalence estimation" or "learning to quantify", is the supervised learning task of generating predictors of the relative frequencies (a.k.a. "prevalence values") of the classes of interest in unlabelled data samples. While many quantification methods have been proposed in the past for binary problems and, to a lesser extent, single-label multiclass problems, the multi-label setting (i.e., the scenario in which the classes of interest are not mutually exclusive) remains by and large unexplored. A straightforward solution to the multi-label quantification problem could simply consist of recasting the problem as a set of independent binary quantification problems. Such a solution is simple but na\"ive, since the independence assumption upon which it rests is, in most cases, not satisfied. In these cases, knowing the relative frequency of one class could be of help in determining the prevalence of other related classes. We propose the first truly multi-label quantification methods, i.e., methods for inferring estimators of class prevalence values that strive to leverage the stochastic dependencies among the classes of interest in order to predict their relative frequencies more accurately. We show empirical evidence that natively multi-label solutions outperform the na\"ive approaches by a large margin. The code to reproduce all our experiments is available online. | 翻訳日:2022-11-16 15:30:04 公開日:2022-11-15 |
# EDEN : 行政請求データにおける乳癌再発診断のための事象検出ネットワーク EDEN : An Event DEtection Network for the annotation of Breast Cancer recurrences in administrative claims data ( http://arxiv.org/abs/2211.08077v1 ) ライセンス: Link先を確認 | Elise Dumas, Anne-Sophie Hamy, Sophie Houzard, Eva Hernandez, Aull\`ene Toussaint, Julien Guerin, Laetitia Chanas, Victoire de Castelbajac, Mathilde Saint-Ghislain, Beatriz Grandal, Eric Daoud, Fabien Reyal, Chlo\'e-Agathe Azencott | (参考訳) 大規模な管理クレームデータの出現は研究の機会を与えるが、乳がん(BC)の再発など、疾患の再発に関連する臨床診断の欠如により、その使用は制限されている。
このようなエンドポイントを管理クレームにアノテーションすることで、再発の発生と日付の両方を推測する必要性、データの正しい検閲、医療訪問の間の時間間隔の重要性など、いくつかの課題が発生する。
深層学習のアプローチは、時間的医療シーケンスのラベル付けに成功しているが、現在、医学的シーケンスにおける生存事象を検出するために、適切な検閲と時間的訪問を同時に扱う方法がない。
本稿では、生存分析のための時間認識長短記憶ネットワークEDEN(Event Detection Network)とそのカスタムロス関数を提案する。
提案手法は,実世界のBCデータセットに対する最先端のアプローチよりも優れている。
エデンは、行政上の主張から病気の再発を注釈する強力なツールであり、bc研究におけるそのようなデータの大量使用の道を開く。 While the emergence of large administrative claims data provides opportunities for research, their use remains limited by the lack of clinical annotations relevant to disease outcomes, such as recurrence in breast cancer (BC). Several challenges arise from the annotation of such endpoints in administrative claims, including the need to infer both the occurrence and the date of the recurrence, the right-censoring of data, or the importance of time intervals between medical visits. Deep learning approaches have been successfully used to label temporal medical sequences, but no method is currently able to handle simultaneously right-censoring and visit temporality to detect survival events in medical sequences. We propose EDEN (Event DEtection Network), a time-aware Long-Short-Term-Memory network for survival analyses, and its custom loss function. Our method outperforms several state-of-the-art approaches on real-world BC datasets. EDEN constitutes a powerful tool to annotate disease recurrence from administrative claims, thus paving the way for the massive use of such data in BC research. | 翻訳日:2022-11-16 15:29:41 公開日:2022-11-15 |
# テーブルトップ収量予測に向けたマルチタイムライントランスフォーマーネットワークアーキテクチャPremonition Net Premonition Net, A Multi-Timeline Transformer Network Architecture Towards Strawberry Tabletop Yield Forecasting ( http://arxiv.org/abs/2211.08177v1 ) ライセンス: Link先を確認 | George Onoufriou, Marc Hanheide, Georgios Leontidis | (参考訳) 利回り予測は、より広範な食料供給チェーン、調達、価格交渉、物流、供給にとって重要な結果をもたらす、収量最適化に必要な重要な第一歩である。
しかし、収量予測は極めて困難であり、不正確である。
Premonition Netは、過去、現在、そして未来の前兆を処理するための、マルチタイムで時系列なアプローチである。
この構造と変圧器が組み合わさることで,食品の安全性向上,価格の引き下げ,廃棄物の削減に向けた重要な収率予測能力が得られることを示す。
データの可用性は継続的に困難であることが分かっていますが、当社が収集したデータでは、最新のシーズンでRMSEの損失が約0.08というテストセットで、3週間前に予測を達成しています。 Yield forecasting is a critical first step necessary for yield optimisation, with important consequences for the broader food supply chain, procurement, price-negotiation, logistics, and supply. However yield forecasting is notoriously difficult, and oft-inaccurate. Premonition Net is a multi-timeline, time sequence ingesting approach towards processing the past, the present, and premonitions of the future. We show how this structure combined with transformers attains critical yield forecasting proficiency towards improving food security, lowering prices, and reducing waste. We find data availability to be a continued difficulty however using our premonition network and our own collected data we attain yield forecasts 3 weeks ahead with a a testing set RMSE loss of ~0.08 across our latest season. | 翻訳日:2022-11-16 15:29:22 公開日:2022-11-15 |
# ニューラルネットワークの基礎 Neural Bayesian Network Understudy ( http://arxiv.org/abs/2211.08243v1 ) ライセンス: Link先を確認 | Paloma Rabaey, Cedric De Boom, Thomas Demeester | (参考訳) ベイジアンネットワークは因果的知識を取り入れた臨床的な意思決定を訴えるかもしれないが、その実践的採用は構造化されていないデータを扱うことができないために限られている。
ニューラルネットワークにはこのような制限はないが、解釈可能ではなく、本質的には入力空間の因果構造を扱うことができない。
私たちの目標は、両方のアプローチの利点を組み合わせたニューラルネットワークを構築することです。
このようなニューラルネットワークのトレーニング中に因果知識を注入する視点によって、この研究は、その方向への最初のステップを示す。
ニューラルネットワークをトレーニングして条件付き確率を出力する方法を示し,ベイズ型ネットワークとほぼ同等の機能を提供する。
さらに,与えられた因果構造から推定される独立関係をニューラルネットワークにエンコードする2つの学習戦略を提案する。
まず,概念実証セットにおいて,ニューラルモデルがベイジアンネットワークのそれに対して,その確率的および因果的性質を近似して,研究対象として作用することを示す。 Bayesian Networks may be appealing for clinical decision-making due to their inclusion of causal knowledge, but their practical adoption remains limited as a result of their inability to deal with unstructured data. While neural networks do not have this limitation, they are not interpretable and are inherently unable to deal with causal structure in the input space. Our goal is to build neural networks that combine the advantages of both approaches. Motivated by the perspective to inject causal knowledge while training such neural networks, this work presents initial steps in that direction. We demonstrate how a neural network can be trained to output conditional probabilities, providing approximately the same functionality as a Bayesian Network. Additionally, we propose two training strategies that allow encoding the independence relations inferred from a given causal structure into the neural network. We present initial results in a proof-of-concept setting, showing that the neural model acts as an understudy to its Bayesian Network counterpart, approximating its probabilistic and causal properties. | 翻訳日:2022-11-16 15:29:06 公開日:2022-11-15 |
# クロスドメイン都市データを用いた大気汚染ホットスポット検出と震源特性解析 Air Pollution Hotspot Detection and Source Feature Analysis using Cross-domain Urban Data ( http://arxiv.org/abs/2211.08400v1 ) ライセンス: Link先を確認 | Yawen Zhang, Michael Hannigan, Qin Lv | (参考訳) 大気汚染は、特に汚染源の近くに住んで働く人々にとって、世界的な環境健康の脅威である。
汚染源に隣接する地域はしばしば環境汚染濃度が高く、これらは一般に大気汚染ホットスポットと呼ばれる。
大気汚染ホットスポットの検出と特徴付けは, 大気汚染物質の空間的・時間的変動が大きいため, 大気汚染管理において非常に重要である。
本研究では,大気汚染ホットスポットの検出にモバイルセンシングデータ(自動車に搭載された空気質センサ)を用いることを検討する。
モバイルセンシングデータの大きな課題の1つは、不均一サンプリング(つまり、データ収集は空間と時間の両方によって異なる可能性がある)である。
そこで本研究では,局所スパイク検出とサンプル重み付けクラスタリングを含むモバイルセンシングデータからホットスポットを検出する2段階アプローチを提案する。
基本的に、このアプローチでは、サンプルの空間的頻度と時間的ヒット率に基づいて重み付けすることで、堅牢で永続的なホットスポットを特定することで、不均一なサンプリング問題に取り組む。
ホットスポットの文脈化と潜在的汚染源特性の発見を目的として,様々な領域の都市データを調査し,その特徴を抽出する。
抽出した特徴のソフトバリデーションとして,モバイルセンシングデータを用いた都市を対象としたホットスポット推定モデルを構築した。
実世界のモバイルセンシング空気質データとクロスドメイン都市データを用いて, 汚染ホットスポットの検出と推定におけるアプローチの有効性を実証した。
さらに、ホットスポットとソース特徴の実証分析により、近隣の汚染源に関する有用な知見が得られる。 Air pollution is a major global environmental health threat, in particular for people who live or work near pollution sources. Areas adjacent to pollution sources often have high ambient pollution concentrations, and those areas are commonly referred to as air pollution hotspots. Detecting and characterizing pollution hotspots are of great importance for air quality management, but are challenging due to the high spatial and temporal variability of air pollutants. In this work, we explore the use of mobile sensing data (i.e., air quality sensors installed on vehicles) to detect pollution hotspots. One major challenge with mobile sensing data is uneven sampling, i.e., data collection can vary by both space and time. To address this challenge, we propose a two-step approach to detect hotspots from mobile sensing data, which includes local spike detection and sample-weighted clustering. Essentially, this approach tackles the uneven sampling issue by weighting samples based on their spatial frequency and temporal hit rate, so as to identify robust and persistent hotspots. To contextualize the hotspots and discover potential pollution source characteristics, we explore a variety of cross-domain urban data and extract features from them. As a soft-validation of the extracted features, we build hotspot inference models for cities with and without mobile sensing data. Evaluation results using real-world mobile sensing air quality data as well as cross-domain urban data demonstrate the effectiveness of our approach in detecting and inferring pollution hotspots. Furthermore, the empirical analysis of hotspots and source features yields useful insights regarding neighborhood pollution sources. | 翻訳日:2022-11-16 15:28:49 公開日:2022-11-15 |
# 機能的オブジェクト指向ネットワークにおける知識検索アルゴリズムを用いたタスクツリー抽出 Extracting task trees using knowledge retrieval search algorithms in functional object-oriented network ( http://arxiv.org/abs/2211.08314v1 ) ライセンス: Link先を確認 | Tyree Lewis | (参考訳) 機能的オブジェクト指向ネットワーク(FOON)は,ロボットがタスク計画を行うために使用できる知識表現手法として開発された。
フォオンは、ロボットが知識検索プロセスを通じてタスクツリーを取得するための順序付き計画を提供するグラフとして観察することができる。
課題木抽出における2つの探索アルゴリズムを比較し,2つの異なるヒューリスティック関数を持つ反復的深度探索(IDS)と欲求最優先探索(GBFS)を比較した。
そして,最小限の機能単位を用いて,様々な調理レシピのタスクツリーを得ることができるアルゴリズムを決定する。
予備的な結果から,各アルゴリズムは,検索アルゴリズムに提供されるレシピによって,他のアルゴリズムよりも優れることを示す。 The functional object-oriented network (FOON) has been developed as a knowledge representation method that can be used by robots in order to perform task planning. A FOON can be observed as a graph that can provide an ordered plan for robots to retrieve a task tree, through the knowledge retrieval process. We compare two search algorithms to evaluate their performance in extracting task trees: iterative deepening search (IDS) and greedy best-first search (GBFS) with two different heuristic functions. Then, we determine which algorithm is capable of obtaining a task tree for various cooking recipes using the least number of functional units. Preliminary results show that each algorithm can perform better than the other, depending on the recipe provided to the search algorithm. | 翻訳日:2022-11-16 15:27:54 公開日:2022-11-15 |
# 統一された単一画像参照と認識のためのクロスストッチマルチタスク二重再帰ネットワーク Cross-Stitched Multi-task Dual Recursive Networks for Unified Single Image Deraining and Desnowing ( http://arxiv.org/abs/2211.08290v1 ) ライセンス: Link先を確認 | Sotiris Karavarsamis, Alexandros Doumanoglou, Konstantinos Konstantoudakis, Dimitrios Zarpalas | (参考訳) 本稿では,マルチタスク学習環境において,統一的デレーニングとデズナリングのタスクを対象とする,マルチタスク統合型二重再帰ネットワーク(cmudrn)モデルを提案する。
この統一モデルはcaiらが開発したdrn(basic dual recursive network)アーキテクチャを借用している。
提案モデルでは,2つの異なるDRNモデルにまたがるマルチタスク学習が可能なクロススティッチ・ユニットを用いて,それぞれ1つの画像のデライニングとデリーディングを行う。
タスク固有のDRNネットワークの複数の層にクロススティッチユニットを固定することにより、2つの異なるDRNモデルに対してマルチタスク学習を行う。
ブラインド画像の復元を可能にするため、これらの構造の上に、各DRNの出力をマージする単純な神経融合スキームを用いる。
個別のタスク固有のDRNモデルと融合スキームは、局所的およびグローバルな監督を強制することによって同時に訓練される。
局所的監視は2つのdrmサブモジュールに適用され、グローバル監視は提案されたモデルのデータ融合サブモジュールに適用される。
その結果、タスク固有のDRNモデル間での機能共有を可能にし、DRNサブモジュールのイメージ復元動作を制御する。
アブレーション研究は仮定cmudrnモデルの強度を示し、実験の結果、その性能は1つの画像参照および認識タスクにおけるdrmモデルと同等かそれ以上であることを示している。
さらに、CMUDRNは、単純パラメトリック融合方式によりタスク固有の画像復元パイプラインを統一することにより、2つの基礎となる画像復元タスクのブラインド画像復元を可能にする。
CMUDRNの実装はhttps://github.com/VCL3D/CMUDRNで公開されている。 We present the Cross-stitched Multi-task Unified Dual Recursive Network (CMUDRN) model targeting the task of unified deraining and desnowing in a multi-task learning setting. This unified model borrows from the basic Dual Recursive Network (DRN) architecture developed by Cai et al. The proposed model makes use of cross-stitch units that enable multi-task learning across two separate DRN models, each tasked for single image deraining and desnowing, respectively. By fixing cross-stitch units at several layers of basic task-specific DRN networks, we perform multi-task learning over the two separate DRN models. To enable blind image restoration, on top of these structures we employ a simple neural fusion scheme which merges the output of each DRN. The separate task-specific DRN models and the fusion scheme are simultaneously trained by enforcing local and global supervision. Local supervision is applied on the two DRN submodules, and global supervision is applied on the data fusion submodule of the proposed model. Consequently, we both enable feature sharing across task-specific DRN models and control the image restoration behavior of the DRN submodules. An ablation study shows the strength of the hypothesized CMUDRN model, and experiments indicate that its performance is comparable or better than baseline DRN models on the single image deraining and desnowing tasks. Moreover, CMUDRN enables blind image restoration for the two underlying image restoration tasks, by unifying task-specific image restoration pipelines via a naive parametric fusion scheme. The CMUDRN implementation is available at https://github.com/VCL3D/CMUDRN. | 翻訳日:2022-11-16 15:22:18 公開日:2022-11-15 |
# 万能拡散:1つの拡散モデルにおけるテキスト、画像、バリエーション Versatile Diffusion: Text, Images and Variations All in One Diffusion Model ( http://arxiv.org/abs/2211.08332v1 ) ライセンス: Link先を確認 | Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi | (参考訳) 近年の拡散モデルの発展は、多くの世代のタスクにおいて驚くべきマイルストーンとなった。
DALL-E2、Imagen、Stable Diffusionなどのトレンド作品は、学術と産業に大きな関心を集めている。
急速なランドスケープの変化にもかかわらず、最近の新しいアプローチはキャパシティではなく拡張とパフォーマンスに焦点を当てている。
本研究では,既存の単一フロー拡散パイプラインを,画像間テキスト・画像間・画像変数・テキスト変数を1つの統一モデルで処理する多元性拡散(vd)と呼ばれるマルチフローネットワークに拡張する。
さらに,VDを,画像やテキスト以外のモダリティを処理可能な,グループ層やスワップ可能なストリームなどを備えた統合マルチフローマルチモーダル拡散フレームワークに一般化する。
実験を通じて、VDとその基盤となるフレームワークには以下のメリットがあることを示した。
a) VDは,競争力のある品質ですべてのサブタスクを処理する
b)VDは,スタイル及び意味の絡み合い,画像テキスト二重誘導生成等の新規な拡張及び適用を開始する。
;
c) これらの実験と応用を通して、VDは生成された出力についてよりセマンティックな洞察を提供する。
私たちのコードとモデルは、https://github.com/shi-labs/versatile-diffusionでオープンソースです。 The recent advances in diffusion models have set an impressive milestone in many generation tasks. Trending works such as DALL-E2, Imagen, and Stable Diffusion have attracted great interest in academia and industry. Despite the rapid landscape changes, recent new approaches focus on extensions and performance rather than capacity, thus requiring separate models for separate tasks. In this work, we expand the existing single-flow diffusion pipeline into a multi-flow network, dubbed Versatile Diffusion (VD), that handles text-to-image, image-to-text, image-variation, and text-variation in one unified model. Moreover, we generalize VD to a unified multi-flow multimodal diffusion framework with grouped layers, swappable streams, and other propositions that can process modalities beyond images and text. Through our experiments, we demonstrate that VD and its underlying framework have the following merits: a) VD handles all subtasks with competitive quality; b) VD initiates novel extensions and applications such as disentanglement of style and semantic, image-text dual-guided generation, etc.; c) Through these experiments and applications, VD provides more semantic insights of the generated outputs. Our code and models are open-sourced at https://github.com/SHI-Labs/Versatile-Diffusion. | 翻訳日:2022-11-16 15:21:37 公開日:2022-11-15 |
# ある国の英語能力と言語距離の関係 Relationship of the language distance to English ability of a country ( http://arxiv.org/abs/2211.07855v1 ) ライセンス: Link先を確認 | Cao Xinxin, Lei Xiaolan and Murtadha Ahmed | (参考訳) 言語の違いは、第二言語スキルの獲得を妨げる要因のひとつです。
本稿では,多言語事前学習言語モデル(BERTなど)の埋め込み空間における単語分布に基づく言語間の意味的相違性を測定するために,深層ニューラルネットワークの強みを活用した新しい解を提案する。
そこで,提案する意味言語間距離 (sld) の有効性を実証的に検証し, 英語を外国語とするインターネットベーステスト (toefl ibt) の結果から, 各国の英語能力の一貫した変化を説明する。
実験の結果, 言語距離は, 国の平均英語能力に負の影響を及ぼすことが示された。
興味深いことに、この効果は、言語学習の生産的側面に関連する副スキルの発話と執筆に、より重要である。
また,今後の研究の方向性について具体的な提言を行う。 Language difference is one of the factors that hinder the acquisition of second language skills. In this article, we introduce a novel solution that leverages the strength of deep neural networks to measure the semantic dissimilarity between languages based on their word distributions in the embedding space of the multilingual pre-trained language model (e.g.,BERT). Then, we empirically examine the effectiveness of the proposed semantic language distance (SLD) in explaining the consistent variation in English ability of countries, which is proxied by their performance in the Internet-Based Test of English as Foreign Language (TOEFL iBT). The experimental results show that the language distance demonstrates negative influence on a country's average English ability. Interestingly, the effect is more significant on speaking and writing subskills, which pertain to the productive aspects of language learning. Besides, we provide specific recommendations for future research directions. | 翻訳日:2022-11-16 15:20:18 公開日:2022-11-15 |
# EHRデータを用いた生存分析のためのニューラル付加モデルの拡張 Extending the Neural Additive Model for Survival Analysis with EHR Data ( http://arxiv.org/abs/2211.07814v1 ) ライセンス: Link先を確認 | Matthew Peroni, Marharyta Kurban, Sun Young Yang, Young Sun Kim, Hae Yeon Kang, Ji Hyun Song | (参考訳) 医療ソリューション開発に機械学習を適用することへの関心が高まっており、生存分析のための解釈可能なディープラーニングモデルを作成したいと考えている。
本稿では,Coxモデルの比例的拡張と非比例的拡張の両方に適合する損失関数をこれらのモデルに装備することにより,ニューラル加算モデル(NAM)を拡張した。
この拡張フレームワークでは、ベンチマークサバイバルデータセットの標準NAMモデルアーキテクチャよりも性能を大幅に向上させる、TimeNAMと呼ばれる非プロポーショナルハザードモデルを構築することができることを示す。
韓国国立大学ガンナムセンター(SNUHGC)の電子健康記録(EHR)データベースのデータにこれらのモデルアーキテクチャを適用し,胃癌予測のための解釈可能なニューラルネットワーク生存モデルを構築した。
私たちは、ベンチマークサバイバル分析データセットと、我々の胃癌データセットの両方で、我々のモデルアーキテクチャが現在の最先端のブラックボックス手法と一致する、あるいは超えるパフォーマンスをもたらすことを実証した。 With increasing interest in applying machine learning to develop healthcare solutions, there is a desire to create interpretable deep learning models for survival analysis. In this paper, we extend the Neural Additive Model (NAM) by incorporating pairwise feature interaction networks and equip these models with loss functions that fit both proportional and non-proportional extensions of the Cox model. We show that within this extended framework, we can construct non-proportional hazard models, which we call TimeNAM, that significantly improve performance over the standard NAM model architecture on benchmark survival datasets. We apply these model architectures to data from the Electronic Health Record (EHR) database of Seoul National University Hospital Gangnam Center (SNUHGC) to build an interpretable neural network survival model for gastric cancer prediction. We demonstrate that on both benchmark survival analysis datasets, as well as on our gastric cancer dataset, our model architectures yield performance that matches, or surpasses, the current state-of-the-art black-box methods. | 翻訳日:2022-11-16 15:20:03 公開日:2022-11-15 |
# パワー級数展開によるntkスペクトルの特徴付け Characterizing the Spectrum of the NTK via a Power Series Expansion ( http://arxiv.org/abs/2211.07844v1 ) ライセンス: Link先を確認 | Michael Murray, Hui Jin, Benjamin Bowman, Guido Montufar | (参考訳) ネットワーク初期化の穏やかな条件下では、無限幅極限の任意の深さフィードフォワードネットワークの神経接核(英語版)(ntk)の級数展開を導出する。
本研究では,ネットワークの深さと活性化関数のエルマイト係数の両方に依存する,この級数係数の表現を提供する。
我々は,Hermite係数の高速崩壊を観察し,NTK係数の高速崩壊を導いた。
この級数を用いて、まずNTKの有効ランクと入力データグラムの有効ランクを関連付ける。
第二に、球面上に一様に描画されたデータに対して、NTKの固有値の明示的な式が導出され、NTK係数の高速な減衰がスペクトルの高速な減衰を意味することを示す。
この結果から、ReLUネットワークの固有値漸近に関する既存の結果と、アクティベーション関数がRKHSに与える影響についてコメントする。
最後に、十分に高速なエルミート係数崩壊を持つ一般データや活性化関数に対して、NTKのスペクトル上の漸近上界を導出する。 Under mild conditions on the network initialization we derive a power series expansion for the Neural Tangent Kernel (NTK) of arbitrarily deep feedforward networks in the infinite width limit. We provide expressions for the coefficients of this power series which depend on both the Hermite coefficients of the activation function as well as the depth of the network. We observe faster decay of the Hermite coefficients leads to faster decay in the NTK coefficients. Using this series, first we relate the effective rank of the NTK to the effective rank of the input-data Gram. Second, for data drawn uniformly on the sphere we derive an explicit formula for the eigenvalues of the NTK, which shows faster decay in the NTK coefficients implies a faster decay in its spectrum. From this we recover existing results on eigenvalue asymptotics for ReLU networks and comment on how the activation function influences the RKHS. Finally, for generic data and activation functions with sufficiently fast Hermite coefficient decay, we derive an asymptotic upper bound on the spectrum of the NTK. | 翻訳日:2022-11-16 15:19:43 公開日:2022-11-15 |
# ビザンチンスペクトルランク付け Byzantine Spectral Ranking ( http://arxiv.org/abs/2211.07902v1 ) ライセンス: Link先を確認 | Arnhav Datar, Arun Rajkumar, John Augustine | (参考訳) 本研究では,一組の項目に対する有権者のペアワイズ比較を集約することで,グローバルランキングの獲得を目標とするランクアグリゲーションの問題を検討する。
我々は、有権者を2つのセットに分割する敵の設定を考える。
最初の投票は、ペア比較のための人気スコアベースのBradley-Terry-Luce(BTL)モデルに従って確率的に設定された。
第2セットは悪質なビザンツ人有権者がランクを低下させようとしている。
我々は、ビザンツの有権者がBTLのスコア、良い有権者の投票、アルゴリズム、そして互いに衝突できるような強い対立的なシナリオを考える。
まず、BTLモデルに最適ではあるが、人気のあるスペクトルランクに基づくランクセントラリティアルゴリズムは、有権者のごく一部がビザンチン系であっても、うまく機能しないことを示す。
我々は,ビザンツの投票者数がビザンツの投票者数を超えると,信頼性の高いランキングを生成するビザンツのスペクトルランク付けアルゴリズム(およびそれより早いバリエーション)を紹介する。
ベザンチンの有権者がよい有権者よりも多い場合、BTLの重みに確率 > 1/2 で満足できるランクを付けるアルゴリズムは存在しないことを示し、我々のアルゴリズムが全ての可能な人口比率で機能することを示している。
提案手法は,いくつかの逆シナリオ下でのランク・セントラリティアルゴリズムの故障と,Byzantine Spectral Rankingアルゴリズムが優れたランキングを得る上でいかに堅牢かを示すために,合成データセットと実データセットに関する実験結果をサポートする。 We study the problem of rank aggregation where the goal is to obtain a global ranking by aggregating pair-wise comparisons of voters over a set of items. We consider an adversarial setting where the voters are partitioned into two sets. The first set votes in a stochastic manner according to the popular score-based Bradley-Terry-Luce (BTL) model for pairwise comparisons. The second set comprises malicious Byzantine voters trying to deteriorate the ranking. We consider a strongly-adversarial scenario where the Byzantine voters know the BTL scores, the votes of the good voters, the algorithm, and can collude with each other. We first show that the popular spectral ranking based Rank-Centrality algorithm, though optimal for the BTL model, does not perform well even when a small constant fraction of the voters are Byzantine. We introduce the Byzantine Spectral Ranking Algorithm (and a faster variant of it), which produces a reliable ranking when the number of good voters exceeds the number of Byzantine voters. We show that no algorithm can produce a satisfactory ranking with probability > 1/2 for all BTL weights when there are more Byzantine voters than good voters, showing that our algorithm works for all possible population fractions. We support our theoretical results with experimental results on synthetic and real datasets to demonstrate the failure of the Rank-Centrality algorithm under several adversarial scenarios and how the proposed Byzantine Spectral Ranking algorithm is robust in obtaining good rankings. | 翻訳日:2022-11-16 15:19:25 公開日:2022-11-15 |
# マルチブランチアーキテクチャによる個人化フェデレーション学習 Personalized Federated Learning with Multi-branch Architecture ( http://arxiv.org/abs/2211.07931v1 ) ライセンス: Link先を確認 | Junki Mori, Tomoyuki Yoshiyama, Furukawa Ryo, Isamu Teranishi | (参考訳) Federated Learning(FL)は、複数のクライアントが互いに生データを公開せずに、協力的にモデルをトレーニングできる分散機械学習技術である。
従来のflは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルをトレーニングするが、クライアント間の統計データの不均一性は、各クライアントのデータで優れたパフォーマンスを持つパーソナライズされたモデルを学ぶパーソナライズドfl(pfl)を動機付ける。
pflの重要な課題は、各クライアントが複雑な分散からのデータを持ち、お互いの分散を知らない状況において、類似したデータを持つクライアントのコラボレーションを促進する方法である。
本稿では、ニューラルネットワークの各レイヤを複数のブランチに分割し、各ブランチにクライアント固有の重みを割り当てることでパーソナライズを実現する、マルチブランチアーキテクチャ(pfedmb)によるパーソナライズされた連合学習手法を提案する。
pFedMBは単純だが、各クライアントが各ブランチに割り当てられた重みを調整することで、同様のクライアントと知識を共有するのを容易にする。
CIFAR10データセットを用いて,pFedMBは最先端のPFL法よりも優れた性能を示す。 Federated learning (FL) is a decentralized machine learning technique that enables multiple clients to collaboratively train models without revealing the raw data to each other. Although the traditional FL trains a single global model with average performance among clients, the statistical data heterogeneity across clients motivates personalized FL (PFL) which learns personalized models with good performance on each client's data. A key challenge in PFL is how to promote clients with similar data to collaborate more in a situation where each client has data from complex distribution and does not know each other's distribution. In this paper, we propose a new PFL method, personalized federated learning with multi-branch architecture (pFedMB), which achieves personalization by splitting each layer of neural networks into multiple branches and assigning client-specific weights to each branch. pFedMB is simple but effective to facilitate each client to share the knowledge with similar clients by adjusting the weights assigned to each branch. We experimentally show that pFedMB performs better than the state-of-the-art PFL methods using CIFAR10 dataset. | 翻訳日:2022-11-16 15:18:59 公開日:2022-11-15 |
# 変動誘導型)政策グラディエントおよび自然政策グラディエント手法の改良分析 An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods ( http://arxiv.org/abs/2211.07937v1 ) ライセンス: Link先を確認 | Yanli Liu, Kaiqing Zhang, Tamer Ba\c{s}ar and Wotao Yin | (参考訳) 本稿では,一般的なスムーズな政策パラメトリゼーションの下で,政策勾配(PG)法,自然PG(NPG)法,およびそれらの分散還元変種の再検討と改善を行う。
より具体的には、政策のフィッシャー情報マトリックスが肯定的である。
一 定常点に収束することしか証明されていない最先端の分散分散還元pg法が、ポリシーのパラメトリゼーションによるいくつかの固有関数近似誤差までグローバルに最適値に収束することを示す。
二) NPGがより低いサンプル複雑性を享受していること。
三 分散還元をNPG更新に組み込んだSRVR-NPGを提案する。
PGの定常収束解析はNPGにも適用可能であり,NPGのグローバル収束解析は(分散還元)PG法のグローバル収束を確立するのに有効である。
この2つの作品の利点を慎重に分析する。
この改良により、グローバル収束と効率的な有限サンプル複雑性の両面から、NPGの分散還元が可能になった。 In this paper, we revisit and improve the convergence of policy gradient (PG), natural PG (NPG) methods, and their variance-reduced variants, under general smooth policy parametrizations. More specifically, with the Fisher information matrix of the policy being positive definite: i) we show that a state-of-the-art variance-reduced PG method, which has only been shown to converge to stationary points, converges to the globally optimal value up to some inherent function approximation error due to policy parametrization; ii) we show that NPG enjoys a lower sample complexity; iii) we propose SRVR-NPG, which incorporates variance-reduction into the NPG update. Our improvements follow from an observation that the convergence of (variance-reduced) PG and NPG methods can improve each other: the stationary convergence analysis of PG can be applied to NPG as well, and the global convergence analysis of NPG can help to establish the global convergence of (variance-reduced) PG methods. Our analysis carefully integrates the advantages of these two lines of works. Thanks to this improvement, we have also made variance-reduction for NPG possible, with both global convergence and an efficient finite-sample complexity. | 翻訳日:2022-11-16 15:18:36 公開日:2022-11-15 |
# ヒートマップを用いた分布外検出 Heatmap-based Out-of-Distribution Detection ( http://arxiv.org/abs/2211.08115v1 ) ライセンス: Link先を確認 | Julia Hornauer, Vasileios Belagiannis | (参考訳) 本研究は,ニューラルネットワークの出力説明問題として,分布外検出(ood)について検討する。
分布領域と分布領域を同時に可視化しながら,ood画像を検出するためのヒートマップ表現を学習する。
トレーニングされた固定分類器が与えられた場合、分類器の特徴とクラス予測に基づいて、分布内サンプルに対する応答ゼロのヒートマップとOODサンプルに対する応答高ヒートマップを生成するようにデコーダニューラルネットワークを訓練する。
我々の主な革新は、OODサンプルのヒートマップ定義であり、最も近い分布内サンプルとの正規化の違いである。
ヒートマップは、分布内サンプルと分布外サンプルを区別するためのマージンとして機能する。
提案手法は,OOD検出だけでなく,入力画像の分布内領域や分布外領域を示すためのヒートマップを生成する。
評価では, CIFAR-10, CIFAR-100, Tiny ImageNet でトレーニングした固定分類器の先行研究よりも高い性能を示した。
コードはhttps://github.com/jhornauer/heatmap_ood.com/で公開されている。 Our work investigates out-of-distribution (OOD) detection as a neural network output explanation problem. We learn a heatmap representation for detecting OOD images while visualizing in- and out-of-distribution image regions at the same time. Given a trained and fixed classifier, we train a decoder neural network to produce heatmaps with zero response for in-distribution samples and high response heatmaps for OOD samples, based on the classifier features and the class prediction. Our main innovation lies in the heatmap definition for an OOD sample, as the normalized difference from the closest in-distribution sample. The heatmap serves as a margin to distinguish between in- and out-of-distribution samples. Our approach generates the heatmaps not only for OOD detection, but also to indicate in- and out-of-distribution regions of the input image. In our evaluations, our approach mostly outperforms the prior work on fixed classifiers, trained on CIFAR-10, CIFAR-100 and Tiny ImageNet. The code is publicly available at: https://github.com/jhornauer/heatmap_ood. | 翻訳日:2022-11-16 15:12:48 公開日:2022-11-15 |
# フロント・ツー・トップビュー投影による道路シーンの単眼的BEV知覚 Monocular BEV Perception of Road Scenes via Front-to-Top View Projection ( http://arxiv.org/abs/2211.08144v1 ) ライセンス: Link先を確認 | Wenxi Liu, Qi Li, Weixiang Yang, Jiaxin Cai, Yuanlong Yu, Yuexin Ma, Shengfeng He, Jia Pan | (参考訳) HDマップの再構築は自動運転に不可欠である。
LiDARベースの手法は、高価なセンサーと時間を要する計算のために制限されている。
カメラベースの手法では、通常、道路分割とビュー変換を別々に行う必要がある。
本手法の限界を推し進めるために,前方単眼画像のみを与えられた鳥眼視において,道路配置と車両占有によって形成された局所地図を再構築する新しい枠組みを提案する。
本稿では,ビュー間のサイクル一貫性の制約を考慮し,その相関を最大限に活用し,ビュー変換とシーン理解を強化するフロント・ツー・トップ・ビュー・プロジェクション(ftvp)モジュールを提案する。
さらに,マルチスケールのftvpモジュールを用いて,低レベル特徴のリッチな空間情報伝達を行い,予測対象位置の空間的偏差を緩和する。
道路配置推定,車両占有率推定,マルチクラスセマンティック推定といったタスクにおいて,提案手法が最先端の性能を達成することを示す。
マルチクラスのセマンティック推定では、特に、我々のモデルは全ての競合よりも大きなマージンで優れている。
さらに,本モデルでは,1つのGPU上で25FPSで動作し,リアルタイムパノラマHDマップの再構築に有効である。 HD map reconstruction is crucial for autonomous driving. LiDAR-based methods are limited due to expensive sensors and time-consuming computation. Camera-based methods usually need to perform road segmentation and view transformation separately, which often causes distortion and missing content. To push the limits of the technology, we present a novel framework that reconstructs a local map formed by road layout and vehicle occupancy in the bird's-eye view given a front-view monocular image only. We propose a front-to-top view projection (FTVP) module, which takes the constraint of cycle consistency between views into account and makes full use of their correlation to strengthen the view transformation and scene understanding. In addition, we also apply multi-scale FTVP modules to propagate the rich spatial information of low-level features to mitigate spatial deviation of the predicted object location. Experiments on public benchmarks show that our method achieves the state-of-the-art performance in the tasks of road layout estimation, vehicle occupancy estimation, and multi-class semantic estimation. For multi-class semantic estimation, in particular, our model outperforms all competitors by a large margin. Furthermore, our model runs at 25 FPS on a single GPU, which is efficient and applicable for real-time panorama HD map reconstruction. | 翻訳日:2022-11-16 15:12:29 公開日:2022-11-15 |
# 反復型プロトタイプ適応型低ショットオブジェクトカウントネットワーク A Low-Shot Object Counting Network With Iterative Prototype Adaptation ( http://arxiv.org/abs/2211.08217v1 ) ライセンス: Link先を確認 | Nikola Djukic, Alan Lukezic, Vitjan Zavrtanik, Matej Kristan | (参考訳) 画像中の任意の意味カテゴリーの低ショットカウントは、注釈付き例(フェーショット)やなし例(ノーショット)のみを用いて検討する。
標準的な数ショットパイプラインは、外見クエリを例から抽出し、イメージ特徴とマッチングしてオブジェクト数を推測する。
既存の手法は、特徴プーリングによってクエリを抽出するが、形状情報(サイズやアスペクトなど)を無視し、オブジェクトのローカライゼーションの精度を低下させ、推定値をカウントする。
反復型適応(LOCA)を用いた低ショットオブジェクトカウントネットワークを提案する。
我々の主な貢献は新しいオブジェクトプロトタイプ抽出モジュールであり、画像特徴を伴う模範形状と外観クエリを反復的に融合させる。
このモジュールはゼロショットのシナリオに容易に適用でき、LOCAはローショットカウント問題の全スペクトルをカバーすることができる。
LOCAは最近のFSC147ベンチマークの最先端メソッドを20~30%向上させ、ゼロショットシナリオの最先端を達成し、より優れた一般化能力を示している。 We consider low-shot counting of arbitrary semantic categories in the image using only few annotated exemplars (few-shot) or no exemplars (no-shot). The standard few-shot pipeline follows extraction of appearance queries from exemplars and matching them with image features to infer the object counts. Existing methods extract queries by feature pooling, but neglect the shape information (e.g., size and aspect), which leads to a reduced object localization accuracy and count estimates. We propose a Low-shot Object Counting network with iterative prototype Adaptation (LOCA). Our main contribution is the new object prototype extraction module, which iteratively fuses the exemplar shape and appearance queries with image features. The module is easily adapted to zero-shot scenario, enabling LOCA to cover the entire spectrum of low-shot counting problems. LOCA outperforms all recent state-of-the-art methods on FSC147 benchmark by 20-30% in RMSE on one-shot and few-shot and achieves state-of-the-art on zero-shot scenarios, while demonstrating better generalization capabilities. | 翻訳日:2022-11-16 15:12:06 公開日:2022-11-15 |
# 3DカスケードRCNN:ポイントクラウドにおける高品質物体検出 3D Cascade RCNN: High Quality Object Detection in Point Clouds ( http://arxiv.org/abs/2211.08248v1 ) ライセンス: Link先を確認 | Qi Cai and Yingwei Pan and Ting Yao and Tao Mei | (参考訳) 2次元物体検出の最近の進歩はカスケードRCNNが特徴であり、それは一連のカスケード検出器を利用して、高品質物体検出に向けた提案品質を徐々に改善している。
しかし、3Dオブジェクト検出のためのこのようなカスケード構造の構築を支持する証拠は存在せず、これは高度にスパースなLiDAR点雲による挑戦的な検出シナリオである。
本研究では,3次元カスケードRCNNという単純なカスケードアーキテクチャを提案する。このアーキテクチャは,酸化点雲に基づく複数の検出器をカスケードパラダイムで割り当て,高品質な3次元物体検出器を徐々に追求する。
さらに,各物体の3次元境界ボックス内の点の空間性レベルを点完全度スコアとして定量的に定義し,各提案のタスクウェイトとして利用し,各ステージ検出器の学習を指導する。
背後にある精神は、比較的完全な点分布を持つ高品質な提案に対して、より高い重みを割り当てることである。
この完全性認識再重み付けの設計は、フラップ予算を増加させることなく、スパース入力データに適用可能なカスケードパラダイムをエレガントにアップグレードする。
KITTIデータセットとWaymo Open Datasetの両方に関する広範な実験を通じて、最先端の3Dオブジェクト検出技術と比較して提案した3D Cascade RCNNの優位性を検証する。
ソースコードは \url{https://github.com/caiqi/Cascasde-3D} で公開されている。 Recent progress on 2D object detection has featured Cascade RCNN, which capitalizes on a sequence of cascade detectors to progressively improve proposal quality, towards high-quality object detection. However, there has not been evidence in support of building such cascade structures for 3D object detection, a challenging detection scenario with highly sparse LiDAR point clouds. In this work, we present a simple yet effective cascade architecture, named 3D Cascade RCNN, that allocates multiple detectors based on the voxelized point clouds in a cascade paradigm, pursuing higher quality 3D object detector progressively. Furthermore, we quantitatively define the sparsity level of the points within 3D bounding box of each object as the point completeness score, which is exploited as the task weight for each proposal to guide the learning of each stage detector. The spirit behind is to assign higher weights for high-quality proposals with relatively complete point distribution, while down-weight the proposals with extremely sparse points that often incur noise during training. This design of completeness-aware re-weighting elegantly upgrades the cascade paradigm to be better applicable for the sparse input data, without increasing any FLOP budgets. Through extensive experiments on both the KITTI dataset and Waymo Open Dataset, we validate the superiority of our proposed 3D Cascade RCNN, when comparing to state-of-the-art 3D object detection techniques. The source code is publicly available at \url{https://github.com/caiqi/Cascasde-3D}. | 翻訳日:2022-11-16 15:11:45 公開日:2022-11-15 |
# 解釈可能な深分類器によるクロスドメイン認識の説明 Explaining Cross-Domain Recognition with Interpretable Deep Classifier ( http://arxiv.org/abs/2211.08249v1 ) ライセンス: Link先を確認 | Yiheng Zhang and Ting Yao and Zhaofan Qiu and Tao Mei | (参考訳) ディープラーニングの最近の進歩は、主に内部表現でモデルを構築しており、背後にある理論的根拠と決定を人間ユーザーに説明するのは不透明である。
このような説明責任はドメイン適応に特に不可欠であり、異なるドメインにまたがってより適応的なモデルを開発する必要がある。
本稿では、ソースドメインの各サンプルが、ターゲットドメインからのサンプルに対するネットワークの予測にどの程度貢献しているか、という質問を投げかける。
そこで我々は,対象サンプルの最も近いソースサンプルを,分類者が決定を下す証拠として学習する新しい解釈可能な深層分類器(IDC)を考案した。
技術的には、IDCはカテゴリ毎に微分可能なメモリバンクを保持し、メモリスロットはキーと値のペアの形式を導出する。
キーは、識別可能なソースサンプルの特徴を記録し、その値は、カテゴリを記述するための特徴の代表的なスコアなど、対応するプロパティを格納する。
IDCは、IDCの出力とソースサンプルのラベルの間の損失を計算し、バックプロパゲートして代表スコアを調整し、メモリバンクを更新する。
Office-HomeとVisDA-2017データセットの大規模な実験により、私たちのIDCは、ほぼ精度の劣化のないより説明可能なモデルをもたらし、最適な拒絶オプションの分類を効果的に調整することを示した。
さらに驚くべきことに、IDCを前回インタプリタとして使う場合、IDCが選択した0.1%のソーストレーニングデータを利用すると、教師なしドメイン適応のためのVisDA-2017のフルトレーニングセットよりも優れた結果が得られる。 The recent advances in deep learning predominantly construct models in their internal representations, and it is opaque to explain the rationale behind and decisions to human users. Such explainability is especially essential for domain adaptation, whose challenges require developing more adaptive models across different domains. In this paper, we ask the question: how much each sample in source domain contributes to the network's prediction on the samples from target domain. To address this, we devise a novel Interpretable Deep Classifier (IDC) that learns the nearest source samples of a target sample as evidence upon which the classifier makes the decision. Technically, IDC maintains a differentiable memory bank for each category and the memory slot derives a form of key-value pair. The key records the features of discriminative source samples and the value stores the corresponding properties, e.g., representative scores of the features for describing the category. IDC computes the loss between the output of IDC and the labels of source samples to back-propagate to adjust the representative scores and update the memory banks. Extensive experiments on Office-Home and VisDA-2017 datasets demonstrate that our IDC leads to a more explainable model with almost no accuracy degradation and effectively calibrates classification for optimum reject options. More remarkably, when taking IDC as a prior interpreter, capitalizing on 0.1% source training data selected by IDC still yields superior results than that uses full training set on VisDA-2017 for unsupervised domain adaptation. | 翻訳日:2022-11-16 15:11:16 公開日:2022-11-15 |
# SPE-Net:回転ロバスト性向上によるポイントクラウド解析 SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness Enhancement ( http://arxiv.org/abs/2211.08250v1 ) ライセンス: Link先を確認 | Zhaofan Qiu and Yehao Li and Yu Wang and Yingwei Pan and Ting Yao and Tao Mei | (参考訳) 本稿では,SPE-Netという3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
SPE(Selective Position Encoding)' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
このような符号化された回転条件は、焦点を合わせるネットワークパラメータのどの部分を決定し、トレーニング中の最適化の自由度を効果的に減らすことが示される。
そのため、このメカニズムはトレーニングの困難を減らし、トレーニングとテストの両方において、SPE-Netがローテーションされたデータに対して堅牢になる。
また,本研究では,抽出した回転情報と実際の検定精度との関係を再考するよう促した。
興味深いことに、SPE-Netを介してローテーション情報を局所的に符号化することで、ローテーション不変性は、実際のグローバルローテーションを伴わないテストサンプルの恩恵に依然として重要であることを示す。
我々は,SPE-Netと関連する仮説の利点を4つのベンチマークで実証的に実証し,SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
ソースコードはhttps://github.com/ZhaofanQiu/SPE-Netで入手できる。 In this paper, we propose a novel deep architecture tailored for 3D point cloud applications, named as SPE-Net. The embedded ``Selective Position Encoding (SPE)'' procedure relies on an attention mechanism that can effectively attend to the underlying rotation condition of the input. Such encoded rotation condition then determines which part of the network parameters to be focused on, and is shown to efficiently help reduce the degree of freedom of the optimization during training. This mechanism henceforth can better leverage the rotation augmentations through reduced training difficulties, making SPE-Net robust against rotated data both during training and testing. The new findings in our paper also urge us to rethink the relationship between the extracted rotation information and the actual test accuracy. Intriguingly, we reveal evidences that by locally encoding the rotation information through SPE-Net, the rotation-invariant features are still of critical importance in benefiting the test samples without any actual global rotation. We empirically demonstrate the merits of the SPE-Net and the associated hypothesis on four benchmarks, showing evident improvements on both rotated and unrotated test data over SOTA methods. Source code is available at https://github.com/ZhaofanQiu/SPE-Net. | 翻訳日:2022-11-16 15:10:48 公開日:2022-11-15 |
# ビデオモデルにおける動的時間フィルタリング Dynamic Temporal Filtering in Video Models ( http://arxiv.org/abs/2211.08252v1 ) ライセンス: Link先を確認 | Fuchen Long and Zhaofan Qiu and Yingwei Pan and Ting Yao and Chong-Wah Ngo and Tao Mei | (参考訳) ビデオテンポラリダイナミクスは従来の3次元空間-時間的カーネルまたは2次元空間的カーネルと1次元時間的カーネルからなる因子化バージョンでモデル化される。
それでもモデリング能力は、時間次元に沿って固定されたウィンドウサイズとカーネルの静的重みによって制限される。
事前決定されたカーネルサイズは、時間受容場を厳しく制限し、固定重み付けはフレーム間の各空間位置を等しく扱い、自然場面における長距離時間モデリングの最適解となる。
本稿では,時間的特徴学習の新しい手法である動的時間的フィルタ(DTF)を提案する。
具体的には、DTFはその長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを動的に学習する。
一方、各空間位置の時間的特徴は、1D Fast Fourier Transform (FFT)を介して周波数特徴スペクトルに変換される。
スペクトルは学習周波数フィルタによって変調され、その後、逆FFTで時間領域に変換される。
さらに, DTFにおける周波数フィルタの学習を容易にするため, フレーム間相関による時間的特徴量の向上を目的としてフレームワイズアグリゲーションを行う。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
3つのデータセットで広範な実験を行った結果,提案手法の優越性が示された。
さらに驚くべきことに、DTF-TransformerはKinetics-400データセットで83.5%の精度を実現している。
ソースコードは \url{https://github.com/FuchenUSTC/DTF} で入手できる。 Video temporal dynamics is conventionally modeled with 3D spatial-temporal kernel or its factorized version comprised of 2D spatial kernel and 1D temporal kernel. The modeling power, nevertheless, is limited by the fixed window size and static weights of a kernel along the temporal dimension. The pre-determined kernel size severely limits the temporal receptive fields and the fixed weights treat each spatial location across frames equally, resulting in sub-optimal solution for long-range temporal modeling in natural scenes. In this paper, we present a new recipe of temporal feature learning, namely Dynamic Temporal Filter (DTF), that novelly performs spatial-aware temporal modeling in frequency domain with large temporal receptive field. Specifically, DTF dynamically learns a specialized frequency filter for every spatial location to model its long-range temporal dynamics. Meanwhile, the temporal feature of each spatial location is also transformed into frequency feature spectrum via 1D Fast Fourier Transform (FFT). The spectrum is modulated by the learnt frequency filter, and then transformed back to temporal domain with inverse FFT. In addition, to facilitate the learning of frequency filter in DTF, we perform frame-wise aggregation to enhance the primary temporal feature with its temporal neighbors by inter-frame correlation. It is feasible to plug DTF block into ConvNets and Transformer, yielding DTF-Net and DTF-Transformer. Extensive experiments conducted on three datasets demonstrate the superiority of our proposals. More remarkably, DTF-Transformer achieves an accuracy of 83.5% on Kinetics-400 dataset. Source code is available at \url{https://github.com/FuchenUSTC/DTF}. | 翻訳日:2022-11-16 15:10:25 公開日:2022-11-15 |
# 自己監督型人物特定モデルを用いた人物の顔運動の客観的特徴付け Towards an objective characterization of an individual's facial movements using Self-Supervised Person-Specific-Models ( http://arxiv.org/abs/2211.08279v1 ) ライセンス: Link先を確認 | Yanis Tazi, Michael Berger, and Winrich A. Freiwald | (参考訳) 他の顔の特徴、特に顔の特徴から顔の動きを遠ざけることは難しい課題であり、顔の動きは個人間で大きな変化を示す。
本稿では,個々の顔の動きを特徴付けることを目的とする。
本研究では,他の顔の特徴と独立して顔の動きを学習する新たな訓練手法を提案する。
個人ごとの1つのモデルが、人物のアイデンティティや、ラベルなしの顔画像から、顔の動きの埋め込みを抽出することを学ぶことができる自己教師型個人特化モデル(PSMs)を提案する。
これらのモデルはエンコーダ・デコーダのようなアーキテクチャを使って訓練される。
一般モデル(GM)によって特徴付けられていない細粒度な動きを発見し,顔の動きの一般的なパターンを特徴付ける意味のある顔埋め込みをPSMが学習する,定量的かつ質的な証拠を提供する。
我々は,この手法が新しい個人にとって容易にスケーラブルで一般化できるという,定量的かつ質的な証拠を提示する: 人について学んだ顔の動きの知識は,迅速かつ効果的に新しい人に伝達できる。
最後に,映像フレーム間の時間的連続性を活用するために,カリキュラム時間学習を用いた新しいpsmを提案する。
私たちのコード、分析の詳細、および事前訓練済みのモデルはすべて、GithubとSupplementary Materialsで利用可能です。 Disentangling facial movements from other facial characteristics, particularly from facial identity, remains a challenging task, as facial movements display great variation between individuals. In this paper, we aim to characterize individual-specific facial movements. We present a novel training approach to learn facial movements independently of other facial characteristics, focusing on each individual separately. We propose self-supervised Person-Specific Models (PSMs), in which one model per individual can learn to extract an embedding of the facial movements independently of the person's identity and other structural facial characteristics from unlabeled facial video. These models are trained using encoder-decoder-like architectures. We provide quantitative and qualitative evidence that a PSM learns a meaningful facial embedding that discovers fine-grained movements otherwise not characterized by a General Model (GM), which is trained across individuals and characterizes general patterns of facial movements. We present quantitative and qualitative evidence that this approach is easily scalable and generalizable for new individuals: facial movements knowledge learned on a person can quickly and effectively be transferred to a new person. Lastly, we propose a novel PSM using curriculum temporal learning to leverage the temporal contiguity between video frames. Our code, analysis details, and all pretrained models are available in Github and Supplementary Materials. | 翻訳日:2022-11-16 15:10:00 公開日:2022-11-15 |
# 説明に基づく学習によるスプリアス相関の同定と修正 Identifying Spurious Correlations and Correcting them with an Explanation-based Learning ( http://arxiv.org/abs/2211.08285v1 ) ライセンス: Link先を確認 | Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee | (参考訳) トレーニングされたモデルによって学習された急激な相関関係の特定は、トレーニングされたモデルを精査し、信頼できるモデルを構築する中核にある。
本稿では,画像分類問題に対する学習モデルにより学習されたスプリアス相関を簡易に同定する手法を提案する。
画像レベルの摂動を応用し,訓練モデルを用いた予測の確実性の変化を監視する。
本研究では,合成したスプリアス領域の画像を含む画像分類データセットを用いて,学習モデルがスプリアス領域に過度に依存していることを示す。
さらに, 説明に基づく学習アプローチにより, 学習スプリアス相関を除去した。 Identifying spurious correlations learned by a trained model is at the core of refining a trained model and building a trustworthy model. We present a simple method to identify spurious correlations that have been learned by a model trained for image classification problems. We apply image-level perturbations and monitor changes in certainties of predictions made using the trained model. We demonstrate this approach using an image classification dataset that contains images with synthetically generated spurious regions and show that the trained model was overdependent on spurious regions. Moreover, we remove the learned spurious correlations with an explanation based learning approach. | 翻訳日:2022-11-16 15:09:36 公開日:2022-11-15 |
# 2次元監視による3次元物体検出に向けて Towards 3D Object Detection with 2D Supervision ( http://arxiv.org/abs/2211.08287v1 ) ライセンス: Link先を確認 | Jinrong Yang, Tiancai Wang, Zheng Ge, Weixin Mao, Xiaoping Li, Xiangyu Zhang | (参考訳) 3Dオブジェクト検出器の大きな進歩は、大規模データと3Dアノテーションに依存している。
3Dバウンディングボックスのアノテーションコストは非常に高く、2Dバウンディングボックスはより簡単かつ安価に収集できる。
本稿では,3Dアノテーションを使わずに,大量の2Dラベルを持つ視覚的3Dオブジェクト検出器を学習可能なハイブリッドトレーニングフレームワークを提案する。
2Dヒントの情報ボトルネックを突破するために、新しい視点を探る: テンポラル2Dスーパービジョン。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
ホモグラフィラッピングと2Dボックス推論を含む2つのステップを用いて、3Dの予測を2Dの予測に変換する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
3d認識に大量の2dアノテーションを使用するための新たな洞察が得られればと思っています。 The great progress of 3D object detectors relies on large-scale data and 3D annotations. The annotation cost for 3D bounding boxes is extremely expensive while the 2D ones are easier and cheaper to collect. In this paper, we introduce a hybrid training framework, enabling us to learn a visual 3D object detector with massive 2D (pseudo) labels, even without 3D annotations. To break through the information bottleneck of 2D clues, we explore a new perspective: Temporal 2D Supervision. We propose a temporal 2D transformation to bridge the 3D predictions with temporal 2D labels. Two steps, including homography wraping and 2D box deduction, are taken to transform the 3D predictions into 2D ones for supervision. Experiments conducted on the nuScenes dataset show strong results (nearly 90% of its fully-supervised performance) with only 25% 3D annotations. We hope our findings can provide new insights for using a large number of 2D annotations for 3D perception. | 翻訳日:2022-11-16 15:09:26 公開日:2022-11-15 |
# 偽陰性サンプルによる高解像度リモートセンシング画像のセマンティックセグメンテーションのためのコントラスト学習 False: False Negative Samples Aware Contrastive Learning for Semantic Segmentation of High-Resolution Remote Sensing Image ( http://arxiv.org/abs/2211.07928v1 ) ライセンス: Link先を確認 | Zhaoyang Zhang, Xuying Wang, Xiaoming Mei, Chao Tao, Haifeng Li | (参考訳) RSIの既存のSSCLは正と負のサンプルペアの構築に基づいている。
しかし、rsiグランドオブジェクトの豊かさとrsiコンテキストセマンティクスの複雑さのため、同じrsiパッチは、正のサンプルと負のサンプルの共存と不均衡を持ち、ssclが負のサンプルを遠ざけ、正のサンプルを遠ざけ、逆もまた逆である。
これをサンプル共起問題(SCI)と呼ぶ。
この問題を解決するために,高分解能RSIのセマンティックセグメンテーションのためのFalse negAtive sampLes aware contraStive lEarning model (FALSE)を提案する。
SSCLプレトレーニングは教師なしであり, 偽陰性サンプル(FNS)の判定基準の欠如が理論的不確定性をもたらすため, FNS近似決定を行うための2つのステップとして, FNSの粗い判定とFNSの正確な校正を設計した。
我々は、FNS自己決定(FNSD)戦略によるFNSの粗い決定と、FNS信頼度補正(FNCC)損失関数によるFNSの校正を実現する。
3つのrsiセマンティクスセグメンテーションデータセットを用いた実験の結果、falseは下流のrsiセマンティクスセグメンテーションタスクの精度を3種類の異なるssclモデルを表す現在の3つのモデルと比較して効果的に改善することが示された。
ISPRS Potsdamデータセットの平均インターセクションオーバーユニオンは平均0.7%改善され、CVPR DGLCデータセットは平均12.28倍改善され、Xiangtanデータセットでは平均1.17倍改善されている。
このことは、SSCLモデルがFNSを自己微分し、FALSEが自己教師付きコントラスト学習においてSCIを効果的に緩和することを示している。
ソースコードはhttps://github.com/GeoX-Lab/FALSEで入手できる。 The existing SSCL of RSI is built based on constructing positive and negative sample pairs. However, due to the richness of RSI ground objects and the complexity of the RSI contextual semantics, the same RSI patches have the coexistence and imbalance of positive and negative samples, which causing the SSCL pushing negative samples far away while pushing positive samples far away, and vice versa. We call this the sample confounding issue (SCI). To solve this problem, we propose a False negAtive sampLes aware contraStive lEarning model (FALSE) for the semantic segmentation of high-resolution RSIs. Since the SSCL pretraining is unsupervised, the lack of definable criteria for false negative sample (FNS) leads to theoretical undecidability, we designed two steps to implement the FNS approximation determination: coarse determination of FNS and precise calibration of FNS. We achieve coarse determination of FNS by the FNS self-determination (FNSD) strategy and achieve calibration of FNS by the FNS confidence calibration (FNCC) loss function. Experimental results on three RSI semantic segmentation datasets demonstrated that the FALSE effectively improves the accuracy of the downstream RSI semantic segmentation task compared with the current three models, which represent three different types of SSCL models. The mean Intersection-over-Union on ISPRS Potsdam dataset is improved by 0.7\% on average; on CVPR DGLC dataset is improved by 12.28\% on average; and on Xiangtan dataset this is improved by 1.17\% on average. This indicates that the SSCL model has the ability to self-differentiate FNS and that the FALSE effectively mitigates the SCI in self-supervised contrastive learning. The source code is available at https://github.com/GeoX-Lab/FALSE. | 翻訳日:2022-11-16 15:04:30 公開日:2022-11-15 |
# ディリクレ分布に基づくエビデンスからの学習による不確実性認識 Uncertainty-aware Gait Recognition via Learning from Dirichlet Distribution-based Evidence ( http://arxiv.org/abs/2211.08007v1 ) ライセンス: Link先を確認 | Beibei Lin, Chen Liu, Lincheng Li, Robby T. Tan, Xin Yu | (参考訳) 既存の歩行認識フレームワークは、プローブサンプルとギャラリー内のアイデンティティ間の距離に基づいて、ギャラリー内のアイデンティティを検索する。
しかし、既存の手法では、ギャラリーがプローブに対応するidを含まないことを無視することが多く、アラームを鳴らすよりも認識エラーを生じさせる。
本稿では,学習した証拠に基づいて識別の不確かさをモデル化する新しい不確実性認識手法を提案する。
具体的には,我々の認識モデルをエビデンスコレクタとして扱い,入力サンプルからエビデンスを収集し,エビデンス上のディリクレ分布をパラメータ化する。
ディリクレ分布は本質的に、入力サンプルに割り当てられた確率の密度を表す。
この分布を用いて,各プローブ試料の結果の不確かさを評価し,各プローブがギャラリー内に存在するかどうかを判定する。
我々の知る限り、我々の手法は不確実性モデリングによる歩行認識に取り組む最初の試みである。
さらに、不確実なモデリングは、アウト・オブ・ディストリビューション(OOD)クエリに対するロバスト性を大幅に改善する。
広範な実験により,oodクエリを用いたデータセットの最先端性能を実現し,他のアイデンティティリトライタスクにも一般化できることが証明された。
重要なことは,OODクエリレートがOUMVLPで約50%となると,最先端の手法は44.19%の差で性能が向上する。 Existing gait recognition frameworks retrieve an identity in the gallery based on the distance between a probe sample and the identities in the gallery. However, existing methods often neglect that the gallery may not contain identities corresponding to the probes, leading to recognition errors rather than raising an alarm. In this paper, we introduce a novel uncertainty-aware gait recognition method that models the uncertainty of identification based on learned evidence. Specifically, we treat our recognition model as an evidence collector to gather evidence from input samples and parameterize a Dirichlet distribution over the evidence. The Dirichlet distribution essentially represents the density of the probability assigned to the input samples. We utilize the distribution to evaluate the resultant uncertainty of each probe sample and then determine whether a probe has a counterpart in the gallery or not. To the best of our knowledge, our method is the first attempt to tackle gait recognition with uncertainty modelling. Moreover, our uncertain modeling significantly improves the robustness against out-of-distribution (OOD) queries. Extensive experiments demonstrate that our method achieves state-of-the-art performance on datasets with OOD queries, and can also generalize well to other identity-retrieval tasks. Importantly, our method outperforms the state-of-the-art by a large margin of 44.19% when the OOD query rate is around 50% on OUMVLP. | 翻訳日:2022-11-16 15:03:50 公開日:2022-11-15 |
# 顔画像の品質評価技術の現状 State of the Art of Quality Assessment of Facial Images ( http://arxiv.org/abs/2211.08030v1 ) ライセンス: Link先を確認 | Johannes Merkle (1), Christian Rathgeb (1), Benjamin Tams (1), Dhay-Parn Lou (1), Andr\'e D\"orsch (1), Pawel Drozdowski (1) ((1) secunet Security Networks AG) | (参考訳) プロジェクト"face metrics for ees"の目標は、顔認識のための顔画像の品質評価(ofiq)、特に境界制御シナリオのためのオープンソースアルゴリズムを開発し、実装し、公開することである。
顔画像のQAに適用される要件とプラクティスの調和を促進するため,本プロジェクトで開発された知見とアルゴリズムは,ISO/IEC 29794-5規格の現行(2022)改訂に寄与する。
さらに、実装された品質指標とアルゴリズムは、他の関連する標準、特にISO/IEC 19794-5:2011、ISO/IEC 29794-5:2010、ISO/IEC 39794-5:2019、BSI技術ガイドラインTR-03121のバージョン5.2の勧告と要件を検討する。
品質指標の選択とそれに対応する品質評価アルゴリズムの開発に関するインフォームドベースを確立するために、手法やアルゴリズム(メートル法の定義)の現状、顔画像の品質評価のための実装やデータセットを調査した。
関連するすべての品質面について、この文書は上記の標準の要件、顔認識性能、公開データセット、提案されたメソッドとアルゴリズム、およびオープンソースソフトウェア実装への影響に関する既知の結果について要約する。 The goal of the project "Facial Metrics for EES" is to develop, implement and publish an open source algorithm for the quality assessment of facial images (OFIQ) for face recognition, in particular for border control scenarios.1 In order to stimulate the harmonization of the requirements and practices applied for QA for facial images, the insights gained and algorithms developed in the project will be contributed to the current (2022) revision of the ISO/IEC 29794-5 standard. Furthermore, the implemented quality metrics and algorithms will consider the recommendations and requirements from other relevant standards, in particular ISO/IEC 19794-5:2011, ISO/IEC 29794-5:2010, ISO/IEC 39794-5:2019 and Version 5.2 of the BSI Technical Guideline TR-03121 Part 3 Volume 1. In order to establish an informed basis for the selection of quality metrics and the development of corresponding quality assessment algorithms, the state of the art of methods and algorithms (defining a metric), implementations and datasets for quality assessment for facial images is surveyed. For all relevant quality aspects, this document summarizes the requirements of the aforementioned standards, known results on their impact on face recognition performance, publicly available datasets, proposed methods and algorithms and open source software implementations. | 翻訳日:2022-11-16 15:03:28 公開日:2022-11-15 |
# ウェーブレット変換によるリモートセンシングデータのバックドア攻撃 Backdoor Attacks for Remote Sensing Data with Wavelet Transform ( http://arxiv.org/abs/2211.08044v1 ) ライセンス: Link先を確認 | Nikolaus Dr\"ager, Yonghao Xu, Pedram Ghamisi | (参考訳) 近年では、ジオサイエンスとリモートセンシングの分野でディープラーニングアルゴリズムが大きな成功を収めている。
それでも、安全クリティカルなリモートセンシングタスクに対処する場合には、ディープラーニングモデルのセキュリティと堅牢性が特に注目に値する。
本稿では,シーン分類とセマンティックセグメンテーションの両方を考慮したリモートセンシングデータに対するバックドア攻撃の系統的解析を行う。
既存のバックドアアタックアルゴリズムの多くは、よく設計されたパターンを持つ正方形パッチのような目に見えるトリガーに依存しているが、低周波領域の有毒画像にトリガーイメージを注入することで、目に見えないアタックを実現する新しいウェーブレット変換ベースアタック(WABA)手法を提案する。
このようにして、トリガー画像内の高周波情報を攻撃時にフィルタリングすることができ、ステルスデータ中毒を引き起こす。
その単純さにもかかわらず、提案手法は攻撃成功率の高い最先端のディープラーニングモデルをかなり騙すことができる。
さらに,ウェーブレット変換におけるトリガ画像とハイパーパラメータの違いが,提案手法の性能に与える影響を解析した。
4つのベンチマークリモートセンシングデータセットに関する広範な実験は、シーン分類とセマンティクスセグメンテーションタスクの両方における提案手法の有効性を示し、リモートセンシングシナリオにおけるこの脅威に対処するための高度なバックドア防御アルゴリズムの設計の重要性を強調している。
コードは \url{https://github.com/ndraeger/waba} で入手できる。 Recent years have witnessed the great success of deep learning algorithms in the geoscience and remote sensing realm. Nevertheless, the security and robustness of deep learning models deserve special attention when addressing safety-critical remote sensing tasks. In this paper, we provide a systematic analysis of backdoor attacks for remote sensing data, where both scene classification and semantic segmentation tasks are considered. While most of the existing backdoor attack algorithms rely on visible triggers like squared patches with well-designed patterns, we propose a novel wavelet transform-based attack (WABA) method, which can achieve invisible attacks by injecting the trigger image into the poisoned image in the low-frequency domain. In this way, the high-frequency information in the trigger image can be filtered out in the attack, resulting in stealthy data poisoning. Despite its simplicity, the proposed method can significantly cheat the current state-of-the-art deep learning models with a high attack success rate. We further analyze how different trigger images and the hyper-parameters in the wavelet transform would influence the performance of the proposed method. Extensive experiments on four benchmark remote sensing datasets demonstrate the effectiveness of the proposed method for both scene classification and semantic segmentation tasks and thus highlight the importance of designing advanced backdoor defense algorithms to address this threat in remote sensing scenarios. The code will be available online at \url{https://github.com/ndraeger/waba}. | 翻訳日:2022-11-16 15:03:02 公開日:2022-11-15 |
# 学習オプティカルフローとワーピングによる将来のインスタンスセグメンテーション予測 Forecasting Future Instance Segmentation with Learned Optical Flow and Warping ( http://arxiv.org/abs/2211.08049v1 ) ライセンス: Link先を確認 | Andrea Ciamarra, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo | (参考訳) 自律走行車の場合、シーンの現在進行中のダイナミクスを観察し、その結果、将来的なシナリオを予測して、自分自身や他人の安全を確保することが不可欠である。
これは異なるセンサーとモダリティを使って行うことができる。
本稿では,将来のセマンティックセグメンテーションを予測するための光フローの利用について検討する。
そこで我々は,流れ場を自己回帰的に予測するモデルを提案する。
このような予測は、インスタンスセグメンテーションを将来のフレームに移動する学習されたワーピング関数の推論を導くために使われる。
cityscapesデータセットの結果は、光フロー法の有効性を示している。 For an autonomous vehicle it is essential to observe the ongoing dynamics of a scene and consequently predict imminent future scenarios to ensure safety to itself and others. This can be done using different sensors and modalities. In this paper we investigate the usage of optical flow for predicting future semantic segmentations. To do so we propose a model that forecasts flow fields autoregressively. Such predictions are then used to guide the inference of a learned warping function that moves instance segmentations on to future frames. Results on the Cityscapes dataset demonstrate the effectiveness of optical-flow methods. | 翻訳日:2022-11-16 15:02:37 公開日:2022-11-15 |
# pai3d: 3次元物体検出のためのpaint adaptive instance-prior PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection ( http://arxiv.org/abs/2211.08055v1 ) ライセンス: Link先を確認 | Hao Liu, Zhuoran Xu, Dan Wang, Baofeng Zhang, Guan Wang, Bo Dong, Xin Wen, and Xinyu Xu | (参考訳) 3Dオブジェクト検出は、自動運転において重要なタスクである。
近年,LiDARとカメラの相補的な利点を組み合わせたマルチモーダル融合型3Dオブジェクト検出法が,モノモーダル法よりも優れた性能を示した。
しかし,これまで3Dオブジェクト検出を導くために,インスタンスレベルの文脈的イメージセマンティクスを利用した手法は存在しなかった。
本稿では,3次元オブジェクト検出のための簡易かつ効果的なPainting Adaptive Instance-prior(PAI3D)を提案する。
pai3dはマルチモーダルシーケンシャルなインスタンスレベルの融合フレームワークである。
まず、画像からインスタンスレベルのセマンティック情報を抽出し、対象分類ラベル、ポイント・ツー・オブジェクト・メンバシップ、オブジェクト位置を含む抽出情報を用いて、その後の3D検出ネットワークにおける各LiDARポイントを拡大して検出性能を誘導し改善する。
PAI3Dは、nuScenesデータセットで最先端のマージンを達成し、テストスプリットで71.4、NDSで74.2を達成した。
私たちの包括的な実験では、インスタンスレベルのイメージセマンティクスがパフォーマンス向上に最も寄与していることが示され、pai3dは高品質なインスタンスセグメンテーションモデルやモダンなpoint cloud 3dエンコーダとうまく連携し、自動運転車への展開の強力な候補となります。 3D object detection is a critical task in autonomous driving. Recently multi-modal fusion-based 3D object detection methods, which combine the complementary advantages of LiDAR and camera, have shown great performance improvements over mono-modal methods. However, so far, no methods have attempted to utilize the instance-level contextual image semantics to guide the 3D object detection. In this paper, we propose a simple and effective Painting Adaptive Instance-prior for 3D object detection (PAI3D) to fuse instance-level image semantics flexibly with point cloud features. PAI3D is a multi-modal sequential instance-level fusion framework. It first extracts instance-level semantic information from images, the extracted information, including objects categorical label, point-to-object membership and object position, are then used to augment each LiDAR point in the subsequent 3D detection network to guide and improve detection performance. PAI3D outperforms the state-of-the-art with a large margin on the nuScenes dataset, achieving 71.4 in mAP and 74.2 in NDS on the test split. Our comprehensive experiments show that instance-level image semantics contribute the most to the performance gain, and PAI3D works well with any good-quality instance segmentation models and any modern point cloud 3D encoders, making it a strong candidate for deployment on autonomous vehicles. | 翻訳日:2022-11-16 15:02:27 公開日:2022-11-15 |
# 連続蒸留点サンプリングによる検出変圧器の知識蒸留 Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling ( http://arxiv.org/abs/2211.08071v1 ) ライセンス: Link先を確認 | Yu Wang, Xin Li, Shengzhao Wen, Fukui Yang, Wanping Zhang, Gang Zhang, Haocheng Feng, Junyu Han, Errui Ding | (参考訳) detrは、新しいエンドツーエンドトランスフォーマーアーキテクチャのオブジェクト検出器であり、モデルサイズをスケールアップする際の古典的な検出器を大幅に上回る。
本稿では,DeTRの知識蒸留による圧縮に着目した。
知識蒸留は古典的な検出器でよく研究されているが、DETRで効果的に機能させる方法の研究は乏しい。
まず, 実験および理論的解析を行い, デトル蒸留における主な課題は, 一貫性のある蒸留点の欠如にあることを指摘した。
蒸留点とは、生徒が模倣する予測の対応する入力を指し、信頼できる蒸留には、教師と生徒の一貫性のある十分な蒸留点が必要である。
そこで本研究では,一貫した蒸留点をサンプリングしたDETR(KD-DETR)の一般知識蒸留パラダイムを提案する。
具体的には, 蒸留点を構成するための特殊オブジェクトクエリの集合を導入することで, 検出・蒸留タスクを分離する。
本パラダイムでは,KD-DETRの拡張性を検討するため,一般から特定の蒸留点サンプリング戦略を提案する。
種々のバックボーンとトランスフォーマー層を有する異なるDETRアーキテクチャの広範な実験により、KD-DETRの有効性と一般化が検証された。
KD-DETRはDAB-DETRのパフォーマンスをResNet-18とResNet-50のバックボーンで41.4$\%$、45.7$\%$mAPに向上させ、それぞれベースラインよりも5.2$\%$、3.5$\%$高い。 DETR is a novel end-to-end transformer architecture object detector, which significantly outperforms classic detectors when scaling up the model size. In this paper, we focus on the compression of DETR with knowledge distillation. While knowledge distillation has been well-studied in classic detectors, there is a lack of researches on how to make it work effectively on DETR. We first provide experimental and theoretical analysis to point out that the main challenge in DETR distillation is the lack of consistent distillation points. Distillation points refer to the corresponding inputs of the predictions for student to mimic, and reliable distillation requires sufficient distillation points which are consistent between teacher and student. Based on this observation, we propose a general knowledge distillation paradigm for DETR(KD-DETR) with consistent distillation points sampling. Specifically, we decouple detection and distillation tasks by introducing a set of specialized object queries to construct distillation points. In this paradigm, we further propose a general-to-specific distillation points sampling strategy to explore the extensibility of KD-DETR. Extensive experiments on different DETR architectures with various scales of backbones and transformer layers validate the effectiveness and generalization of KD-DETR. KD-DETR boosts the performance of DAB-DETR with ResNet-18 and ResNet-50 backbone to 41.4$\%$, 45.7$\%$ mAP, respectively, which are 5.2$\%$, 3.5$\%$ higher than the baseline, and ResNet-50 even surpasses the teacher model by $2.2\%$. | 翻訳日:2022-11-16 15:01:59 公開日:2022-11-15 |
# shadowdiffusion:分類器による注意と構造保存による拡散型シャドウ除去 ShadowDiffusion: Diffusion-based Shadow Removal using Classifier-driven Attention and Structure Preservation ( http://arxiv.org/abs/2211.08089v1 ) ライセンス: Link先を確認 | Yeying Jin, Wenhan Yang, Wei Ye, Yuan Yuan and Robby T. Tan | (参考訳) 単一の画像からのシャドウ除去は、特にソフトとセルフのシャドウの存在によって困難である。
ハードシャドウとは異なり、ソフトシャドウは明確な境界を示さず、セルフシャドウはオブジェクト自体に現れる影である。
既存の方法の多くは、ソフトシャドウとセルフシャドウの境界を曖昧に考慮せずに、バイナリシャドウマスクの検出/注釈を必要とする。
ほとんどの深層学習シャドウ除去法はganベースであり、シャドウフリードメインとシャドウフリードメインの統計的類似性を必要とする。
本稿では,これらの方法とは対照的に,最初の拡散に基づくシャドウ除去法であるshadowdiffusionを提案する。
ShadowDiffusionは、ソフトとセルフのシャドウの存在下でも、シングルイメージのシャドウ除去に焦点を当てている。
逆拡散中の意味的構造を復元する拡散過程を導出するために, 事前学習した視覚変換器(DINO-ViT)から特徴を抽出する構造保存損失を導入する。
さらに,影領域の回復に焦点をあてるために,拡散モデルのアーキテクチャに分類器駆動の注意を注入する。
シャドウが除去された領域の一貫した色を維持するため、色度一貫性の損失を導入する。
当社のShadowDiffusionは、SRD、AISTD、LRSS、USR、UIUCデータセットの最先端の手法より優れており、ハード、ソフト、セルフシャドウを堅牢に除去しています。
本手法は,SRDデータセット上の画像全体のRMSEの20%でSOTA法より優れる。 Shadow removal from a single image is challenging, particularly with the presence of soft and self shadows. Unlike hard shadows, soft shadows do not show any clear boundaries, while self shadows are shadows that cast on the object itself. Most existing methods require the detection/annotation of binary shadow masks, without taking into account the ambiguous boundaries of soft and self shadows. Most deep learning shadow removal methods are GAN-based and require statistical similarity between shadow and shadow-free domains. In contrast to these methods, in this paper, we present ShadowDiffusion, the first diffusion-based shadow removal method. ShadowDiffusion focuses on single-image shadow removal, even in the presence of soft and self shadows. To guide the diffusion process to recover semantically meaningful structures during the reverse diffusion, we introduce a structure preservation loss, where we extract features from the pre-trained Vision Transformer (DINO-ViT). Moreover, to focus on the recovery of shadow regions, we inject classifier-driven attention into the architecture of the diffusion model. To maintain the consistent colors of the regions where the shadows have been removed, we introduce a chromaticity consistency loss. Our ShadowDiffusion outperforms state-of-the-art methods on the SRD, AISTD, LRSS, USR and UIUC datasets, removing hard, soft, and self shadows robustly. Our method outperforms the SOTA method by 20% of the RMSE of the whole image on the SRD dataset. | 翻訳日:2022-11-16 15:01:30 公開日:2022-11-15 |
# 大規模生成モデルは将来のデータセットを崩壊させるか? Will Large-scale Generative Models Corrupt Future Datasets? ( http://arxiv.org/abs/2211.08095v1 ) ライセンス: Link先を確認 | Ryuichiro Hataya and Han Bao and Hiromi Arai | (参考訳) 最近提案されたdall$\cdot$e 2、midjourney、stablediffusionのような大規模テキストから画像への生成モデルでは、ユーザのプロンプトから高品質で現実的な画像を生成することができる。
研究コミュニティに限らず、一般のインターネットユーザーはこれらの生成モデルを楽しんでいるため、膨大な量の画像がインターネット上で共有されている。
一方、今日のコンピュータビジョン分野におけるディープラーニングの成功は、インターネットから集めた画像に大きく依存している。
このような生成されたイメージは、将来のデータセットの品質やコンピュータビジョンモデルのパフォーマンスに正か負かに影響を与えますか?
本論文は汚染を模擬してこの問題に実証的に答える。
具体的には,最先端生成モデルを用いてimagenet-scaleおよびcoco-scaleデータセットを生成し,画像分類や画像生成など,さまざまなタスクにおいて `conminated'' データセットでトレーニングされたモデルを評価する。
実験を通して,生成した画像は下流のパフォーマンスに悪影響を及ぼすが,その重要性はタスクや生成画像の量に依存すると結論づけた。
生成されたデータセットはhttps://github.com/moskomule/dataset-contaminationで入手できる。 Recently proposed large-scale text-to-image generative models such as DALL$\cdot$E 2, Midjourney, and StableDiffusion can generate high-quality and realistic images from users' prompts. Not limited to the research community, ordinary Internet users enjoy these generative models, and consequently a tremendous amount of generated images have been shared on the Internet. Meanwhile, today's success of deep learning in the computer vision field owes a lot to images collected from the Internet. These trends lead us to a research question: "will such generated images impact the quality of future datasets and the performance of computer vision models positively or negatively?" This paper empirically answers this question by simulating contamination. Namely, we generate ImageNet-scale and COCO-scale datasets using a state-of-the-art generative model and evaluate models trained on ``contaminated'' datasets on various tasks including image classification and image generation. Throughout experiments, we conclude that generated images negatively affect downstream performance, while the significance depends on tasks and the amount of generated images. The generated datasets are available via https://github.com/moskomule/dataset-contamination. | 翻訳日:2022-11-16 15:01:04 公開日:2022-11-15 |
# 非教師なしドメイン適応のための蒸留を伴うインスタンスアウェアモデルアンサンブル Instance-aware Model Ensemble With Distillation For Unsupervised Domain Adaptation ( http://arxiv.org/abs/2211.08106v1 ) ライセンス: Link先を確認 | Weimin Wu, Jiayuan Fan, Tao Chen, Hancheng Ye, Bo Zhang, Baopu Li | (参考訳) 線形アンサンブルに基づく戦略、すなわち平均アンサンブルは、教師なし領域適応タスクの性能を改善するために提案されている。
しかし、典型的なudaタスクは、通常、変数の天気、ビュー、ラベルなしのターゲットドメインの背景など、動的に変化する要因によって挑戦される。
以前のアンサンブル戦略のほとんどは、機能表現とパフォーマンスボトルネックに直面する、udaの動的で制御不能な課題を無視している。
モデルの拡張, ドメイン間の適応性の向上, アンサンブルモデルをデプロイする際の計算コストの削減を目的として, 異なるインスタンスに応じて複数の UDA コンポーネントモデルを適応的に融合し, これらのコンポーネントを小さなモデルに蒸留する新しいフレームワーク IMED を提案する。
imedの中核となるアイデアは動的インスタンス認識アンサンブル戦略であり、各インスタンスに対して、抽出された特徴と複数のコンポーネントモデルのラベルを融合する非線形融合サブネットワークが学習される。
非線形融合法は、アンサンブルモデルが動的に変化する因子を扱うのに役立つ。
異なる変化要因への適応性に優れた大容量アンサンブルモデルを学んだ後、アンサンブル教師モデルを用いて、知識蒸留によるコンパクトな学生モデルの学習を指導する。
さらに,UDAに対するIMEDの有効性に関する理論的解析を行った。
様々なUDAベンチマークデータセット(例えば、Office 31、Office Home、VisDA 2017)で実施された大規模な実験は、IMEDに基づくモデルと、同等の計算コストのアートメソッドの状態との優位性を示している。 The linear ensemble based strategy, i.e., averaging ensemble, has been proposed to improve the performance in unsupervised domain adaptation tasks. However, a typical UDA task is usually challenged by dynamically changing factors, such as variable weather, views, and background in the unlabeled target domain. Most previous ensemble strategies ignore UDA's dynamic and uncontrollable challenge, facing limited feature representations and performance bottlenecks. To enhance the model, adaptability between domains and reduce the computational cost when deploying the ensemble model, we propose a novel framework, namely Instance aware Model Ensemble With Distillation, IMED, which fuses multiple UDA component models adaptively according to different instances and distills these components into a small model. The core idea of IMED is a dynamic instance aware ensemble strategy, where for each instance, a nonlinear fusion subnetwork is learned that fuses the extracted features and predicted labels of multiple component models. The nonlinear fusion method can help the ensemble model handle dynamically changing factors. After learning a large capacity ensemble model with good adaptability to different changing factors, we leverage the ensemble teacher model to guide the learning of a compact student model by knowledge distillation. Furthermore, we provide the theoretical analysis of the validity of IMED for UDA. Extensive experiments conducted on various UDA benchmark datasets, e.g., Office 31, Office Home, and VisDA 2017, show the superiority of the model based on IMED to the state of the art methods under the comparable computation cost. | 翻訳日:2022-11-16 15:00:45 公開日:2022-11-15 |
# 臨床像からみた脳MRI像の解剖学的変化 Clinically Plausible Pathology-Anatomy Disentanglement in Patient Brain MRI with Structured Variational Priors ( http://arxiv.org/abs/2211.07820v1 ) ライセンス: Link先を確認 | Anjun Hu, Jean-Pierre R. Falet, Brennan S. Nichyporuk, Changjian Shui, Douglas L. Arnold, Sotirios A. Tsaftaris, Tal Arbel | (参考訳) 脳mriの被検体特異的解剖から疾患の観察可能な証拠(例えば脳病変や萎縮)を正確に抽出するための階層的構造的変分推論モデルを提案する。
柔軟性, 部分自己回帰的先行性では, 1)MRIの解剖学的および病理学的発生因子間の微妙できめ細かな依存関係に対処し, 生成標本の臨床的妥当性を保証し, (2) 患者の疾患状態に関するより詳細な病理的詳細を保存・解離する。
さらに、潜在ユニットのサブセットに監督を提供する代替のトレーニング構成を実験する。
その結果,(1)部分的に監督された潜在空間は,疾患のエビデンスと被検体特異的解剖学との間に高い不連続性が達成され,(2)事前が自己回帰構造で定式化されている場合,監督の知識は教師なしの潜在空間に伝播し,解剖病理学の相互依存性をモデル化できるより有益な潜在性表現が得られることが示された。 We propose a hierarchically structured variational inference model for accurately disentangling observable evidence of disease (e.g. brain lesions or atrophy) from subject-specific anatomy in brain MRIs. With flexible, partially autoregressive priors, our model (1) addresses the subtle and fine-grained dependencies that typically exist between anatomical and pathological generating factors of an MRI to ensure the clinical validity of generated samples; (2) preserves and disentangles finer pathological details pertaining to a patient's disease state. Additionally, we experiment with an alternative training configuration where we provide supervision to a subset of latent units. It is shown that (1) a partially supervised latent space achieves a higher degree of disentanglement between evidence of disease and subject-specific anatomy; (2) when the prior is formulated with an autoregressive structure, knowledge from the supervision can propagate to the unsupervised latent units, resulting in more informative latent representations capable of modelling anatomy-pathology interdependencies. | 翻訳日:2022-11-16 14:54:36 公開日:2022-11-15 |
# direct inversion:拡散モデルを用いた最適化フリーテキスト駆動実画像編集 Direct Inversion: Optimization-Free Text-Driven Real Image Editing with Diffusion Models ( http://arxiv.org/abs/2211.07825v1 ) ライセンス: Link先を確認 | Adham Elarabawy, Harish Kamath, Samuel Denton | (参考訳) 大規模で一般公開されたテキストから画像への拡散モデルが登場し、テキストガイド付き実画像編集は近年多くの研究の注目を集めている。
既存の手法では、入力毎の何らかの形式やタスク毎の微調整や最適化、複数の新しいビューを必要とする、あるいは本質的には実際の画像のアイデンティティ、セマンティックコヒーレンス、テキストガイダンスへの忠実さの保持を必要とする傾向がある。
本稿では,テキストプロンプトを用いて,複雑な非リギッド編集を1つの実画像に適用し,上述のすべての落とし穴を回避する最適化フリーでゼロな微調整フレームワークを提案する。
広範に訓練されたテキストから画像への拡散モデルを用いて,ポーズ,シーン,背景,スタイル,色,さらには人種的アイデンティティを,所望の編集を詳述した1つのターゲットテキストを通じて,極めて柔軟な方法で変調できることを実証する。
さらに、我々は$\textit{Direct Inversion}$と名付け、複数の直感的に設定可能なハイパーパラメータを提案し、様々な種類の画像編集を可能にする。
我々は,様々なタスクに対して様々な入力に適用することにより,高品質で多様で,セマンティックに一貫性があり,忠実な実画像編集を実現する方法の有効性を実証する。
また,本手法を確立した理論で定式化し,さらなる改良のための今後の実験を詳述し,最先端の試みと比較する。 With the rise of large, publicly-available text-to-image diffusion models, text-guided real image editing has garnered much research attention recently. Existing methods tend to either rely on some form of per-instance or per-task fine-tuning and optimization, require multiple novel views, or they inherently entangle preservation of real image identity, semantic coherence, and faithfulness to text guidance. In this paper, we propose an optimization-free and zero fine-tuning framework that applies complex and non-rigid edits to a single real image via a text prompt, avoiding all the pitfalls described above. Using widely-available generic pre-trained text-to-image diffusion models, we demonstrate the ability to modulate pose, scene, background, style, color, and even racial identity in an extremely flexible manner through a single target text detailing the desired edit. Furthermore, our method, which we name $\textit{Direct Inversion}$, proposes multiple intuitively configurable hyperparameters to allow for a wide range of types and extents of real image edits. We prove our method's efficacy in producing high-quality, diverse, semantically coherent, and faithful real image edits through applying it on a variety of inputs for a multitude of tasks. We also formalize our method in well-established theory, detail future experiments for further improvement, and compare against state-of-the-art attempts. | 翻訳日:2022-11-16 14:54:12 公開日:2022-11-15 |
# 部分正のラベルを用いたマルチラベル画像認識におけるカテゴリ適応ラベル発見とノイズ拒否 Category-Adaptive Label Discovery and Noise Rejection for Multi-label Image Recognition with Partial Positive Labels ( http://arxiv.org/abs/2211.07846v1 ) ライセンス: Link先を確認 | Tao Pu, Qianru Lao, Hefeng Wu, Tianshui Chen, Liang Lin | (参考訳) アノテーションコストを下げる有望な解決策として、部分正ラベル(MLR-PPL)を用いたマルチラベルモデルのトレーニングが注目されている。
負のラベルがないため、以前の研究は未知のラベルを負とみなし、伝統的なMLRアルゴリズムを採用した。
ノイズラベルを拒否するために、近年の研究では大きな損失サンプルをノイズとして捉えているが、マルチラベル画像間の意味相関を無視している。
本研究では,MLR-PPLタスクを容易にするために,異なる画像間の意味的相関について検討する。
具体的には,未知のラベルを検出し,各カテゴリのノイズラベルを適応的に拒否する,カテゴリ適応ラベル発見とノイズ拒否という統一フレームワークを設計した。
1) 正のサンプル間の意味的類似度を測定し、次に未知のラベルを高い類似度で補完する。2) カテゴリー適応型ノイズ拒否モジュールは、まず異なるサンプルからの意味的類似度に基づいてサンプル重みを計算し、次に低重みのノイズラベルを破棄する。
さらに,時間を要する手動チューニングプロセスを回避するために,適応的に閾値を調整する新しいカテゴリ適応型しきい値更新を提案する。
広範な実験により,提案手法が現行のリーディングアルゴリズムを一貫して上回っていることを示す。 As a promising solution of reducing annotation cost, training multi-label models with partial positive labels (MLR-PPL), in which merely few positive labels are known while other are missing, attracts increasing attention. Due to the absence of any negative labels, previous works regard unknown labels as negative and adopt traditional MLR algorithms. To reject noisy labels, recent works regard large loss samples as noise but ignore the semantic correlation different multi-label images. In this work, we propose to explore semantic correlation among different images to facilitate the MLR-PPL task. Specifically, we design a unified framework, Category-Adaptive Label Discovery and Noise Rejection, that discovers unknown labels and rejects noisy labels for each category in an adaptive manner. The framework consists of two complementary modules: (1) Category-Adaptive Label Discovery module first measures the semantic similarity between positive samples and then complement unknown labels with high similarities; (2) Category-Adaptive Noise Rejection module first computes the sample weights based on semantic similarities from different samples and then discards noisy labels with low weights. Besides, we propose a novel category-adaptive threshold updating that adaptively adjusts the threshold, to avoid the time-consuming manual tuning process. Extensive experiments demonstrate that our proposed method consistently outperforms current leading algorithms. | 翻訳日:2022-11-16 14:53:44 公開日:2022-11-15 |
# データと特徴量の局所的拡大 Local Magnification for Data and Feature Augmentation ( http://arxiv.org/abs/2211.07859v1 ) ライセンス: Link先を確認 | Kun He, Chang Liu, Stephen Lin, John E. Hopcroft | (参考訳) 近年、入力データの多様性を高め、ディープニューラルネットワークへの過剰フィットのリスクを減らすために、多くのデータ拡張技術が提案されている。
本研究では,Loma(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
画像のグローバルな変換を行う他の幾何学的データ拡張方法とは異なり、LOMAは画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
この局所拡大は、物体の認識性を維持しながら拡張範囲を大きく広げる幾何学的変化をもたらす。
さらに,lomaとランダムなクロッピングのアイデアを特徴空間に拡張し,特徴マップの強化を行い,さらに分類精度を高めた。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
さらにLOMA_IF&FOと呼ばれる機能拡張技術と組み合わせることで、モデルを強化し、データ拡張のための高度な強度変換手法より優れている。 In recent years, many data augmentation techniques have been proposed to increase the diversity of input data and reduce the risk of overfitting on deep neural networks. In this work, we propose an easy-to-implement and model-free data augmentation method called Local Magnification (LOMA). Different from other geometric data augmentation methods that perform global transformations on images, LOMA generates additional training data by randomly magnifying a local area of the image. This local magnification results in geometric changes that significantly broaden the range of augmentations while maintaining the recognizability of objects. Moreover, we extend the idea of LOMA and random cropping to the feature space to augment the feature map, which further boosts the classification accuracy considerably. Experiments show that our proposed LOMA, though straightforward, can be combined with standard data augmentation to significantly improve the performance on image classification and object detection. And further combination with our feature augmentation techniques, termed LOMA_IF&FO, can continue to strengthen the model and outperform advanced intensity transformation methods for data augmentation. | 翻訳日:2022-11-16 14:53:17 公開日:2022-11-15 |
# 非定位粗大ネットワークとデュアル・ディープ・スーパービジョンを用いた脳腫瘍系列登録 Brain Tumor Sequence Registration with Non-iterative Coarse-to-fine Networks and Dual Deep Supervision ( http://arxiv.org/abs/2211.07876v1 ) ライセンス: Link先を確認 | Mingyuan Meng, Lei Bi, Dagan Feng, and Jinman Kim | (参考訳) 本研究では,脳腫瘍シーケンス登録チャレンジ(BraTS-Reg 2022)の文脈において,脳グリオーマ患者の術前MRI像と術後MRI像の脳腫瘍シーケンス登録に焦点を当てた。
脳腫瘍の登録は、腫瘍の変化を定量化する脳画像解析の基本的な要件である。
これは、大きな変形と、術前スキャンと追跡スキャンの対応が欠けているため、難しい課題である。
本研究では,最近提案する非イテレーティブな粗粒間登録ネットワーク(nice-net)を用いて,大きな変形を伴う粗粒間登録を行うための深層学習方式を提案する。
画像の類似性に基づく深い自己監督的損失と手動による注釈付きランドマークに基づく深い弱監督的損失がNICE-Netに深く埋め込まれている。
brats-reg 2022では、検証セット(絶対誤差: 3.387)の競合結果を達成し、最終テストフェーズ(score: 0.3544)で4位となった。 In this study, we focus on brain tumor sequence registration between pre-operative and follow-up Magnetic Resonance Imaging (MRI) scans of brain glioma patients, in the context of Brain Tumor Sequence Registration challenge (BraTS-Reg 2022). Brain tumor registration is a fundamental requirement in brain image analysis for quantifying tumor changes. This is a challenging task due to large deformations and missing correspondences between pre-operative and follow-up scans. For this task, we adopt our recently proposed Non-Iterative Coarse-to-finE registration Networks (NICE-Net) - a deep learning-based method for coarse-to-fine registering images with large deformations. To overcome missing correspondences, we extend the NICE-Net by introducing dual deep supervision, where a deep self-supervised loss based on image similarity and a deep weakly-supervised loss based on manually annotated landmarks are deeply embedded into the NICE-Net. At the BraTS-Reg 2022, our method achieved a competitive result on the validation set (mean absolute error: 3.387) and placed 4th in the final testing phase (Score: 0.3544). | 翻訳日:2022-11-16 14:53:00 公開日:2022-11-15 |
# 海馬セグメンテーションのためのフィードバックチェーンネットワーク Feedback Chain Network For Hippocampus Segmentation ( http://arxiv.org/abs/2211.07891v1 ) ライセンス: Link先を確認 | Heyu Huang, Runmin Cong, Lianhe Yang, Ling Du, Cong Wang, and Sam Kwong | (参考訳) 海馬は多くの神経疾患の診断と治療において重要な役割を果たす。
近年, 深層学習技術は医用画像セグメンテーションの分野で大きな進歩を遂げており, 関連タスクの性能が常に改善されてきた。
本稿では,海馬セグメンテーションの課題に着目し,新しい階層型フィードバックチェーンネットワークを提案する。
フィードバックチェーン構造部は、階層的な特徴集約フィードバックチェーンを介して各エンコーダ層のより深い特徴表現を学習し、特徴ハンドオーバ注意モジュールを介して特徴選択及びフィードバックを達成する。
次に,特徴エンコーダとデコーダの間にグローバルなピラミッドアテンションユニットを組み込んでエンコーダの機能をさらに改良する。これには,隣接する注目インタラクションを実現するペアワイズピラミッドアテンションモジュールと,長距離知識を捉えるグローバルコンテキストモデリングモジュールが含まれる。
提案手法は,既存の海馬セグメンテーション手法と比較して,3つの公開データセットの最先端性能を実現する。 The hippocampus plays a vital role in the diagnosis and treatment of many neurological disorders. Recent years, deep learning technology has made great progress in the field of medical image segmentation, and the performance of related tasks has been constantly refreshed. In this paper, we focus on the hippocampus segmentation task and propose a novel hierarchical feedback chain network. The feedback chain structure unit learns deeper and wider feature representation of each encoder layer through the hierarchical feature aggregation feedback chains, and achieves feature selection and feedback through the feature handover attention module. Then, we embed a global pyramid attention unit between the feature encoder and the decoder to further modify the encoder features, including the pair-wise pyramid attention module for achieving adjacent attention interaction and the global context modeling module for capturing the long-range knowledge. The proposed approach achieves state-of-the-art performance on three publicly available datasets, compared with existing hippocampus segmentation approaches. | 翻訳日:2022-11-16 14:52:40 公開日:2022-11-15 |
# YORO―軽量で視覚的な接地を終わらせる YORO -- Lightweight End to End Visual Grounding ( http://arxiv.org/abs/2211.07912v1 ) ライセンス: Link先を確認 | Chih-Hui Ho, Srikar Appalaraju, Bhavan Jasani, R. Manmatha, Nuno Vasconcelos | (参考訳) 本稿では,Visual Grounding (VG) タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャ YORO を提案する。
このタスクは、画像の中で自然言語で参照されるオブジェクトをローカライズする。
精度を犠牲にしてスピードを犠牲にする多段アプローチを採用するという最近の文献の傾向とは異なり、yoroはcnnバックボーンを使わずに単段設計を採用することで精度を速めるためのトレードオフを追求している。
YOROは自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、単一のトランスフォーマーエンコーダを使用して参照オブジェクトの座標を予測する。
テキストと視覚オブジェクトのアライメントを支援するために,新しいパッチテキストアライメント損失を提案する。
大規模な実験は5つの異なるデータセットで実施され、アーキテクチャ設計の選択を省略する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
また、最も高速なVGモデルであり、文学において最高の速度/精度のトレードオフを達成する。 We present YORO - a multi-modal transformer encoder-only architecture for the Visual Grounding (VG) task. This task involves localizing, in an image, an object referred via natural language. Unlike the recent trend in the literature of using multi-stage approaches that sacrifice speed for accuracy, YORO seeks a better trade-off between speed an accuracy by embracing a single-stage design, without CNN backbone. YORO consumes natural language queries, image patches, and learnable detection tokens and predicts coordinates of the referred object, using a single transformer encoder. To assist the alignment between text and visual objects, a novel patch-text alignment loss is proposed. Extensive experiments are conducted on 5 different datasets with ablations on architecture design choices. YORO is shown to support real-time inference and outperform all approaches in this class (single-stage methods) by large margins. It is also the fastest VG model and achieves the best speed/accuracy trade-off in the literature. | 翻訳日:2022-11-16 14:52:21 公開日:2022-11-15 |
# インドの道路を横断するデータセットとモデル A Dataset and Model for Crossing Indian Roads ( http://arxiv.org/abs/2211.07916v1 ) ライセンス: Link先を確認 | Siddhi Brahmbhatt | (参考訳) 中規模のインドの町の道路は交通量が多いが、停留所はない(無視)。
視覚が重要であるため、視覚障害者が安全に道路を横断することは困難である。
自動で信頼性の高い画像ベースの安全分類器は、インド人の道路を横断するのに役立つ可能性がある。
しかし、現在私たちは、歩行者の視点からインドの道路で収集されたデータセットを欠いている。
他の国からの既存の分類器は、しばしば横断歩道を意図しているため、インドでは適用できない交通信号の検出と存在に依存している。
Indian Dataset for RoAd crossing, INDRAは, 歩行者から見たインド道路の映像を収録した最初のデータセットである。
indraには26k 1080pのフレームからなる104本のビデオがあり、それぞれにバイナリ道路横断安全ラベルと車両境界ボックスが付記されている。
このデータから,svmから畳み込みニューラルネットワーク(cnns)まで,様々な分類器を訓練して道路横断の安全性を予測した。
最高のパフォーマンスモデルであるDilatedRoadCrossNetは、Nvidia Jetson Nanoにデプロイするための新しい単一イメージアーキテクチャである。
90%の精度で79%のリコールを達成している。
最後に、視覚障害者がインドの道路をリアルタイムで横断するのに役立つ、dilatedroadcrossnetを動作させるウェアラブル道路横断アシスタントを紹介する。
プロジェクトのWebページはhttp://roadcross-assistant.github.io/Website/。 Roads in medium-sized Indian towns often have lots of traffic but no (or disregarded) traffic stops. This makes it hard for the blind to cross roads safely, because vision is crucial to determine when crossing is safe. Automatic and reliable image-based safety classifiers thus have the potential to help the blind to cross Indian roads. Yet, we currently lack datasets collected on Indian roads from the pedestrian point-of-view, labelled with road crossing safety information. Existing classifiers from other countries are often intended for crossroads, and hence rely on the detection and presence of traffic lights, which is not applicable in Indian conditions. We introduce INDRA (INdian Dataset for RoAd crossing), the first dataset capturing videos of Indian roads from the pedestrian point-of-view. INDRA contains 104 videos comprising of 26k 1080p frames, each annotated with a binary road crossing safety label and vehicle bounding boxes. We train various classifiers to predict road crossing safety on this data, ranging from SVMs to convolutional neural networks (CNNs). The best performing model DilatedRoadCrossNet is a novel single-image architecture tailored for deployment on the Nvidia Jetson Nano. It achieves 79% recall at 90% precision on unseen images. Lastly, we present a wearable road crossing assistant running DilatedRoadCrossNet, which can help the blind cross Indian roads in real-time. The project webpage is http://roadcross-assistant.github.io/Website/. | 翻訳日:2022-11-16 14:52:05 公開日:2022-11-15 |
# 表現のセグメンテーションと生成を参照するための統一的な相互監督枠組み A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation ( http://arxiv.org/abs/2211.07919v1 ) ライセンス: Link先を確認 | Shijia Huang, Feng Li, Hao Zhang, Shilong Liu, Lei Zhang, Liwei Wang | (参考訳) 参照表現セグメンテーション(RES)と参照表現生成(REG)は、相互に逆タスクであり、自然に協調的に訓練することができる。
最近の研究はそのような共同トレーニングを探求しているが、RESとREGの相互利益のメカニズムはまだ不明である。
本稿では,2つのタスクを相互に改善できる統一的な相互監視フレームワークを提案する。
我々の相互監督には2つの方向が含まれる。
一方, Disambiguation Supervision は REG の言語生成を促進するために RES が提供する表現の不明瞭さの測定を利用する。
一方、Generation Supervisionでは、REGが自動生成する式を使用してRESのトレーニングをスケールアップする。
このような統合された相互監督は、ボトルネック問題を解決することによって2つのタスクを効果的に改善する。
大規模な実験により、我々の手法はREGおよびRESタスクの既存手法を同じ条件で大幅に上回り、詳細なアブレーション研究によりフレームワーク内の全てのコンポーネントの有効性が示された。 Reference Expression Segmentation (RES) and Reference Expression Generation (REG) are mutually inverse tasks that can be naturally jointly trained. Though recent work has explored such joint training, the mechanism of how RES and REG can benefit each other is still unclear. In this paper, we propose a unified mutual supervision framework that enables two tasks to improve each other. Our mutual supervision contains two directions. On the one hand, Disambiguation Supervision leverages the expression unambiguity measurement provided by RES to enhance the language generation of REG. On the other hand, Generation Supervision uses expressions automatically generated by REG to scale up the training of RES. Such unified mutual supervision effectively improves two tasks by solving their bottleneck problems. Extensive experiments show that our approach significantly outperforms all existing methods on REG and RES tasks under the same setting, and detailed ablation studies demonstrate the effectiveness of all components in our framework. | 翻訳日:2022-11-16 14:51:42 公開日:2022-11-15 |
# MEAL:Few-Shot Promptingのための安定的でアクティブな学習 MEAL: Stable and Active Learning for Few-Shot Prompting ( http://arxiv.org/abs/2211.08358v1 ) ライセンス: Link先を確認 | Abdullatif K\"oksal, Timo Schick, Hinrich Sch\"utze | (参考訳) NLPにおけるショット分類は、プライミングとプロンプトを通じて、非常に効果的な数ショット学習者である大規模な基礎モデルが利用可能であることから、近年大きく進歩している。
しかし、このアプローチは、少数のショットの異なるセットと異なる微調整実行の間で高いばらつきがある。
例えば、RTEの検証精度は27ポイントまで変化できる。
この文脈では、より効果的な数発学習に2つの貢献をする。
まず,新しいセンシング手法を提案し,分散を実質的に低減することを示す。
第二に、パフォーマンスは選択された数ショットのセットに大きく依存するため、アクティブラーニングは数ショットの分類に有望である。
安定なアンサンブル法に基づいて,アクティブラーニングに関する既存の研究に基づいて,多様性を伴うプロンプト間不確実性サンプリングという新たな基準を導入する。
本稿では,プロンプトベース学習のトレーニング例を選択するための,最初のアクティブラーニングベースアプローチを提案する。
最後に,本手法の組み合わせであるMEAL(Multiprompt Finetuning and Prediction Ensembling with Active Learning)により,5つのタスクにおいて2.3絶対点のプロンプトベースファインタニングの全体的な性能が向上することを示す。 Few-shot classification in NLP has recently made great strides due to the availability of large foundation models that, through priming and prompting, are highly effective few-shot learners. However, this approach has high variance across different sets of few shots and across different finetuning runs. For example, we find that validation accuracy on RTE can vary by as much as 27 points. In this context, we make two contributions for more effective few-shot learning. First, we propose novel ensembling methods and show that they substantially reduce variance. Second, since performance depends a lot on the set of few shots selected, active learning is promising for few-shot classification. Based on our stable ensembling method, we build on existing work on active learning and introduce a new criterion: inter-prompt uncertainty sampling with diversity. We present the first active learning based approach to select training examples for prompt-based learning and show that it outperforms prior work on active learning. Finally, we show that our combined method, MEAL (Multiprompt finetuning and prediction Ensembling with Active Learning), improves overall performance of prompt-based finetuning by 2.3 absolute points on five different tasks. | 翻訳日:2022-11-16 14:45:42 公開日:2022-11-15 |
# 決断し易く、同意し難い: 相性メソッド間の相違を減らす Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency Methods ( http://arxiv.org/abs/2211.08369v1 ) ライセンス: Link先を確認 | Josip Juki\'c, Martin Tutek, Jan \v{S}najder | (参考訳) ニューラルNLPモデルのブラックボックスを公開するための一般的なアプローチは、各入力コンポーネントにスカラー重要度スコアを割り当てるサリエンシ手法を活用することである。
解釈可能性メソッドが \textit{faithful} と \textit{plausible} であるかどうかを評価するための一般的なプラクティスは、評価・バイ・アグリメントを使うことであった。
しかし,近年の研究では,サラエンシ法でさえランク相関が弱く,代替診断法の利用が推奨されている。
私たちの研究では、ランク相関が合意の評価に適さないことを実証し、pearson-$r$がより適した代替手段であると主張する。
注意説明の忠実性を高める正規化手法は, 給与法間の合意を増加させることを示した。
トレーニングのダイナミクスに基づく事例分類に本研究の成果を結びつけることで, 驚くほど, 学習が容易な事例は, サリエンシメソッドの説明において低い一致を示した。 A popular approach to unveiling the black box of neural NLP models is to leverage saliency methods, which assign scalar importance scores to each input component. A common practice for evaluating whether an interpretability method is \textit{faithful} and \textit{plausible} has been to use evaluation-by-agreement -- multiple methods agreeing on an explanation increases its credibility. However, recent work has found that even saliency methods have weak rank correlations and advocated for the use of alternative diagnostic methods. In our work, we demonstrate that rank correlation is not a good fit for evaluating agreement and argue that Pearson-$r$ is a better suited alternative. We show that regularization techniques that increase faithfulness of attention explanations also increase agreement between saliency methods. Through connecting our findings to instance categories based on training dynamics we show that, surprisingly, easy-to-learn instances exhibit low agreement in saliency method explanations. | 翻訳日:2022-11-16 14:45:19 公開日:2022-11-15 |
# 接地言語学習における実践論--現象、タスク、モデリングアプローチ Pragmatics in Grounded Language Learning: Phenomena, Tasks, and Modeling Approaches ( http://arxiv.org/abs/2211.08371v1 ) ライセンス: Link先を確認 | Daniel Fried, Nicholas Tomlin, Jennifer Hu, Roma Patel, Aida Nematzadeh | (参考訳) 人々は文字通りの言葉を超えて意味を豊かにするためにコンテキストに大きく依存し、簡潔だが効果的なコミュニケーションを可能にします。
人々とうまく、そして自然に対話するためには、ユーザインタフェースの人工知能システムは、さまざまな種類のコンテキスト(共通言語目標や慣習、視覚的および具体的世界など)に依存して、言語を効果的に活用する、という、実用的なスキルを必要とします。
既存の接地設定と実用的モデリングのアプローチを調査し,各作業における課題目標,環境文脈,コミュニケーション的余裕が言語的意味をいかに高めているかを分析した。
本稿では,自然に現実的な現象を誘発するタスクデザインを推奨し,より広い範囲のコミュニケーション状況と余裕に焦点を当てた方向性を提案する。 People rely heavily on context to enrich meaning beyond what is literally said, enabling concise but effective communication. To interact successfully and naturally with people, user-facing artificial intelligence systems will require similar skills in pragmatics: relying on various types of context -- from shared linguistic goals and conventions, to the visual and embodied world -- to use language effectively. We survey existing grounded settings and pragmatic modeling approaches and analyze how the task goals, environmental contexts, and communicative affordances in each work enrich linguistic meaning. We present recommendations for future grounded task design to naturally elicit pragmatic phenomena, and suggest directions that focus on a broader range of communicative contexts and affordances. | 翻訳日:2022-11-16 14:44:59 公開日:2022-11-15 |
# AutoTemplate: 語彙的に制約のあるテキスト生成のためのシンプルなレシピ AutoTemplate: A Simple Recipe for Lexically Constrained Text Generation ( http://arxiv.org/abs/2211.08387v1 ) ライセンス: Link先を確認 | Hayate Iso | (参考訳) 語彙制約付きテキスト生成は制約付きテキスト生成タスクの1つであり、与えられた制約レキシコンをすべてカバーするテキストを生成することを目的としている。
既存の手法では、非自己回帰復号を用いた語彙制約付きビーム探索アルゴリズムや専用モデルを用いてこの問題に取り組むが、生成したテキスト品質と制約満足度との間にはトレードオフがある。
テンプレート生成と語彙化タスクに分割した,シンプルで効果的な語彙制約付きテキスト生成フレームワークであるAutoTemplateを紹介する。
テンプレート生成は、プレースホルダーでテキストを生成することであり、語彙化はそれらを制約レキシコンに置き換えて語彙制約付きテキスト生成を行う。
提案手法では,キーワード生成とエンティティ誘導要約の2つのタスクについて実験を行った。
実験結果から,AutoTemplateは両タスクの競合ベースラインより優れ,難解な語彙制約を満たすことがわかった。 Lexically constrained text generation is one of the constrained text generation tasks, which aims to generate text that covers all the given constraint lexicons. While the existing approaches tackle this problem using a lexically constrained beam search algorithm or dedicated model using non-autoregressive decoding, there is a trade-off between the generated text quality and the hard constraint satisfaction. We introduce AutoTemplate, a simple yet effective lexically constrained text generation framework divided into template generation and lexicalization tasks. The template generation is to generate the text with the placeholders, and lexicalization replaces them into the constraint lexicons to perform lexically constrained text generation. We conducted the experiments on two tasks: keywords-to-sentence generations and entity-guided summarization. Experimental results show that the AutoTemplate outperforms the competitive baselines on both tasks while satisfying the hard lexical constraints. | 翻訳日:2022-11-16 14:44:43 公開日:2022-11-15 |
# 要約による大規模言語モデルの事実整合性の評価 Evaluating the Factual Consistency of Large Language Models Through Summarization ( http://arxiv.org/abs/2211.08412v1 ) ライセンス: Link先を確認 | Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal, Colin Raffel | (参考訳) 大規模言語モデル (LLM) は様々なタスクに有効であることが証明されているが、情報の幻覚としても知られている。
LLMが実際に一貫した入力継続を好むかどうかを測定するために,要約の課題に焦点を当てたFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
具体的には、LLMが割り当てるスコアを事実整合性に比較し、入力ニュース記事の事実整合性に欠ける要約と比較する。
現実的に一貫した要約では、手動で事実的に一貫した検証を行う人間による参照要約を用いる。
現実的に矛盾しない要約を生成するために,手動で注釈付けした一連の要約モデルから要約を生成する。
モデルの事実整合性は、その正確さ、すなわち、事実に一貫性のある要約により高いスコアを割り当てる文書の割合に応じて測定される。
FIBの有用性を検証するため,BLOOM や OPT を含む6種類のモデルファミリから 1B から 176B までの大言語モデルを評価した。
既存のLCMは、現実的に一貫性のない要約よりも、現実的に一貫性のない要約に高いスコアを割り当てている。
しかし、事実的に一貫性のない要約が文書の中で冗長な場合、LCMは事実的に一貫性のない要約よりも高いスコアをこれらの事実的に一貫性のない要約に割り当てる。
我々は,スコアリング方法と邪魔者サマリーのソースを含むベンチマークで設計選択を検証する。
コードとベンチマークデータはhttps://github.com/r-three/fib.com/で確認できます。 While large language models (LLMs) have proven to be effective on a large variety of tasks, they are also known to hallucinate information. To measure whether an LLM prefers factually consistent continuations of its input, we propose a new benchmark called FIB(Factual Inconsistency Benchmark) that focuses on the task of summarization. Specifically, our benchmark involves comparing the scores an LLM assigns to a factually consistent versus a factually inconsistent summary for an input news article. For factually consistent summaries, we use human-written reference summaries that we manually verify as factually consistent. To generate summaries that are factually inconsistent, we generate summaries from a suite of summarization models that we have manually annotated as factually inconsistent. A model's factual consistency is then measured according to its accuracy, i.e.\ the proportion of documents where it assigns a higher score to the factually consistent summary. To validate the usefulness of FIB, we evaluate 23 large language models ranging from 1B to 176B parameters from six different model families including BLOOM and OPT. We find that existing LLMs generally assign a higher score to factually consistent summaries than to factually inconsistent summaries. However, if the factually inconsistent summaries occur verbatim in the document, then LLMs assign a higher score to these factually inconsistent summaries than factually consistent summaries. We validate design choices in our benchmark including the scoring method and source of distractor summaries. Our code and benchmark data can be found at https://github.com/r-three/fib. | 翻訳日:2022-11-16 14:44:28 公開日:2022-11-15 |
# 重力パターンマイニングのためのメタヒューリスティックアプローチ A Metaheuristic Approach for Mining Gradual Patterns ( http://arxiv.org/abs/2211.07940v1 ) ライセンス: Link先を確認 | Dickson Odhiambo Owuor, Thomas Runkler, Anne Laurent | (参考訳) スウォーム・インテリジェンス(英: Swarm Intelligence)とは、集団同士の局所的な相互作用と環境によって生み出される集団行動を研究する分野である。
コンピュータサイエンスの領域では、探索空間内で最適な解を効率的に探そうとする最適化問題に多くの群知能技術が適用されている。
段階的パターンマイニング(gradual pattern mining)は、巨大な検索空間から段階的パターンを見つけるタスクにおいて、swarmベースの最適化技術の有効性を享受するコンピュータサイエンス分野である。
段階的パターンは、データセットの属性間の段階的関係を記述する規則に基づく相関である。
例えば、データセットの与えられた属性 {G, H} は段階的パターンであり、「G が小さくなればなるほど H が大きくなる」という形式をとることができる。
本稿では,効率的な探索空間を定義するために,段階的パターン候補に対する数値符号化を提案する。
さらに,探索空間を用いた段階的パターン探索問題に対する効率的な解法として,メタヒューリスティック最適化手法の体系的研究を行った。 Swarm intelligence is a discipline that studies the collective behavior that is produced by local interactions of a group of individuals with each other and with their environment. In Computer Science domain, numerous swarm intelligence techniques are applied to optimization problems that seek to efficiently find best solutions within a search space. Gradual pattern mining is another Computer Science field that could benefit from the efficiency of swarm based optimization techniques in the task of finding gradual patterns from a huge search space. A gradual pattern is a rule-based correlation that describes the gradual relationship among the attributes of a data set. For example, given attributes {G,H} of a data set a gradual pattern may take the form: "the less G, the more H". In this paper, we propose a numeric encoding for gradual pattern candidates that we use to define an effective search space. In addition, we present a systematic study of several meta-heuristic optimization techniques as efficient solutions to the problem of finding gradual patterns using our search space. | 翻訳日:2022-11-16 14:44:04 公開日:2022-11-15 |
# 正規化スタイン変分勾配流 Regularized Stein Variational Gradient Flow ( http://arxiv.org/abs/2211.07861v1 ) ライセンス: Link先を確認 | Ye He, Krishnakumar Balasubramanian, Bharath K. Sriperumbudur, Jianfeng Lu | (参考訳) Stein Variational Gradient Descent (SVGD)アルゴリズムは、サンプリングのための決定論的粒子法である。
しかし、平均場解析により、svgdアルゴリズムに対応する勾配流(すなわち、スタイン変分勾配流)は、kl-divergence最小化に対応するワッサーシュタイン勾配流の定数次近似のみをもたらすことが分かる。
本研究では,スタイン変分勾配流とワッサースタイン勾配流の間を補間する正則化シュタイン変分勾配流を提案する。
我々は、平衡への収束、弱解の存在と一意性、解の安定性を含む正規化スタイン変分勾配流(およびその時間分散)の様々な理論的性質を確立する。
正規化による性能向上の予備的な数値的証拠を提供する。 The Stein Variational Gradient Descent (SVGD) algorithm is an deterministic particle method for sampling. However, a mean-field analysis reveals that the gradient flow corresponding to the SVGD algorithm (i.e., the Stein Variational Gradient Flow) only provides a constant-order approximation to the Wasserstein Gradient Flow corresponding to the KL-divergence minimization. In this work, we propose the Regularized Stein Variational Gradient Flow which interpolates between the Stein Variational Gradient Flow and the Wasserstein Gradient Flow. We establish various theoretical properties of the Regularized Stein Variational Gradient Flow (and its time-discretization) including convergence to equilibrium, existence and uniqueness of weak solutions, and stability of the solutions. We provide preliminary numerical evidence of the improved performance offered by the regularization. | 翻訳日:2022-11-16 14:43:46 公開日:2022-11-15 |
# ParsBERTと不均衡データ処理手法を用いたペルシャ感情検出 Persian Emotion Detection using ParsBERT and Imbalanced Data Handling Approaches ( http://arxiv.org/abs/2211.08029v1 ) ライセンス: Link先を確認 | Amirhossein Abaskohi, Nazanin Sabri, Behnam Bahrak | (参考訳) 感情認識は、ソーシャルメディア空間から収集したテキスト、音声、画像データを使って行うことができる機械学習アプリケーションの1つである。
感情を検出することは、意見マイニングなど、さまざまな分野で役立ちます。
ソーシャルメディアの普及に伴い、Twitterのようなさまざまなプラットフォームがデータソースとなり、これらのプラットフォームで使用される言語は非公式であり、感情検出作業が困難になっている。
EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。
これらのデータセット、特にエモパルは、2つのクラス間のいくつかのサンプル間の不平等に苦しんでいる。
本稿では,EmoParsを評価し,ArmanEmoと比較する。
この分析を通じて,データ拡張法,データ再サンプリング法,クラス重み付け法,トランスフォーマティブ型事前学習言語モデル(plms)を用いて,これらのデータセットの不均衡問題に対処する。
また、テキストの特徴を強調することで、モデルの性能を高めるために特徴選択が用いられる。
さらに,高信頼度サンプルを選択するEmoParsからデータを選択するための新しいポリシーを提供する。その結果,トレーニング中に特定の感情を持たないサンプルは見つからない。
このモデルでは,armanemo と emopars では,マクロ平均 f1-score が 0.81 と 0.76 に到達した。 Emotion recognition is one of the machine learning applications which can be done using text, speech, or image data gathered from social media spaces. Detecting emotion can help us in different fields, including opinion mining. With the spread of social media, different platforms like Twitter have become data sources, and the language used in these platforms is informal, making the emotion detection task difficult. EmoPars and ArmanEmo are two new human-labeled emotion datasets for the Persian language. These datasets, especially EmoPars, are suffering from inequality between several samples between two classes. In this paper, we evaluate EmoPars and compare them with ArmanEmo. Throughout this analysis, we use data augmentation techniques, data re-sampling, and class-weights with Transformer-based Pretrained Language Models(PLMs) to handle the imbalance problem of these datasets. Moreover, feature selection is used to enhance the models' performance by emphasizing the text's specific features. In addition, we provide a new policy for selecting data from EmoPars, which selects the high-confidence samples; as a result, the model does not see samples that do not have specific emotion during training. Our model reaches a Macro-averaged F1-score of 0.81 and 0.76 on ArmanEmo and EmoPars, respectively, which are new state-of-the-art results in these benchmarks. | 翻訳日:2022-11-16 14:37:17 公開日:2022-11-15 |
# ゼロショット一般化のための普遍判別器 A Universal Discriminator for Zero-Shot Generalization ( http://arxiv.org/abs/2211.08099v1 ) ライセンス: Link先を確認 | Haike Xu, Zongyu Lin, Jing Zhou, Yanan Zheng, Zhilin Yang | (参考訳) 生成モデリングは、大規模事前学習とゼロショット一般化の主要なアプローチである。
本稿では,多数のnlpタスクにおいて,判別的アプローチが生成的アプローチよりもかなり優れていることを示すことにより,この慣例に挑戦する。
技術的には、テキストサンプルが真のデータ分布から来ているかどうかを予測するために、単一の識別器を訓練する。
多くのNLPタスクは、いくつかのオプションから選択できるので、この判別器を用いて、最も高い確率でオプションを予測する。
この単純な定式化は、T0ベンチマークで最先端のゼロショット結果を達成し、それぞれ異なるスケールでT0を16.0\%、7.8\%、11.5\%で上回る。
また,本手法では,従来手法では1/4のパラメータしか持たなかった幅広いNLPタスクに対して,最新の結果が得られる。
一方、当社のアプローチでは、ロバスト性を大幅に改善し、現実世界のアプリケーションに不可欠な、最小限のプロンプト努力が必要です。
さらに, 汎用UDと生成タスクを併用して, 識別タスクの優位性を維持し, 生成タスクを同時に行うように訓練する。 Generative modeling has been the dominant approach for large-scale pretraining and zero-shot generalization. In this work, we challenge this convention by showing that discriminative approaches perform substantially better than generative ones on a large number of NLP tasks. Technically, we train a single discriminator to predict whether a text sample comes from the true data distribution, similar to GANs. Since many NLP tasks can be formulated as selecting from a few options, we use this discriminator to predict the option with the highest probability. This simple formulation achieves state-of-the-art zero-shot results on the T0 benchmark, outperforming T0 by 16.0\%, 7.8\%, and 11.5\% respectively on different scales. In the finetuning setting, our approach also achieves new state-of-the-art results on a wide range of NLP tasks, with only 1/4 parameters of previous methods. Meanwhile, our approach requires minimal prompting efforts, which largely improves robustness and is essential for real-world applications. Furthermore, we also jointly train a generalized UD in combination with generative tasks, which maintains its advantage on discriminative tasks and simultaneously works on generative tasks. | 翻訳日:2022-11-16 14:36:56 公開日:2022-11-15 |
# DualNER: ゼロショット言語間の名前付きエンティティ認識のためのデュアルティーチングフレームワーク DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2211.08104v1 ) ライセンス: Link先を確認 | Jiali Zeng, Yufan Jiang, Yongjing Yin, Xu Wang, Binghuai Lin, Yunbo Cao | (参考訳) 本稿では,ゼロショットクロスリンガル・エンティティ認識(ner)のための注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するための,単純かつ効果的なフレームワークであるdualnerを提案する。
特に,nerの2つの相補的な学習パラダイム,すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合した。
ソースデータに基づいて訓練された十分なNERモデルを得た後、他のタスクの予測から1つのタスクの擬似ラベルが構築されるように、ターゲットデータに対してさらに訓練を行う。
さらに、スパン予測に基づいて、異なる言語における同一エンティティ間の固有の言語間アライメントを強化するために、エンティティ認識の正規化を提案する。
実験と分析によりDualNERの有効性が示された。
コードはhttps://github.com/lemon0830/dualNERで入手できる。 We present DualNER, a simple and effective framework to make full use of both annotated source language corpus and unlabeled target language text for zero-shot cross-lingual named entity recognition (NER). In particular, we combine two complementary learning paradigms of NER, i.e., sequence labeling and span prediction, into a unified multi-task framework. After obtaining a sufficient NER model trained on the source data, we further train it on the target data in a {\it dual-teaching} manner, in which the pseudo-labels for one task are constructed from the prediction of the other task. Moreover, based on the span prediction, an entity-aware regularization is proposed to enhance the intrinsic cross-lingual alignment between the same entities in different languages. Experiments and analysis demonstrate the effectiveness of our DualNER. Code is available at https://github.com/lemon0830/dualNER. | 翻訳日:2022-11-16 14:36:36 公開日:2022-11-15 |
# 法的テキスト分類のための効率的な能動学習パイプライン An Efficient Active Learning Pipeline for Legal Text Classification ( http://arxiv.org/abs/2211.08112v1 ) ライセンス: Link先を確認 | Sepideh Mamooler and R\'emi Lebret and St\'ephane Massonnet and Karl Aberer | (参考訳) アクティブラーニング(al)は、ラベル付きデータが少なく、特に、ラベル付きデータが多い法律文書のような専門分野について学ぶための強力なツールであるが、アノテーションにはドメインの専門知識が必要であり、そのため費用がかかる。
最近の研究は、事前訓練された言語モデルに対するAL戦略の有効性を示している。
しかし、ほとんどのal戦略では、まずラベル付きサンプルのセットが必要であり、取得にはコストがかかる。
さらに、訓練済みの言語モデルは、小さなデータセットで微調整中に不安定であることが示されており、それらの埋め込みは意味的に意味がない。
本研究では,法律領域における事前学習言語モデルを用いたアクティブラーニングを効果的に活用するためのパイプラインを提案する。
この目的のために、利用可能なラベルなしデータを3つのフェーズで活用する。
まず、下流のタスクに適応するためにモデルを事前訓練し続けます。
第2に,モデルの埋め込みを意味的に意味のある空間に導くために,知識蒸留を用いる。
最後に,既存の手法に比べて少ない動作でラベル付きサンプルの初期セットを見つけるための,単純かつ効果的な戦略を提案する。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により、我々のアプローチは標準AL戦略よりも優れ、より効率的であることが示された。
さらに、パイプラインは、パフォーマンスのギャップが小さく、アノテーションコストが劇的に削減された完全に教師されたアプローチに匹敵する結果に達した。
コードと適合したデータは利用可能になる。 Active Learning (AL) is a powerful tool for learning with less labeled data, in particular, for specialized domains, like legal documents, where unlabeled data is abundant, but the annotation requires domain expertise and is thus expensive. Recent works have shown the effectiveness of AL strategies for pre-trained language models. However, most AL strategies require a set of labeled samples to start with, which is expensive to acquire. In addition, pre-trained language models have been shown unstable during fine-tuning with small datasets, and their embeddings are not semantically meaningful. In this work, we propose a pipeline for effectively using active learning with pre-trained language models in the legal domain. To this end, we leverage the available unlabeled data in three phases. First, we continue pre-training the model to adapt it to the downstream task. Second, we use knowledge distillation to guide the model's embeddings to a semantically meaningful space. Finally, we propose a simple, yet effective, strategy to find the initial set of labeled samples with fewer actions compared to existing methods. Our experiments on Contract-NLI, adapted to the classification task, and LEDGAR benchmarks show that our approach outperforms standard AL strategies, and is more efficient. Furthermore, our pipeline reaches comparable results to the fully-supervised approach with a small performance gap, and dramatically reduced annotation cost. Code and the adapted data will be made available. | 翻訳日:2022-11-16 14:36:19 公開日:2022-11-15 |
# csyngec:gec指向パーサを用いた文法的誤り訂正のための構成的構文の統合 CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error Correction with a Tailored GEC-Oriented Parser ( http://arxiv.org/abs/2211.08158v1 ) ライセンス: Link先を確認 | Yue Zhang, Zhenghua Li | (参考訳) Zhang et al. (2022) はSynGEC (SynGEC) という構文対応の文法的誤り訂正手法を提案し、入力文の従属型構文を組み込むことは GEC にとって極めて有益であることを示した。
この研究は、他の主流構文形式、すなわち構成に基づく構文を考える。
まず,SynGECの経験を生かして,非文法文の誤りに対処する拡張構成型構文スキームを提案する。
そして、並列GCCデータをピボットとして使用することにより、非文法文の選挙区木を自動的に取得し、ECC指向の選挙区パーサを訓練する。
構文符号化には、グラフ畳み込みネットワーク(GCN)を用いる。
実験の結果, CSynGECと命名された手法は, 強いベースラインよりも大幅に改善されていることがわかった。
さらに,gecにおける構成型構文と依存型構文の統合について,1) モデル内組合せ,2) モデル内結合,2) モデル内結合,2) モデル間結合,2) モデル間で予測された編集の収集と選択,そして最終的な修正を実現する。
前者は1つのスタンドアロン構文形式の使用よりもリコールが改善され,後者は精度が向上し,どちらもf0.5値が向上した。 Recently, Zhang et al. (2022) propose a syntax-aware grammatical error correction (GEC) approach, named SynGEC, showing that incorporating tailored dependency-based syntax of the input sentence is quite beneficial to GEC. This work considers another mainstream syntax formalism, i.e., constituent-based syntax. By drawing on the successful experience of SynGEC, we first propose an extended constituent-based syntax scheme to accommodate errors in ungrammatical sentences. Then, we automatically obtain constituency trees of ungrammatical sentences to train a GEC-oriented constituency parser by using parallel GEC data as a pivot. For syntax encoding, we employ the graph convolutional network (GCN). Experimental results show that our method, named CSynGEC, yields substantial improvements over strong baselines. Moreover, we investigate the integration of constituent-based and dependency-based syntax for GEC in two ways: 1) intra-model combination, which means using separate GCNs to encode both kinds of syntax for decoding in a single model; 2)inter-model combination, which means gathering and selecting edits predicted by different models to achieve final corrections. We find that the former method improves recall over using one standalone syntax formalism while the latter improves precision, and both lead to better F0.5 values. | 翻訳日:2022-11-16 14:35:55 公開日:2022-11-15 |
# 電力系統におけるマルチチャネルgnnによるイベント検出を利用したタイプ情報 Type Information Utilized Event Detection via Multi-Channel GNNs in Electrical Power Systems ( http://arxiv.org/abs/2211.08168v1 ) ライセンス: Link先を確認 | Qian Li, Jianxin Li, Lihong Wang, Cheng Ji, Yiming Hei, Jiawei Sheng, Qingyun Sun, Shan Xue, Pengtao Xie | (参考訳) 電力系統におけるイベント検出は、事故に迅速に対応し、電源戦略の最適化を容易にするトリガーとイベントタイプを特定することを目的としている。
しかし、短い電子記録テキストの長さが限られると、深刻な情報空間が生じるため、汎用ドメインテキストで事前訓練された言語モデルから知識を伝達することは困難である。
従来のイベント検出アプローチは、主に汎用ドメインに注目し、電力系統領域におけるこれらの2つの問題を無視する。
上記の問題に対処するために,MC-TEDと呼ばれる電力系統におけるイベント検出のためのタイプ情報を利用したマルチチャネルグラフニューラルネットワークを提案する。
具体的には、セマンティックチャネルは意味的類似性でテキスト表現を洗練し、潜在的事象関連語間のセマンティック情報相互作用を構築する。
トポロジ的チャネルは、単語依存をモデル化する関係型対応グラフと、パート・オブ・音声タグを統合する単語型対応グラフを生成する。
型解析における専門用語による誤りをさらに軽減するため、トポロジカルチャネルにおける単語型と関係型の両方の表現を更新するための型学習機構が設計されている。
このようにして、トポロジカル情報とセマンティック情報との相互作用を可能にすることにより、情報空間と専門用語の発生問題を緩和することができる。
さらに,電力システムにおけるラベル付きデータの欠如に対処するために,電力イベントテキストに基づく中国のイベント検出データセットpoeを構築した。
実験では, PoE データセットだけでなく,ACE 2005 や MAVEN などの汎用イベント検出データセットにも有意な結果が得られた。 Event detection in power systems aims to identify triggers and event types, which helps relevant personnel respond to emergencies promptly and facilitates the optimization of power supply strategies. However, the limited length of short electrical record texts causes severe information sparsity, and numerous domain-specific terminologies of power systems makes it difficult to transfer knowledge from language models pre-trained on general-domain texts. Traditional event detection approaches primarily focus on the general domain and ignore these two problems in the power system domain. To address the above issues, we propose a Multi-Channel graph neural network utilizing Type information for Event Detection in power systems, named MC-TED, leveraging a semantic channel and a topological channel to enrich information interaction from short texts. Concretely, the semantic channel refines textual representations with semantic similarity, building the semantic information interaction among potential event-related words. The topological channel generates a relation-type-aware graph modeling word dependencies, and a word-type-aware graph integrating part-of-speech tags. To further reduce errors worsened by professional terminologies in type analysis, a type learning mechanism is designed for updating the representations of both the word type and relation type in the topological channel. In this way, the information sparsity and professional term occurrence problems can be alleviated by enabling interaction between topological and semantic information. Furthermore, to address the lack of labeled data in power systems, we built a Chinese event detection dataset based on electrical Power Event texts, named PoE. In experiments, our model achieves compelling results not only on the PoE dataset, but on general-domain event detection datasets including ACE 2005 and MAVEN. | 翻訳日:2022-11-16 14:35:32 公開日:2022-11-15 |
# 類似度を考慮した単語埋め込みの頻度依存性 The Dependence on Frequency of Word Embedding Similarity Measures ( http://arxiv.org/abs/2211.08203v1 ) ライセンス: Link先を確認 | Francisco Valentini, Diego Fernandez Slezak, Edgar Altszyler | (参考訳) 近年の研究では、静的な単語埋め込みが単語の頻度情報をエンコードできることが示されている。
しかし、この現象とその下流タスクへの影響についてはほとんど研究されていない。
本研究では,いくつかの静的単語埋め込みにおける頻度と意味的類似性の関係を体系的に研究する。
スキップグラムやグローブ、ファストテキスト埋め込みは、他の周波数の組み合わせよりも高周波の単語間の意味的類似性が高い傾向がある。
単語がランダムにシャッフルされると、周波数と類似度の関係も現れる。
これは、見つかったパターンがテキストに存在する実際の意味関係によるものではなく、単語埋め込みによって生成された人工物であることを示している。
最後に、単語の頻度が、埋め込みベースのメトリクスによる性別バイアスの測定にどのように影響するかを示す。
特に, 単語の周波数を操作することで, バイアスが符号を変えたり, 順序を変えたりできることを示す制御実験を行った。 Recent research has shown that static word embeddings can encode word frequency information. However, little has been studied about this phenomenon and its effects on downstream tasks. In the present work, we systematically study the association between frequency and semantic similarity in several static word embeddings. We find that Skip-gram, GloVe and FastText embeddings tend to produce higher semantic similarity between high-frequency words than between other frequency combinations. We show that the association between frequency and similarity also appears when words are randomly shuffled. This proves that the patterns found are not due to real semantic associations present in the texts, but are an artifact produced by the word embeddings. Finally, we provide an example of how word frequency can strongly impact the measurement of gender bias with embedding-based metrics. In particular, we carry out a controlled experiment that shows that biases can even change sign or reverse their order by manipulating word frequencies. | 翻訳日:2022-11-16 14:35:03 公開日:2022-11-15 |
# time to use what: ダウンストリームアプリケーションのためのopenieシステムの詳細な比較経験的分析 When to Use What: An In-Depth Comparative Empirical Analysis of OpenIE Systems for Downstream Applications ( http://arxiv.org/abs/2211.08228v1 ) ライセンス: Link先を確認 | Kevin Pei (Grainger College of Engineering, University of Illinois at Urbana-Champaign), Ishan Jindal (IBM Research), Kevin Chen-Chuan Chang (Grainger College of Engineering, University of Illinois at Urbana-Champaign), Chengxiang Zhai (Grainger College of Engineering, University of Illinois at Urbana-Champaign), Yunyao Li (Apple Knowledge Platform) | (参考訳) Open Information extract (OpenIE) は様々なNLPタスクのパイプラインで使われている。
残念ながら、どのタスクでどのモデルを使うべきかについては明確な合意がない。
さらに重要なのは、異なるトレーニングセットを考慮に入れた比較の欠如です。
本稿では,ニューラルネットワークのopenieモデル,トレーニングセット,ベンチマークについて,アプリケーションに焦点を当てた経験的調査を行い,アプリケーションに適したopenieシステムを選択するための支援を行う。
異なるモデルとデータセットによってなされる異なる仮定が、パフォーマンスに統計的に有意な影響を及ぼすことに気付き、アプリケーションに最適なモデルを選択することが重要である。
下流の複雑なqaアプリケーションにおける推奨事項の適用性を示す。 Open Information Extraction (OpenIE) has been used in the pipelines of various NLP tasks. Unfortunately, there is no clear consensus on which models to use in which tasks. Muddying things further is the lack of comparisons that take differing training sets into account. In this paper, we present an application-focused empirical survey of neural OpenIE models, training sets, and benchmarks in an effort to help users choose the most suitable OpenIE systems for their applications. We find that the different assumptions made by different models and datasets have a statistically significant effect on performance, making it important to choose the most appropriate model for one's applications. We demonstrate the applicability of our recommendations on a downstream Complex QA application. | 翻訳日:2022-11-16 14:34:49 公開日:2022-11-15 |
# QAmeleon: たった5つの例による多言語QA QAmeleon: Multilingual QA with Only 5 Examples ( http://arxiv.org/abs/2211.08264v1 ) ライセンス: Link先を確認 | Priyanka Agrawal, Chris Alberti, Fantine Huot, Joshua Maynez, Ji Ma, Sebastian Ruder, Kuzman Ganchev, Dipanjan Das, Mirella Lapata | (参考訳) 大規模で高品質なデータセットの可用性は、質問応答(QA)の最近の進歩の主要な要因のひとつだ。
しかし、このような注釈付きデータセットは収集が困難でコストがかかり、英語以外の言語にはほとんど存在しない。
大きなモノリンガルトレーニングデータセット構築の代替として、数ショットの学習環境下で事前訓練された言語モデル(PLM)を活用する方法がある。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルがトレーニングされたマルチ言語データを自動的に生成する。
翻訳ベースのベースラインよりも精度が向上し、英語のみのベースラインと、約50,000のラベル付きサンプルでトレーニングされた上界とのギャップの60%近くを橋渡しし、リソース設定でラベル付きサンプルに直接qaモデルを微調整するよりも、常に大幅に改善される。
TyDiQA-GoldPとMLQAベンチマークの実験では、言語間でのデータ合成スケールのプロンプトチューニングがほとんどなく、大規模なアノテーションの代替となることが示されている。 The availability of large, high-quality datasets has been one of the main drivers of recent progress in question answering (QA). Such annotated datasets however are difficult and costly to collect, and rarely exist in languages other than English, rendering QA technology inaccessible to underrepresented languages. An alternative to building large monolingual training datasets is to leverage pre-trained language models (PLMs) under a few-shot learning setting. Our approach, QAmeleon, uses a PLM to automatically generate multilingual data upon which QA models are trained, thus avoiding costly annotation. Prompt tuning the PLM for data synthesis with only five examples per language delivers accuracy superior to translation-based baselines, bridges nearly 60% of the gap between an English-only baseline and a fully supervised upper bound trained on almost 50,000 hand labeled examples, and always leads to substantial improvements compared to fine-tuning a QA model directly on labeled examples in low resource settings. Experiments on the TyDiQA-GoldP and MLQA benchmarks show that few-shot prompt tuning for data synthesis scales across languages and is a viable alternative to large-scale annotation. | 翻訳日:2022-11-16 14:34:39 公開日:2022-11-15 |
# FolkScope:Eコマースのコモンセンスを発見するための意図的知識グラフ構築 FolkScope: Intention Knowledge Graph Construction for Discovering E-commerce Commonsense ( http://arxiv.org/abs/2211.08316v1 ) ライセンス: Link先を確認 | Changlong Yu, Weiqi Wang, Xin Liu, Jiaxin Bai, Yangqiu Song, Zheng Li, Yifan Gao, Tianyu Cao, and Bing Yin | (参考訳) Oren Etzioni が言うように, 'コモンセンスは人工知能のダークマター' である。
eコマースでは、ユーザのニーズや意図を理解するには、‘ユーザがiphoneを購入して、ユーザが保護されたいから互換ケースを買った’というような、相当な常識的な知識が必要です。
本稿では,意図的な知識グラフ構築フレームワークであるFolkScopeを紹介し,Amazonなどのeコマースプラットフォーム上での商品購入に関する人間の心の構造を明らかにする。
常識知識は一般に有効ではなく、明示的に表現されていないため、あらゆる種類の情報抽出を行うことは困難である。
そこで本稿では,大規模言語モデルとHuman-in-the-loopアノテーションの生成能力を利用して知識グラフを半自動構築する手法を提案する。
例えば、isa、madeof、usingforなど、conceptnetと整合する18のカテゴリのうちの1つに、意図が開放的な理由または述語が落ち込む可能性がある、購入または共同購入行動を説明する意図の信頼性と典型性の両方について、大量のアサーションを付記する。
そして、アノテートされた情報を全て自動生成したものに配置し、さらにパターンマイニングと概念化を用いてアサーションを構造化し、より凝縮的で抽象的な知識を形成する。
我々は,本質的品質尺度と下流アプリケーション,すなわちレコメンデーションを用いて知識グラフを評価する。
この総合的研究は、私たちの知識グラフが電子商取引コモンセンスの知識をうまくモデル化でき、多くの潜在的な応用ができることを示している。 As stated by Oren Etzioni, ``commonsense is the dark matter of artificial intelligence''. In e-commerce, understanding users' needs or intentions requires substantial commonsense knowledge, e.g., ``A user bought an iPhone and a compatible case because the user wanted the phone to be protected''. In this paper, we present FolkScope, an intention knowledge graph construction framework, to reveal the structure of humans' minds about purchasing items on e-commerce platforms such as Amazon. As commonsense knowledge is usually ineffable and not expressed explicitly, it is challenging to perform any kind of information extraction. Thus, we propose a new approach that leverages the generation power of large-scale language models and human-in-the-loop annotations to semi-automatically construct the knowledge graph. We annotate a large amount of assertions for both plausibility and typicality of an intention that can explain a purchasing or co-purchasing behavior, where the intention can be an open reason or a predicate falling into one of 18 categories aligning with ConceptNet, e.g., IsA, MadeOf, UsedFor, etc. Then we populate the annotated information to all automatically generated ones, and further structurize the assertions using pattern mining and conceptualization to form more condensed and abstractive knowledge. We evaluate our knowledge graph using both intrinsic quality measures and a downstream application, i.e., recommendation. The comprehensive study shows that our knowledge graph can well model e-commerce commonsense knowledge and can have many potential applications. | 翻訳日:2022-11-16 14:34:16 公開日:2022-11-15 |
# 近距離隣接言語モデルへの適応アプローチ Adaptation Approaches for Nearest Neighbor Language Models ( http://arxiv.org/abs/2211.07828v1 ) ライセンス: Link先を確認 | Rishabh Bhardwaj, George Polovets, Monica Sunkara | (参考訳) 半パラメトリック近接言語モデル(k$NN-LMs)は、外部メモリデータストア上の大規模近傍検索を活用することにより、純粋パラメトリックLMよりも顕著に向上した。
しかし、そのようなモデルを新しい領域に適用する研究はほとんど行われていない。
この作業はそのギャップを埋めようと試み、$k$NN-LMsを適用するための次のアプローチを提案する。
1)基盤となるlm(アダプタを使用)の適応
2)追加適応データストアによる近隣検索の拡大、及び
3) 学習したrescorerモジュールを用いて,検索した隣人の重み(スコア)を適応させる。
それぞれの適応戦略を別々に検討し,アブレーション実験による性能向上と7つの適応領域にわたる広範囲な評価を行った。
我々の組み合わせ適応アプローチは、適応データからデータストアを構成する純粋パラメトリック適応とゼロショットベースライン(k$NN-LM)を一貫して上回ります。
平均すると、パープレキシティはドメイン間で17.1\%と16\%改善されている。 Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced impressive gains over purely parametric LMs, by leveraging large-scale neighborhood retrieval over external memory datastores. However, there has been little investigation into adapting such models for new domains. This work attempts to fill that gap and suggests the following approaches for adapting $k$NN-LMs -- 1) adapting the underlying LM (using Adapters), 2) expanding neighborhood retrieval over an additional adaptation datastore, and 3) adapting the weights (scores) of retrieved neighbors using a learned Rescorer module. We study each adaptation strategy separately, as well as the combined performance improvement through ablation experiments and an extensive set of evaluations run over seven adaptation domains. Our combined adaptation approach consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM) baselines that construct datastores from the adaptation data. On average, we see perplexity improvements of 17.1\% and 16\% for these respective baselines, across domains. | 翻訳日:2022-11-16 14:27:44 公開日:2022-11-15 |
# 言語構造のためのプロンプト言語モデル Prompting Language Models for Linguistic Structure ( http://arxiv.org/abs/2211.07830v1 ) ライセンス: Link先を確認 | Terra Blevins and Hila Gonen and Luke Zettlemoyer | (参考訳) 事前学習された言語モデル(plm)は、幅広い言語タスクを実行するように促すことができるが、この能力が、一般化された言語表現と、より表面的な語彙パターンからどれだけ生じるかは、まだ疑問である。
これをテストするために、言語構造予測タスクの促進に使用できる構造的プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングで評価され, いずれの場合においても, 強い数ショット性能を示す。
また,タグの表面形態は何らかの信号を提供するが,構造的プロンプトは任意のラベルであっても言語構造を検索でき,plmはラベル選択にロバストな方法でこの知識を包含していることを示す。 Although pretrained language models (PLMs) can be prompted to perform a wide range of language tasks, it remains an open question how much this ability comes from generalizable linguistic representations versus more surface-level lexical patterns. To test this, we present a structured prompting approach that can be used to prompt for linguistic structure prediction tasks, allowing us to perform zero- and few-shot sequence tagging with autoregressive PLMs. We evaluate this approach on part-of-speech tagging, named entity recognition, and sentence chunking and demonstrate strong few-shot performance in all cases. We also find that, though the surface forms of the tags provide some signal, structured prompting can retrieve linguistic structure even with arbitrary labels, indicating that PLMs contain this knowledge in a general manner robust to label choice. | 翻訳日:2022-11-16 14:27:29 公開日:2022-11-15 |
# 近い隣人と中国語の綴りチェック Chinese Spelling Check with Nearest Neighbors ( http://arxiv.org/abs/2211.07843v1 ) ライセンス: Link先を確認 | Xunjian Yin and Xinyu Hu and Xiaojun Wan | (参考訳) Chinese Spelling Check (CSC)は、幅広い用途を持つ中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
本稿では,k-nearest neighbors (kNN)モデルで線形補間することで標準CSCモデルを拡張したInfoKNN-CSCを紹介する。
さらに,kNNの特徴に応じて,トークンとコンテキストの音声情報,グラフィック情報,文脈情報(info)をクエリとキーの設計に精巧に組み込む。
検索後,n-gram値と入力の重なり合いに基づいて,候補をより正確にマッチングする手法の再評価を行う。
SIGHANベンチマークの実験では、提案モデルが既存の作業よりも大幅に改善され、最先端の性能を達成することを示した。 Chinese Spelling Check (CSC) aims to detect and correct error tokens in Chinese contexts, which has a wide range of applications. In this paper, we introduce InfoKNN-CSC, extending the standard CSC model by linearly interpolating it with a k-nearest neighbors (kNN) model. Moreover, the phonetic, graphic, and contextual information (info) of tokens and contexts are elaborately incorporated into the design of the query and key of kNN, according to the characteristics of the task. After retrieval, in order to match the candidates more accurately, we also perform reranking methods based on the overlap of the n-gram values and inputs. Experiments on the SIGHAN benchmarks demonstrate that the proposed model achieves state-of-the-art performance with substantial improvements over existing work. | 翻訳日:2022-11-16 14:27:10 公開日:2022-11-15 |
# Open Domain Question Answering の効率化に関する調査 A Survey for Efficient Open Domain Question Answering ( http://arxiv.org/abs/2211.07886v1 ) ライセンス: Link先を確認 | Qin Zhang, Shangsi Chen, Dongkuan Xu, Qingqing Cao, Xiaojun Chen, Trevor Cohn, Meng Fang | (参考訳) Open Domain Question answering (ODQA) は、自然言語処理(NLP)の明確な証拠なしに、大規模な知識コーパスから事実質問に答えることを目的とした長年の課題である。
最近の研究は、解答精度の向上と有望な進歩に重点を置いている。
しかし、高い精度にはメモリ消費と推論のレイテンシが伴うことが多いため、実際の世界で直接デプロイするには必ずしも十分ではない。
これにより、精度、メモリ消費、処理速度のトレードオフが追求される。
本稿では,ODQAモデルの効率性に関する最近の進歩について調査する。
ODQAモデルを調べて、効率のコアテクニックを結論付けます。
メモリコスト、処理速度、精度、全体的な比較の定量的分析を行う。
本研究は、ODQA効率研究の進歩とオープンな課題について興味のある研究者に知らせ、ODQA効率のさらなる発展に寄与することを期待している。 Open domain question answering (ODQA) is a longstanding task aimed at answering factual questions from a large knowledge corpus without any explicit evidence in natural language processing (NLP). Recent works have predominantly focused on improving the answering accuracy and achieved promising progress. However, higher accuracy often comes with more memory consumption and inference latency, which might not necessarily be efficient enough for direct deployment in the real world. Thus, a trade-off between accuracy, memory consumption and processing speed is pursued. In this paper, we provide a survey of recent advances in the efficiency of ODQA models. We walk through the ODQA models and conclude the core techniques on efficiency. Quantitative analysis on memory cost, processing speed, accuracy and overall comparison are given. We hope that this work would keep interested scholars informed of the advances and open challenges in ODQA efficiency research, and thus contribute to the further development of ODQA efficiency. | 翻訳日:2022-11-16 14:26:56 公開日:2022-11-15 |
# 階層的フレーズベースシーケンス・ツー・シーケンス学習 Hierarchical Phrase-based Sequence-to-Sequence Learning ( http://arxiv.org/abs/2211.07906v1 ) ライセンス: Link先を確認 | Bailin Wang, Ivan Titov, Jacob Andreas and Yoon Kim | (参考訳) 学習中の帰納的バイアスの源として階層的句を取り入れたり,推論時の明示的な制約として用いたりしながら,標準的なシーケンシャル・ツー・シークエンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
提案手法は,原文と対象句を階層的に整列するブラケット翻訳文法に基づく識別的パーサと,整列した句を1対1で翻訳するニューラルネットワークセク2seqモデルである。
同じseq2seqモデルを使用してすべてのフレーズスケールを翻訳し、パーサを破棄し、シーケンスレベルでseq2seqコンポーネントのみを使用する1つのモードと、パーサをseq2seqモデルと組み合わせた別のモードの2つの推論モードを生成する。
後者モードでの復号は、より複雑だが推論中に新しい翻訳規則を利用することのできる立方体のCKYアルゴリズムを用いて行われる。
我々は、ソース条件の同期文法としてモデルを形式化し、学習のための効率的な変分推論アルゴリズムを開発する。
ランダムに初期化および事前訓練されたSeq2seqモデルの上に適用すると、両方の推論モードは、小規模機械翻訳ベンチマークのベースラインと比較してよく機能することがわかった。 We describe a neural transducer that maintains the flexibility of standard sequence-to-sequence (seq2seq) models while incorporating hierarchical phrases as a source of inductive bias during training and as explicit constraints during inference. Our approach trains two models: a discriminative parser based on a bracketing transduction grammar whose derivation tree hierarchically aligns source and target phrases, and a neural seq2seq model that learns to translate the aligned phrases one-by-one. We use the same seq2seq model to translate at all phrase scales, which results in two inference modes: one mode in which the parser is discarded and only the seq2seq component is used at the sequence-level, and another in which the parser is combined with the seq2seq model. Decoding in the latter mode is done with the cube-pruned CKY algorithm, which is more involved but can make use of new translation rules during inference. We formalize our model as a source-conditioned synchronous grammar and develop an efficient variational inference algorithm for training. When applied on top of both randomly initialized and pretrained seq2seq models, we find that both inference modes performs well compared to baselines on small scale machine translation benchmarks. | 翻訳日:2022-11-16 14:26:42 公開日:2022-11-15 |
# オープンエンディングストレス応答を用いたデモグラフィーにおける抑うつ症状の予測 Using Open-Ended Stressor Responses to Predict Depressive Symptoms across Demographics ( http://arxiv.org/abs/2211.07932v1 ) ライセンス: Link先を確認 | Carlos Aguirre, Mark Dredze, Philip Resnik | (参考訳) ストレスはうつ病に関連するが、この関係は複雑である。
本研究では,ストレスに関するオープンエンドテキスト応答と,性別・人種・民族間の抑うつ症状との関連について検討した。
まず,トピックモデルなどのnlpツールを用いて,グループ間でストレスを報告する際に,テーマや語彙の差異を検出する。
抑うつ症状を予測し,ストレスと抑うつの関係を見出すために,自己報告型ストレスダーを用いて言語モデルを訓練する。
最後に,ストレス要因の違いは,集団間でのダウンストリームパフォーマンスの差に繋がることがわかった。 Stressors are related to depression, but this relationship is complex. We investigate the relationship between open-ended text responses about stressors and depressive symptoms across gender and racial/ethnic groups. First, we use topic models and other NLP tools to find thematic and vocabulary differences when reporting stressors across demographic groups. We train language models using self-reported stressors to predict depressive symptoms, finding a relationship between stressors and depression. Finally, we find that differences in stressors translate to downstream performance differences across demographic groups. | 翻訳日:2022-11-16 14:26:17 公開日:2022-11-15 |
# 中間信念のモデル化と追跡のためのブレークポイントトランスフォーマー Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs ( http://arxiv.org/abs/2211.07950v1 ) ライセンス: Link先を確認 | Kyle Richardson, Ronen Tamari, Oren Sultan, Reut Tsarfaty, Dafna Shahaf, Ashish Sabharwal | (参考訳) テキストの中間点を通じて、自然言語理解モデルに彼らの信念を追跡するよう教えられるか?
本稿では,このタイプの学習を可能にするブレークポイントモデリングという表現学習フレームワークを提案する。
テキストエンコーダと中間状態(ブレークポイント)でマークされたデータと、真/偽命題と見なされるテキストクエリ(すなわち、時間を通じて変化する情報からなるモデルの候補信念)が与えられた場合、我々のアプローチは、モデルを効率的かつエンドツーエンドの方法で訓練し、他のエンドタスクを解決しながら、任意のポイントにおける信念の指導と直接の問い合わせを容易にする中間表現を構築する。
提案手法の利点を示すために,CLUTRR上の関係推論やbAbIに関する物語理解など,多種多様なNLUタスクを実験した。
両タスクに新しい信念予測タスクを用いることで,処理効率,予測精度,予測整合性といった従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を享受できる。
信念トラッカをより複雑な推論パイプラインに組み込むことの実現可能性を示すため、TRIPベンチマークの3段階の推論課題(タスク2-3では23~32%の絶対的な改善)において、SOTAのパフォーマンスを得る。 Can we teach natural language understanding models to track their beliefs through intermediate points in text? We propose a representation learning framework called breakpoint modeling that allows for learning of this type. Given any text encoder and data marked with intermediate states (breakpoints) along with corresponding textual queries viewed as true/false propositions (i.e., the candidate beliefs of a model, consisting of information changing through time) our approach trains models in an efficient and end-to-end fashion to build intermediate representations that facilitate teaching and direct querying of beliefs at arbitrary points alongside solving other end tasks. To show the benefit of our approach, we experiment with a diverse set of NLU tasks including relational reasoning on CLUTRR and narrative understanding on bAbI. Using novel belief prediction tasks for both tasks, we show the benefit of our main breakpoint transformer, based on T5, over conventional representation learning approaches in terms of processing efficiency, prediction accuracy and prediction consistency, all with minimal to no effect on corresponding QA end tasks. To show the feasibility of incorporating our belief tracker into more complex reasoning pipelines, we also obtain SOTA performance on the three-tiered reasoning challenge for the TRIP benchmark (around 23-32% absolute improvement on Tasks 2-3). | 翻訳日:2022-11-16 14:26:07 公開日:2022-11-15 |
# 変分オートエンコーダによる可制御テキスト生成の概観 An Overview on Controllable Text Generation via Variational Auto-Encoders ( http://arxiv.org/abs/2211.07954v1 ) ライセンス: Link先を確認 | Haoqin Tu, Yitong Li | (参考訳) ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話でき、自然言語を理解できることを期待している。
ディープニューラルアーキテクチャの雇用は、様々なユーザニーズを満たすために、多くのコンテキストとタスクで広く研究されてきた。
一方、特定の要求を満たすテキストコンテンツを生成することは、異なるグループとシームレスに会話を行うモデルにとって優先事項である。
一方、変分オートエンコーダ(vaes)のような潜在変数モデル(lvm)は、生成モデルの最も人気のあるジャンルの1つとして、テキストデータの分布パターンを特徴付けるように設計されている。
したがって、それらは本質的に、制御可能な追求のために探索する価値のある統合的なテキストの特徴を学ぶことができる。
この概要は、既存の生成スキーム、テキストの変分自動エンコーダに関連する問題、およびこれらの一般的な定式化のインスタンス化である制御可能な生成に関するいくつかのアプリケーションのレビュー、\footnote{A details paper listが \url{https://github.com/ImKeTT/CTG-latentAEs}} で利用可能である。
この概要は、可変オートエンコーダの範囲内で、生きた質問、一般的な方法論、および制御可能な言語生成のための生の考えの概要を提供することを願っている。 Recent advances in neural-based generative modeling have reignited the hopes of having computer systems capable of conversing with humans and able to understand natural language. The employment of deep neural architectures has been largely explored in a multitude of context and tasks to fulfill various user needs. On one hand, producing textual content that meets specific requirements is of priority for a model to seamlessly conduct conversations with different groups of people. On the other hand, latent variable models (LVM) such as variational auto-encoders (VAEs) as one of the most popular genres of generative models are designed to characterize the distributional pattern of textual data. Thus they are inherently capable of learning the integral textual features that are worth exploring for controllable pursuits. \noindent This overview gives an introduction to existing generation schemes, problems associated with text variational auto-encoders, and a review of several applications about the controllable generation that are instantiations of these general formulations,\footnote{A detailed paper list is available at \url{https://github.com/ImKeTT/CTG-latentAEs}} as well as related datasets, metrics and discussions for future researches. Hopefully, this overview will provide an overview of living questions, popular methodologies and raw thoughts for controllable language generation under the scope of variational auto-encoder. | 翻訳日:2022-11-16 14:25:38 公開日:2022-11-15 |
# 認知症患者における会話障害と会話障害の検討 A review of discourse and conversation impairments in patients with dementia ( http://arxiv.org/abs/2211.07971v1 ) ライセンス: Link先を確認 | Charalambos Themistocleous | (参考訳) 神経変性は、異なる認知症サブタイプ(アルツハイマー病、原発性進行性失語、パーキンソン病など)の患者を特徴付け、認知症、言語学的、社会的機能の段階的な低下をもたらす。
言語障害と言語障害は、認知、社会的、行動的領域の欠陥と相まって、局所的な神経変性状態の患者に早期の症状である。
本稿では,認知症が言論の生成と知覚に与える影響について,言語とコミュニケーションの欠陥に関する知見を概説する。
研究成果について論じる
(i)言語機能、認知表現及び障害
(二)コミュニケーション能力、感情、共感、心の理論
(iii)音声対話。
臨床談話分析は、既存の神経言語学的診断、予後、治療効果評価を補完する、患者の言語およびコミュニケーションスキルの包括的評価を提供することができると主張している。 Neurodegeneration characterizes patients with different dementia subtypes (e.g., patients with Alzheimer's Disease, Primary Progressive Aphasia, and Parkinson's Disease), leading to progressive decline in cognitive, linguistic, and social functioning. Speech and language impairments are early symptoms in patients with focal forms of neurodegenerative conditions, coupled with deficits in cognitive, social, and behavioral domains. This paper reviews the findings on language and communication deficits and identifies the effects of dementia on the production and perception of discourse. It discusses findings concerning (i) language function, cognitive representation, and impairment , (ii) communicative competence, emotions, empathy, and theory-of-mind, and (iii) speech-in-interaction. It argues that clinical discourse analysis can provide a comprehensive assessment of language and communication skills in patients, which complements the existing neurolinguistic evaluation for (differential) diagnosis, prognosis, and treatment efficacy evaluation. | 翻訳日:2022-11-16 14:25:11 公開日:2022-11-15 |
# サンスクリットにおけるポストOCRテキスト修正のためのベンチマークとデータセット A Benchmark and Dataset for Post-OCR text correction in Sanskrit ( http://arxiv.org/abs/2211.07980v1 ) ライセンス: Link先を確認 | Ayush Maheshwari, Nikhil Singh, Amrith Krishna, Ganesh Ramakrishnan | (参考訳) サンスクリット語は古典的な言語であり、約3000万の写本がデジタル化に適合しており、文字、印刷、スキャン済みの形で利用できる。
しかし、利用可能なデジタルリソースに関しては、まだ低リソース言語であると考えられている。
本研究では,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
サンスクリットのテクストは、サンスクリットがインド亜大陸で約3千年にわたって「リングア・フランカ」であったため、言語的・様式的な用法で多様であることが知られている。
これを念頭に置いて、天文学、医学、数学のような多様な領域から、複数のドメインのデータセットを公開します。
さらに、トレーニング済みのSeq2Seq言語モデルに基づいて、タスクのベンチマークとして複数の強力なベースラインをリリースする。
音声符号化(Byt5+SLP1)と併用したバイトレベルのトークン化(Byt5+SLP1)により,OCR出力に対して単語と文字の誤り率で23%のポイント増加が得られた。
さらに,これらのモデルの性能評価に関する広範な実験を行い,文法レベルと語彙レベルでの誤予測の共通原因を分析した。
私たちのコードとデータセットはhttps://github.com/ayushbits/pe-ocr-sanskritで公開されている。 Sanskrit is a classical language with about 30 million extant manuscripts fit for digitisation, available in written, printed or scannedimage forms. However, it is still considered to be a low-resource language when it comes to available digital resources. In this work, we release a post-OCR text correction dataset containing around 218,000 sentences, with 1.5 million words, from 30 different books. Texts in Sanskrit are known to be diverse in terms of their linguistic and stylistic usage since Sanskrit was the 'lingua franca' for discourse in the Indian subcontinent for about 3 millennia. Keeping this in mind, we release a multi-domain dataset, from areas as diverse as astronomy, medicine and mathematics, with some of them as old as 18 centuries. Further, we release multiple strong baselines as benchmarks for the task, based on pre-trained Seq2Seq language models. We find that our best-performing model, consisting of byte level tokenization in conjunction with phonetic encoding (Byt5+SLP1), yields a 23% point increase over the OCR output in terms of word and character error rates. Moreover, we perform extensive experiments in evaluating these models on their performance and analyse common causes of mispredictions both at the graphemic and lexical levels. Our code and dataset is publicly available at https://github.com/ayushbits/pe-ocr-sanskrit. | 翻訳日:2022-11-16 14:24:57 公開日:2022-11-15 |
# DIGEST:不完全なマルチモーダルMRIスキャンを用いた脳腫瘍セグメント化のための超高精細GE tranSferneTwork学習 DIGEST: Deeply supervIsed knowledGE tranSfer neTwork learning for brain tumor segmentation with incomplete multi-modal MRI scans ( http://arxiv.org/abs/2211.07993v1 ) ライセンス: Link先を確認 | Haoran Li, Cheng Li, Weijian Huang, Xiawu Zheng, Yan Xi, Shanshan Wang | (参考訳) 多モードMRI(Multi-modal magnetic resonance imaging)に基づく脳腫瘍の分節化は、脳腫瘍の診断、治療、術後の評価を支援する重要な役割を担っている。
既存の自動セグメンテーション法によって達成された性能にもかかわらず、マルチモーダルMRIデータは、多くの制御不能な要因(例えば、異なる画像プロトコル、データ破損、患者状態の制限)のために、実際の臨床応用では依然として利用できない。
そこで本研究では,異なる条件下で正確な脳腫瘍の分節化を実現するDeeply SupervIsed KnowledGE tranSfer neTwork (DIGEST)を提案する。
具体的には、知識伝達学習フレームを構築し、学生モデルは、完全なマルチモーダルMRIデータで事前訓練された教師モデルからモダリティ共有の意味情報を学習することができる。
与えられたマルチモーダルデータの下で可能なモダリティ許容条件をすべてシミュレートするために、ベルヌーイサンプリングに基づく不完全なマルチモーダルmriサンプルを生成する。
最後に,教師-教師間構造の異なる復号段階における一貫性を確保するために,教師間の知識伝達損失を深く監視することで,本質的かつ効果的なモダリティ表現の抽出を支援する。
BraTS 2020データセットを用いた実験により,不完全なマルチモーダルMR画像分割タスクにおいて,提案手法が有望な結果が得られることを示した。 Brain tumor segmentation based on multi-modal magnetic resonance imaging (MRI) plays a pivotal role in assisting brain cancer diagnosis, treatment, and postoperative evaluations. Despite the achieved inspiring performance by existing automatic segmentation methods, multi-modal MRI data are still unavailable in real-world clinical applications due to quite a few uncontrollable factors (e.g. different imaging protocols, data corruption, and patient condition limitations), which lead to a large performance drop during practical applications. In this work, we propose a Deeply supervIsed knowledGE tranSfer neTwork (DIGEST), which achieves accurate brain tumor segmentation under different modality-missing scenarios. Specifically, a knowledge transfer learning frame is constructed, enabling a student model to learn modality-shared semantic information from a teacher model pretrained with the complete multi-modal MRI data. To simulate all the possible modality-missing conditions under the given multi-modal data, we generate incomplete multi-modal MRI samples based on Bernoulli sampling. Finally, a deeply supervised knowledge transfer loss is designed to ensure the consistency of the teacher-student structure at different decoding stages, which helps the extraction of inherent and effective modality representations. Experiments on the BraTS 2020 dataset demonstrate that our method achieves promising results for the incomplete multi-modal MR image segmentation task. | 翻訳日:2022-11-16 14:19:11 公開日:2022-11-15 |
# 多頭部注意機構を用いた胸部x線分類のためのオートアウトリアー核融合法 Auto-outlier Fusion Technique for Chest X-ray classification with Multi-head Attention Mechanism ( http://arxiv.org/abs/2211.08006v1 ) ライセンス: Link先を確認 | Yuru Jing and Zixuan Li | (参考訳) 胸部X線は、様々な肺疾患の診断と検出に最も広く用いられる放射線検査の1つである。
国立衛生研究所(NIH)は、肺疾患を分析し予測するための深層学習コミュニティを確立するために、広範なデータベースであるChestX-ray8とChestXray14を提供している。
ChestX-ray14は、テキストマイニングされた14の疾患画像ラベルを持つ30,805人の異なる患者の112,120の正面視X線画像からなる。
これまでの知見では,前処理段階における単一x線画像の異常値とマルチラベルインパクトは検討されていない。
本論文では, 自動脱離融合法により, 脱離剤の効果を緩和する。
画像ラベルは、画像中の特定の要素に集中して再生される。
最終的なクリーン化データセットは、マルチヘッドの自己注意とマルチヘッドの注意と、一般化された最大プールのメカニズムを比較するために使用される。 A chest X-ray is one of the most widely available radiological examinations for diagnosing and detecting various lung illnesses. The National Institutes of Health (NIH) provides an extensive database, ChestX-ray8 and ChestXray14, to help establish a deep learning community for analysing and predicting lung diseases. ChestX-ray14 consists of 112,120 frontal-view X-ray images of 30,805 distinct patients with text-mined fourteen disease image labels, where each image has multiple labels and has been utilised in numerous research in the past. To our current knowledge, no previous study has investigated outliers and multi-label impact for a single X-ray image during the preprocessing stage. The effect of outliers is mitigated in this paper by our proposed auto-outlier fusion technique. The image label is regenerated by concentrating on a particular factor in one image. The final cleaned dataset will be used to compare the mechanisms of multi-head self-attention and multi-head attention with generalised max-pooling. | 翻訳日:2022-11-16 14:18:43 公開日:2022-11-15 |
# 肝と腫瘍の分節の監督を再設計するunet++のエンコーディング機能 Encoding feature supervised UNet++: Redesigning Supervision for liver and tumor segmentation ( http://arxiv.org/abs/2211.08146v1 ) ライセンス: Link先を確認 | Jiahao Cui, Ruoxin Xiao (co-first author), Shiyuan Fang, Minnan Pei, Yixuan Yu | (参考訳) CT画像における肝腫瘍の分節化は,肝疾患の診断,手術計画,術後評価において重要なステップである。
自動肝・腫瘍分離法は、CT画像検査の重い作業量の医師を大幅に軽減し、診断精度を向上することができる。
過去数十年間、U-Netモデルに基づく多くの修正が文献で提案されてきた。
しかし、先進的なUNet++モデルに対する改善は比較的少ない。
本稿では,UNet++(ES-UNet++)を教師する符号化機能を提案し,それを肝臓と腫瘍のセグメンテーションに適用する。
ES-UNet++はエンコードUNet++とセグメンテーションUNet++で構成される。
十分に訓練された符号化UNet++は、セグメンテーションUNet++を監督するために使われるラベルマップの符号化機能を抽出することができる。
unet++のセグメンテーションの各エンコーダに監督を追加することで、unet++を構成する異なる深さのu-netは、diceスコアで平均5.7%、diceスコア全体の2.1%向上する。
ES-UNet++ はデータセット LiTS で評価され、肝セグメンテーションは95.6%、腫瘍セグメンテーションは67.4%である。
本稿では,ES-UNet++ と UNet++ の比較分析を行い,ES-UNet++ の有意義な特性について述べる。
2) 符号化機能向上は, プルーニングモデルに優れた性能を持たせながら, 大幅な高速化を実現し, モデルプルーニングの効果を高める。 Liver tumor segmentation in CT images is a critical step in the diagnosis, surgical planning and postoperative evaluation of liver disease. An automatic liver and tumor segmentation method can greatly relieve physicians of the heavy workload of examining CT images and better improve the accuracy of diagnosis. In the last few decades, many modifications based on U-Net model have been proposed in the literature. However, there are relatively few improvements for the advanced UNet++ model. In our paper, we propose an encoding feature supervised UNet++(ES-UNet++) and apply it to the liver and tumor segmentation. ES-UNet++ consists of an encoding UNet++ and a segmentation UNet++. The well-trained encoding UNet++ can extract the encoding features of label map which are used to additionally supervise the segmentation UNet++. By adding supervision to the each encoder of segmentation UNet++, U-Nets of different depths that constitute UNet++ outperform the original version by average 5.7% in dice score and the overall dice score is thus improved by 2.1%. ES-UNet++ is evaluated with dataset LiTS, achieving 95.6% for liver segmentation and 67.4% for tumor segmentation in dice score. In this paper, we also concluded some valuable properties of ES-UNet++ by conducting comparative anaylsis between ES-UNet++ and UNet++:(1) encoding feature supervision can accelerate the convergence of the model.(2) encoding feature supervision enhances the effect of model pruning by achieving huge speedup while providing pruned models with fairly good performance. | 翻訳日:2022-11-16 14:18:24 公開日:2022-11-15 |
# コヒーレントX線スペックルパターンの解釈のための機械学習 Machine learning for interpreting coherent X-ray speckle patterns ( http://arxiv.org/abs/2211.08194v1 ) ライセンス: Link先を確認 | Mingren Shen, Dina Sheyfer, Troy David Loeffler, Subramanian K.R.S. Sankaranarayanan, G. Brian Stephenson, Maria K. Y. Chan, Dane Morgan | (参考訳) コヒーレントX線によるスペックルパターンは、材料の内部構造と密接な関係を持つが、画像から構造を決定するための関係の定量的逆転は困難である。
本稿では,モデル2dディスクシステムを用いてコヒーレントx線スペックルパターンとサンプル構造の関係を調べ,機械学習による関係の側面の学習について検討する。
具体的には、深層ニューラルネットワークを用いて、対応する構造のディスク数密度に応じて、コヒーレントX線スペックルパターン画像を分類する。
この分類法は, 分散分布と分散分布の両方において正確であることを示す。 Speckle patterns produced by coherent X-ray have a close relationship with the internal structure of materials but quantitative inversion of the relationship to determine structure from images is challenging. Here, we investigate the link between coherent X-ray speckle patterns and sample structures using a model 2D disk system and explore the ability of machine learning to learn aspects of the relationship. Specifically, we train a deep neural network to classify the coherent X-ray speckle pattern images according to the disk number density in the corresponding structure. It is demonstrated that the classification system is accurate for both non-disperse and disperse size distributions. | 翻訳日:2022-11-16 14:17:57 公開日:2022-11-15 |
# CorruptEncoder: コントラスト学習のためのデータポリシベースのバックドアアタック CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning ( http://arxiv.org/abs/2211.08229v1 ) ライセンス: Link先を確認 | Jinghuai Zhang and Hongbin Liu and Jinyuan Jia and Neil Zhenqiang Gong | (参考訳) コントラスト学習(CL)は、イメージ(シングルモーダルCL)またはイメージテキストペア(マルチモーダルCL)で構成されるラベル付き事前トレーニングデータセットを使用して、汎用エンコーダを事前訓練する。
clはデータ中毒ベースのバックドア攻撃(dpbas)に対して脆弱であり、攻撃者はプリトレーニングデータセットに毒入り入力を注入し、エンコーダはバックドアされる。
しかし,既存のDPBAは有効性に限界がある。
本研究では,CorruptEncoder と呼ばれる新しいDPBAをCLに提案する。
実験の結果,CorruptEncoderはシングルモーダルCLとマルチモーダルCLの両方でDPBAを大幅に上回っていることがわかった。
CorruptEncoderは最初のDPBAであり、わずかに(3)参照画像と0.5%の小さな中毒率で、シングルモーダルCLの攻撃成功率を90%以上達成している。
また,DPBAに対する単一モードCLの防御を目的とした局所的収穫法を提案する。
我々の防衛はDPBAの有効性を低下させるが,エンコーダの実用性を犠牲にし,新たな防衛の必要性を浮き彫りにする。 Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images (called single-modal CL) or image-text pairs (called multi-modal CL). CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we propose new DPBAs called CorruptEncoder to CL. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs for both single-modal and multi-modal CL. CorruptEncoder is the first DPBA that achieves more than 90% attack success rates on single-modal CL with only a few (3) reference images and a small poisoning ratio (0.5%). Moreover, we also propose a defense, called localized cropping, to defend single-modal CL against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the needs of new defenses. | 翻訳日:2022-11-16 14:17:46 公開日:2022-11-15 |
# 機械は理論家より賢いか:記号回帰を持つ粒子運動学の公式を導出する Is the Machine Smarter than the Theorist: Deriving Formulas for Particle Kinematics with Symbolic Regression ( http://arxiv.org/abs/2211.08420v1 ) ライセンス: Link先を確認 | Zhongtian Dong, Kyoungchul Kong, Konstantin T. Matchev, Katia Matcheva | (参考訳) 我々は,コライダー現象学における典型的な実験分析の様々な段階で必要とされる解析公式の導出における記号回帰の利用を実証する。
最初の応用として、解析式ではなく最適化手順によってアルゴリズム的に定義されるstransverse mass, $M_{T2}$のような運動変数を考える。
次に記号回帰を訓練し、文献で知られている$m_{t2}$のすべての特別なケースについて正しい分析式を得る。
第2の応用として、NLOイベントジェネレータでシミュレートされたデータから、次から次へと導く順序(NLO)のキネマティックな分布の正しい解析式を再現する。
最後に、既知の解析公式が存在しない検出器シミュレーションの後、nloキネマティック分布の解析近似を導出する。 We demonstrate the use of symbolic regression in deriving analytical formulas, which are needed at various stages of a typical experimental analysis in collider phenomenology. As a first application, we consider kinematic variables like the stransverse mass, $M_{T2}$, which are defined algorithmically through an optimization procedure and not in terms of an analytical formula. We then train a symbolic regression and obtain the correct analytical expressions for all known special cases of $M_{T2}$ in the literature. As a second application, we reproduce the correct analytical expression for a next-to-leading order (NLO) kinematic distribution from data, which is simulated with a NLO event generator. Finally, we derive analytical approximations for the NLO kinematic distributions after detector simulation, for which no known analytical formulas currently exist. | 翻訳日:2022-11-16 14:16:36 公開日:2022-11-15 |
# クラスタリングを誤った問題として解く:K-Meansアルゴリズムによる実験 Solving clustering as ill-posed problem: experiments with K-Means algorithm ( http://arxiv.org/abs/2211.08302v1 ) ライセンス: Link先を確認 | Alberto Arturo Vergani | (参考訳) このコントリビューションにおいて、K-Meansアルゴリズムに基づくクラスタリング手順は逆問題として研究され、これは不備な問題の特別な場合である。
クラスタリング逆問題の品質を向上させるために,主成分分析 (pca) による入力データを削減する。
Ding と He の定理は K-Means で見つかった最適クラスターの濃度と選択された情報的 PCA 成分の濃度を結びつけるものであるので、計算実験は2つの量的特徴選択法:カイザー基準(命令的決定に基づく)とウィッシュアート基準(ランダム行列理論に基づく)の定理を検証した。
結果は,Wishartの基準による特徴選択によるPCA削減は,行列条件数が少なく,定理によって予測されるクラスタとコンポーネントの関係を満たすことを示唆した。
計算に使用されるデータは神経科学のリポジトリからであり、タスク指向の機能的磁気共鳴イメージング(fMRI)パラダイムを実行した健常者や若年者を対象としている。 In this contribution, the clustering procedure based on K-Means algorithm is studied as an inverse problem, which is a special case of the illposed problems. The attempts to improve the quality of the clustering inverse problem drive to reduce the input data via Principal Component Analysis (PCA). Since there exists a theorem by Ding and He that links the cardinality of the optimal clusters found with K-Means and the cardinality of the selected informative PCA components, the computational experiments tested the theorem between two quantitative features selection methods: Kaiser criteria (based on imperative decision) versus Wishart criteria (based on random matrix theory). The results suggested that PCA reduction with features selection by Wishart criteria leads to a low matrix condition number and satisfies the relation between clusters and components predicts by the theorem. The data used for the computations are from a neuroscientific repository: it regards healthy and young subjects that performed a task-oriented functional Magnetic Resonance Imaging (fMRI) paradigm. | 翻訳日:2022-11-16 14:10:25 公開日:2022-11-15 |
# 機械学習とサンプリング型運動計画の統合に関する調査研究 A Survey on the Integration of Machine Learning with Sampling-based Motion Planning ( http://arxiv.org/abs/2211.08368v1 ) ライセンス: Link先を確認 | Troy McMahon, Aravind Sivaramakrishnan, Edgar Granados, Kostas E. Bekris | (参考訳) サンプリングに基づく手法はロボットの動作計画に広く採用されている。
これらの方法は実装が簡単で、多くのロボットシステムで実践的に有効である。
確率的完全性や漸近的最適性といった望ましい性質を持つことを証明できることが多い。
それでも、基礎となる計画問題の複雑さが増加し、特に厳密な計算時間制約の下では、返却されたソリューションの品質や不正確なモデルに影響を及ぼす。
これは、サンプリングベースモーションプランナー(SBMP)の計算効率と適用性を改善するために機械学習を動機付けている。
本調査は,これらの統合的な取り組みを概観し,文献で検討されている代替方向の分類を提供することを目的とする。
まず, ノードサンプリング, 衝突検出, 距離, 近接計算, 局所計画, 終了条件など, SBMP の重要なコンポーネントを学習によって強化する方法について論じる。
そして、基礎となる問題の特徴に応じて、これらのプリミティブの異なる実装を適応的に選択するために学習を使用するプランナーを強調する。
また、SBMPの伝統的な構造を反映した完全な機械学習パイプラインを構築する新しい手法についても取り上げている。
また、機械学習を使用して、sbmpで使用できるロボットのデータ駆動モデルを提供する方法についても論じている。
最後に、カバーされているアプローチの利点とデメリットの比較議論と、研究の今後の方向性に関する洞察を提供する。
この調査のオンライン版は、https://prx-kinodynamic.github.io/で見ることができる。 Sampling-based methods are widely adopted solutions for robot motion planning. The methods are straightforward to implement, effective in practice for many robotic systems. It is often possible to prove that they have desirable properties, such as probabilistic completeness and asymptotic optimality. Nevertheless, they still face challenges as the complexity of the underlying planning problem increases, especially under tight computation time constraints, which impact the quality of returned solutions or given inaccurate models. This has motivated machine learning to improve the computational efficiency and applicability of Sampling-Based Motion Planners (SBMPs). This survey reviews such integrative efforts and aims to provide a classification of the alternative directions that have been explored in the literature. It first discusses how learning has been used to enhance key components of SBMPs, such as node sampling, collision detection, distance or nearest neighbor computation, local planning, and termination conditions. Then, it highlights planners that use learning to adaptively select between different implementations of such primitives in response to the underlying problem's features. It also covers emerging methods, which build complete machine learning pipelines that reflect the traditional structure of SBMPs. It also discusses how machine learning has been used to provide data-driven models of robots, which can then be used by a SBMP. Finally, it provides a comparative discussion of the advantages and disadvantages of the approaches covered, and insights on possible future directions of research. An online version of this survey can be found at: https://prx-kinodynamic.github.io/ | 翻訳日:2022-11-16 14:10:02 公開日:2022-11-15 |
# 多重ダイナミックネットワークにおける異常検出:ブロックチェーンセキュリティから脳疾患予測へ Anomaly Detection in Multiplex Dynamic Networks: from Blockchain Security to Brain Disease Prediction ( http://arxiv.org/abs/2211.08378v1 ) ライセンス: Link先を確認 | Ali Behrouz and Margo Seltzer | (参考訳) 動的ネットワークにおける異常を特定する問題は、幅広いアプリケーションで基本的なタスクである。
しかし、これは異常の複雑な性質、基礎となる真実の知識の欠如、ネットワーク内の複雑で動的な相互作用によって重要な課題を提起する。
既存のアプローチのほとんどは、頂点間の単一のタイプの接続を持つネットワークを研究するが、多くのアプリケーションではオブジェクト間の相互作用が異なるため、多重ネットワークとなる。
マルチプレックス動的ネットワークのための汎用的,教師なしエッジ異常検出フレームワークANOMULYを提案する。
各関係型において、ANOMULYは異なるGNN層におけるノードの埋め込みを階層的なノード状態と見なし、ネットワークの時間的特性を捉え、時間とともにノードの埋め込みを更新するためにGRUセルを使用する。
次に、異なる種類の関係にまたがる情報を組み込むアテンションメカニズムを追加します。
脳ネットワークのケーススタディでは、この手法が、脳の疾患や障害を露呈する可能性のある異常な脳活動を理解するための新しいツールとしてどのように使われるかを示している。
9つの実世界のデータセットに対する大規模な実験は、ANOMULYが最先端のパフォーマンスを達成することを示す。 The problem of identifying anomalies in dynamic networks is a fundamental task with a wide range of applications. However, it raises critical challenges due to the complex nature of anomalies, lack of ground truth knowledge, and complex and dynamic interactions in the network. Most existing approaches usually study networks with a single type of connection between vertices, while in many applications interactions between objects vary, yielding multiplex networks. We propose ANOMULY, a general, unsupervised edge anomaly detection framework for multiplex dynamic networks. In each relation type, ANOMULY sees node embeddings at different GNN layers as hierarchical node states and employs a GRU cell to capture temporal properties of the network and update node embeddings over time. We then add an attention mechanism that incorporates information across different types of relations. Our case study on brain networks shows how this approach could be employed as a new tool to understand abnormal brain activity that might reveal a brain disease or disorder. Extensive experiments on nine real-world datasets demonstrate that ANOMULY achieves state-of-the-art performance. | 翻訳日:2022-11-16 14:09:20 公開日:2022-11-15 |
# 共通分布決定に基づく強化学習によるブラックボックス逆攻撃 Universal Distributional Decision-based Black-box Adversarial Attack with Reinforcement Learning ( http://arxiv.org/abs/2211.08384v1 ) ライセンス: Link先を確認 | Yiran Huang, Yexu Zhou, Michael Hefenbrock, Till Riedel, Likun Fang, Michael Beigl | (参考訳) 高性能機械学習モデルの脆弱性は、現実的な結果をもたらすアプリケーションのセキュリティリスクを示唆している。
敵対的攻撃の研究は、機械学習モデルの開発を誘導し、もう一方を標的とした防御策を見つけるのに有用である。
しかし、今日の敵攻撃のほとんどは、モデルからの勾配情報やロジット情報を利用して敵の摂動を生成する。
より現実的な領域での作業: ターゲットモデルのアウトプットラベルの観察のみに基づいて、逆さまの摂動を生成する意思決定に基づく攻撃は、まだ比較的稀であり、ほとんどが勾配推定戦略を使用している。
本研究では,強化学習アルゴリズムを用いて,対向的摂動の分布を求める画素単位の判定に基づく攻撃アルゴリズムを提案する。
我々は,この手法をDBAR (Decision-based Black-box Attack) と呼ぶ。
実験により,提案手法は,攻撃成功率が高く,移動性が高い場合,最先端の意思決定に基づく攻撃よりも優れていることが示された。 The vulnerability of the high-performance machine learning models implies a security risk in applications with real-world consequences. Research on adversarial attacks is beneficial in guiding the development of machine learning models on the one hand and finding targeted defenses on the other. However, most of the adversarial attacks today leverage the gradient or logit information from the models to generate adversarial perturbation. Works in the more realistic domain: decision-based attacks, which generate adversarial perturbation solely based on observing the output label of the targeted model, are still relatively rare and mostly use gradient-estimation strategies. In this work, we propose a pixel-wise decision-based attack algorithm that finds a distribution of adversarial perturbation through a reinforcement learning algorithm. We call this method Decision-based Black-box Attack with Reinforcement learning (DBAR). Experiments show that the proposed approach outperforms state-of-the-art decision-based attacks with a higher attack success rate and greater transferability. | 翻訳日:2022-11-16 14:09:02 公開日:2022-11-15 |
# ロボットによる仕事の学習:人間による自律性と展開中の学習 Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment ( http://arxiv.org/abs/2211.08416v1 ) ライセンス: Link先を確認 | Huihan Liu, Soroush Nasiriany, Lance Zhang, Zhiyao Bao, Yuke Zhu | (参考訳) コンピュータパワーの急速な成長とディープラーニングの最近の進歩により、研究環境における新しいロボット能力の印象的な実証が見られた。
それでも、これらの学習システムは不安定な一般化を示し、実践的なタスクに過剰なトレーニングデータを必要とする。
非完全性を受け入れつつ最先端のロボット学習モデルの能力を活用するために,人間とロボットが作業部門で協力するための原則フレームワークであるsiriusを提案する。
このフレームワークでは、部分的に自律的なロボットが意思決定の大部分を適切に処理するタスクを負う一方で、人間のオペレーターはプロセスを監視し、困難な状況に介入する。
このような人間ロボットチームは、複雑なタスクに安全なデプロイを保証する。
さらに,タスク実行から収集したデータに対するポリシーの性能を向上させるための新しい学習アルゴリズムを提案する。
中心となるアイデアは、トレーニングサンプルをおよそ人間の信頼で強化し、重み付けされた行動のクローンでポリシーを最適化することだ。
シミュレーションや実ハードウェアでシリウスを評価し、シリウスは接触の多い操作タスクの集まりよりもベースラインを一貫して上回っており、シミュレーションで8%、実ハードウェアで27%の高速化を達成し、3倍のコンバージェンスと15%のメモリサイズを実現していることを示した。
ビデオとコードはhttps://ut-austin-rpl.github.io/sirius/で入手できる。 With the rapid growth of computing powers and recent advances in deep learning, we have witnessed impressive demonstrations of novel robot capabilities in research settings. Nonetheless, these learning systems exhibit brittle generalization and require excessive training data for practical tasks. To harness the capabilities of state-of-the-art robot learning models while embracing their imperfections, we present Sirius, a principled framework for humans and robots to collaborate through a division of work. In this framework, partially autonomous robots are tasked with handling a major portion of decision-making where they work reliably; meanwhile, human operators monitor the process and intervene in challenging situations. Such a human-robot team ensures safe deployments in complex tasks. Further, we introduce a new learning algorithm to improve the policy's performance on the data collected from the task executions. The core idea is re-weighing training samples with approximated human trust and optimizing the policies with weighted behavioral cloning. We evaluate Sirius in simulation and on real hardware, showing that Sirius consistently outperforms baselines over a collection of contact-rich manipulation tasks, achieving 8% boost in simulation and 27% on real hardware than the state-of-the-art methods, with 3 times faster convergence and 15% memory size. Videos and code are available at https://ut-austin-rpl.github.io/sirius/ | 翻訳日:2022-11-16 14:08:48 公開日:2022-11-15 |
# ガウス過程からの信頼性の高い大規模サンプリング Provably Reliable Large-Scale Sampling from Gaussian Processes ( http://arxiv.org/abs/2211.08036v1 ) ライセンス: Link先を確認 | Anthony Stephenson, Robert Allison, Edward Pyzer-Knapp | (参考訳) 近似ガウス過程(GP)モデルを比較する場合、任意のGPからデータを生成することができる。
近似手法が大規模にどのように機能するかに興味があるなら、非常に大きな合成データセットを生成して評価したいと思うかもしれない。
na\"{i}vely は \(\mathcal{o}(n^3)\) flops と \(\mathcal{o}(n^2)\) メモリでサイズ \(n\) のサンプルを生成する。
このようなデータ生成を大きな \(n\) にスケールする方法を実証する一方で、高い確率で、試料が所望の GP のサンプルと区別できないことを保証している。 When comparing approximate Gaussian process (GP) models, it can be helpful to be able to generate data from any GP. If we are interested in how approximate methods perform at scale, we may wish to generate very large synthetic datasets to evaluate them. Na\"{i}vely doing so would cost \(\mathcal{O}(n^3)\) flops and \(\mathcal{O}(n^2)\) memory to generate a size \(n\) sample. We demonstrate how to scale such data generation to large \(n\) whilst still providing guarantees that, with high probability, the sample is indistinguishable from a sample from the desired GP. | 翻訳日:2022-11-16 14:08:09 公開日:2022-11-15 |
# StereoISP:デュアルカメラシステムのための画像信号処理の再考 StereoISP: Rethinking Image Signal Processing for Dual Camera Systems ( http://arxiv.org/abs/2211.07390v2 ) ライセンス: Link先を確認 | Ahmad Bin Rabiah and Qi Guo | (参考訳) 従来の画像信号処理(ISP)フレームワークは、単一の生計測からRGBイメージを再構成するように設計されている。
近年,マルチカメラシステムの普及が進み,複数のカメラの生計測を取り入れたISPフレームワークの改善を検討すべきである。
この原稿は、開発中の新しいISPフレームワークであるStereoISPの中間進捗報告である。
ステレオカメラ対からの生測を用いて、2つのビュー間で推定される差を利用して、分解され、識別されたRGB画像を生成する。
ステレオデータセットから合成した生画像対の性能試験により,StereoISPについて検討する。
予備的な結果から,KITTI 2015では2dB以上で再現されたRGB画像のPSNRが向上し,Stereoデータセットを地上の真偽疎外マップを用いて駆動した。 Conventional image signal processing (ISP) frameworks are designed to reconstruct an RGB image from a single raw measurement. As multi-camera systems become increasingly popular these days, it is worth exploring improvements in ISP frameworks by incorporating raw measurements from multiple cameras. This manuscript is an intermediate progress report of a new ISP framework that is under development, StereoISP. It employs raw measurements from a stereo camera pair to generate a demosaicked, denoised RGB image by utilizing disparity estimated between the two views. We investigate StereoISP by testing the performance on raw image pairs synthesized from stereo datasets. Our preliminary results show an improvement in the PSNR of the reconstructed RGB image by at least 2dB on KITTI 2015 and drivingStereo datasets using ground truth sparse disparity maps. | 翻訳日:2022-11-16 14:07:53 公開日:2022-11-15 |
# 造影MRIを伴わない補助グリオーマ診断のためのAdaptive PromptNet Adaptive PromptNet For Auxiliary Glioma Diagnosis without Contrast-Enhanced MRI ( http://arxiv.org/abs/2211.07966v1 ) ライセンス: Link先を確認 | Yeqi Wang, Weijian Huang, Cheng Li, Xiawu Zheng, Yusong Lin, Shanshan Wang | (参考訳) マルチコントラスト磁気共鳴画像(mri)を用いた自動補助グリオーマ診断はクリニックにおいて重要な役割を担っている。
コントラスト強調MRI(コントラスト強調T1強調画像)は,既存の関連研究の多くに利用されており,顕著な診断結果が報告されている。
それにもかかわらず、造影mriデータを取得することは、患者の生理的限界のために実現できない場合もある。
さらに、診療所内で造影MRIデータを収集するのに時間と費用がかかる。
本稿では,これらの問題に対処する適応型PromptNetを提案する。
具体的には,非強調MRIデータのみを利用したグリオーマグレーディングのためのPromptNetを構築した。
PromptNetは、設計した即時損失を通じてトレーニング中にコントラスト強化MRデータの特徴から制約を受けます。
この性能をさらに高めるため、適応戦略はサンプルベースで迅速に損失を動的に重み付けするように設計されている。
その結果、PromptNetはより難しいサンプルを扱うことができる。
提案手法の有効性をBraTS2020データセットを用いて評価し,NE-MRIデータ上での競合グリオーマグレーディング性能を実現する。 Multi-contrast magnetic resonance imaging (MRI)-based automatic auxiliary glioma diagnosis plays an important role in the clinic. Contrast-enhanced MRI sequences (e.g., contrast-enhanced T1-weighted imaging) were utilized in most of the existing relevant studies, in which remarkable diagnosis results have been reported. Nevertheless, acquiring contrast-enhanced MRI data is sometimes not feasible due to the patients physiological limitations. Furthermore, it is more time-consuming and costly to collect contrast-enhanced MRI data in the clinic. In this paper, we propose an adaptive PromptNet to address these issues. Specifically, a PromptNet for glioma grading utilizing only non-enhanced MRI data has been constructed. PromptNet receives constraints from features of contrast-enhanced MR data during training through a designed prompt loss. To further boost the performance, an adaptive strategy is designed to dynamically weight the prompt loss in a sample-based manner. As a result, PromptNet is capable of dealing with more difficult samples. The effectiveness of our method is evaluated on a widely-used BraTS2020 dataset, and competitive glioma grading performance on NE-MRI data is achieved. | 翻訳日:2022-11-16 14:07:10 公開日:2022-11-15 |
# 知識ベースにおける質問応答の比較研究 A Comparative Study of Question Answering over Knowledge Bases ( http://arxiv.org/abs/2211.08170v1 ) ライセンス: Link先を確認 | Khiem Vinh Tran, Hao Phu Phan, Khang Nguyen Duc Quach, Ngan Luu-Thuy Nguyen, Jun Jo and Thanh Tam Nguyen | (参考訳) 知識ベースに対する質問応答 (KBQA) は,ユーザが知識ベースから情報を取り出すための一般的なアプローチとなっている。
いくつかのシステムが存在するが、特定のアプリケーションシナリオに適したシステムを選択することは難しい。
本稿では、8つのベンチマークデータセット上で6つの代表的なKBQAシステムの比較研究を行う。
そこで我々は,既存のシステムがどのような状況で苦しむのかを知るため,様々な質問タイプ,特性,言語,ドメインを調査した。
さらに,既存のモデルが優れた結果を得るのを支援する高度なマッピングアルゴリズムを提案する。
さらに、将来のAIの多様性のために、COVID-19の研究と多言語主義を促進する多言語コーパスであるCOVID-KGQAも開発しています。
最後に、重要な発見とその影響、およびパフォーマンスガイドラインと今後の改善について論じる。
ソースコードは \url{https://github.com/tamlhp/kbqa} で入手できる。 Question answering over knowledge bases (KBQA) has become a popular approach to help users extract information from knowledge bases. Although several systems exist, choosing one suitable for a particular application scenario is difficult. In this article, we provide a comparative study of six representative KBQA systems on eight benchmark datasets. In that, we study various question types, properties, languages, and domains to provide insights on where existing systems struggle. On top of that, we propose an advanced mapping algorithm to aid existing models in achieving superior results. Moreover, we also develop a multilingual corpus COVID-KGQA, which encourages COVID-19 research and multilingualism for the diversity of future AI. Finally, we discuss the key findings and their implications as well as performance guidelines and some future improvements. Our source code is available at \url{https://github.com/tamlhp/kbqa}. | 翻訳日:2022-11-16 14:00:50 公開日:2022-11-15 |
# 音声エンコーダにセマンティクスを導入する Introducing Semantics into Speech Encoders ( http://arxiv.org/abs/2211.08402v1 ) ライセンス: Link先を確認 | Derek Xu, Shuyan Dong, Changhan Wang, Suyoun Kim, Zhaojiang Lin, Akshat Shrivastava, Shang-Wen Li, Liang-Hsuan Tseng, Alexei Baevski, Guan-Ting Lin, Hung-yi Lee, Yizhou Sun, Wei Wang | (参考訳) 近年の研究では,既存の音声エンコーダは意味情報よりも音響を主成分としている。
その結果,LLMからリッチなセマンティック表現を利用することで,大規模言語モデル(LLM)システムへのパイプライン付き教師付き自動音声認識(ASR)が意味言語タスクの最先端の結果を得ることができた。
これらのシステムはラベル付けされたオーディオの書き起こしのコストがかかるため、入手には費用がかかり、時間がかかります。
ラベル付き音声書き起こしのない自己教師付き音声エンコーダにLLMからの意味情報を組み込むタスク非依存の教師なし手法を提案する。
意味論を導入することで、既存の音声符号化言語理解性能を意図分類で10倍以上改善し、名前付きエンティティの解決とスロットフィリングが適度に向上し、FF1スコアが2倍以上になった。
提案手法は,100時間以上のラベル付き音声書き起こしで学習した教師付き手法と同様の性能を実現し,既存の音声エンコーダに対する教師なし意味拡張の実現可能性を示す。 Recent studies find existing self-supervised speech encoders contain primarily acoustic rather than semantic information. As a result, pipelined supervised automatic speech recognition (ASR) to large language model (LLM) systems achieve state-of-the-art results on semantic spoken language tasks by utilizing rich semantic representations from the LLM. These systems come at the cost of labeled audio transcriptions, which is expensive and time-consuming to obtain. We propose a task-agnostic unsupervised way of incorporating semantic information from LLMs into self-supervised speech encoders without labeled audio transcriptions. By introducing semantics, we improve existing speech encoder spoken language understanding performance by over 10\% on intent classification, with modest gains in named entity resolution and slot filling, and spoken question answering FF1 score by over 2\%. Our unsupervised approach achieves similar performance as supervised methods trained on over 100 hours of labeled audio transcripts, demonstrating the feasibility of unsupervised semantic augmentations to existing speech encoders. | 翻訳日:2022-11-16 14:00:38 公開日:2022-11-15 |
# マルチエージェント強化学習のための説明可能な行動助言 Explainable Action Advising for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.07882v1 ) ライセンス: Link先を確認 | Yue Guo, Joseph Campbell, Simon Stepputtis, Ruiyu Li, Dana Hughes, Fei Fang, Katia Sycara | (参考訳) 行動アドバイスは教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
専門教師は、学生のサンプル効率と政策性能を改善するために、訓練中に生徒にアドバイスを提供する。
このようなアドバイスは一般に状態-作用対の形で与えられる。
しかし、学生が新たな国家を論じて適用することは困難である。
本稿では,教師が行動アドバイスを提示する説明可能な行動助言と,行動が選択された理由を示す説明を紹介する。
これにより、生徒は学習したものを自己反映することができ、アドバイスの一般化が可能になり、教師が最適でない環境でもサンプルの効率と学習性能が向上する。
我々は,本フレームワークが単一エージェントとマルチエージェントの両方のシナリオで有効であることを実証的に示す。 Action advising is a knowledge transfer technique for reinforcement learning based on the teacher-student paradigm. An expert teacher provides advice to a student during training in order to improve the student's sample efficiency and policy performance. Such advice is commonly given in the form of state-action pairs. However, it makes it difficult for the student to reason with and apply to novel states. We introduce Explainable Action Advising, in which the teacher provides action advice as well as associated explanations indicating why the action was chosen. This allows the student to self-reflect on what it has learned, enabling advice generalization and leading to improved sample efficiency and learning performance - even in environments where the teacher is sub-optimal. We empirically show that our framework is effective in both single-agent and multi-agent scenarios, yielding improved policy returns and convergence rates when compared to state-of-the-art methods. | 翻訳日:2022-11-16 13:59:28 公開日:2022-11-15 |
# 逆マスキングによるecgデータの事前トレーニングによるデータキャリアタスクのモデル一般化性の向上 Pretraining ECG Data with Adversarial Masking Improves Model Generalizability for Data-Scarce Tasks ( http://arxiv.org/abs/2211.07889v1 ) ライセンス: Link先を確認 | Jessica Y. Bo, Hen-Wei Huang, Alvin Chan, Giovanni Traverso | (参考訳) 医療データセットは、医療専門家が生成しなければならないため、データ不足の問題に直面することが多い。
緩和戦略の一つは、ssl(self-supervised learning)を使用した、ラベルなしの大きなデータセットでディープラーニングモデルを事前トレーニングすることだ。
データ拡張はSSLでトレーニングされたモデルの一般化性向上に不可欠であるが、通常は手作業で手作業で調整される。
本研究は,12誘導心電図(ECG)データにマスクを付加する対向モデルを用いて,心電図の診断関連領域の排除を学習する。
不整脈分類と性分類の2つの異なる下流目標に移すと、逆向きのマスキングはより正確になる。
最新のECG拡張手法である3KGと比較して,データスカース方式では逆マスキングが優れており,モデルの一般化可能性を示している。 Medical datasets often face the problem of data scarcity, as ground truth labels must be generated by medical professionals. One mitigation strategy is to pretrain deep learning models on large, unlabelled datasets with self-supervised learning (SSL). Data augmentations are essential for improving the generalizability of SSL-trained models, but they are typically handcrafted and tuned manually. We use an adversarial model to generate masks as augmentations for 12-lead electrocardiogram (ECG) data, where masks learn to occlude diagnostically-relevant regions of the ECGs. Compared to random augmentations, adversarial masking reaches better accuracy when transferring to to two diverse downstream objectives: arrhythmia classification and gender classification. Compared to a state-of-art ECG augmentation method 3KG, adversarial masking performs better in data-scarce regimes, demonstrating the generalizability of our model. | 翻訳日:2022-11-16 13:59:13 公開日:2022-11-15 |
# 医療領域における連合学習 -- パイプライン、アプリケーション、課題 Federated Learning for Healthcare Domain -- Pipeline, Applications and Challenges ( http://arxiv.org/abs/2211.07893v1 ) ライセンス: Link先を確認 | Madhura Joshi, Ankit Pal and Malaikannan Sankarasubbu | (参考訳) フェデレート・ラーニング(Federated Learning)とは、病院、臨床実験室、モバイルデバイスなどのデータセンターに分散するデータセット上で機械学習モデルを開発するプロセスである。
本調査は,医療分野におけるフェデレート学習に関するこれまでの研究と研究を,さまざまなユースケースと応用で検討する。
フェデレーション学習のトピックにおいて,実践者が意識すべき課題,方法,応用について調査を行った。
本稿では、既存の研究を概説し、医療産業におけるフェデレーションラーニングの可能性を挙げる。 Federated learning is the process of developing machine learning models over datasets distributed across data centers such as hospitals, clinical research labs, and mobile devices while preventing data leakage. This survey examines previous research and studies on federated learning in the healthcare sector across a range of use cases and applications. Our survey shows what challenges, methods, and applications a practitioner should be aware of in the topic of federated learning. This paper aims to lay out existing research and list the possibilities of federated learning for healthcare industries. | 翻訳日:2022-11-16 13:58:57 公開日:2022-11-15 |
# 学習リワード関数を用いた掘削機の自動評価 Automatic Evaluation of Excavator Operators using Learned Reward Functions ( http://arxiv.org/abs/2211.07941v1 ) ライセンス: Link先を確認 | Pranav Agarwal, Marek Teichmann, Sheldon Andrews, Samira Ebrahimi Kahou | (参考訳) 初心者に異なるスキルを学ぶための掘削機を操作するには、専門教師の存在が必要である。
問題の複雑さを考えると、プロセスが時間がかかり、正確に焦点を合わせる必要があるため、熟練した専門家を見つけるのは比較的コストがかかる。
さらに、人間にはバイアスがかかる傾向があるため、評価プロセスはノイズが多く、同様のスキルを持つ異なるオペレーターの最終的なスコアに高いばらつきをもたらす。
本稿では,これらの課題に対処し,掘削機操作の自動評価のための新しい戦略を提案する。
本研究は, 掘削機の内部動態と, 運転時間毎の安全基準を考慮に入れ, 性能評価を行う。
提案手法をさらに検証するため,このスコア予測モデルを強化学習エージェントの報酬源として,実世界の力学を忠実に再現した模擬環境における掘削機操作の課題を学習する。
これらの外部報酬予測モデルを用いて学習した政策では,タスクベース報酬関数のみを訓練した政策と比較して,要求される動的制約に従えば,より安全なソリューションが示される。
将来の研究のために、私たちはhttps://github.com/pranavAL/InvRL_Auto-Evaluate and video results https://drive.google.com/file/d/1jR1otOAu8zrY8mkhUUZW9jkBOAKK71Z/view?
usp=share_link。 Training novice users to operate an excavator for learning different skills requires the presence of expert teachers. Considering the complexity of the problem, it is comparatively expensive to find skilled experts as the process is time-consuming and requires precise focus. Moreover, since humans tend to be biased, the evaluation process is noisy and will lead to high variance in the final score of different operators with similar skills. In this work, we address these issues and propose a novel strategy for the automatic evaluation of excavator operators. We take into account the internal dynamics of the excavator and the safety criterion at every time step to evaluate the performance. To further validate our approach, we use this score prediction model as a source of reward for a reinforcement learning agent to learn the task of maneuvering an excavator in a simulated environment that closely replicates the real-world dynamics. For a policy learned using these external reward prediction models, our results demonstrate safer solutions following the required dynamic constraints when compared to policy trained with task-based reward functions only, making it one step closer to real-life adoption. For future research, we release our codebase at https://github.com/pranavAL/InvRL_Auto-Evaluate and video results https://drive.google.com/file/d/1jR1otOAu8zrY8mkhUOUZW9jkBOAKK71Z/view?usp=share_link . | 翻訳日:2022-11-16 13:58:49 公開日:2022-11-15 |
# hgv4risk:階層型グローバルビュー誘導シーケンス表現学習によるリスク予測 HGV4Risk: Hierarchical Global View-guided Sequence Representation Learning for Risk Prediction ( http://arxiv.org/abs/2211.07956v1 ) ライセンス: Link先を確認 | Youru Li, Zhenfeng Zhu, Xiaobo Guo, Shaoshuai Li, Yuchen Yang and Yao Zhao | (参考訳) リスク予測は、典型的な時系列モデリング問題として、マーカーの傾向やシーケンスデータからの過去の行動の学習によって達成され、医療や金融に広く適用されている。
近年、ディープラーニングモデル、特にlong short-term memory neural network (lstms) は、これらのシーケンス表現学習タスクにおいて優れた性能をもたらしている。
タイムアウェアや機能アウェアの強化戦略による注意や自己注意に基づくモデルは、他の時間的モデリング手法と比較してパフォーマンスが向上しているにもかかわらず、グローバルな視点からのガイダンスが不足しているため、このような改善は限られている。
この問題に対処するために,HGV(Herarchical Global View-guided)シーケンス表現学習フレームワークを提案する。
具体的には,グローバルグラフ埋め込み(GGE)モジュールをインスタンスレベルで時間相関グラフから逐次的なクリップ認識表現を学習するために提案する。
さらに、キークエリの注意を引いたハーモニックな$\beta$-attention(\beta$-Attn)も、タイムアウェアの減衰とチャネルレベルでの観測重要性のグローバルなトレードオフを適応的に行うために開発された。
さらに、インスタンスレベルとチャネルレベルの両方の階層表現は、グローバルビューのガイダンスの下で異種情報集約によって協調することができる。
医療リスク予測のためのベンチマークデータセットと,MYBank(Ant Group)における小規模・中規模企業(SME)信用過剰リスク予測の現実的産業シナリオに関する実験結果から,提案モデルが他の既知のベースラインと比較して競合予測性能を達成できることが示唆された。 Risk prediction, as a typical time series modeling problem, is usually achieved by learning trends in markers or historical behavior from sequence data, and has been widely applied in healthcare and finance. In recent years, deep learning models, especially Long Short-Term Memory neural networks (LSTMs), have led to superior performances in such sequence representation learning tasks. Despite that some attention or self-attention based models with time-aware or feature-aware enhanced strategies have achieved better performance compared with other temporal modeling methods, such improvement is limited due to a lack of guidance from global view. To address this issue, we propose a novel end-to-end Hierarchical Global View-guided (HGV) sequence representation learning framework. Specifically, the Global Graph Embedding (GGE) module is proposed to learn sequential clip-aware representations from temporal correlation graph at instance level. Furthermore, following the way of key-query attention, the harmonic $\beta$-attention ($\beta$-Attn) is also developed for making a global trade-off between time-aware decay and observation significance at channel level adaptively. Moreover, the hierarchical representations at both instance level and channel level can be coordinated by the heterogeneous information aggregation under the guidance of global view. Experimental results on a benchmark dataset for healthcare risk prediction, and a real-world industrial scenario for Small and Mid-size Enterprises (SMEs) credit overdue risk prediction in MYBank, Ant Group, have illustrated that the proposed model can achieve competitive prediction performance compared with other known baselines. | 翻訳日:2022-11-16 13:58:24 公開日:2022-11-15 |
# ベイズ型ニューラルネットワークの直接損失最小化性能について On the Performance of Direct Loss Minimization for Bayesian Neural Networks ( http://arxiv.org/abs/2211.08393v1 ) ライセンス: Link先を確認 | Yadi Wei, Roni Khardon | (参考訳) 直接損失最小化(DLM)は、正規化損失最小化を動機とする擬ベイズ法として提案されている。
変分推論と比較して、エビデンスローバウンド(ELBO)における損失項を、評価に使用されるのと同じ損失関数である予測ログ損失に置き換える。
先行研究における多くの理論的および実証的な結果は、DLMが一部のモデルのELBO最適化よりも大幅に改善できることを示唆している。
しかし、この論文で指摘されているように、ベイズニューラルネットワーク(bnns)ではそうではない。
本稿では,BNN における DLM の実用性能,その失敗の原因と ELBO の最適化との関係について検討し,両者のアルゴリズムに関する興味深い事実を明らかにした。 Direct Loss Minimization (DLM) has been proposed as a pseudo-Bayesian method motivated as regularized loss minimization. Compared to variational inference, it replaces the loss term in the evidence lower bound (ELBO) with the predictive log loss, which is the same loss function used in evaluation. A number of theoretical and empirical results in prior work suggest that DLM can significantly improve over ELBO optimization for some models. However, as we point out in this paper, this is not the case for Bayesian neural networks (BNNs). The paper explores the practical performance of DLM for BNN, the reasons for its failure and its relationship to optimizing the ELBO, uncovering some interesting facts about both algorithms. | 翻訳日:2022-11-16 13:53:03 公開日:2022-11-15 |
# クリップのクロスドメインフェデレーション適応プロンプトチューニング Cross-domain Federated Adaptive Prompt Tuning for CLIP ( http://arxiv.org/abs/2211.07864v1 ) ライセンス: Link先を確認 | Shangchao Su and Mingzhao Yang and Bin Li and Xiangyang Xue | (参考訳) フェデレートラーニング(FL)は、複数のパーティがデータを開示することなく、協力的にグローバルモデルをトレーニングすることを可能にする。
既存の研究は、訓練手順に参加するために、しばしば全てのモデルパラメータを必要とする。
しかし、強力な事前学習モデルが出現すると、FLの学習可能なパラメータを少なくしてより高い性能を達成することができる。
本稿では,視覚言語による事前学習モデルであるCLIPを用いて,ドメイン間フェデレートされた画像分類シナリオに対するフェデレーション適応型プロンプトチューニングアルゴリズムであるFedAPTを提案する。
直接のフェデレーションプロンプトチューニングと比較して、私たちの核となるアイデアは、各テストサンプルの特定のドメイン知識を適応的にアンロックして、パーソナライズされたプロンプトを提供することです。
このアイデアを実現するために,グローバルプロンプト,適応ネットワーク,いくつかのキーからなる適応型プロンプトチューニングモジュールを設計した。
サーバはランダムにキーのセットを生成し、各クライアントにユニークなキーを割り当てる。
そして、すべてのクライアントがグローバル適応ネットワークとグローバルプロンプトをローカルデータセットと凍結キーで協調的にトレーニングする。
最終的に、グローバルアグリゲーションモデルは、各テストサンプルのドメイン機能に基づいて、パーソナライズされたプロンプトをCLIPに割り当てることができる。
2つの多領域画像分類データセットについて広範な実験を行った。
その結果、FedAPTは、完全に訓練されたモデルのパラメータの10分の1以下でより良いパフォーマンスを達成でき、グローバルモデルは異なるクライアントドメインで同時に性能を向上できることがわかった。 Federated learning (FL) allows multiple parties to collaboratively train a global model without disclosing their data. Existing research often requires all model parameters to participate in the training procedure. However, with the advent of powerful pre-trained models, it becomes possible to achieve higher performance with fewer learnable parameters in FL. In this paper, we propose a federated adaptive prompt tuning algorithm, FedAPT, for cross-domain federated image classification scenarios with the vision-language pre-trained model, CLIP, which gives play to the strong representation ability in FL. Compared with direct federated prompt tuning, our core idea is to adaptively unlock specific domain knowledge for each test sample in order to provide them with personalized prompts. To implement this idea, we design an adaptive prompt tuning module, which consists of a global prompt, an adaptive network, and some keys. The server randomly generates a set of keys and assigns a unique key to each client. Then all clients cooperatively train the global adaptive network and global prompt with the local datasets and the frozen keys. Ultimately, the global aggregation model can assign a personalized prompt to CLIP based on the domain features of each test sample. We perform extensive experiments on two multi-domain image classification datasets. The results show that FedAPT can achieve better performance with less than 10\% of the number of parameters of the fully trained model, and the global model can perform well in different client domains simultaneously. | 翻訳日:2022-11-16 13:52:04 公開日:2022-11-15 |
# 人間の知覚を用いた転帰学習の正規化 Using Human Perception to Regularize Transfer Learning ( http://arxiv.org/abs/2211.07885v1 ) ライセンス: Link先を確認 | Justin Dulay, Walter J. Scheirer | (参考訳) 機械学習コミュニティの最近のトレンドは、人間の知覚計測に忠実なモデルが視覚タスクに強く影響していることを示している。
同様に、人間の行動測定はモデル性能の正則化に使われてきた。
しかし、これから得られた潜在知識を異なる学習目標に移行できるだろうか?
本研究では,モデルにおける心理物理学ラベルの正規化力で伝達学習を改善する手法であるPERCEP-TL(Perceptual Transfer Learning)を紹介する。
我々は、知覚伝達学習によって最も影響を受けるモデルを示し、視覚トランスフォーマーを含む行動的忠実度の高いモデルが、この正規化から最大1.9倍のtop@1精度ポイントを改善できることを見出した。
これらの結果から, 生物学的にインスパイアされた学習エージェントは, 正規化要因や心理物理学的学習表現として人間の行動測定の恩恵を受けることが示唆された。 Recent trends in the machine learning community show that models with fidelity toward human perceptual measurements perform strongly on vision tasks. Likewise, human behavioral measurements have been used to regularize model performance. But can we transfer latent knowledge gained from this across different learning objectives? In this work, we introduce PERCEP-TL (Perceptual Transfer Learning), a methodology for improving transfer learning with the regularization power of psychophysical labels in models. We demonstrate which models are affected the most by perceptual transfer learning and find that models with high behavioral fidelity -- including vision transformers -- improve the most from this regularization by as much as 1.9\% Top@1 accuracy points. These findings suggest that biologically inspired learning agents can benefit from human behavioral measurements as regularizers and psychophysical learned representations can be transferred to independent evaluation tasks. | 翻訳日:2022-11-16 13:51:38 公開日:2022-11-15 |
# 時間的カラー一貫性のための深層学習モデルにおけるサリエンシに基づく説明の忠実度の評価 Evaluating the Faithfulness of Saliency-based Explanations for Deep Learning Models for Temporal Colour Constancy ( http://arxiv.org/abs/2211.07982v1 ) ライセンス: Link先を確認 | Matteo Rizzo, Cristina Conati, Daesik Jang, Hui Hu | (参考訳) ディープラーニングモデルの不透明さは、デバッグと改善を制限する。
ブラックボックスモデルの意思決定プロセスの理解を深める上で、注意力などのサリエンシーに基づく戦略による深層モデルの拡張が有効であると主張されている。
しかし、近年のいくつかの研究は、自然言語処理(NLP)分野におけるサリエンシの忠実さに異議を唱え、モデルの真の意思決定プロセスへの注意重みの固執を疑問視している。
本議論は,映像処理タスクに適用されるモデル内サリエンシーの忠実性,すなわち時間的色彩コンテンシを初めて評価することによる。
対象とする課題に適応して評価を行い,最近のNLP文献からの忠実度を2つのテストで評価する。
注意が忠実さを達成できない一方で、特定のモデル内視覚的サリエンシである信頼が成功することを示す。 The opacity of deep learning models constrains their debugging and improvement. Augmenting deep models with saliency-based strategies, such as attention, has been claimed to help get a better understanding of the decision-making process of black-box models. However, some recent works challenged saliency's faithfulness in the field of Natural Language Processing (NLP), questioning attention weights' adherence to the true decision-making process of the model. We add to this discussion by evaluating the faithfulness of in-model saliency applied to a video processing task for the first time, namely, temporal colour constancy. We perform the evaluation by adapting to our target task two tests for faithfulness from recent NLP literature, whose methodology we refine as part of our contributions. We show that attention fails to achieve faithfulness, while confidence, a particular type of in-model visual saliency, succeeds. | 翻訳日:2022-11-16 13:51:23 公開日:2022-11-15 |
# MORA:モデル修正攻撃によるアンサンブルロバストネス評価の改善 MORA: Improving Ensemble Robustness Evaluation with Model-Reweighing Attack ( http://arxiv.org/abs/2211.08008v1 ) ライセンス: Link先を確認 | Yunrui Yu, Xitong Gao, Cheng-Zhong Xu | (参考訳) 敵攻撃は、入力データに小さな摂動を加えることで、ニューラルネットワークを騙すことができる。
サブモデル間の攻撃伝達性を最小化するために訓練されたアンサンブル防御は、自然入力に対する高い精度を維持しつつ、このような攻撃に対する堅牢性を改善するための有望な研究方向を提供する。
しかし,近年のSOTA(State-of-the-art)攻撃戦略では,アンサンブル防御を確実に評価することができず,その頑健さを著しく過大評価できることがわかった。
本稿では,この行動に寄与する2つの要因について述べる。
まず、これらの防御は、勾配難読化のため、既存の勾配ベースの攻撃方法では特に難しいアンサンブルを形成する。
第二に、アンサンブルディフェンスはサブモデル勾配を多様化させ、全てのサブモデルを同時に打ち破ることの難しさを示し、単純にそれらの貢献が全体的な攻撃目標に反する可能性がある。
そこで我々は,サブモデル勾配の重要性を再考することにより,モデル修正攻撃であるMORAを導入する。
MORAは、最近のアンサンブルディフェンスは全て、過度に見積もられたロバスト性を示す。
最近のSOTAのホワイトボックス攻撃と比較すると、3つの異なるアンサンブルモード(ソフトマックス、投票またはロジットによるアンサンブル)で検査されたすべてのアンサンブルモデルに対して高い攻撃成功率を達成する一方で、桁違いに早く収束することができる。
特に、ほとんどのアンサンブル防御は、CIFAR-10では0.02ドル、CIFAR-100では0.01ドル、MORAに対して約0%の堅牢性を示す。
我々はMORAを再現可能な結果と事前訓練されたモデルでオープンソース化し、様々な攻撃戦略の下でのアンサンブル防御のリーダーボードを提供する。 Adversarial attacks can deceive neural networks by adding tiny perturbations to their input data. Ensemble defenses, which are trained to minimize attack transferability among sub-models, offer a promising research direction to improve robustness against such attacks while maintaining a high accuracy on natural inputs. We discover, however, that recent state-of-the-art (SOTA) adversarial attack strategies cannot reliably evaluate ensemble defenses, sizeably overestimating their robustness. This paper identifies the two factors that contribute to this behavior. First, these defenses form ensembles that are notably difficult for existing gradient-based method to attack, due to gradient obfuscation. Second, ensemble defenses diversify sub-model gradients, presenting a challenge to defeat all sub-models simultaneously, simply summing their contributions may counteract the overall attack objective; yet, we observe that ensemble may still be fooled despite most sub-models being correct. We therefore introduce MORA, a model-reweighing attack to steer adversarial example synthesis by reweighing the importance of sub-model gradients. MORA finds that recent ensemble defenses all exhibit varying degrees of overestimated robustness. Comparing it against recent SOTA white-box attacks, it can converge orders of magnitude faster while achieving higher attack success rates across all ensemble models examined with three different ensemble modes (i.e., ensembling by either softmax, voting or logits). In particular, most ensemble defenses exhibit near or exactly 0% robustness against MORA with $\ell^\infty$ perturbation within 0.02 on CIFAR-10, and 0.01 on CIFAR-100. We make MORA open source with reproducible results and pre-trained models; and provide a leaderboard of ensemble defenses under various attack strategies. | 翻訳日:2022-11-16 13:51:04 公開日:2022-11-15 |
# Scene-to-Patch Earth Observation: 土地被覆分類のための複数事例学習 Scene-to-Patch Earth Observation: Multiple Instance Learning for Land Cover Classification ( http://arxiv.org/abs/2211.08247v1 ) ライセンス: Link先を確認 | Joseph Early, Ying-Jung Deweese, Christine Evers, Sarvapali Ramchurn | (参考訳) 土地被覆分類(Land Cover Classification、LCC)は、気候変動の緩和と適応において重要なプロセスである。
LCCのための地球観測データと機械学習を使用する既存のアプローチは、完全に注釈付きおよびセグメント化されたデータセットに依存している。
これらのデータセットの作成には多大な労力が必要であり、適切なデータセットの欠如がLCCの使用拡大の障害となっている。
本研究では,高レベルなシーンラベルのみを必要とする複数インスタンス学習(mil)を利用したlccアプローチを提案する。
これにより、パッチレベルの予測を通じてセグメンテーションを提供しながら、新たなデータセットの開発がより高速になり、最終的に異なるシナリオでLCCを使用することのアクセシビリティが向上する。
DeepGlobe-LCCデータセットでは、シーンレベルの予測とパッチレベルの予測の両方において、MIL以外のベースラインよりも優れている。
この研究は、技術、政府、学界の気候変動緩和手法におけるLCCの利用を拡大するための基盤を提供する。 Land cover classification (LCC), and monitoring how land use changes over time, is an important process in climate change mitigation and adaptation. Existing approaches that use machine learning with Earth observation data for LCC rely on fully-annotated and segmented datasets. Creating these datasets requires a large amount of effort, and a lack of suitable datasets has become an obstacle in scaling the use of LCC. In this study, we propose Scene-to-Patch models: an alternative LCC approach utilising Multiple Instance Learning (MIL) that requires only high-level scene labels. This enables much faster development of new datasets whilst still providing segmentation through patch-level predictions, ultimately increasing the accessibility of using LCC for different scenarios. On the DeepGlobe-LCC dataset, our approach outperforms non-MIL baselines on both scene- and patch-level prediction. This work provides the foundation for expanding the use of LCC in climate change mitigation methods for technology, government, and academia. | 翻訳日:2022-11-16 13:50:30 公開日:2022-11-15 |
# メカニスティックモード接続性 Mechanistic Mode Connectivity ( http://arxiv.org/abs/2211.08422v1 ) ライセンス: Link先を確認 | Ekdeep Singh Lubana, Eric J. Bigelow, Robert P. Dick, David Krueger, Hidenori Tanaka | (参考訳) ニューラルネットワークは、$spurious\, attribute$を識別する学習メカニズムに偏っていることが知られており、分散シフト下ではうまく一般化しない機能が得られる。
この制限を理解し、対処するために、$mode\, connection$のレンズを通して、ニューラルネットワークの最小化が損失の少ない単純な経路を介して接続されているという観察を通して、ニューラルネットワークの損失ランドスケープの幾何学について研究する。
私たちの仕事は2つの疑問に答えます
i) 相似機構を符号化する最小化器は、損失の少ない単純な経路を介して接続されるか?
(ii)事前学習モデルの微調整は、そのような最小化間の切り替えに役立つか?
我々は、$\textit{mechanistic similarity}$の概念を定義し、2つの最小値間の線形接続の欠如は、対応するモデルが予測を行うために異なるメカニズムを使用することを意味する。
この性質は、na$\ "{i}$ve fine-tuning がモデルがスプリアス属性に依存することを排除できないことを示すのに役立つ。
そこで本研究では,モデルのメカニズムを変化させる手法である$connectivity$-$based$$fine$-$tuning$を提案する。 Neural networks are known to be biased towards learning mechanisms that help identify $spurious\, attributes$, yielding features that do not generalize well under distribution shifts. To understand and address this limitation, we study the geometry of neural network loss landscapes through the lens of $mode\, connectivity$, the observation that minimizers of neural networks are connected via simple paths of low loss. Our work addresses two questions: (i) do minimizers that encode dissimilar mechanisms connect via simple paths of low loss? (ii) can fine-tuning a pretrained model help switch between such minimizers? We define a notion of $\textit{mechanistic similarity}$ and demonstrate that lack of linear connectivity between two minimizers implies the corresponding models use dissimilar mechanisms for making their predictions. This property helps us demonstrate that na$\"{i}$ve fine-tuning can fail to eliminate a model's reliance on spurious attributes. We thus propose a method for altering a model's mechanisms, named $connectivity$-$based$ $fine$-$tuning$, and validate its usefulness by inducing models invariant to spurious attributes. | 翻訳日:2022-11-16 13:50:15 公開日:2022-11-15 |
# HeatViT:視覚変換器のためのハードウェア効率の良い適応型トーケンプルーニング HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision Transformers ( http://arxiv.org/abs/2211.08110v1 ) ライセンス: Link先を確認 | Peiyan Dong, Mengshu Sun, Alec Lu, Yanyue Xie, Kenneth Liu, Zhenglun Kong, Xin Meng, Zhengang Li, Xue Lin, Zhenman Fang, Yanzhi Wang | (参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で新たなマイルストーンを継続的に達成してきたが、高い計算とメモリコストを持つ高度なネットワークアーキテクチャは、リソース制限されたエッジデバイスへのデプロイメントを妨げている。
本稿では,組込みfpga上での効率良く高精度なvit加速を実現するため,ハードウェア効率のよい画像適応トークンプルーニングフレームワークheatvitを提案する。
vitsの固有計算パターンを解析することにより,まず,入力画像から非入力トークンを動的に識別・統合するために,変圧器ブロックの前に段階的に挿入可能な,注意に基づく効果的なマルチヘッドトークンセレクタを設計する。
さらに,backbone vit用に構築された既存のハードウェアコンポーネントを再利用するために,ミニチュア制御ロジックを追加することで,ハードウェア上でトークンセレクタを実装する。
ハードウェア効率を向上させるため,8ビットの不動点量子化を行い,vitsで頻繁に使用される非線形関数の量子化誤差に正則化効果を持つ多項式近似を提案する。
最後に,トークンセレクタを挿入するための変圧器ブロックを決定し,挿入トークンセレクタの所望(平均)プルーニングレートを最適化し,ハードウェア上でのモデル精度と推論遅延を改善するための遅延対応マルチステージトレーニング戦略を提案する。
既存のViTプルーニングと比較すると、同様の計算コストでHeatViTは0.7%$\sim$8.9%の精度を達成できるが、同様のモデル精度では、ImageNetデータセット上でDeiT-T、DeiT-S、DeiT-B、LV-ViT-S、LV-ViT-Mを含む様々な広く使われているViTに対して28.4%$\sim$65.3%以上の計算削減を達成できる。
ベースラインハードウェアアクセラレータと比較して、Xilinx ZCU102 FPGA上のHeatViTの実装は、3.46$\times$$\sim$4.89$\times$ Speedupを実現しています。 While vision transformers (ViTs) have continuously achieved new milestones in the field of computer vision, their sophisticated network architectures with high computation and memory costs have impeded their deployment on resource-limited edge devices. In this paper, we propose a hardware-efficient image-adaptive token pruning framework called HeatViT for efficient yet accurate ViT acceleration on embedded FPGAs. By analyzing the inherent computational patterns in ViTs, we first design an effective attention-based multi-head token selector, which can be progressively inserted before transformer blocks to dynamically identify and consolidate the non-informative tokens from input images. Moreover, we implement the token selector on hardware by adding miniature control logic to heavily reuse existing hardware components built for the backbone ViT. To improve the hardware efficiency, we further employ 8-bit fixed-point quantization, and propose polynomial approximations with regularization effect on quantization error for the frequently used nonlinear functions in ViTs. Finally, we propose a latency-aware multi-stage training strategy to determine the transformer blocks for inserting token selectors and optimize the desired (average) pruning rates for inserted token selectors, in order to improve both the model accuracy and inference latency on hardware. Compared to existing ViT pruning studies, under the similar computation cost, HeatViT can achieve 0.7%$\sim$8.9% higher accuracy; while under the similar model accuracy, HeatViT can achieve more than 28.4%$\sim$65.3% computation reduction, for various widely used ViTs, including DeiT-T, DeiT-S, DeiT-B, LV-ViT-S, and LV-ViT-M, on the ImageNet dataset. Compared to the baseline hardware accelerator, our implementations of HeatViT on the Xilinx ZCU102 FPGA achieve 3.46$\times$$\sim$4.89$\times$ speedup. | 翻訳日:2022-11-16 13:49:53 公開日:2022-11-15 |
# 適応行動規則化によるオフライン強化学習 Offline Reinforcement Learning with Adaptive Behavior Regularization ( http://arxiv.org/abs/2211.08251v1 ) ライセンス: Link先を確認 | Yunfan Zhou, Xijun Li, and Qingyu Qu | (参考訳) オフライン強化学習(rl)はサンプル効率のよい学習パラダイムを定義している。
オフラインRLの主な障害は、アウト・オブ・ディストリビューション・アクションの値から生じる推定誤差である。
この問題に対処するため、既存のオフラインRLメソッドのほとんどは、データセットに含まれる振る舞いに ‘`close' の両方のポリシーを取得し、それよりも十分に改善し、競合する可能性のある2つのターゲット間のトレードオフを必要とする。
本稿では、この重要なトレードオフのバランスをとるために、適応行動正規化(ABR)と呼ばれる新しいアプローチを提案する。
サンプルベースの正規化を単純に利用することで、abrはデータセット生成に使用するポリシーのクローン化と改善の間の最適化目標を適応的に調整することができる。
オフライン強化学習のための広く採用されているベンチマークであるD4RLデータセットの評価において、ABRは既存の最先端アルゴリズムと比較して改善または競争的な性能を達成することができる。 Offline reinforcement learning (RL) defines a sample-efficient learning paradigm, where a policy is learned from static and previously collected datasets without additional interaction with the environment. The major obstacle to offline RL is the estimation error arising from evaluating the value of out-of-distribution actions. To tackle this problem, most existing offline RL methods attempt to acquire a policy both ``close" to the behaviors contained in the dataset and sufficiently improved over them, which requires a trade-off between two possibly conflicting targets. In this paper, we propose a novel approach, which we refer to as adaptive behavior regularization (ABR), to balance this critical trade-off. By simply utilizing a sample-based regularization, ABR enables the policy to adaptively adjust its optimization objective between cloning and improving over the policy used to generate the dataset. In the evaluation on D4RL datasets, a widely adopted benchmark for offline reinforcement learning, ABR can achieve improved or competitive performance compared to existing state-of-the-art algorithms. | 翻訳日:2022-11-16 13:42:51 公開日:2022-11-15 |
# 自動車におけるCO2排出予測のための機械学習とディープラーニング技術の比較検討 A Comparative Study of Machine Learning and Deep Learning Techniques for Prediction of Co2 Emission in Cars ( http://arxiv.org/abs/2211.08268v1 ) ライセンス: Link先を確認 | Samveg Shah, Shubham Thakar, Kashish Jain, Bhavya Shah, Sudhir Dhage | (参考訳) 地球上のすべての人々の最も最近の関心事は、大気中の温室効果ガス濃度の増加である。
これらのガスの濃度は過去1世紀で急速に上昇しており、この傾向が続くと、多くの悪質な気候変化を引き起こす可能性がある。
温室効果ガスである高濃度のco2を排出するプロセスを制限することで、政府によってこれを抑止する方法が実行されてきた。
しかし、政府が供給するCO2番号は、道路上での自動車の性能を正確に反映していないという証拠がいくつかある。
先進的なプロセスを改善するために人工知能技術を使うという提案は急進的だが、その状況を考えると、この法案に合致する。
どのアルゴリズムとモデルが最も良い結果をもたらすかを決定するために、それらを全て比較し、それらを組み立てる新しい方法を模索した。
さらに、これは世界温度の上昇を予見し、電気自動車の導入のような重要な政策決定を下すためにも使用できる。
車両からの排出量を見積もるために、大量のデータセットで機械学習、ディープラーニング、アンサンブル学習を使いました。 The most recent concern of all people on Earth is the increase in the concentration of greenhouse gas in the atmosphere. The concentration of these gases has risen rapidly over the last century and if the trend continues it can cause many adverse climatic changes. There have been ways implemented to curb this by the government by limiting processes that emit a higher amount of CO2, one such greenhouse gas. However, there is mounting evidence that the CO2 numbers supplied by the government do not accurately reflect the performance of automobiles on the road. Our proposal of using artificial intelligence techniques to improve a previously rudimentary process takes a radical tack, but it fits the bill given the situation. To determine which algorithms and models produce the greatest outcomes, we compared them all and explored a novel method of ensembling them. Further, this can be used to foretell the rise in global temperature and to ground crucial policy decisions like the adoption of electric vehicles. To estimate emissions from vehicles, we used machine learning, deep learning, and ensemble learning on a massive dataset. | 翻訳日:2022-11-16 13:42:33 公開日:2022-11-15 |
# 同型自己監督型学習 Homomorphic Self-Supervised Learning ( http://arxiv.org/abs/2211.08282v1 ) ライセンス: Link先を確認 | T. Anderson Keller, Xavier Suau, Luca Zappella | (参考訳) 本研究では,同変表現のレンズを通して,既存の自己教師付き学習アルゴリズムの多くを統一・一般化できることを示す。
具体的には,同型自己監督学習(homomorphic Self-Supervised Learning)と呼ぶ一般的なフレームワークを導入し,拡張同型特徴抽出器として入力強化の利用を仮定する方法を理論的に示す。
本理論は, 単純な拡張のために実験的に検証し, 表現構造が取り除かれた場合, フレームワークがいかに失敗するかを実証し, 従来の拡張型自己教師型学習とどのように関係するかを実験的に検討する。
結論として,この新しい視点による自己監督学習のメリットについて考察した。 In this work, we observe that many existing self-supervised learning algorithms can be both unified and generalized when seen through the lens of equivariant representations. Specifically, we introduce a general framework we call Homomorphic Self-Supervised Learning, and theoretically show how it may subsume the use of input-augmentations provided an augmentation-homomorphic feature extractor. We validate this theory experimentally for simple augmentations, demonstrate how the framework fails when representational structure is removed, and further empirically explore how the parameters of this framework relate to those of traditional augmentation-based self-supervised learning. We conclude with a discussion of the potential benefits afforded by this new perspective on self-supervised learning. | 翻訳日:2022-11-16 13:42:16 公開日:2022-11-15 |
# ラベルノイズがフェデレーション学習に及ぼす影響の定量化 Quantifying the Impact of Label Noise on Federated Learning ( http://arxiv.org/abs/2211.07816v1 ) ライセンス: Link先を確認 | Shuqi Ke, Chao Huang, Xin Liu | (参考訳) Federated Learning(FL)は、クライアントがプライバシーを維持しながら、ローカル(ヒューマン生成)データセットを使用してモデルを協調的にトレーニングする分散機械学習パラダイムである。
既存の研究では、クライアント間のデータ不均一性に取り組むためのFLアルゴリズムの開発に焦点が当てられているが、FLにおけるデータ品質(ラベルノイズなど)の重要な問題は見過ごされている。
本稿では,FLにおけるラベルノイズの影響を定量的に検討することにより,このギャップを埋めることを目的とする。
理論的には、クライアントのラベルノイズレベルにおいて線形な一般化誤差の上限を導出する。
経験的に、様々なFLアルゴリズムを用いて、MNISTとCIFAR-10データセットの実験を行う。
ノイズレベルが増加するにつれて,大域モデル精度は線形に減少し,理論解析と一致することを示した。
さらに,ラベルノイズがflトレーニングの収束を遅くし,ノイズレベルが高い場合にはグローバルモデルが過剰に適合する傾向がみられた。 Federated Learning (FL) is a distributed machine learning paradigm where clients collaboratively train a model using their local (human-generated) datasets while preserving privacy. While existing studies focus on FL algorithm development to tackle data heterogeneity across clients, the important issue of data quality (e.g., label noise) in FL is overlooked. This paper aims to fill this gap by providing a quantitative study on the impact of label noise on FL. Theoretically speaking, we derive an upper bound for the generalization error that is linear in the clients' label noise level. Empirically speaking, we conduct experiments on MNIST and CIFAR-10 datasets using various FL algorithms. We show that the global model accuracy linearly decreases as the noise level increases, which is consistent with our theoretical analysis. We further find that label noise slows down the convergence of FL training, and the global model tends to overfit when the noise level is high. | 翻訳日:2022-11-16 13:41:38 公開日:2022-11-15 |
# 対向衝突に頑健なマルチプレイヤーバンディット Multi-Player Bandits Robust to Adversarial Collisions ( http://arxiv.org/abs/2211.07817v1 ) ライセンス: Link先を確認 | Shivakumar Mahesh, Anshuka Rangi, Haifeng Xu and Long Tran-Thanh | (参考訳) 認知ラジオに触発された確率的マルチプレイヤーマルチアーマッドバンドは近年広く研究されている。
この設定では、各プレイヤーは腕を引っ張り、衝突がなければ腕に対応する報酬、すなわち1人のプレイヤーによって選択された腕を受け取る。
プレイヤーは、衝突した場合は報酬を受け取らない。
本稿では、協力者(または守備者)が故意に協力して報酬を最大化することを妨げる悪意あるプレイヤー(または攻撃者)の存在を考察する。
我々は,攻撃者からの衝突回数が増加するにつれて,その性能が$\tilde{O}(C)$として優雅に低下するディフェンダーに対して,最初の分散型で堅牢なアルゴリズムRESYNCを提供する。
このアルゴリズムは、$\omega(c)$ でスケールする下限を証明し、オーダー最適であることを示す。
このアルゴリズムは攻撃者が使用するアルゴリズムに非依存であり、攻撃者が直面する衝突の数に非依存である。 Motivated by cognitive radios, stochastic Multi-Player Multi-Armed Bandits has been extensively studied in recent years. In this setting, each player pulls an arm, and receives a reward corresponding to the arm if there is no collision, namely the arm was selected by one single player. Otherwise, the player receives no reward if collision occurs. In this paper, we consider the presence of malicious players (or attackers) who obstruct the cooperative players (or defenders) from maximizing their rewards, by deliberately colliding with them. We provide the first decentralized and robust algorithm RESYNC for defenders whose performance deteriorates gracefully as $\tilde{O}(C)$ as the number of collisions $C$ from the attackers increases. We show that this algorithm is order-optimal by proving a lower bound which scales as $\Omega(C)$. This algorithm is agnostic to the algorithm used by the attackers and agnostic to the number of collisions $C$ faced from attackers. | 翻訳日:2022-11-16 13:41:24 公開日:2022-11-15 |
# テンポラルネットワークのための適応埋め込み Adaptive Embedding for Temporal Network ( http://arxiv.org/abs/2211.07866v1 ) ライセンス: Link先を確認 | Haoran Zhang and Junhui Wang | (参考訳) オンラインソーシャルプラットフォームとeコマースの台頭により、一時的ネットワークはユビキタスになったが、主に文献で調査されている。
本稿では,適応型ネットワークマージ,テンソル分解,点過程の強みを利用した時間的ネットワーク解析のための統計フレームワークを提案する。
初期推定は等間隔時間間隔に基づいており、最終推定は適応的マージ時間間隔に基づいて行われる二段階埋め込み法とポアソン点法に基づく正則化最大度推定法が開発されている。
各イテレーションにおけるテンソル推定誤差の上限が確立された場合、推定を容易にするために投影勾配降下アルゴリズムが提案されている。
解析により,提案手法により,テンソル推定誤差が大幅に低減されることを示した。
広範な数値実験もこの現象を検証し、他の競合相手よりも有利である。
提案手法は、予測精度が増大するだけでなく、適応的にマージされた区間が明確な解釈につながる、軍国間紛争データセットを解析するためにも用いられる。 Temporal network has become ubiquitous with the rise of online social platform and e-commerce, but largely under investigated in literature. In this paper, we propose a statistical framework for temporal network analysis, leveraging strengths of adaptive network merging, tensor decomposition and point process. A two-step embedding procedure and a regularized maximum likelihood estimate based on Poisson point process is developed, where the initial estimate is based on equal spaced time intervals while the final estimate on the adaptively merging time intervals. A projected gradient descent algorithm is proposed to facilitate estimation, where the upper bound of the tensor estimation error in each iteration is established. Through analysis, it is shown that the tensor estimation error is significantly reduced by the proposed method. Extensive numerical experiments also validate this phenomenon, as well as its advantage over other existing competitors. The proposed method is also applied to analyze a militarized interstate dispute dataset, where not only the prediction accuracy increases, but the adaptively merged intervals also lead to clear interpretation. | 翻訳日:2022-11-16 13:41:07 公開日:2022-11-15 |
# MMD-B-Fair:統計的テストによる公正表現の学習 MMD-B-Fair: Learning Fair Representations with Statistical Testing ( http://arxiv.org/abs/2211.07907v1 ) ライセンス: Link先を確認 | Namrata Deka and Danica J. Sutherland | (参考訳) 本稿では,カーネル2サンプルテストによるデータの公平な表現を学習するためのMDD-B-Fairを提案する。
最大平均誤差(MMD)テストでは、ターゲットに関する情報を保存しながら、機密属性の異なる値を区別できないという、データのニューラルな特徴を見つけます。
mmdテストのパワーを最小化することは、テストしきい値の複雑な振る舞いを単純に無視できないため、(以前の作業のように)最大化するよりも難しい。
本手法は, ブロックテスト方式の単純な漸近を利用して, 複雑な対角最適化や生成的モデリング方式を必要とせずに, 公正表現を効率的に見つける。
提案手法を各種データセット上で評価し,機密属性に関する情報を"隠蔽"する能力と下流転送タスクにおける有効性を示す。 We introduce a method, MMD-B-Fair, to learn fair representations of data via kernel two-sample testing. We find neural features of our data where a maximum mean discrepancy (MMD) test cannot distinguish between different values of sensitive attributes, while preserving information about the target. Minimizing the power of an MMD test is more difficult than maximizing it (as done in previous work), because the test threshold's complex behavior cannot be simply ignored. Our method exploits the simple asymptotics of block testing schemes to efficiently find fair representations without requiring the complex adversarial optimization or generative modelling schemes widely used by existing work on fair representation learning. We evaluate our approach on various datasets, showing its ability to "hide" information about sensitive attributes, and its effectiveness in downstream transfer tasks. | 翻訳日:2022-11-16 13:40:50 公開日:2022-11-15 |
# 確率的マルチアームバンドにおける罰則について On Penalization in Stochastic Multi-armed Bandits ( http://arxiv.org/abs/2211.08311v1 ) ライセンス: Link先を確認 | Guanhua Fang, Ping Li, Gennady Samorodnitsky | (参考訳) 本稿では,確率的マルチアーム・バンディット(MAB)問題の重要な変種について考察する。
累積的な報酬を直接最大化する代わりに、総報酬と公平度の間でバランスをとる必要があります。
本稿では,厳格に罰せられた後悔を適切に定義し,より洗練された後悔分析を可能にする,刑罰制度におけるMABの新たな洞察と問題を定式化する。
このような枠組みの下で, 漸近的公平性, ほぼ最適の後悔, 報酬と公平性の間のより良いトレードオフなど多くのメリットを享受する, 強固なucbライクなアルゴリズムを提案する。
gap-dependent と gap-independent regret bounds が確立されている。
理論的分析の健全性を説明するために、複数の洞察に富んだコメントが与えられる。
多くの実験結果が理論を裏付け、既存の方法よりも優れた方法を示している。 We study an important variant of the stochastic multi-armed bandit (MAB) problem, which takes penalization into consideration. Instead of directly maximizing cumulative expected reward, we need to balance between the total reward and fairness level. In this paper, we present some new insights in MAB and formulate the problem in the penalization framework, where rigorous penalized regret can be well defined and more sophisticated regret analysis is possible. Under such a framework, we propose a hard-threshold UCB-like algorithm, which enjoys many merits including asymptotic fairness, nearly optimal regret, better tradeoff between reward and fairness. Both gap-dependent and gap-independent regret bounds have been established. Multiple insightful comments are given to illustrate the soundness of our theoretical analysis. Numerous experimental results corroborate the theory and show the superiority of our method over other existing methods. | 翻訳日:2022-11-16 13:40:35 公開日:2022-11-15 |
# 補助入力によるエージェント状態構築 Agent-State Construction with Auxiliary Inputs ( http://arxiv.org/abs/2211.07805v1 ) ライセンス: Link先を確認 | Ruo Yu Tao, Adam White, Marlos C. Machado | (参考訳) 多くの場合、すべての現実的な意思決定タスクではないとしても、意思決定エージェントは世界の複雑さを完全にモデル化することはできない。
環境はしばしばエージェントよりも大きく複雑であり、部分的可観測性とも呼ばれる。
このような設定では、エージェントは現在の感覚入力だけでなく、これまでの世界との相互作用を要約するエージェント状態を構築する必要がある。
現在、この問題に取り組むための一般的なアプローチは、エージェントの感覚ストリームからリカレントネットワークを介してエージェントの状態関数を入力として学習することである。
多くの印象的な強化学習アプリケーションは、エージェントの入力を履歴要約に役立てるために、環境特有の機能に依存している。
これらの拡張は、観測を連結するといった単純なアプローチから、不確実性推定のようなより複雑なアプローチまで、複数の方法で行われる。
この分野ではユビキタスだが、補助入力と呼ばれるこれらの追加入力はほとんど強調されず、それらの役割や影響は明らかではない。
この研究で、我々はこのアイデアをさらに探求し、これらの補助的なインプットを、状態構築に対する以前の古典的アプローチに関連付ける。
本稿では,補助入力を用いた強化学習の方法を示す一連の例を示す。
これらの補助的な入力は、他の方法ではエイリアスされるであろう観測を区別するために使用することができ、異なる状態間でスムーズに補間するより表現力のある特徴をもたらす。
最後に,このアプローチは,繰り返しニューラルネットワークや時間経過によるバックプロパゲーションといった最先端の手法を補完するものであり,時間的クレジット割り当ての長期化を促進するヒューリスティックとして機能し,パフォーマンスの向上につながることを示す。 In many, if not every realistic sequential decision-making task, the decision-making agent is not able to model the full complexity of the world. The environment is often much larger and more complex than the agent, a setting also known as partial observability. In such settings, the agent must leverage more than just the current sensory inputs; it must construct an agent state that summarizes previous interactions with the world. Currently, a popular approach for tackling this problem is to learn the agent-state function via a recurrent network from the agent's sensory stream as input. Many impressive reinforcement learning applications have instead relied on environment-specific functions to aid the agent's inputs for history summarization. These augmentations are done in multiple ways, from simple approaches like concatenating observations to more complex ones such as uncertainty estimates. Although ubiquitous in the field, these additional inputs, which we term auxiliary inputs, are rarely emphasized, and it is not clear what their role or impact is. In this work we explore this idea further, and relate these auxiliary inputs to prior classic approaches to state construction. We present a series of examples illustrating the different ways of using auxiliary inputs for reinforcement learning. We show that these auxiliary inputs can be used to discriminate between observations that would otherwise be aliased, leading to more expressive features that smoothly interpolate between different states. Finally, we show that this approach is complementary to state-of-the-art methods such as recurrent neural networks and truncated back-propagation through time, and acts as a heuristic that facilitates longer temporal credit assignment, leading to better performance. | 翻訳日:2022-11-16 13:33:40 公開日:2022-11-15 |
# 一般的な知性は探索を再考する必要がある General Intelligence Requires Rethinking Exploration ( http://arxiv.org/abs/2211.07819v1 ) ライセンス: Link先を確認 | Minqi Jiang, Tim Rockt\"aschel, Edward Grefenstette | (参考訳) 我々は、人工知能(AI)研究の中心的な焦点として、「データから学ぶこと」から「学ぶべきデータを学ぶこと」へ移行しようとしている。
一階学習問題は完全には解決されていないが、トランスフォーマーのような統一アーキテクチャの下での大規模モデルでは、学習ボトルネックが、モデルを効果的にトレーニングする方法から、タスク関連データを効果的に取得し、使用する方法にシフトしている。
この問題は、私たちが探索と呼ぶもので、現実世界のようなオープンエンドの領域で学ぶ普遍的な側面です。
aiによる探索の研究は強化学習の分野に限られているが、教師付き学習を含むすべての学習システムにとって探索は不可欠であると主張する。
本研究では,教師付き学習と強化学習の間の探索駆動学習を概念的に統一するための一般化探索の問題を提案し,学習環境とオープン研究課題の共通点を強調する。
重要なことに、一般化された探索は、新しい問題の発見と解決を継続的に学習するオープンエンドの学習プロセスを維持するために必要な目的であり、より一般的な知性への有望な道を提供する。 We are at the cusp of a transition from "learning from data" to "learning what data to learn from" as a central focus of artificial intelligence (AI) research. While the first-order learning problem is not completely solved, large models under unified architectures, such as transformers, have shifted the learning bottleneck from how to effectively train our models to how to effectively acquire and use task-relevant data. This problem, which we frame as exploration, is a universal aspect of learning in open-ended domains, such as the real world. Although the study of exploration in AI is largely limited to the field of reinforcement learning, we argue that exploration is essential to all learning systems, including supervised learning. We propose the problem of generalized exploration to conceptually unify exploration-driven learning between supervised learning and reinforcement learning, allowing us to highlight key similarities across learning settings and open research challenges. Importantly, generalized exploration serves as a necessary objective for maintaining open-ended learning processes, which in continually learning to discover and solve new problems, provides a promising path to more general intelligence. | 翻訳日:2022-11-16 13:33:14 公開日:2022-11-15 |
# リーンデータサイエンティスト: データボトルネック克服に向けた最近の進歩 The Lean Data Scientist: Recent Advances towards Overcoming the Data Bottleneck ( http://arxiv.org/abs/2211.07959v1 ) ライセンス: Link先を確認 | Chen Shani, Jonathan Zarecki, Dafna Shahaf | (参考訳) 機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。
最近のアルゴリズム(特にディープ・ネットワーク)は、トレーニングのために大規模なデータセットを必要とするようになってきている。
したがって、今日のMLにおける支配的なパラダイムは、大きなタスク固有のデータセットを構築することである。
しかし、このような規模の品質データセットを得ることは難しい課題である。
このデータボトルネック問題に対処する様々な手法が提案されているが、それらは様々な領域に分散しており、実践者が最新の開発に追随するのは困難である。
本稿では,これらの手法の分類法を提案する。
目的は,(1)すでに存在する手法に対するコミュニティの意識を高め,資源のより効率的な利用を促進すること,(2)このような分類が問題理解に寄与し,新たなアイデアや戦略を刺激し,現在のアノテーションに重きを置くアプローチを置き換えることを願っている。 Machine learning (ML) is revolutionizing the world, affecting almost every field of science and industry. Recent algorithms (in particular, deep networks) are increasingly data-hungry, requiring large datasets for training. Thus, the dominant paradigm in ML today involves constructing large, task-specific datasets. However, obtaining quality datasets of such magnitude proves to be a difficult challenge. A variety of methods have been proposed to address this data bottleneck problem, but they are scattered across different areas, and it is hard for a practitioner to keep up with the latest developments. In this work, we propose a taxonomy of these methods. Our goal is twofold: (1) We wish to raise the community's awareness of the methods that already exist and encourage more efficient use of resources, and (2) we hope that such a taxonomy will contribute to our understanding of the problem, inspiring novel ideas and strategies to replace current annotation-heavy approaches. | 翻訳日:2022-11-16 13:32:53 公開日:2022-11-15 |
# オフラインメタ強化学習のためのコンテクストトランスフォーマ Contextual Transformer for Offline Meta Reinforcement Learning ( http://arxiv.org/abs/2211.08016v1 ) ライセンス: Link先を確認 | Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung, Haifeng Zhang, Jun Wang, Yali Du and Yaodong Yang | (参考訳) 大規模シーケンスモデルの事前調整パラダイムは、自然言語処理とコンピュータビジョンタスクにおいて大きな進歩を遂げた。
しかし、このパラダイムは、オフラインデータに基づく自己教師付き事前学習アルゴリズムの欠如や、見当たらない下流タスクに対する効率的な微調整/プロンプトチューニングなど、強化学習(RL)におけるいくつかの課題によって依然として妨げられている。
本研究では,シーケンスモデリングに基づくオフライン強化学習(オフライン-RL)アルゴリズムを改良する方法について検討する。
まず,条件付きポリシー生成のガイドとして,コンテキストベクトル列と入力を結合したオフラインrlのプロンプトチューニングを提案する。
そのため、オフラインデータセット上のモデルを自己監督的損失で事前訓練し、望ましい行動に向けてポリシーを導くプロンプトを学ぶことができる。
次に、メタrl設定にフレームワークを拡張し、コンテキストメタトランスフォーマ(cmt)を提案する。cmtは、目に見えないタスクの一般化を促進するために、異なるタスク間のコンテキストを活用する。
D4RLデータセットのオフライン単一エージェントRL、MuJoCoベンチマークのオフラインメタRL、SMACベンチマークのオフラインMARLである。
優れた結果は、我々の方法の強力な性能と汎用性を検証する。 The pretrain-finetuning paradigm in large-scale sequence models has made significant progress in natural language processing and computer vision tasks. However, such a paradigm is still hindered by several challenges in Reinforcement Learning (RL), including the lack of self-supervised pretraining algorithms based on offline data and efficient fine-tuning/prompt-tuning over unseen downstream tasks. In this work, we explore how prompts can improve sequence modeling-based offline reinforcement learning (offline-RL) algorithms. Firstly, we propose prompt tuning for offline RL, where a context vector sequence is concatenated with the input to guide the conditional policy generation. As such, we can pretrain a model on the offline dataset with self-supervised loss and learn a prompt to guide the policy towards desired actions. Secondly, we extend our framework to Meta-RL settings and propose Contextual Meta Transformer (CMT); CMT leverages the context among different tasks as the prompt to improve generalization on unseen tasks. We conduct extensive experiments across three different offline-RL settings: offline single-agent RL on the D4RL dataset, offline Meta-RL on the MuJoCo benchmark, and offline MARL on the SMAC benchmark. Superior results validate the strong performance, and generality of our methods. | 翻訳日:2022-11-16 13:32:38 公開日:2022-11-15 |
# 概念認識情報を用いた時間的知識グラフの少ない帰納学習 Few-Shot Inductive Learning on Temporal Knowledge Graphs using Concept-Aware Information ( http://arxiv.org/abs/2211.08169v1 ) ライセンス: Link先を確認 | Zifeng Ding, Jingpei Wu, Bailan He, Yunpu Ma, Zhen Han, Volker Tresp | (参考訳) 知識グラフ補完(KGC)は、知識グラフ(KG)エンティティ間のリンク不足を予測することを目的としている。
KGCのための様々な手法が開発されているが、そのほとんどはトレーニングセットに見られるKGエンティティにしか対応できず、テストセットの新規エンティティに関するリンクを予測するのにうまく機能しない。
同様の問題は時間知識グラフ (TKG) にも存在し、新しい実体をモデル化するための従来の時間知識グラフ補完 (TKGC) 法は開発されていない。
KGと比較すると、TKGはモデリングに時間的推論技術を必要とするため、新規で未知のエンティティを扱うのが自然に困難になる。
本研究では,TKGにおける未知の実体表現の帰納的学習に着目した。
メタラーニングフレームワークを用いて,各未知のエンティティに関連付けられた少数のエッジのみによって提供されるメタ情報を活用することにより,未知のエンティティに関するリンクから欠落したエンティティを予測できる,TKGのための数発のアウトオブグラフリンク予測タスクを提案する。
我々は,TKGの複数ショットOOGリンク予測のための3つの新しいデータセットを構築し,エンティティ間の概念認識情報をマイニングするモデルを提案する。
実験結果から,本モデルは3つのデータセットに対して優れた性能を示し,概念認識モデリングコンポーネントは強い効果を示した。 Knowledge graph completion (KGC) aims to predict the missing links among knowledge graph (KG) entities. Though various methods have been developed for KGC, most of them can only deal with the KG entities seen in the training set and cannot perform well in predicting links concerning novel entities in the test set. Similar problem exists in temporal knowledge graphs (TKGs), and no previous temporal knowledge graph completion (TKGC) method is developed for modeling newly-emerged entities. Compared to KGs, TKGs require temporal reasoning techniques for modeling, which naturally increases the difficulty in dealing with novel, yet unseen entities. In this work, we focus on the inductive learning of unseen entities' representations on TKGs. We propose a few-shot out-of-graph (OOG) link prediction task for TKGs, where we predict the missing entities from the links concerning unseen entities by employing a meta-learning framework and utilizing the meta-information provided by only few edges associated with each unseen entity. We construct three new datasets for TKG few-shot OOG link prediction, and we propose a model that mines the concept-aware information among entities. Experimental results show that our model achieves superior performance on all three datasets and our concept-aware modeling component demonstrates a strong effect. | 翻訳日:2022-11-16 13:32:14 公開日:2022-11-15 |
# 移動記録を用いた社会経済状態の推測について On Inferring User Socioeconomic Status with Mobility Records ( http://arxiv.org/abs/2211.08200v1 ) ライセンス: Link先を確認 | Zheng Wang, Mingrui Liu, Cheng Long, Qianru Zhang, Jiangneng Li, Chunyan Miao | (参考訳) ユーザーが物理的な空間(例えば都市空間)に移動するとき、携帯電話やGPSデバイスなどのデバイスによって生成される移動記録(例えば、軌跡)と呼ばれる記録がいくつかある。
当然、移動記録は、ユーザの日常生活における働き方、生き方、楽しみ方の本質的な情報を捉えており、ユーザプロファイル推定、移動予測、交通管理など、幅広いタスクで使用されている。
本稿では,カーローンビジネスなど実生活に応用可能なモビリティ記録に基づいて,利用者の社会経済状態(住宅価格など,利用者の社会経済状態の指標としての住宅価格など)を推測する問題を解明し,この研究範囲を拡大する。
本研究では,DeepSEIと呼ばれる社会経済学的な深層モデルを提案する。
deepseiモデルにはdeep networkとrecurrent networkと呼ばれる2つのネットワークが組み込まれており、空間性、時間性、活動性という3つの側面からモビリティの記録の特徴を抽出している。
実際の移動記録データ、POIデータ、住宅価格データについて広範な実験を行う。
その結果,DeepSEIモデルが既存の研究よりも優れた性能を発揮することを確認した。
この論文で使用されるデータセットはすべて公開されます。 When users move in a physical space (e.g., an urban space), they would have some records called mobility records (e.g., trajectories) generated by devices such as mobile phones and GPS devices. Naturally, mobility records capture essential information of how users work, live and entertain in their daily lives, and therefore, they have been used in a wide range of tasks such as user profile inference, mobility prediction and traffic management. In this paper, we expand this line of research by investigating the problem of inferring user socioeconomic statuses (such as prices of users' living houses as a proxy of users' socioeconomic statuses) based on their mobility records, which can potentially be used in real-life applications such as the car loan business. For this task, we propose a socioeconomic-aware deep model called DeepSEI. The DeepSEI model incorporates two networks called deep network and recurrent network, which extract the features of the mobility records from three aspects, namely spatiality, temporality and activity, one at a coarse level and the other at a detailed level. We conduct extensive experiments on real mobility records data, POI data and house prices data. The results verify that the DeepSEI model achieves superior performance than existing studies. All datasets used in this paper will be made publicly available. | 翻訳日:2022-11-16 13:31:49 公開日:2022-11-15 |
# integratedpifu: 一体型ピクセルアラインド暗黙的機能による単視点ヒト再建 IntegratedPIFu: Integrated Pixel Aligned Implicit Function for Single-view Human Reconstruction ( http://arxiv.org/abs/2211.07955v1 ) ライセンス: Link先を確認 | Kennard Yanting Chan, Guosheng Lin, Haiyu Zhao and Weisi Lin | (参考訳) 我々は,pifuhd の基盤を基盤とした新しいピクセル整合暗黙モデルである integratedpifu を提案する。
integratedpifuは、ピクセルを並べた暗黙のモデルで、深さと人間の解析情報を予測し、活用する方法を示している。
さらに、IntegratedPIFuは、ノイズのない人工物なしで重要な人間の特徴を再構築する暗黙的モデル能力を改善する新しいトレーニングスキームである、深度指向サンプリングを導入した。
最後に、IntegratedPIFuは、PIFuHDよりもモデルパラメータが少ないにもかかわらず、再構成メッシュの構造的正しさを改善することができる新しいアーキテクチャを提供する。
以上の結果から,統合PIFuは単一視点の人間再構築において既存の芸術手法よりも優れていた。
私たちのコードはオンラインで利用可能になりました。 We propose IntegratedPIFu, a new pixel aligned implicit model that builds on the foundation set by PIFuHD. IntegratedPIFu shows how depth and human parsing information can be predicted and capitalised upon in a pixel-aligned implicit model. In addition, IntegratedPIFu introduces depth oriented sampling, a novel training scheme that improve any pixel aligned implicit model ability to reconstruct important human features without noisy artefacts. Lastly, IntegratedPIFu presents a new architecture that, despite using less model parameters than PIFuHD, is able to improves the structural correctness of reconstructed meshes. Our results show that IntegratedPIFu significantly outperforms existing state of the arts methods on single view human reconstruction. Our code has been made available online. | 翻訳日:2022-11-16 13:25:36 公開日:2022-11-15 |
# NAR-Former: ホロスティック属性予測に向けたニューラルネットワーク表現学習 NAR-Former: Neural Architecture Representation Learning towards Holistic Attributes Prediction ( http://arxiv.org/abs/2211.08024v1 ) ライセンス: Link先を確認 | Yun Yi, Haokui Zhang, Wenze Hu, Nannan Wang, Xiaoyu Wang | (参考訳) ディープラーニングモデルを現実のアプリケーションで広く深く採用することにより、ニューラルネットワーク自体の表現をモデル化し、学習する必要性が高まっている。
これらのモデルは、実際のトレーニングや推論タスクを実行することなく、精度やレイテンシなど、さまざまなニューラルネットワークアーキテクチャの属性を推定するために使用することができる。
本稿では,これらの属性を階層的に推定できるニューラルアーキテクチャ表現モデルを提案する。
具体的には,ニューラルネットワークの動作情報とトポロジ情報を単一シーケンスにエンコードする,シンプルで効果的なトークン化手法を提案する。
次に、変換列からコンパクトなベクトル表現を構築するために多段核融合変換器を設計する。
効率的なモデルトレーニングのために,我々はさらに情報フロー一貫性強化を提案し,それに対応するアーキテクチャ一貫性損失をデザインする。
NAS-Bench-101,NAS-Bench-201,DARTSサーチスペースとNNLQPによる実験結果から,提案するフレームワークは,前述のセルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測し,有望な性能を実現する。 With the wide and deep adoption of deep learning models in real applications, there is an increasing need to model and learn the representations of the neural networks themselves. These models can be used to estimate attributes of different neural network architectures such as the accuracy and latency, without running the actual training or inference tasks. In this paper, we propose a neural architecture representation model that can be used to estimate these attributes holistically. Specifically, we first propose a simple and effective tokenizer to encode both the operation and topology information of a neural network into a single sequence. Then, we design a multi-stage fusion transformer to build a compact vector representation from the converted sequence. For efficient model training, we further propose an information flow consistency augmentation and correspondingly design an architecture consistency loss, which brings more benefits with less augmentation samples compared with previous random augmentation strategies. Experiment results on NAS-Bench-101, NAS-Bench-201, DARTS search space and NNLQP show that our proposed framework can be used to predict the aforementioned latency and accuracy attributes of both cell architectures and whole deep neural networks, and achieves promising performance. | 翻訳日:2022-11-16 13:25:22 公開日:2022-11-15 |
# セルフ教師付きリモートセンシング機能学習:学習パラダイム,課題,今後の課題 Self-supervised remote sensing feature learning: Learning Paradigms, Challenges, and Future Works ( http://arxiv.org/abs/2211.08129v1 ) ライセンス: Link先を確認 | Chao Tao, Ji Qi, Mingning Guo, Qing Zhu, Haifeng Li | (参考訳) 深層学習は、大規模なリモートセンシング画像(RSI)から特徴を学習することで大きな成功を収めた。
特徴学習パラダイム(例えば、教師なし特徴学習(USFL)、教師付き特徴学習(SFL)、自己教師付き特徴学習(SSFL))の関連性をよりよく理解するために、特徴学習信号の観点からそれらを分析し比較し、統一された特徴学習フレームワークを提供する。
本研究では,RSIの理解タスクにおける他の2つの学習パラダイムに対するSSFLの利点を分析し,事前学習データセット,自己教師付き特徴学習信号,評価方法など,既存のSSFLのRSにおける作業の包括的レビューを行う。
さらに、SSFL信号と事前学習データが学習特徴に与える影響を分析し、RSI特徴学習を改善するための洞察を提供する。
最後に,いくつかの問題と研究の方向性について概説する。 Deep learning has achieved great success in learning features from massive remote sensing images (RSIs). To better understand the connection between feature learning paradigms (e.g., unsupervised feature learning (USFL), supervised feature learning (SFL), and self-supervised feature learning (SSFL)), this paper analyzes and compares them from the perspective of feature learning signals, and gives a unified feature learning framework. Under this unified framework, we analyze the advantages of SSFL over the other two learning paradigms in RSIs understanding tasks and give a comprehensive review of the existing SSFL work in RS, including the pre-training dataset, self-supervised feature learning signals, and the evaluation methods. We further analyze the effect of SSFL signals and pre-training data on the learned features to provide insights for improving the RSI feature learning. Finally, we briefly discuss some open problems and possible research directions. | 翻訳日:2022-11-16 13:24:59 公開日:2022-11-15 |
# RobBERT-2022: 言語利用の進化を考慮したオランダ語モデルの更新 RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use ( http://arxiv.org/abs/2211.08192v1 ) ライセンス: Link先を確認 | Pieter Delobelle and Thomas Winters and Bettina Berendt | (参考訳) BERTやGPT-3のような大きなトランスフォーマーベースの言語モデルは、ほとんどの自然言語処理タスクにおいて、以前のアーキテクチャよりも優れている。
このような言語モデルは、最初は巨大なテキストコーパスで事前訓練され、後に特定のタスクを微調整するためのベースモデルとして使用される。
事前トレーニングのステップは通常繰り返されないため、ベースモデルは最新の情報と最新のものではない。
本稿では,RoBERTaをベースとした最先端のオランダ語モデルであるRobBERTを2019年にトレーニングした。
まず、RobBERTのトークン化剤が更新され、最新のオランダのOSCARコーパス、例えばコロナ関連の単語に新しい頻繁なトークンが含まれている。
次に、このデータセットを使用してRobBERTモデルをさらに事前トレーニングします。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
これらの結果は、進化する言語の使用を考慮した言語モデルを継続的に更新することの利点を浮き彫りにしている。 Large transformer-based language models, e.g. BERT and GPT-3, outperform previous architectures on most natural language processing tasks. Such language models are first pre-trained on gigantic corpora of text and later used as base-model for finetuning on a particular task. Since the pre-training step is usually not repeated, base models are not up-to-date with the latest information. In this paper, we update RobBERT, a RoBERTa-based state-of-the-art Dutch language model, which was trained in 2019. First, the tokenizer of RobBERT is updated to include new high-frequent tokens present in the latest Dutch OSCAR corpus, e.g. corona-related words. Then we further pre-train the RobBERT model using this dataset. To evaluate if our new model is a plug-in replacement for RobBERT, we introduce two additional criteria based on concept drift of existing tokens and alignment for novel tokens.We found that for certain language tasks this update results in a significant performance increase. These results highlight the benefit of continually updating a language model to account for evolving language use. | 翻訳日:2022-11-16 13:24:23 公開日:2022-11-15 |
# 機械学習モデルによるテキストの分類と会話の漂流判定 Classifying text using machine learning models and determining conversation drift ( http://arxiv.org/abs/2211.08365v1 ) ライセンス: Link先を確認 | Chaitanya Chadha, Vandit Gupta, Deepak Gupta, Ashish Khanna | (参考訳) テキスト分類は、単語をこの階層にマッピングすることで、意味の意味と関連性についてテキストを分析するのに役立つ。
様々な種類のテキストの分析は、意味的意味と関連性の両方を理解するのに有用である。
テキスト分類は文書を分類する方法である。
コンピュータテキスト分類と自然言語処理を組み合わせて、テキストを集約して分析する。
この方法は、コンテンツタイプ、オブジェクトフィールド、語彙特性、スタイル特性などの特徴を備えた、テキストの記述的分類を提供する。
本研究では,自然言語特徴抽出手法を用いて,自然言語ベイズ,ロジスティック回帰,サポートベクターマシンなどの基本的な機械学習モデルを学習することを目的としている。
これらのモデルは、教師が議論にいつ関与しなければならないかを検出するために使われます。 Text classification helps analyse texts for semantic meaning and relevance, by mapping the words against this hierarchy. An analysis of various types of texts is invaluable to understanding both their semantic meaning, as well as their relevance. Text classification is a method of categorising documents. It combines computer text classification and natural language processing to analyse text in aggregate. This method provides a descriptive categorization of the text, with features like content type, object field, lexical characteristics, and style traits. In this research, the authors aim to use natural language feature extraction methods in machine learning which are then used to train some of the basic machine learning models like Naive Bayes, Logistic Regression, and Support Vector Machine. These models are used to detect when a teacher must get involved in a discussion when the lines go off-topic. | 翻訳日:2022-11-16 13:24:02 公開日:2022-11-15 |
# 長期学習のための大規模言語モデル Large Language Models Struggle to Learn Long-Tail Knowledge ( http://arxiv.org/abs/2211.08411v1 ) ライセンス: Link先を確認 | Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, Colin Raffel | (参考訳) インターネットには、歴史人物の誕生日からプログラミングのチュートリアルまで、豊富な知識が含まれており、これらすべてが言語モデルによって学習される可能性がある。
しかし、ある情報がWeb上に現れる回数には大きなばらつきがある。
本稿では,大規模言語モデルが記憶する知識と事前学習データセットの情報との関係について検討する。
特に、言語モデルが事実に基づく質問に答える能力は、事前学習中にその質問に関連づけられた文書の数に関係していることを示す。
我々は、これらの関連文書を、事前学習データセットをリンクし、与えられた質問応答ペアと同じエンティティを含む文書をカウントすることで識別する。
その結果,多くの質問応答データセット(例えばTriviaQA),事前学習コーパス(例えばROTS),モデルサイズ(例えば176Bパラメータ)について,精度と関連文書数の相関関係が強く示された。
さらに,大規模モデルの方がロングテール知識の学習に優れる一方で,事前学習データへのサポートがほとんどない質問に対して,競争上のqa性能を達成するためには,今日のモデルの規模を何桁も拡大する必要があると推定した。
最後に,検索強化により関連文書数への依存が軽減され,長期化に期待できるアプローチが提示される。 The internet contains a wealth of knowledge -- from the birthdays of historical figures to tutorials on how to code -- all of which may be learned by language models. However, there is a huge variability in the number of times a given piece of information appears on the web. In this paper, we study the relationship between the knowledge memorized by large language models and the information in their pre-training datasets. In particular, we show that a language model's ability to answer a fact-based question relates to how many documents associated with that question were seen during pre-training. We identify these relevant documents by entity linking pre-training datasets and counting documents that contain the same entities as a given question-answer pair. Our results demonstrate strong correlational and causal relationships between accuracy and relevant document count for numerous question answering datasets (e.g., TriviaQA), pre-training corpora (e.g., ROOTS), and model sizes (e.g., 176B parameters). Moreover, we find that while larger models are better at learning long-tail knowledge, we estimate that today's models must be scaled by many orders of magnitude to reach competitive QA performance on questions with little support in the pre-training data. Finally, we show that retrieval-augmentation can reduce the dependence on relevant document count, presenting a promising approach for capturing the long-tail. | 翻訳日:2022-11-16 13:23:50 公開日:2022-11-15 |
# 音声分離の監督としての残響 Reverberation as Supervision for Speech Separation ( http://arxiv.org/abs/2211.08303v1 ) ライセンス: Link先を確認 | Rohith Aralikatti, Christoph Boeddeker, Gordon Wichern, Aswin Shanmugam Subramanian, Jonathan Le Roux | (参考訳) 本稿では,単一チャンネル残響音声分離のための非教師付き損失関数RASを提案する。
教師のいない分離の方法は、混合混合物の合成や教師モデルの存在を想定する必要があったため、動物の聴覚系における分離能力の出現を説明する潜在的な方法としては考慮が困難であった。
学習時間に2チャンネル混合が利用可能であると仮定し、一方のチャネルが入力として与えられたソースを、他方のチャネルが分離されたソースから予測できるようにニューラルネットワークを訓練する。
各チャネルの部屋インパルス応答(RIR)の関係は、ネットワークに未知なソースの位置に依存するため、ネットワークはその関係を学習に頼ることはできない。
その代わりに、提案した損失関数は、Wenerフィルタによるターゲットチャネルの混合にそれぞれ分離したソースを適合させ、その結果の混合を接地構造と比較する。
本研究では, 予測右チャネル混合のスケール不変信号-歪み比 (SI-SDR) の最小化が, 左チャネルソースの分離に向けて暗黙的にネットワークを導くことを示す。
whamr!データセットに基づく半教師付き残響音声分離タスクでは、約5%(resp., 10%)の混合物が関連する分離されたソースにラベル付けされたトレーニングデータを用いて、全トレーニングセットの監視により得られたsi-sdr改善の70%(resp., 78%)を達成し、ラベル付きデータのみにトレーニングされたモデルは43%(resp., 45%)を得る。 This paper proposes reverberation as supervision (RAS), a novel unsupervised loss function for single-channel reverberant speech separation. Prior methods for unsupervised separation required the synthesis of mixtures of mixtures or assumed the existence of a teacher model, making them difficult to consider as potential methods explaining the emergence of separation abilities in an animal's auditory system. We assume the availability of two-channel mixtures at training time, and train a neural network to separate the sources given one of the channels as input such that the other channel may be predicted from the separated sources. As the relationship between the room impulse responses (RIRs) of each channel depends on the locations of the sources, which are unknown to the network, the network cannot rely on learning that relationship. Instead, our proposed loss function fits each of the separated sources to the mixture in the target channel via Wiener filtering, and compares the resulting mixture to the ground-truth one. We show that minimizing the scale-invariant signal-to-distortion ratio (SI-SDR) of the predicted right-channel mixture with respect to the ground truth implicitly guides the network towards separating the left-channel sources. On a semi-supervised reverberant speech separation task based on the WHAMR! dataset, using training data where just 5% (resp., 10%) of the mixtures are labeled with associated isolated sources, we achieve 70% (resp., 78%) of the SI-SDR improvement obtained when training with supervision on the full training set, while a model trained only on the labeled data obtains 43% (resp., 45%). | 翻訳日:2022-11-16 13:16:59 公開日:2022-11-15 |
# 非支配ソーティング遺伝的アルゴリズム(NSGA-III)の数学的実行解析 A Mathematical Runtime Analysis of the Non-dominated Sorting Genetic Algorithm III (NSGA-III) ( http://arxiv.org/abs/2211.08202v1 ) ライセンス: Link先を確認 | Benjamin Doerr, Simon Wietheger | (参考訳) NSGA-II (Non-dominated Sorting Genetic Algorithm) は、実世界の応用において最も顕著な多目的進化アルゴリズムである。
2つの目的を持つ関数に適用すると、その性能が悪化することが実証研究で示唆されている。
救済策として、NSGA-IIIは次の世代に若干適応した選択が提案された。
本研究では, NSGA-III の初となる数学的ランタイム解析を \textsc{OneMinMax} ベンチマークの 3 目的変種上で提供する。
十分多くの(少なくとも$\frac{2n^2}{3}+\frac{5n}{\sqrt{3}}+3$)基準点を用いることで、目標間のあるトレードオフに対する解が見つかると、その集団は将来の全ての反復においてそのような解を含むことが証明される。
この観測に基づいて、人口がパレートフロントをカバーするまでのイテレーションの期待数は、$O(n^3)$であることを示す。
この結果は、パレート前線の少なくとも大きさである全ての人口規模に当てはまる。 The NSGA-II (Non-dominated Sorting Genetic Algorithm) is the most prominent multi-objective evolutionary algorithm for real-world applications. While it performs evidently well on bi-objective benchmarks, empirical studies suggest that its performance worsens when applied to functions with more than two objectives. As a remedy, the NSGA-III with a slightly adapted selection for the next generation was proposed. In this work, we provide the first mathematical runtime analysis of the NSGA-III, on a 3-objective variant of the \textsc{OneMinMax} benchmark. We prove that employing sufficiently many (at least $\frac{2n^2}{3}+\frac{5n}{\sqrt{3}}+3$) reference points ensures that once a solution for a certain trade-off between the objectives is found, the population contains such a solution in all future iterations. Building on this observation, we show that the expected number of iterations until the population covers the Pareto front is in $O(n^3)$. This result holds for all population sizes that are at least the size of the Pareto front. | 翻訳日:2022-11-16 13:16:28 公開日:2022-11-15 |
# 物理インフォームド機械学習:問題,方法,応用に関する調査 Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications ( http://arxiv.org/abs/2211.08064v1 ) ライセンス: Link先を確認 | Zhongkai Hao, Songming Liu, Yichi Zhang, Chengyang Ying, Yao Feng, Hang Su, Jun Zhu | (参考訳) データ駆動機械学習の最近の進歩は、コンピュータビジョン、強化学習、多くの科学および工学領域などの分野に革命をもたらした。
現実世界や科学上の多くの問題では、データを生成するシステムは物理法則によって制御される。
最近の研究は、物理先行データと収集データを組み込むことで機械学習モデルに潜在的な利点をもたらし、機械学習と物理の交わりが一般的なパラダイムとなることを示している。
本研究では、実験データと利用可能な物理事前知識を活用し、物理機構を含む一連のタスクのパフォーマンスを向上させるモデルを構築することを目的とした、Physical-Informed Machine Learning(PIML)と呼ばれる学習パラダイムを提案する。
物理インフォームド・機械学習の最近の発展を,機械学習タスク,物理先行表現,物理先行処理の3つの観点から体系的に検討した。
また,この分野の最近の動向に基づいて,いくつかの重要なオープンリサーチ問題を提案する。
モデルアーキテクチャ、オプティマイザ、推論アルゴリズム、および逆エンジニアリング設計やロボット制御のような重要なドメイン固有のアプリケーションに、様々な形の物理事前をエンコードすることは、物理インフォームド機械学習の分野で完全には研究されていない、と我々は主張する。
本研究は,物理情報処理機械学習の学際的な研究に機械学習コミュニティの研究者が積極的に参加することを促すだろうと考えている。 Recent advances of data-driven machine learning have revolutionized fields like computer vision, reinforcement learning, and many scientific and engineering domains. In many real-world and scientific problems, systems that generate data are governed by physical laws. Recent work shows that it provides potential benefits for machine learning models by incorporating the physical prior and collected data, which makes the intersection of machine learning and physics become a prevailing paradigm. In this survey, we present this learning paradigm called Physics-Informed Machine Learning (PIML) which is to build a model that leverages empirical data and available physical prior knowledge to improve performance on a set of tasks that involve a physical mechanism. We systematically review the recent development of physics-informed machine learning from three perspectives of machine learning tasks, representation of physical prior, and methods for incorporating physical prior. We also propose several important open research problems based on the current trends in the field. We argue that encoding different forms of physical prior into model architectures, optimizers, inference algorithms, and significant domain-specific applications like inverse engineering design and robotic control is far from fully being explored in the field of physics-informed machine learning. We believe that this study will encourage researchers in the machine learning community to actively participate in the interdisciplinary research of physics-informed machine learning. | 翻訳日:2022-11-16 13:16:06 公開日:2022-11-15 |
# UniHPF : ドメイン知識をゼロにするユニバーサルヘルスケア予測フレームワーク UniHPF : Universal Healthcare Predictive Framework with Zero Domain Knowledge ( http://arxiv.org/abs/2211.08082v1 ) ライセンス: Link先を確認 | Kyunghoon Hur, Jungwoo Oh, Junu Kim, Jiyoun Kim, Min Jae Lee, Eunbyeol Cho, Seong-Eun Moon, Young-Hak Kim, Edward Choi | (参考訳) 電子医療記録(EHR)が豊富にあるにもかかわらず、その異質性は予測モデルの構築における医療データの利用を制限する。
この課題に対処するために、医療分野の知識を必要とせず、複数の予測タスクに対して最小限の事前処理を行うUniHPF(UniHPF)を提案する。
実験結果から、UniHPF は、異なる EHR システムから任意の形態の医療データを処理できる大規模な EHR モデルを構築することができることが示された。
EHRのマルチソース学習のさらなる研究に有用な知見が得られると我々は信じている。 Despite the abundance of Electronic Healthcare Records (EHR), its heterogeneity restricts the utilization of medical data in building predictive models. To address this challenge, we propose Universal Healthcare Predictive Framework (UniHPF), which requires no medical domain knowledge and minimal pre-processing for multiple prediction tasks. Experimental results demonstrate that UniHPF is capable of building large-scale EHR models that can process any form of medical data from distinct EHR systems. We believe that our findings can provide helpful insights for further research on the multi-source learning of EHRs. | 翻訳日:2022-11-16 13:15:42 公開日:2022-11-15 |
# プレトレーニング埋め込みを用いた多言語・多モーダルトピックモデリング Multilingual and Multimodal Topic Modelling with Pretrained Embeddings ( http://arxiv.org/abs/2211.08057v1 ) ライセンス: Link先を確認 | Elaine Zosa and Lidia Pivovarova | (参考訳) 本稿では,マルチモーダル多言語(M3L)ニューラルトピックモデルであるM3L-Contrastについて述べる。
本モデルはテキストと画像に共同で学習し,事前学習した文書と画像の埋め込みを利用して,異なる言語とモダリティの複雑さを抽象化する。
多言語トピックモデルとして、アライメント言語固有のトピックを生成し、マルチモーダルモデルとして、画像における意味概念のテキスト表現を推論する。
本モデルは,比較対象の多言語データに対する話題分布の予測においてゼロショットのトピックモデルと競合し,比較対象のテキストや画像に対する話題分布の予測においてゼロショットのモデルを著しく上回っていることを示す。
また、我々のモデルは、アライメント埋め込みよりも非アライメント埋め込みでほぼ同等に機能することを示す。 This paper presents M3L-Contrast -- a novel multimodal multilingual (M3L) neural topic model for comparable data that maps texts from multiple languages and images into a shared topic space. Our model is trained jointly on texts and images and takes advantage of pretrained document and image embeddings to abstract the complexities between different languages and modalities. As a multilingual topic model, it produces aligned language-specific topics and as multimodal model, it infers textual representations of semantic concepts in images. We demonstrate that our model is competitive with a zero-shot topic model in predicting topic distributions for comparable multilingual data and significantly outperforms a zero-shot model in predicting topic distributions for comparable texts and images. We also show that our model performs almost as well on unaligned embeddings as it does on aligned embeddings. | 翻訳日:2022-11-16 13:15:33 公開日:2022-11-15 |
# 紛らわしい法的判断予測を改善するためのコントラスト学習と数値的証拠の活用 Exploiting Contrastive Learning and Numerical Evidence for Improving Confusing Legal Judgment Prediction ( http://arxiv.org/abs/2211.08238v1 ) ライセンス: Link先を確認 | Leilei Gan, Baokui Li, Kun Kuang, Yi Yang, Fei Wu | (参考訳) 判例の事実記述文を考えると、法律判断予測(ljp)は、訴訟の費用、法律記事およびペナルティ項を予測することを目的としている。
LJPの中核的な問題は、微妙なテキストの違いしか存在しない訴訟を区別する方法である。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できず、刑期を予測するために事実記述の数字を無視している。
これらの問題に取り組むため,本研究では,まず,識別可能な表現を学習するためのmocoに基づく教師付きコントラスト学習を提案し,ljpの3つのサブタスクすべてに同時にメリットを与えるような,ポジティブなサンプルペアを構築するための最善の戦略を検討する。
第二に、ある事件の刑期を予測するために訴訟における数字を利用するために、事前訓練された数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
公的なベンチマーク実験により,提案手法は,特に紛らわしい訴訟において,新たな最先端の成果をもたらすことが示された。
アブレーション研究は各成分の有効性も示している。 Given the fact description text of a legal case, legal judgment prediction (LJP) aims to predict the case's charge, law article and penalty term. A core problem of LJP is how to distinguish confusing legal cases, where only subtle text differences exist. Previous studies fail to distinguish different classification errors with a standard cross-entropy classification loss, and ignore the numbers in the fact description for predicting the term of penalty. To tackle these issues, in this work, first, we propose a moco-based supervised contrastive learning to learn distinguishable representations, and explore the best strategy to construct positive example pairs to benefit all three subtasks of LJP simultaneously. Second, in order to exploit the numbers in legal cases for predicting the penalty terms of certain cases, we further enhance the representation of the fact description with extracted crime amounts which are encoded by a pre-trained numeracy model. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results, especially on confusing legal cases. Ablation studies also demonstrate the effectiveness of each component. | 翻訳日:2022-11-16 13:15:17 公開日:2022-11-15 |
# 質問応答のための知識グラフ推論による言語モデルエンパワーメント Empowering Language Models with Knowledge Graph Reasoning for Question Answering ( http://arxiv.org/abs/2211.08380v1 ) ライセンス: Link先を確認 | Ziniu Hu, Yichong Xu, Wenhao Yu, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Kai-Wei Chang, Yizhou Sun | (参考訳) オープンドメインの質問に答えるには、コンテキスト内エンティティに関する世界知識が必要です。
事前訓練された言語モデル(LM)には必要な知識を全て格納する能力がないため、知識グラフのような外部知識ソースは、しばしばLMを増強するために使用される。
本研究では,既存のトランスフォーマーベースのLMに柔軟に接続して,異なる知識グラフ推論モジュールを協調的に操作可能な,新しい知識相互作用層(KnOwledge ReasOning empowered Language Model,OREO-LM)を提案する。
このようにして、LMはKGを所望の回答に向かって歩き、検索された知識はLMを改善する。
OREO-LMをRoBERTaおよびT5に適用することにより、クローズドブック設定における最先端の成果を達成し、大幅な性能向上を示す。
性能向上は主に、欠落した関係事実を推測するKG推論能力によるものである。
さらに、OREO-LMはモデルの決定を解釈する根拠として推論パスを提供する。 Answering open-domain questions requires world knowledge about in-context entities. As pre-trained Language Models (LMs) lack the power to store all required knowledge, external knowledge sources, such as knowledge graphs, are often used to augment LMs. In this work, we propose knOwledge REasOning empowered Language Model (OREO-LM), which consists of a novel Knowledge Interaction Layer that can be flexibly plugged into existing Transformer-based LMs to interact with a differentiable Knowledge Graph Reasoning module collaboratively. In this way, LM guides KG to walk towards the desired answer, while the retrieved knowledge improves LM. By adopting OREO-LM to RoBERTa and T5, we show significant performance gain, achieving state-of-art results in the Closed-Book setting. The performance enhancement is mainly from the KG reasoning's capacity to infer missing relational facts. In addition, OREO-LM provides reasoning paths as rationales to interpret the model's decision. | 翻訳日:2022-11-16 13:14:56 公開日:2022-11-15 |
# 生成的長文質問応答:関連性、忠実性、簡潔性 Generative Long-form Question Answering: Relevance, Faithfulness and Succinctness ( http://arxiv.org/abs/2211.08386v1 ) ライセンス: Link先を確認 | Dan Su | (参考訳) 本論文では,Long Form Question Answering(LFQA)の関連性,忠実性,簡潔性について検討した。
LFQAは、与えられた質問に対する詳細な項長の回答を生成し、実際のシナリオと、短い回答しか抽出できない既存のオープンドメインQAモデルとのギャップを埋めることを目指している。
LFQAは非常に困難で、探索不足です。
LFQAシステムを効果的に構築する作業はほとんど行われていない。
検索された文書にかなりの量の冗長性、補完性、あるいは矛盾する情報が含まれるため、クエリに関連する高品質な長文の回答を生成することはさらに困難である。
さらに、簡潔な回答を生成するための事前の研究は行われていない。
私たちはLFQAタスクを最初に研究しました。
答えの質を改善するために 研究の方向性を開拓し
1)クエリ関連、
2)忠実に答える、そして
3)簡潔さに答える。 In this thesis, we investigated the relevance, faithfulness, and succinctness aspects of Long Form Question Answering (LFQA). LFQA aims to generate an in-depth, paragraph-length answer for a given question, to help bridge the gap between real scenarios and the existing open-domain QA models which can only extract short-span answers. LFQA is quite challenging and under-explored. Few works have been done to build an effective LFQA system. It is even more challenging to generate a good-quality long-form answer relevant to the query and faithful to facts, since a considerable amount of redundant, complementary, or contradictory information will be contained in the retrieved documents. Moreover, no prior work has been investigated to generate succinct answers. We are among the first to research the LFQA task. We pioneered the research direction to improve the answer quality in terms of 1) query-relevance, 2) answer faithfulness, and 3) answer succinctness. | 翻訳日:2022-11-16 13:14:38 公開日:2022-11-15 |
# 選択記憶再帰最小二乗:リアルタイム学習におけるRBFニューラルネットワークの均一近似能力 Selective Memory Recursive Least Squares: Uniformly Allocated Approximation Capabilities of RBF Neural Networks in Real-Time Learning ( http://arxiv.org/abs/2211.07909v1 ) ライセンス: Link先を確認 | Yiming Fei, Jiangang Li, Yanan Li | (参考訳) リアルタイム学習タスクを行う場合、放射基底関数ニューラルネットワーク(RBFNN)は、その学習精度と一般化能力が保証されるように、トレーニングサンプルをフル活用することが期待される。
RBFNNの近似能力は有限であるため、RBFNNの学習能力を新しい知識に維持するために、忘れ係数再帰最小二乗法(FFRLS)や確率勾配降下法(SGD)といった機構を忘れる訓練手法が広く用いられている。
しかし, 忘れる機構によっては, 昔から学習されていただけに, 受動的知識を忘れる現象として, 有用な知識が失われる。
本稿では,RBFNNの特徴空間を有限個の分割に均等に離散化し,通常の再帰最小二乗法(RLS)の本来の目的関数を置き換えるために合成目的関数を開発する,選択メモリ再帰最小二乗法(SMRLS)を提案する。
SMRLSは、各パーティション内のサンプルをリアルタイムで記憶機構で特徴空間上に均一に分散した代表サンプルに合成し、受動的知識忘れ現象を克服し、学習知識の一般化能力を向上させる。
SGD法やFFRLS法と比較して、SMRLSは学習性能の向上(学習速度、精度、一般化能力)を達成し、それに対応するシミュレーション結果によって実証される。 When performing real-time learning tasks, the radial basis function neural network (RBFNN) is expected to make full use of the training samples such that its learning accuracy and generalization capability are guaranteed. Since the approximation capability of the RBFNN is finite, training methods with forgetting mechanisms such as the forgetting factor recursive least squares (FFRLS) and stochastic gradient descent (SGD) methods are widely used to maintain the learning ability of the RBFNN to new knowledge. However, with the forgetting mechanisms, some useful knowledge will get lost simply because they are learned a long time ago, which we refer to as the passive knowledge forgetting phenomenon. To address this problem, this paper proposes a real-time training method named selective memory recursive least squares (SMRLS) in which the feature space of the RBFNN is evenly discretized into a finite number of partitions and a synthesized objective function is developed to replace the original objective function of the ordinary recursive least squares (RLS) method. SMRLS is featured with a memorization mechanism that synthesizes the samples within each partition in real-time into representative samples uniformly distributed over the feature space, and thus overcomes the passive knowledge forgetting phenomenon and improves the generalization capability of the learned knowledge. Compared with the SGD or FFRLS methods, SMRLS achieves improved learning performance (learning speed, accuracy and generalization capability), which is demonstrated by corresponding simulation results. | 翻訳日:2022-11-16 13:14:01 公開日:2022-11-15 |
# 長系列ニュースストーリー生成のためのfnetベースのオートエンコーダ An FNet based Auto Encoder for Long Sequence News Story Generation ( http://arxiv.org/abs/2211.08295v1 ) ライセンス: Link先を確認 | Paul K. Mandal, Rakeshkumar Mahto | (参考訳) 本稿では,GoogleのC4データセットに含まれるニュース記事のサブセットからテキストを生成するために,GoogleのFNetアーキテクチャをベースとした自動エンコーダを設計する。
我々は、オートエンコーダや非LLMモデルからテキストを生成する以前の試みと方法について議論する。
FNETはBERTベースのエンコーダに対して、GPUで80%高速に、TPUで70%高速にトレーニングする効率面で、複数の利点がある。
次に、このautencoderの出力を異なるエポックで比較する。
最後に、エンコーダが生成する出力を異なるシードテキストで分析する。 In this paper, we design an auto encoder based off of Google's FNet Architecture in order to generate text from a subset of news stories contained in Google's C4 dataset. We discuss previous attempts and methods to generate text from autoencoders and non LLM Models. FNET poses multiple advantages to BERT based encoders in the realm of efficiency which train 80% faster on GPUs and 70% faster on TPUs. We then compare outputs of how this autencoder perfroms on different epochs. Finally, we analyze what outputs the encoder produces with different seed text. | 翻訳日:2022-11-16 13:07:42 公開日:2022-11-15 |
# CardiacGen: 心臓信号の階層的深部生成モデル CardiacGen: A Hierarchical Deep Generative Model for Cardiac Signals ( http://arxiv.org/abs/2211.08385v1 ) ライセンス: Link先を確認 | Tushar Agarwal and Emre Ertin | (参考訳) 心電図のような合成的だが生理学的に妥当な心臓信号を生成するための深層学習フレームワークであるheartgenを提案する。
循環器系機能の生理学に基づき,多目的損失関数を用いて各モジュールをトレーニングするための規則化制約を明示するモジュラー階層生成モデルを提案する。
このモデルは、2つのモジュールと、リアルなハートレート変動特性を創出することに焦点を当てたHRVモジュールと、異なるモダリティのためのリアルな信号形態を生成することに焦点を当てたモルフォロジーモジュールからなる。
実験により,CardiacGenの合成データは,現実的な生理的特徴に加えて,深層学習に基づく分類器の性能向上に活用できることが示唆された。
CardiacGenコードはhttps://github.com/SENSE-Lab-OSU/cardiac_gen_modelで入手できる。 We present CardiacGen, a Deep Learning framework for generating synthetic but physiologically plausible cardiac signals like ECG. Based on the physiology of cardiovascular system function, we propose a modular hierarchical generative model and impose explicit regularizing constraints for training each module using multi-objective loss functions. The model comprises 2 modules, an HRV module focused on producing realistic Heart-Rate-Variability characteristics and a Morphology module focused on generating realistic signal morphologies for different modalities. We empirically show that in addition to having realistic physiological features, the synthetic data from CardiacGen can be used for data augmentation to improve the performance of Deep Learning based classifiers. CardiacGen code is available at https://github.com/SENSE-Lab-OSU/cardiac_gen_model. | 翻訳日:2022-11-16 13:07:09 公開日:2022-11-15 |
# 高次元データに対するモデル自由シェープ値 Model free Shapley values for high dimensional data ( http://arxiv.org/abs/2211.08414v1 ) ライセンス: Link先を確認 | Naofumi Hama, Masayoshi Mase and Art B. Owen | (参考訳) モデルに依存しない変数重要度法は任意の予測関数で利用できる。
本稿では,予測関数へのアクセスを必要としないモデルフリー手法を提案する。
これは、その機能がプロプライエタリで利用できない、あるいは非常に高価である場合に便利です。
モデルからの残差を研究する際にも有用である。
cohort shapley (cs) 法はモデルフリーであるが、入力空間の次元において指数関数的コストを持つ。
frye et al. (2020) による教師付きon-manifold shapley法もまた、モデルフリーであるが、shapley値問題のために訓練しなければならない2つ目のブラックボックスモデルを入力する必要がある。
我々は、igcsと呼ばれるcohort shapleyの統合勾配バージョンを導入し、コスト$\mathcal{o}(nd)$ で提供する。
関連する単位立方体の大部分において、IGCS値関数は、IGCSがCSと一致する多重線型関数に近いことが示される。
igcsの性能を定量化するために曲線法(auc)のいくつかの領域を用いる。
高エネルギー物理学の問題は、IGCSがCSとほぼ同じAUCを持つことである。
また、1024変数の計算化学の問題にも用いている。
IGCSはモンテカルロのサンプリングよりもはるかに高いAUCを獲得しています。
コードはhttps://github.com/cohortshapley/cohortintgrad.comで公開されている。 A model-agnostic variable importance method can be used with arbitrary prediction functions. Here we present some model-free methods that do not require access to the prediction function. This is useful when that function is proprietary and not available, or just extremely expensive. It is also useful when studying residuals from a model. The cohort Shapley (CS) method is model-free but has exponential cost in the dimension of the input space. A supervised on-manifold Shapley method from Frye et al. (2020) is also model free but requires as input a second black box model that has to be trained for the Shapley value problem. We introduce an integrated gradient version of cohort Shapley, called IGCS, with cost $\mathcal{O}(nd)$. We show that over the vast majority of the relevant unit cube that the IGCS value function is close to a multilinear function for which IGCS matches CS. We use some area under the curve (AUC) measures to quantify the performance of IGCS. On a problem from high energy physics we verify that IGCS has nearly the same AUCs as CS. We also use it on a problem from computational chemistry in 1024 variables. We see there that IGCS attains much higher AUCs than we get from Monte Carlo sampling. The code is publicly available at https://github.com/cohortshapley/cohortintgrad. | 翻訳日:2022-11-16 13:06:55 公開日:2022-11-15 |
# FedTune: トレーニング済みのトランスフォーマーによる効率的なフェデレーションファインチューニング FedTune: A Deep Dive into Efficient Federated Fine-Tuning with Pre-trained Transformers ( http://arxiv.org/abs/2211.08025v1 ) ライセンス: Link先を確認 | Jinyu Chen, Wenchao Xu, Song Guo, Junxiao Wang, Jie Zhang, Haozhao Wang | (参考訳) フェデレーション学習(federated learning, fl)は、分散ユーザがプライベートデータを共有せずに、協調的かつ反復的に機械学習モデルをトレーニングできる、新たなパラダイムである。
自己注意に基づくアーキテクチャの有効性と堅牢性によって、研究者はFLの伝統的な畳み込みニューラルネットワークの代わりに、事前訓練されたトランスフォーマー(ファンデーションモデル)を使用して、優れたトランスファー学習能力を活用しようとしている。
最近の進歩にもかかわらず、事前訓練されたトランスフォーマーモデルがflでどのように役割を果たすか、つまり、これらの事前訓練されたモデルをflで効率的に微調整する方法と、flユーザーがこの新しいパラダイムからどのように恩恵を受けるかは、まだ不明である。
本稿では,細調整トランスフォーマーがFL上での異常な性能を実現し,軽量な微細調整により高速収束率と通信コストの低減が図れることを示す。
具体的には、FLのための2種類の事前学習モデル(ビジョン言語モデルとビジョンモデル)を用いて、3つのチューニング方法(入力の変更、追加モジュールの追加、バックボーンの調整)の厳密な実証研究を行う。
私たちの実験は
1) 背骨のバイアス項の微調整は, 強い事前訓練モデルに依存する場合に, 最善である。
2) 視覚言語モデル(クリップなど)は,純粋視覚モデル(vitなど)よりも優れており,かつ,少ないショット設定よりも頑健である。
3) 純ローカルトレーニングと比較して, 事前学習モデルを用いたflは, オーバーフィッティングの問題を軽減するため, 精度が高い。
コードをリリースし、事前訓練されたトランスフォーマーとFLのさらなる探索を奨励します。 Federated Learning (FL) is an emerging paradigm that enables distributed users to collaboratively and iteratively train machine learning models without sharing their private data. Motivated by the effectiveness and robustness of self-attention-based architectures, researchers are turning to using pre-trained Transformers (i.e., foundation models) instead of traditional convolutional neural networks in FL to leverage their excellent transfer learning capabilities. Despite recent progress, how pre-trained Transformer models play a role in FL remains obscure, that is, how to efficiently fine-tune these pre-trained models in FL and how FL users could benefit from this new paradigm. In this paper, we explore this issue and demonstrate that the fine-tuned Transformers achieve extraordinary performance on FL, and that the lightweight fine-tuning method facilitates a fast convergence rate and low communication costs. Concretely, we conduct a rigorous empirical study of three tuning methods (i.e., modifying the input, adding extra modules, and adjusting the backbone) using two types of pre-trained models (i.e., vision-language models and vision models) for FL. Our experiments show that 1) Fine-tuning the bias term of the backbone performs best when relying on a strong pre-trained model; 2) The vision-language model (e.g., CLIP) outperforms the pure vision model (e.g., ViT) and is more robust to the few-shot settings; 3) Compared to pure local training, FL with pre-trained models has a higher accuracy because it alleviates the problem of over-fitting. We will release our code and encourage further exploration of pre-trained Transformers and FL. | 翻訳日:2022-11-16 13:06:34 公開日:2022-11-15 |
# HMOE: ドメイン一般化のためのハイパーネットワークベースのエキスパートの混合 HMOE: Hypernetwork-based Mixture of Experts for Domain Generalization ( http://arxiv.org/abs/2211.08253v1 ) ライセンス: Link先を確認 | Jingang Qu, Thibault Faney, Ze Wang, Patrick Gallinari, Soleiman Yousef, Jean-Charles de Hemptinne | (参考訳) ドメインシフトのため、マシンラーニングシステムは、通常、トレーニングデータとは異なるドメインにうまく一般化することができず、ドメイン一般化(DG)が解決しようとしている問題である。
しかし、ほとんどの主流のDGアルゴリズムは解釈可能性に欠けており、多くの実世界のシナリオでは利用できないドメインラベルを必要とする。
本研究では、ドメインラベルを必要とせず、より解釈可能な新しいDG手法、HMOE: Hypernetwork-based Mixture of Experts (MoE)を提案する。
ハイパーネットワークを使って専門家の重みを作り、専門家が役に立つメタ知識を共有できるようにしています。
moeはデータの異種パターンの検出と識別に長けている。
DG の場合、不均一性はドメインシフトから正確に生じる。
HMOEと他のDGアルゴリズムを公平で統一されたベンチマーク-DomainBedで比較する。
広範な実験により、hmoeは混合ドメインのデータから潜在ドメイン発見を実行し、元のドメインラベルよりも人間の直観と驚くほど一貫性のある別々のクラスタに分割できることが示されている。
他のDG手法と比較して、HMOEは競合性能を示し、ドメインラベルを使わずにSOTA結果を達成する。 Due to the domain shift, machine learning systems typically fail to generalize well to domains different from those of training data, which is the problem that domain generalization (DG) aims to address. However, most mainstream DG algorithms lack interpretability and require domain labels, which are not available in many real-world scenarios. In this work, we propose a novel DG method, HMOE: Hypernetwork-based Mixture of Experts (MoE), that does not require domain labels and is more interpretable. We use hypernetworks to generate the weights of experts, allowing experts to share some useful meta-knowledge. MoE has proven adept at detecting and identifying heterogeneous patterns in data. For DG, heterogeneity exactly arises from the domain shift. We compare HMOE with other DG algorithms under a fair and unified benchmark-DomainBed. Extensive experiments show that HMOE can perform latent domain discovery from data of mixed domains and divide it into distinct clusters that are surprisingly more consistent with human intuition than original domain labels. Compared to other DG methods, HMOE shows competitive performance and achieves SOTA results in some cases without using domain labels. | 翻訳日:2022-11-16 13:05:43 公開日:2022-11-15 |
# ハイパースペクトル画像分類のための確率論的深度学習 Probabilistic Deep Metric Learning for Hyperspectral Image Classification ( http://arxiv.org/abs/2211.08349v1 ) ライセンス: Link先を確認 | Chengkun Wang, Wenzhao Zheng, Xian Sun, Jiwen Lu, Jie Zhou | (参考訳) 本稿では,ハイパースペクトル画像分類のための確率論的深度学習(PDML)フレームワークを提案する。
ハイパースペクトル画像分類の核となる問題は、クラス内物質間のスペクトル変動とクラス間物質のスペクトル類似性であり、周囲のパッチに基づいてピクセルを区別するための空間情報のさらなる取り込みを動機付けるものである。
しかし、多くのハイパースペクトルセンサーの空間解像度が低いため、異なるピクセルと同一のピクセルでさえ同じ物質を符号化しない可能性があるため、特定のピクセルの矛盾した判断が導かれる。
この問題に対処するために,観測画素のスペクトル分布のカテゴリー的不確かさをモデル化する確率論的深度学習フレームワークを提案する。
本稿では,パッチ内の各画素に対する大域的確率分布と,分布間の距離をモデル化する確率指標について述べる。
パッチ内の各ピクセルをトレーニングサンプルとして扱い、従来の方法と比較してパッチからより多くの情報を利用することができる。
本フレームワークは,様々なネットワークアーキテクチャと損失関数を持つ既存のハイパースペクトル画像分類手法に容易に適用できる。
in, up, ksc, houston 2013のデータセットを含む、広く使用されている4つのデータセットに関する広範囲な実験は、既存のメソッドのパフォーマンスを改善し、さらに最先端の技術を実現していることを示している。
コードは、https://github.com/wzzheng/PDML.comで入手できる。 This paper proposes a probabilistic deep metric learning (PDML) framework for hyperspectral image classification, which aims to predict the category of each pixel for an image captured by hyperspectral sensors. The core problem for hyperspectral image classification is the spectral variability between intraclass materials and the spectral similarity between interclass materials, motivating the further incorporation of spatial information to differentiate a pixel based on its surrounding patch. However, different pixels and even the same pixel in one patch might not encode the same material due to the low spatial resolution of most hyperspectral sensors, leading to an inconsistent judgment of a specific pixel. To address this issue, we propose a probabilistic deep metric learning framework to model the categorical uncertainty of the spectral distribution of an observed pixel. We propose to learn a global probabilistic distribution for each pixel in the patch and a probabilistic metric to model the distance between distributions. We treat each pixel in a patch as a training sample, enabling us to exploit more information from the patch compared with conventional methods. Our framework can be readily applied to existing hyperspectral image classification methods with various network architectures and loss functions. Extensive experiments on four widely used datasets including IN, UP, KSC, and Houston 2013 datasets demonstrate that our framework improves the performance of existing methods and further achieves the state of the art. Code is available at: https://github.com/wzzheng/PDML. | 翻訳日:2022-11-16 13:05:26 公開日:2022-11-15 |
# PartNR:信頼に値するiNteractive leaRningによる曖昧な解決 PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive leaRning ( http://arxiv.org/abs/2211.08304v1 ) ライセンス: Link先を確認 | Jelle Luijkx, Zlatan Ajanovic, Laura Ferranti, Jens Kober | (参考訳) いくつかの最近の研究は、言語に基づくヒューマンコマンドと画像シーンの観察をロボット実行ポリシー(例えば、ピック・アンド・プレイス・ポーズ)にマッピングした。
しかし、これらのアプローチは、訓練されたポリシーの不確実性を考慮せず、単に現在のポリシーが提案するアクションを最も可能性の高いアクションとして実行するだけである。
これにより、必要なデモの数でドメインシフトや非効率に脆弱になる。
本稿では,事前研究を拡張し,ピックポーズとプレースポーズの複数のモダリティをトポロジカル解析を用いて解析することにより,トレーニングポリシーのあいまいさを検出できるpartnrアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
ユーザデモはデータセットに集約され、その後のトレーニングに使用される。
このように、ポリシーはドメインシフトに迅速に適応することができ、よく訓練されたポリシーに必要なデモの数を最小化できる。
適応しきい値により、ユーザの受け入れ可能なあいまいさレベルを達成し、自律的にポリシーを実行し、それによってシステムの信頼性を高めることができる。
テーブルトップのピック・アンド・プレイス・タスクにおけるpartNRの性能を示す。 Several recent works show impressive results in mapping language-based human commands and image scene observations to direct robot executable policies (e.g., pick and place poses). However, these approaches do not consider the uncertainty of the trained policy and simply always execute actions suggested by the current policy as the most probable ones. This makes them vulnerable to domain shift and inefficient in the number of required demonstrations. We extend previous works and present the PARTNR algorithm that can detect ambiguities in the trained policy by analyzing multiple modalities in the pick and place poses using topological analysis. PARTNR employs an adaptive, sensitivity-based, gating function that decides if additional user demonstrations are required. User demonstrations are aggregated to the dataset and used for subsequent training. In this way, the policy can adapt promptly to domain shift and it can minimize the number of required demonstrations for a well-trained policy. The adaptive threshold enables to achieve the user-acceptable level of ambiguity to execute the policy autonomously and in turn, increase the trustworthiness of our system. We demonstrate the performance of PARTNR in a table-top pick and place task. | 翻訳日:2022-11-16 13:04:47 公開日:2022-11-15 |
# オンラインMixEHRアルゴリズムによる実世界データ中の現象型検出 Phenotype Detection in Real World Data via Online MixEHR Algorithm ( http://arxiv.org/abs/2211.07549v2 ) ライセンス: Link先を確認 | Ying Xu, Romane Gauriau, Anna Decker, Jacob Oppenheim | (参考訳) 電子健康記録(EHR)および健康保険請求(Health Insurer)からの診断、医薬品、手順、検査検査のパターンを理解することは、疾患のリスクを理解し、しばしば臨床医と共同でルールベースの治療を必要とする効率的な臨床開発のために重要である。
教師なし表現型アルゴリズムであるmixEHRをオンラインバージョンに拡張し、米国ベースの大規模クレームデータセットや、リッチな地域EHRデータセットを含む、桁違いの大きなデータセットで使用できるようにしました。
既往の疾患群を再現することに加えて,臨床的に有意義な疾患サブタイプと複合性を見出した。
本研究は, 効果的な教師なし学習方法, 既存の臨床知識の強化, 臨床医との効果的なコラボレーションのための有望なアプローチである。 Understanding patterns of diagnoses, medications, procedures, and laboratory tests from electronic health records (EHRs) and health insurer claims is important for understanding disease risk and for efficient clinical development, which often require rules-based curation in collaboration with clinicians. We extended an unsupervised phenotyping algorithm, mixEHR, to an online version allowing us to use it on order of magnitude larger datasets including a large, US-based claims dataset and a rich regional EHR dataset. In addition to recapitulating previously observed disease groups, we discovered clinically meaningful disease subtypes and comorbidities. This work scaled up an effective unsupervised learning method, reinforced existing clinical knowledge, and is a promising approach for efficient collaboration with clinicians. | 翻訳日:2022-11-16 12:57:48 公開日:2022-11-15 |
# 深部ニューラルネットワークによる心臓MRI方位認識と予測精度向上手法 Recognition of Cardiac MRI Orientation via Deep Neural Networks and a Method to Improve Prediction Accuracy ( http://arxiv.org/abs/2211.07088v2 ) ライセンス: Link先を確認 | Houxin Zhou | (参考訳) ほとんどの医療画像処理タスクでは、画像の向きが計算結果に影響を及ぼす。
しかし、手動で画像を並べ替えることは時間と労力を浪費する。
本稿では、心臓MRIにおける方向認識の問題と深部ニューラルネットワークを用いてこの問題を解決する。
我々は,MRIの多重列とモーダル性に対して,単一のモーダルから複数のモーダルへモデルを適用するトランスファー学習戦略を提案する。
また,投票を用いた予測手法を提案する。
その結果,深層ニューラルネットワークは心臓mriの向き認識に有効な方法であり,投票予測法によって精度が向上する可能性が示唆された。 In most medical image processing tasks, the orientation of an image would affect computing result. However, manually reorienting images wastes time and effort. In this paper, we study the problem of recognizing orientation in cardiac MRI and using deep neural network to solve this problem. For multiple sequences and modalities of MRI, we propose a transfer learning strategy, which adapts our proposed model from a single modality to multiple modalities. We also propose a prediction method that uses voting. The results shows that deep neural network is an effective way in recognition of cardiac MRI orientation and the voting prediction method could improve accuracy. | 翻訳日:2022-11-16 12:57:33 公開日:2022-11-15 |
# ポーズ誤りを考慮したロバストな3次元物体検出 Robust Collaborative 3D Object Detection in Presence of Pose Errors ( http://arxiv.org/abs/2211.07214v2 ) ライセンス: Link先を確認 | Yifan Lu, Quanhao Li, Baoan Liu, Mehrdad Dianati, Chen Feng, Siheng Chen, Yanfeng Wang | (参考訳) コラボレーティブな3dオブジェクト検出は、複数のエージェント間の情報交換を利用して、咬合などのセンサ障害の存在下でのオブジェクト検出の精度を高める。
しかし、実際には、不完全局所化によるポーズ推定誤差は、空間的メッセージの不整合を引き起こし、協調性能を著しく低下させる。
ポーズエラーの悪影響を軽減するために,未知のポーズエラーに対して堅牢な新しいハイブリッド協調フレームワークであるCoAlignを提案する。
提案手法は,協調エージェント間のポーズ一貫性を高めるために,新たなエージェント・オブジェクトポーズグラフモデリングに依存している。
さらに,複数の空間解像度で中間特徴を集約するマルチスケールデータ融合戦略を採用した。
訓練指導のための基礎的姿勢を必要とする先行研究と比較すると,本提案手法は訓練において基礎的姿勢の監督を必要とせず,ポーズ誤りの具体的な仮定をもたらさないため,より実用的である。
提案手法の大規模評価を複数のデータセットで行い,CoAlignが相対的な局所化誤差を著しく低減し,ポーズ誤差が存在する場合の美術検出性能の達成を証明した。
コードはhttps://github.com/yifanlu0227/CoAlign.comで研究コミュニティが利用できる。 Collaborative 3D object detection exploits information exchange among multiple agents to enhance accuracy of object detection in presence of sensor impairments such as occlusion. However, in practice, pose estimation errors due to imperfect localization would cause spatial message misalignment and significantly reduce the performance of collaboration. To alleviate adverse impacts of pose errors, we propose CoAlign, a novel hybrid collaboration framework that is robust to unknown pose errors. The proposed solution relies on a novel agent-object pose graph modeling to enhance pose consistency among collaborating agents. Furthermore, we adopt a multi-scale data fusion strategy to aggregate intermediate features at multiple spatial resolutions. Comparing with previous works, which require ground-truth pose for training supervision, our proposed CoAlign is more practical since it doesn't require any ground-truth pose supervision in the training and makes no specific assumptions on pose errors. Extensive evaluation of the proposed method is carried out on multiple datasets, certifying that CoAlign significantly reduce relative localization error and achieving the state of art detection performance when pose errors exist. Code are made available for the use of the research community at https://github.com/yifanlu0227/CoAlign. | 翻訳日:2022-11-16 12:57:23 公開日:2022-11-15 |
# REPAIR:補間修復のための置換活性化の正規化 REPAIR: REnormalizing Permuted Activations for Interpolation Repair ( http://arxiv.org/abs/2211.08403v1 ) ライセンス: Link先を確認 | Keller Jordan, Hanie Sedghi, Olga Saukh, Rahim Entezari, Behnam Neyshabur | (参考訳) 本稿では,Entezari et al の予想を考察する。
(2021) ニューラルネットワークの置換不変性を考慮すると、sgd 解間の線形補間に対する損失障壁はおそらく存在しない。
まず、ニューロンアライメント法だけでは、分散崩壊と呼ばれる現象により、SGD溶液間の低バリアリニア接続を確立するには不十分であることが観察された。
次に、これらの補間ネットワークの事前動作を再スケーリングすることにより分散崩壊を緩和するREPAIR(Renormalizing Permuted Activations for Interpolation repair)を提案する。
本手法と正規化層,ネットワーク幅,深さの選択との相互作用について検討し,ニューロンアライメント法上でREPAIRを用いることで,多種多様なアーキテクチャファミリやタスクに対する相対障壁の60%-100%低減が達成できることを示す。
特に,imagenetではresnet50の74%,cifar10ではresnet18では90%のバリア低減が報告されている。 In this paper we look into the conjecture of Entezari et al.(2021) which states that if the permutation invariance of neural networks is taken into account, then there is likely no loss barrier to the linear interpolation between SGD solutions. First, we observe that neuron alignment methods alone are insufficient to establish low-barrier linear connectivity between SGD solutions due to a phenomenon we call variance collapse: interpolated deep networks suffer a collapse in the variance of their activations, causing poor performance. Next, we propose REPAIR (REnormalizing Permuted Activations for Interpolation Repair) which mitigates variance collapse by rescaling the preactivations of such interpolated networks. We explore the interaction between our method and the choice of normalization layer, network width, and depth, and demonstrate that using REPAIR on top of neuron alignment methods leads to 60%-100% relative barrier reduction across a wide variety of architecture families and tasks. In particular, we report a 74% barrier reduction for ResNet50 on ImageNet and 90% barrier reduction for ResNet18 on CIFAR10. | 翻訳日:2022-11-16 12:57:02 公開日:2022-11-15 |
# 格子ベース検索による視覚接地vqa Visually Grounded VQA by Lattice-based Retrieval ( http://arxiv.org/abs/2211.08086v1 ) ライセンス: Link先を確認 | Daniel Reich, Felix Putze, Tanja Schultz | (参考訳) VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
強いVGを持つシステムは直感的に解釈可能であり、シーン理解の改善が示唆されている。
VQAの精度性能はここ数年で著しく向上したが、VGの性能と評価が明らかに改善され、全体的な精度が向上した。
この原因は、vqaシステムの学習パラダイムを主に選択することにある。これは、所定の回答オプションのセット上で識別分類器を訓練することである。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
そのため、開発システムはVGを直接コアサーチ手順に結びつける。
本システムでは,重み付き,有向,非巡回グラフ,すなわち「格子」上で動作し,質問から抽出された領域参照表現と連動して,与えられた画像のシーングラフから導出する。
我々は、我々のアプローチを詳細に分析し、その特性と限界について論じる。
提案手法は, 試験システムの中で最強のVG性能を実現し, 多くのシナリオにおいて例外的な一般化能力を示す。 Visual Grounding (VG) in Visual Question Answering (VQA) systems describes how well a system manages to tie a question and its answer to relevant image regions. Systems with strong VG are considered intuitively interpretable and suggest an improved scene understanding. While VQA accuracy performances have seen impressive gains over the past few years, explicit improvements to VG performance and evaluation thereof have often taken a back seat on the road to overall accuracy improvements. A cause of this originates in the predominant choice of learning paradigm for VQA systems, which consists of training a discriminative classifier over a predetermined set of answer options. In this work, we break with the dominant VQA modeling paradigm of classification and investigate VQA from the standpoint of an information retrieval task. As such, the developed system directly ties VG into its core search procedure. Our system operates over a weighted, directed, acyclic graph, a.k.a. "lattice", which is derived from the scene graph of a given image in conjunction with region-referring expressions extracted from the question. We give a detailed analysis of our approach and discuss its distinctive properties and limitations. Our approach achieves the strongest VG performance among examined systems and exhibits exceptional generalization capabilities in a number of scenarios. | 翻訳日:2022-11-16 12:56:43 公開日:2022-11-15 |
# リカレントニューラルネットワークを用いたランダム力学系の普遍時間一様軌道近似 Universal Time-Uniform Trajectory Approximation for Random Dynamical Systems with Recurrent Neural Networks ( http://arxiv.org/abs/2211.08018v1 ) ライセンス: Link先を確認 | Adrian N. Bishop | (参考訳) ランダムな入力を含むランダムな力学系の軌道を非コンパクトな領域上で近似し、不定値あるいは無限の時間軸上の再帰的ニューラルネットワークの能力について考察する。
主な結果は、無限の時間軸上のあるランダムな軌道は、単純なフィードバック構造を持つ特定のディープリカレントニューラルネットワークのクラスによって、任意の所望の精度に近似される可能性がある、ということである。
ここでの定式化は、この話題に関する関連する文献と対照的であり、その多くはコンパクトな状態空間と有限時間間隔に制限されている。
ここで必要なモデル条件は自然で、穏やかで、テストが簡単で、証明は非常に簡単です。 The capability of recurrent neural networks to approximate trajectories of a random dynamical system, with random inputs, on non-compact domains, and over an indefinite or infinite time horizon is considered. The main result states that certain random trajectories over an infinite time horizon may be approximated to any desired accuracy, uniformly in time, by a certain class of deep recurrent neural networks, with simple feedback structures. The formulation here contrasts with related literature on this topic, much of which is restricted to compact state spaces and finite time intervals. The model conditions required here are natural, mild, and easy to test, and the proof is very simple. | 翻訳日:2022-11-16 12:56:07 公開日:2022-11-15 |
# バイモーダルデータ生成における微調整の効果評価 Evaluating How Fine-tuning on Bimodal Data Effects Code Generation ( http://arxiv.org/abs/2211.07842v1 ) ライセンス: Link先を確認 | Gabriel Orlanski, Seonhye Yang, Michael Healy | (参考訳) コード生成のための言語モデルの人気が高まっているにもかかわらず、バイモーダルコーディングフォーラムでのトレーニングがモデルの性能と信頼性にどのように影響するかはまだ分かっていない。
したがって、我々は220万以上のStackOverflow質問のデータセットを収集し、微調整の回答を得る。
これらの微調整されたモデルは、平均で54.64%と85.35%改善され(chen et al., 2021)、基本プログラム問題(austin et al., 2021)となっている。
このレシエーションは、構文と実行時エラーの両方で生成されたプログラムの数をさらに減らす。
しかし、より高い温度では、より高い$pass@k$スコアにもかかわらず、モデルが実行可能なプログラムを生成する能力に顕著な低下が生じており、これらの副作用を緩和するデータを統合する方法の必要性が強調されている。
コードはhttps://github.com/gabeorlanski/bimodalcode-generationにある。 Despite the increase in popularity of language models for code generation, it is still unknown how training on bimodal coding forums affects a model's code generation performance and reliability. We, therefore, collect a dataset of over 2.2M StackOverflow questions with answers for finetuning. These fine-tuned models have average $pass@k$ improvements of 54.64% and 85.35% on the HumanEval (Chen et al., 2021) and Mostly Basic Program Problems (Austin et al., 2021) tasks, respectively. This regime further decreases the number of generated programs with both syntax and runtime errors. However, we find that at higher temperatures, there are significant decreases to the model's ability to generate runnable programs despite higher $pass@k$ scores, underscoring the need for better methods of incorporating such data that mitigate these side effects. The code can be found https://github.com/gabeorlanski/bimodalcode-generation | 翻訳日:2022-11-16 12:55:30 公開日:2022-11-15 |
# GLUE-X:分布外一般化の観点からの自然言語理解モデルの評価 GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective ( http://arxiv.org/abs/2211.08073v1 ) ライセンス: Link先を確認 | Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng Liu, Jindong Wang, Xing Xie, Yue Zhang | (参考訳) プレトレーニング言語モデル(PLM)は、事前トレーニングフェーズにおけるトレーニングコーパスとして大量のデータを活用することにより、モデル一般化を改善する。
しかし、現在、自然言語理解タスクにおける大規模PLMにおいても、OOD(out-of-distriion)の一般化は一般的に不適切な問題となっているため、NLPメソッドの現実世界への展開を妨げている。
そこで本研究では,OODのロバスト性の重要性を強調し,モデルのロバスト性の測定方法と改善方法についての知見を提供するとともに,GLUE-Xという統一ベンチマークの確立に向けた最初の試みを行う。
この目的のために、OODテストデータとして利用可能な13のデータセットを収集し、よく使われているモデルに対して8つの古典的NLPタスクの評価を行う。
以上の結果から,NLPタスクにおけるOODの精度は,すべての設定でIDの精度と比較して大きな性能低下が見られたため,注意が必要であることが確認された。 Pre-trained language models (PLMs) improve the model generalization by leveraging massive data as the training corpus in the pre-training phase. However, currently, the out-of-distribution (OOD) generalization becomes a generally ill-posed problem, even for the large-scale PLMs in natural language understanding tasks, which prevents the deployment of NLP methods in the real world. To facilitate the research in this direction, this paper makes the first attempt to establish a unified benchmark named GLUE-X, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. To this end, we collect 13 publicly available datasets as OOD test data, and conduct evaluations on 8 classic NLP tasks over \emph{18} popularly used models. Our findings confirm that the OOD accuracy in NLP tasks needs to be paid more attention to since the significant performance decay compared to ID accuracy has been found in all settings. | 翻訳日:2022-11-16 12:55:11 公開日:2022-11-15 |
# ハリーは何て言う?
物語の登場人物のための対話エージェントの構築 What would Harry say? Building Dialogue Agents for Characters in a Story ( http://arxiv.org/abs/2211.06869v2 ) ライセンス: Link先を確認 | Nuo Chen, Yan Wang, Haiyun Jiang, Deng Cai, Ziyang Chen and Jia Li | (参考訳) ハリー・ポッター対話データセット (harry potter dialogue dataset) は,物語中の登場人物のための対話エージェント構築の研究を容易にする。
既存の対話データセットとは2つの点で異なる。
1) hpdは,シーン,キャラクタ属性,キャラクタリレーションなど,小説のハリー・ポッターに関する豊富な背景情報を提供する。
2) これらの背景情報はストーリーが進むにつれて変化します。
言い換えれば、HPDの各対話セッションは異なる背景に相関し、ストーリーラインは背景がどのように変化するかを決定する。
我々は,Harry Potterのような応答をいかに生成できるかを判断するために,自動測定と人的計測の両方に基づいてベースライン(GPT-2,BOBなど)を評価する。
実験の結果, 生成した応答は会話履歴に精通しており, 対話履歴に関係しているものの, ハリーの性格の欠如は認められず, 将来研究のための大きなヘッドルームが存在することが示唆された。
私たちのデータセットは利用可能です。 We present HPD: Harry Potter Dialogue Dataset to facilitate the study of building dialogue agents for characters in a story. It differs from existing dialogue datasets in two aspects: 1) HPD provides rich background information about the novel Harry Potter, including scene, character attributes, and character relations; 2) All these background information will change as the story goes on. In other words, each dialogue session in HPD correlates to a different background, and the storyline determines how the background changes. We evaluate some baselines (e.g., GPT-2, BOB) on both automatic and human metrics to determine how well they can generate Harry Potter-like responses. Experimental results indicate that although the generated responses are fluent and relevant to the dialogue history, they are remained to sound out of character for Harry, indicating there is a large headroom for future studies. Our dataset is available. | 翻訳日:2022-11-16 12:49:01 公開日:2022-11-15 |
# ゼロショット画像キャプションのための大規模双方向訓練 Large-Scale Bidirectional Training for Zero-Shot Image Captioning ( http://arxiv.org/abs/2211.06774v2 ) ライセンス: Link先を確認 | Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim | (参考訳) 大規模なデータセットでトレーニングを行うと、画像キャプションモデルは一般的なドメインの画像の内容を理解することができるが、正確な詳細なキャプションを生成することができないことが多い。
性能向上のため,画像キャプションにおけるプリトレーニング・アンド・フィニチューニングが重要な戦略となっている。
しかし,画像とテキスト間の大規模双方向学習により,ゼロショット画像キャプションが可能となる。
本稿では,ゼロショット画像キャプションのための効率的な学習・推論フレームワークであるbidirectional image text training in large scale, bittersについて紹介する。
また,高品質なデータセットと,ゼロショットキャプション精度と社会バイアスを適切に評価するための指標セットからなる,新たな評価ベンチマークを提案する。
さらに,キーワード抽出のための効率的な微調整手法を提案する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションを実現する鍵となることを示す。 When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining-and-finetuning has been a key strategy for image captioning. However, we find that large-scale bidirectional training between image and text enables zero-shot image captioning. In this paper, we introduce Bidirectional Image Text Training in largER Scale, BITTERS, an efficient training and inference framework for zero-shot image captioning. We also propose a new evaluation benchmark which comprises of high quality datasets and an extensive set of metrics to properly evaluate zero-shot captioning accuracy and societal bias. We additionally provide an efficient finetuning approach for keyword extraction. We show that careful selection of large-scale training set and model architecture is the key to achieving zero-shot image captioning. | 翻訳日:2022-11-16 12:48:43 公開日:2022-11-15 |
# 説明可能な強化学習に関する調査 : 概念,アルゴリズム,課題 A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges ( http://arxiv.org/abs/2211.06665v2 ) ライセンス: Link先を確認 | Yunpeng Qing, Shunyu Liu, Jie Song, Mingli Song | (参考訳) 強化学習(rl)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
ディープラーニングの復活によって、Deep RL(DRL)は、幅広い複雑な制御タスクに対して大きな成功を収めた。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を軽減するために,本質的な解釈可能性やポストホックな説明可能性を構築することで,知的エージェントの内部動作に光をあてる文学が多数提案されている。
本稿では,eXplainable RL (XRL) に関する既存研究の総合的なレビューを行い,先行研究をモデル記述,報酬記述,状態記述,タスク記述に明確に分類する新たな分類法を提案する。
また,人間の知識を逆に活用してエージェントの学習効率と最終性能を向上するRL手法をレビュー,強調する一方,XRL分野ではこのような手法は無視されることが多い。
XRLにおけるいくつかのオープンな課題と機会について論じる。
この調査は、XRLの高度な要約とより良い理解を提供し、より効果的なXRLソリューションの研究を動機付けることを目的としている。
対応するオープンソースコードはhttps://github.com/Plankson/awesome-explainable-reinforcement-learningに分類される。 Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and final performance of agents while this kind of method is often ignored in XRL field. Some open challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization and better understanding of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning. | 翻訳日:2022-11-16 12:48:31 公開日:2022-11-15 |
# web ベース質問応答とマルチモーダル融合を用いた知識ベース補完 Knowledge Base Completion using Web-Based Question Answering and Multimodal Fusion ( http://arxiv.org/abs/2211.07098v2 ) ライセンス: Link先を確認 | Yang Peng, Daisy Zhe Wang | (参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。
しかし、これらの知識は極めて不完全である。
この問題を解決するために,構造化されていない情報と構造化されていない情報をマルチモーダルに融合したWebベースの質問応答システムを提案する。
知識ベース補完のためにWebからの非構造化情報を活用するために,多モーダル特徴と質問テンプレートを用いたWebベースの質問応答システムを設計し,欠落した事実を抽出し,極めて少ない質問で優れた性能を実現する。
抽出品質を向上させるため、質問応答システムは、エンティティタイプやエンティティ間関連性といった知識ベースからの構造化情報を用いる。 Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete. To solve this problem, we propose a web-based question answering system system with multimodal fusion of unstructured and structured information, to fill in missing information for knowledge bases. To utilize unstructured information from the Web for knowledge base completion, we design a web-based question answering system using multimodal features and question templates to extract missing facts, which can achieve good performance with very few questions. To help improve extraction quality, the question answering system employs structured information from knowledge bases, such as entity types and entity-to-entity relatedness. | 翻訳日:2022-11-16 12:48:04 公開日:2022-11-15 |
# 制御マルコフ鎖のオフライン推定:ミニマックス非パラメトリック推定器とサンプル効率 Offline Estimation of Controlled Markov Chains: Minimax Nonparametric Estimators and Sample Efficiency ( http://arxiv.org/abs/2211.07092v2 ) ライセンス: Link先を確認 | Imon Banerjee, Harsha Honnappa, Vinayak Rao | (参考訳) 制御マルコフ連鎖(CMC)はモデルベース強化学習の基盤となる。
本研究では,有限状態有限制御MCCの遷移確率行列を,いわゆるロギングポリシを用いて収集した固定データセットを用いて推定し,これらの遷移確率行列の非パラメトリック推定のための最小サンプル複雑性境界を開発する。
結果は一般であり, 統計的境界は自然混合係数を通じて, 伐採政策に依存する。
混合に対する強い仮定と、特定のPAC結合を達成するためにより多くのサンプルを必要とすることの間の興味深いトレードオフを示す。
本研究は,非定常マルコフ,エピソディック,欲欲制御を用いた,エルゴディドマルコフ鎖,弱いエルゴディド不均質マルコフ鎖,制御マルコフ鎖といった様々な例において,その妥当性を示す。
最後に,これらのサンプル複雑性境界を用いて,定常マルコフポリシのオフライン評価を行う。 Controlled Markov chains (CMCs) form the bedrock for model-based reinforcement learning. In this work, we consider the estimation of the transition probability matrices of a finite-state finite-control CMC using a fixed dataset, collected using a so-called logging policy, and develop minimax sample complexity bounds for nonparametric estimation of these transition probability matrices. Our results are general, and the statistical bounds depend on the logging policy through a natural mixing coefficient. We demonstrate an interesting trade-off between stronger assumptions on mixing versus requiring more samples to achieve a particular PAC-bound. We demonstrate the validity of our results under various examples, such as ergodic Markov chains, weakly ergodic inhomogeneous Markov chains, and controlled Markov chains with non-stationary Markov, episodic, and greedy controls. Lastly, we use these sample complexity bounds to establish concomitant ones for offline evaluation of stationary, Markov policies. | 翻訳日:2022-11-16 12:47:50 公開日:2022-11-15 |
# ロバスト・アーリーバイド・チケットを用いた効果的な対人訓練 Efficient Adversarial Training with Robust Early-Bird Tickets ( http://arxiv.org/abs/2211.07263v2 ) ライセンス: Link先を確認 | Zhiheng Xi, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang | (参考訳) 先行訓練言語モデル(PLM)の堅牢性を改善するための最も強力な手法の1つである。
しかし、このアプローチは通常、勾配降下による逆例を生成する必要があるため、従来の微調整よりも高価である。
敵対的トレーニングの最適化プロセスに着目すると、パラメータが収束するずっと前に、初期のトレーニングフェーズ(通常、$0.15\sim0.3$ epochs)に堅牢な接続パターンが出現する。
この発見にインスパイアされた我々は,(1)早期に構造化された空間をもつ堅牢なチケットを探索し,(2)残りの期間に頑健なチケットを微調整する,効率的な対向訓練手法を開発するために,堅牢な早期バードチケット(サブネットワーク)を掘り下げた。
できるだけ早くロバストなチケットを抽出するために,自動で検索を終了するチケット収束指標を設計する。
実験により, 提案手法は, 最も競争力のある対人訓練法と比較して, 同等かそれ以上の堅牢性を保ちながら, 最大7\times \sim 13 \times$トレーニングスピードアップを達成することができることがわかった。 Adversarial training is one of the most powerful methods to improve the robustness of pre-trained language models (PLMs). However, this approach is typically more expensive than traditional fine-tuning because of the necessity to generate adversarial examples via gradient descent. Delving into the optimization process of adversarial training, we find that robust connectivity patterns emerge in the early training phase (typically $0.15\sim0.3$ epochs), far before parameters converge. Inspired by this finding, we dig out robust early-bird tickets (i.e., subnetworks) to develop an efficient adversarial training method: (1) searching for robust tickets with structured sparsity in the early stage; (2) fine-tuning robust tickets in the remaining time. To extract the robust tickets as early as possible, we design a ticket convergence metric to automatically terminate the searching process. Experiments show that the proposed efficient adversarial training method can achieve up to $7\times \sim 13 \times$ training speedups while maintaining comparable or even better robustness compared to the most competitive state-of-the-art adversarial training methods. | 翻訳日:2022-11-16 12:47:33 公開日:2022-11-15 |
# 地域目的による未確認授業のマイニング:インクリメンタルセグメンテーションのためのシンプルなベースライン Mining Unseen Classes via Regional Objectness: A Simple Baseline for Incremental Segmentation ( http://arxiv.org/abs/2211.06866v2 ) ライセンス: Link先を確認 | Zekang Zhang, Guangyu Gao, Zhiyuan Fang, Jianbo Jiao, Yunchao Wei | (参考訳) 増分的あるいは連続的な学習は、画像分類タスクにおいて、破滅的な忘れを緩和するために広範囲に研究されてきた。
クラスインクリメンタルセマンティックセグメンテーションでは、背景シフトによってこのような現象がさらに悪化することが多く、すなわち、前の段階で学んだ概念が現在のトレーニング段階でバックグラウンドクラスに割り当てられるため、これらの古い概念のパフォーマンスが著しく低下する。
この問題に対処するため,本論文では,Regional Objectness for Segmentation (MicroSeg) を用いたマイニング未確認クラスを提案する。
われわれのMicroSegは、強い客観性を持つ背景領域が、歴史的または将来の段階においてそれらの概念に属するという仮定に基づいている。
そのため、現在のトレーニング段階で古い知識を忘れないように、私たちのMicroSegはまず、与えられたイメージをプロポーザルジェネレータで数百のセグメント提案に分割します。
背景から強いオブジェクト性を持つセグメント提案は、最適化中にクラスタ化され、新たに定義されたラベルが割り当てられる。
このように、特徴空間における古い概念を特徴付ける分布は、背景シフトによる破滅的な忘れを軽減し、よりよく認識される。
Pascal VOCとADE20Kデータセットの大規模な実験は、最先端技術による競合結果を示し、提案したMicroSegの有効性を十分に検証している。 Incremental or continual learning has been extensively studied for image classification tasks to alleviate catastrophic forgetting, a phenomenon that earlier learned knowledge is forgotten when learning new concepts. For class incremental semantic segmentation, such a phenomenon often becomes much worse due to the background shift, i.e., some concepts learned at previous stages are assigned to the background class at the current training stage, therefore, significantly reducing the performance of these old concepts. To address this issue, we propose a simple yet effective method in this paper, named Mining unseen Classes via Regional Objectness for Segmentation (MicroSeg). Our MicroSeg is based on the assumption that background regions with strong objectness possibly belong to those concepts in the historical or future stages. Therefore, to avoid forgetting old knowledge at the current training stage, our MicroSeg first splits the given image into hundreds of segment proposals with a proposal generator. Those segment proposals with strong objectness from the background are then clustered and assigned newly-defined labels during the optimization. In this way, the distribution characterizes of old concepts in the feature space could be better perceived, relieving the catastrophic forgetting caused by the background shift accordingly. Extensive experiments on Pascal VOC and ADE20K datasets show competitive results with state-of-the-art, well validating the effectiveness of the proposed MicroSeg. | 翻訳日:2022-11-16 12:46:55 公開日:2022-11-15 |
# 脳を越えて見る:視覚復号のためのスパースマズドモデリングを用いた条件拡散モデル Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding ( http://arxiv.org/abs/2211.06956v2 ) ライセンス: Link先を確認 | Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou | (参考訳) 脳記録からの視覚刺激の復号は、人間の視覚システムの理解を深め、Brain-Computer Interfaceを通じて人間とコンピュータの視覚をブリッジするための基盤を構築することを目的としている。
しかし、脳信号の複雑な表現とデータアノテーションの不足により、脳の記録から正しい意味を持つ高品質な画像の再構成は難しい問題である。
本稿では,人間の視覚復号のための2成分遅延拡散モデルを用いたMinD-Vis: Sparse Masked Brain Modelingを提案する。
まず,一次視覚野における情報のスパース符号化にインスパイアされた大きな潜伏空間におけるマスクモデルを用いて,fMRIデータの効果的な自己教師型表現を学習する。
次に,2つの条件付き潜伏拡散モデルを拡張することにより,MinD-Visは,非常に少ないペアアノテーションを用いて,脳の記録から意味的に一致した細部を再現できることを示す。
実験結果から,提案手法は,セマンティックマッピング(100方向意味分類)と生成品質(fid)の両方において,それぞれ66%,41%の精度で最先端を上回っていた。
網羅的アブレーション試験も実施し,我々の枠組みを解析した。 Decoding visual stimuli from brain recordings aims to deepen our understanding of the human visual system and build a solid foundation for bridging human and computer vision through the Brain-Computer Interface. However, reconstructing high-quality images with correct semantics from brain recordings is a challenging problem due to the complex underlying representations of brain signals and the scarcity of data annotations. In this work, we present MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding. Firstly, we learn an effective self-supervised representation of fMRI data using mask modeling in a large latent space inspired by the sparse coding of information in the primary visual cortex. Then by augmenting a latent diffusion model with double-conditioning, we show that MinD-Vis can reconstruct highly plausible images with semantically matching details from brain recordings using very few paired annotations. We benchmarked our model qualitatively and quantitatively; the experimental results indicate that our method outperformed state-of-the-art in both semantic mapping (100-way semantic classification) and generation quality (FID) by 66% and 41% respectively. An exhaustive ablation study was also conducted to analyze our framework. | 翻訳日:2022-11-16 12:46:26 公開日:2022-11-15 |
# セミサンプリングによる半スーパービジョン3次元物体検出 Boosting Semi-Supervised 3D Object Detection with Semi-Sampling ( http://arxiv.org/abs/2211.07084v2 ) ライセンス: Link先を確認 | Xiaopei Wu, Yang Zhao, Liang Peng, Hua Chen, Xiaoshui Huang, Binbin Lin, Haifeng Liu, Deng Cai, Wanli Ouyang | (参考訳) 現在の3Dオブジェクト検出方法は大量のアノテーションに大きく依存しています。
半教師付き学習はこの問題を軽減するために使用できる。
従来の半教師付き3Dオブジェクト検出手法は,ラベル付きおよびラベルなしデータを拡張するための完全教師付き手法を直接従う。
本稿では,セミサンプリングと呼ばれる半教師付き学習のためのデータ拡張手法を設計する。
具体的には,グラウンドの真理ラベルと擬似ラベルを用いて,ラベル付きフレーム上のgtサンプルと擬似サンプルを抽出する。
そして、gtサンプルデータベースと擬似サンプルデータベースを生成します。
教師が指導する半教師付きフレームワークを訓練する際、ラベル付きフレームとラベルなしフレームの両方にgtサンプルと擬似サンプルをランダムに選択し、強力なデータ拡張を行う。
セミサンプリングは、gtサンプリングの半教師付き学習への拡張と見なすことができる。
我々の方法は単純だが効果的だ。
我々は、ScanNet、SUN-RGBD、KITTIベンチマークにおける最先端の手法を大きなマージンで継続的に改善する。
例えば、ScanNet上のラベル付きデータのみを使用したトレーニングでは、3DIoUMatchで3.1mAPと6.4mAPの改善をmAP@0.25とmAP@0.5で達成しています。
KITTIのラベル付きデータでトレーニングする場合、車、歩行者、自転車の授業で3DIoUMatchを3.5mAP、6.7mAP、14.1mAPで強化する。
コードはhttps://github.com/LittlePey/Semi-Sampling.comで公開される。 Current 3D object detection methods heavily rely on an enormous amount of annotations. Semi-supervised learning can be used to alleviate this issue. Previous semi-supervised 3D object detection methods directly follow the practice of fully-supervised methods to augment labeled and unlabeled data, which is sub-optimal. In this paper, we design a data augmentation method for semi-supervised learning, which we call Semi-Sampling. Specifically, we use ground truth labels and pseudo labels to crop gt samples and pseudo samples on labeled frames and unlabeled frames, respectively. Then we can generate a gt sample database and a pseudo sample database. When training a teacher-student semi-supervised framework, we randomly select gt samples and pseudo samples to both labeled frames and unlabeled frames, making a strong data augmentation for them. Our semi-sampling can be regarded as an extension of gt-sampling to semi-supervised learning. Our method is simple but effective. We consistently improve state-of-the-art methods on ScanNet, SUN-RGBD, and KITTI benchmarks by large margins. For example, when training using only 10% labeled data on ScanNet, we achieve 3.1 mAP and 6.4 mAP improvement upon 3DIoUMatch in terms of mAP@0.25 and mAP@0.5. When training using only 1% labeled data on KITTI, we boost 3DIoUMatch by 3.5 mAP, 6.7 mAP and 14.1 mAP on car, pedestrian and cyclist classes. Codes will be made publicly available at https://github.com/LittlePey/Semi-Sampling. | 翻訳日:2022-11-16 12:46:06 公開日:2022-11-15 |