このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20221012となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 絡み合い支援ワンショット古典通信における文脈性 Contextuality in entanglement-assisted one-shot classical communication ( http://arxiv.org/abs/2006.00469v4 ) ライセンス: Link先を確認 | Shiv Akshar Yadavalli, Ravi Kunjwal | (参考訳) 絡み合い支援型ワンショット古典通信の問題点を考察する。
ゼロエラーシステムでは、エンタングルメントはcubitt et al., physの戦略に従って、古典的チャネルのファミリーのワンショットゼロエラー能力を高めることができる。
Rev. Lett.
104, 230503 (2010).
この戦略は、射影的測定にのみ適用できるkochen-specker定理を用いる。
そのため、ノイズの多い状態や測定の体制では、この戦略は能力を高めることはできない。
総称的に騒がしい状況に対応するため,定数の古典メッセージを送信するワンショット成功確率について検討する。
この課題において,準備条件性が量子長所となり,一発成功確率を古典的最大値を超えて高めることを示した。
私たちの治療はCubet et al.を超えて、例えば、実験的に実装されたPrevedel et al., Physを含む。
Rev. Lett.
106, 110505 (2011).
次に、このコミュニケーションタスクと対応する非ローカルゲームとのマッピングを示す。
このマッピングは、ゼロエラーケースで以前に言及された疑似テレパシーゲームとの接続を一般化する。
最後に, 文脈独立推論と呼ぶ制約を動機づけた上で, r. kunjwal, 量子4, 219 (2020) で得られたノイズロバストな非文脈性不等式によって見いだされる文脈性は, ワンショット成功確率を高めるには十分であることを示す。
これはこれらの不等式と関連するハイパーグラフ不変量、重み付き最大予測可能性(R. Kunjwal, Quantum 3, 184 (2019))に対する運用上の意味を与える。
この結果から, 絡み合い支援型ワンショット古典的コミュニケーションの課題は, コチェン=スペーカーの定理, スペッケンス文脈性, ベル非局所性(英語版)の相互作用を研究するための肥大な基盤となることがわかった。 We consider the problem of entanglement-assisted one-shot classical communication. In the zero-error regime, entanglement can increase the one-shot zero-error capacity of a family of classical channels following the strategy of Cubitt et al., Phys. Rev. Lett. 104, 230503 (2010). This strategy uses the Kochen-Specker theorem which is applicable only to projective measurements. As such, in the regime of noisy states and/or measurements, this strategy cannot increase the capacity. To accommodate generically noisy situations, we examine the one-shot success probability of sending a fixed number of classical messages. We show that preparation contextuality powers the quantum advantage in this task, increasing the one-shot success probability beyond its classical maximum. Our treatment extends beyond Cubitt et al. and includes, for example, the experimentally implemented protocol of Prevedel et al., Phys. Rev. Lett. 106, 110505 (2011). We then show a mapping between this communication task and a corresponding nonlocal game. This mapping generalizes the connection with pseudotelepathy games previously noted in the zero-error case. Finally, after motivating a constraint we term context-independent guessing, we show that contextuality witnessed by noise-robust noncontextuality inequalities obtained in R. Kunjwal, Quantum 4, 219 (2020), is sufficient for enhancing the one-shot success probability. This provides an operational meaning to these inequalities and the associated hypergraph invariant, the weighted max-predictability, introduced in R. Kunjwal, Quantum 3, 184 (2019). Our results show that the task of entanglement-assisted one-shot classical communication provides a fertile ground to study the interplay of the Kochen-Specker theorem, Spekkens contextuality, and Bell nonlocality. | 翻訳日:2023-05-17 20:44:00 公開日:2022-10-12 |
# 非エリート進化アルゴリズムの自己調整型人口サイズ:なぜ成功率が重要か Self-Adjusting Population Sizes for Non-Elitist Evolutionary Algorithms: Why Success Rates Matter ( http://arxiv.org/abs/2104.05624v3 ) ライセンス: Link先を確認 | Mario Alejandro Hevia Fajardo and Dirk Sudholt | (参考訳) 進化的アルゴリズム(EA)は、親や子孫のサイズや突然変異率など、いくつかのパラメータを持つ汎用的なオプティマイザである。
EAのパフォーマンスがこれらのパラメータに大きく依存していることはよく知られている。
近年の理論的研究により、アルゴリズムの実行中にパラメータをチューニングする自己調整パラメータ制御機構は、離散問題に対するeasの最良の静的パラメータよりも優れていることが示されている。
しかし、これらの研究の大部分はエリート主義的EAに関するものであり、同じメカニズムが非エリート主義EAに適用できるかどうかについては明確な答えは得られていない。
我々は,非エリート$(1,\lambda)$ ea において,子孫の個体数を$\lambda$ で制御するために,最もよく知られたパラメータ制御機構である1-fifth success rule について検討した。
1,\lambda)$ EAは、ベンチマーク関数で期待されるランタイムが多項式から指数時間に変化する$\lambda$の選択に関して、鋭い閾値を持つことが知られている。
したがって、パラメータ制御機構が$\lambda$の適切な値を見つけ、維持できるかどうかは不明である。
OneMax の場合、その答えは成功率$s$ (i) に大きく依存する。
である。
は 1-$(s+1)$-th の成功規則である。
成功率が適切に小さい場合、自己調整の$(1,\lambda)$ ea は 1max in $o(n)$ expected generations と $o(n \log n)$ expected evaluation を最適化する。
成功率は小さく、成功率が大きすぎると、アルゴリズムはonemaxの指数関数ランタイムと同じような特性を持つ他の関数を持っていることも示します。 Evolutionary algorithms (EAs) are general-purpose optimisers that come with several parameters like the sizes of parent and offspring populations or the mutation rate. It is well known that the performance of EAs may depend drastically on these parameters. Recent theoretical studies have shown that self-adjusting parameter control mechanisms that tune parameters during the algorithm run can provably outperform the best static parameters in EAs on discrete problems. However, the majority of these studies concerned elitist EAs and we do not have a clear answer on whether the same mechanisms can be applied for non-elitist EAs. We study one of the best-known parameter control mechanisms, the one-fifth success rule, to control the offspring population size $\lambda$ in the non-elitist $(1,\lambda)$ EA. It is known that the $(1,\lambda)$ EA has a sharp threshold with respect to the choice of $\lambda$ where the expected runtime on the benchmark function OneMax changes from polynomial to exponential time. Hence, it is not clear whether parameter control mechanisms are able to find and maintain suitable values of $\lambda$. For OneMax we show that the answer crucially depends on the success rate $s$ (i.\,e.\ a one-$(s+1)$-th success rule). We prove that, if the success rate is appropriately small, the self-adjusting $(1,\lambda)$ EA optimises OneMax in $O(n)$ expected generations and $O(n \log n)$ expected evaluations, the best possible runtime for any unary unbiased black-box algorithm. A small success rate is crucial: we also show that if the success rate is too large, the algorithm has an exponential runtime on OneMax and other functions with similar characteristics. | 翻訳日:2023-04-04 01:54:55 公開日:2022-10-12 |
# 障害振動子系における絡み合いの動的進化 Dynamical Evolution of Entanglement in Disordered Oscillator Systems ( http://arxiv.org/abs/2104.13825v3 ) ライセンス: Link先を確認 | Houssam Abdul-Rahman | (参考訳) d$次元格子内の調和振動子からなる無秩序量子系の非平衡ダイナミクスについて検討した。
もしシステムが十分に局所化されているならば、d$-次元格子のタイリング(分解)に関連付けられた幅広い初期積状態のクラスから始めると、エンタングルメントの動的進化は、常に領域法則に従うことが示される。
さらに、エンタングルメント境界は、次元 $d\geq 2$ の格子内でサブシステムがどのように配置されているかに依存する。
特に、絡み合いは格子タイルに関連付けられた双対グラフの最大次数とともに大きくなる。 We study the non-equilibrium dynamics of a disordered quantum system consisting of harmonic oscillators in a $d$-dimensional lattice. If the system is sufficiently localized, we show that, starting from a broad class of initial product states that are associated with a tiling (decomposition) of the $d$-dimensional lattice, the dynamical evolution of entanglement follows an area law in all times. Moreover, the entanglement bound reveals a dependency on how the subsystems are located within the lattice in dimensions $d\geq 2$. In particular, the entanglement grows with the maximum degree of the dual graph associated with the lattice tiling. | 翻訳日:2023-04-02 04:29:52 公開日:2022-10-12 |
# 量子干渉法によるダイヤモンド結晶ひずみの高精度マッピング High-precision mapping of diamond crystal strain using quantum interferometry ( http://arxiv.org/abs/2108.00304v2 ) ライセンス: Link先を確認 | Mason C. Marshall and Reza Ebadi and Connor Hart and Matthew J. Turner and Mark J.H. Ku and David F. Phillips and Ronald L. Walsworth | (参考訳) 結晶ひずみの変動は、ダイヤモンドの固体欠陥量子ビットに対する多くの量子センシングおよび情報応用に重大な制限を課す。
したがって、ダイヤモンド結晶ひずみの精密測定と制御は重要な課題である。
ここでは, マイクロンスケールの空間分解能, ミリメートル場オブビュー, 体積正規化感度の2次改善 [1], 5(2) \times 10^{-8}/\sqrt{\rm{hz}\cdot\rm{\mu m}^3}$ (スピン-ひずみ結合係数が支配的な系統的不確かさを表す) など, 特異な特性を持つダイヤモンドひずみ測定値について報告する。
ひずみ勾配の低い単結晶CVDバルクダイヤモンドにおける窒素空孔(NV)色中心のアンサンブルに対するひずみ感受性スピン状態干渉法を用いた。
この量子干渉法により、電子および核スピン浴からの磁場不均一性に対する非感度が得られ、長いnvアンサンブル電子スピンデファスメント時間とひずみ感度が向上する。
まず, 走査共焦点レーザー顕微鏡を用いて, 感度の定量的測定と三次元ひずみマッピング, および広視野イメージング量子ダイヤモンド顕微鏡(qdm)を用いて, ひずみ感度測定プロトコルを実証した。
我々のひずみ顕微鏡技術は、ダイヤモンド材料工学とナノファブリケーションの高速かつ高感度なキャラクタリゼーションを可能にし、ダイヤモンドアンビル細胞や埋め込みダイヤモンド応力センサ、あるいは粒子誘起核再コイルによる結晶損傷によって外部に印加されたひずみのダイヤモンドベースセンシングを可能にする。 Crystal strain variation imposes significant limitations on many quantum sensing and information applications for solid-state defect qubits in diamond. Thus, precision measurement and control of diamond crystal strain is a key challenge. Here, we report diamond strain measurements with a unique set of capabilities, including micron-scale spatial resolution, millimeter-scale field-of-view, and a two order-of-magnitude improvement in volume-normalized sensitivity over previous work [1], reaching $5(2) \times 10^{-8}/\sqrt{\rm{Hz}\cdot\rm{\mu m}^3}$ (with spin-strain coupling coefficients representing the dominant systematic uncertainty). We use strain-sensitive spin-state interferometry on ensembles of nitrogen vacancy (NV) color centers in single-crystal CVD bulk diamond with low strain gradients. This quantum interferometry technique provides insensitivity to magnetic-field inhomogeneity from the electronic and nuclear spin bath, thereby enabling long NV ensemble electronic spin dephasing times and enhanced strain sensitivity. We demonstrate the strain-sensitive measurement protocol first on a scanning confocal laser microscope, providing quantitative measurement of sensitivity as well as three-dimensional strain mapping; and second on a wide-field imaging quantum diamond microscope (QDM). Our strain microscopy technique enables fast, sensitive characterization for diamond material engineering and nanofabrication; as well as diamond-based sensing of strains applied externally, as in diamond anvil cells or embedded diamond stress sensors, or internally, as by crystal damage due to particle-induced nuclear recoils. | 翻訳日:2023-03-20 07:02:52 公開日:2022-10-12 |
# クマー方程式と合流超幾何関数の解法に関する物理学者のガイド A physicist's guide to the solution of Kummer's equation and confluent hypergeometric functions ( http://arxiv.org/abs/2111.04852v3 ) ライセンス: Link先を確認 | W. N. Mathews Jr., M. A. Esrick, Z. Y. Teoh, J. K. Freericks | (参考訳) コンフルエント超幾何学方程式(confluent hypergeometric equation, kummer's equation)は、物理学、化学、工学において最も重要な微分方程式の一つである。
その2つの級数解は、クマー函数 m(a,b,z) であり、しばしば第一種の合流超幾何函数(confluent hypergeometric function of the first kind)、z^{1-b}m(1+a-b,2-b,z) と呼ばれる。
第3の関数であるトリコミー函数 u(a,b,z) は、しばしば第2種の合流超幾何関数と呼ばれ、日常的に用いられる合流超幾何方程式の解でもある。
これら3つの関数はすべて、合流超幾何方程式の2つの線型独立解の探索において考慮されなければならない。
a, b, a - b が整数である場合、これらの関数の一方が定義されていない場合、あるいは2つの函数が線型独立でない場合、あるいは微分方程式の線型独立解の1つがこれら3つの函数とは異なる場合がある。
これらの特別なケースの多くは、物理学の問題を解決するために必要なケースと正確に一致する。
これは、NIST Digital Library of Mathematical Functions(英語版)のような権威的な参照にもかかわらず、収束超幾何方程式を扱う方法に関して大きな混乱をもたらす。
ここでは、考慮すべき異なるケースの全てと、収束超幾何方程式の2つの線型独立解に対する明示的な公式について、慎重に記述する。
結果は第3節第1表にまとめられている。
例えば、これらの解を用いて水素原子の境界状態の研究を行い、教科書の標準的な処理を超えている。
また,カットオフクーロンポテンシャルについても簡単に考察する。
このガイドは、confluent hypergeometric differential equationを含む物理学の指導に役立つことを期待している。 The confluent hypergeometric equation, also known as Kummer's equation, is one of the most important differential equations in physics, chemistry, and engineering. Its two power series solutions are the Kummer function, M(a,b,z), often referred to as the confluent hypergeometric function of the first kind, and z^{1-b}M(1+a-b,2-b,z), where a and b are parameters that appear in the differential equation. A third function, the Tricomi function, U(a,b,z), sometimes referred to as the confluent hypergeometric function of the second kind, is also a solution of the confluent hypergeometric equation that is routinely used. All three of these functions must be considered in a search for two linearly independent solutions of the confluent hypergeometric equation. There are situations, when a, b, and a - b are integers, where one of these functions is not defined, or two of the functions are not linearly independent, or one of the linearly independent solutions of the differential equation is different from these three functions. Many of these special cases correspond precisely to cases needed to solve physics problems. This leads to significant confusion about how to work with confluent hypergeometric equations, in spite of authoritative references such as the NIST Digital Library of Mathematical Functions. Here, we carefully describe all of the different cases one has to consider and what the explicit formulas are for the two linearly independent solutions of the confluent hypergeometric equation. Our results are summarized in Table I in Section 3. As an example, we use these solutions to study the bound states of the hydrogenic atom, going beyond the standard treatment in textbooks. We also briefly consider the cutoff Coulomb potential. We hope that this guide will aid physics instruction that involves the confluent hypergeometric differential equation. | 翻訳日:2023-03-08 20:06:27 公開日:2022-10-12 |
# バンド反転曲面の量子工学からの非伝統的なフロケ位相 Unconventional Floquet topological phases from quantum engineering of band inversion surfaces ( http://arxiv.org/abs/2112.01086v3 ) ライセンス: Link先を確認 | Long Zhang, Xiong-Jun Liu | (参考訳) floquet engineeringは静的な相を使わずに新しい量子位相を実現するためのツールボックスを提供するが、従来は複雑な時間的進化の操作に頼っていた。
本稿では,局所バンド構造,特に帯域反転曲面 (BISs) と呼ばれる運動量部分空間における工学的局所バンド構造を用いて,非伝統的なフロケット位相を実現するための体系的かつ高精度な手法を提案する。
このスキームは、一般的な$d$次元周期駆動系のクラスに対して、各BISで形成される局所位相構造がギャップレス境界モードの特徴を一意に決定する新しいバルク境界対応に基づいている。
BIS構成のエンジニアリングにより、新しいフロケット位相相を実現し、操作し、検出するための非常に効率的なアプローチを示す。
特に、自明な大域的バルク位相不変量を持つが、各準エネルギーギャップにおける反伝播エッジ状態を保護する2次元(2次元)不規則なフローケット・バレーホール位相を予測する。
この新しい2次元位相の非慣習的性質は、エッジ幾何依存性とその乱れ散乱に対するロバスト性を調べることによってさらに示される。
また,高次元における谷保護を伴う異常なキラル位相も予測し,検討した。
系統的で非常に実現可能なスキームは、超低温原子や他の量子シミュレータのための非コンベンションフロッケ位相相を実現し、設計するための新しい経路を開く。 Floquet engineering provides a toolbox for the realization of novel quantum phases without static counterparts, while conventionally the realization may rely on the manipulation of complex temporal evolution. Here we propose a systematic and high-precision scheme to realize unconventional Floquet topological phases by engineering local band structures in particular momentum subspace called band inversion surfaces (BISs). This scheme is based on a new bulk-boundary correspondence that for a class of generic $d$-dimensional periodically driven systems, the local topological structure formed in each BIS uniquely determines the features of gapless boundary modes. By engineering the BIS configuration we demonstrate a highly efficient approach to realize, manipulate, and detect novel Floquet topological phases. In particular, we predict a two-dimensional (2D) anomalous Floquet valley-Hall phase which carries trivial global bulk topological invariants but features protected counter-propagating edge states in each quasienergy gap. The unconventional nature of this novel 2D phase is further illustrated by the examination of edge geometry dependence and its robustness to disorder scattering. Anomalous chiral topological phases with valley protection in higher dimension are also predicted and studied. Our systematic and highly feasible scheme opens a new route to realize and engineer unconventional Floquet topological phases for ultracold atoms and other quantum simulators. | 翻訳日:2023-03-06 02:28:39 公開日:2022-10-12 |
# Rydberg原子における3体微細構造変化F\"オースター共鳴に基づくトフォリゲート Toffoli gate based on a three-body fine-structure-state-changing F\"orster resonance in Rydberg atoms ( http://arxiv.org/abs/2112.11058v2 ) ライセンス: Link先を確認 | I. N. Ashkarin, I. I. Beterov, E. A. Yakshina, D. B. Tretyakov, V. M. Entin, I. I. Ryabtsev, P. Cheinet, K.-L. Pham, S. Lepoutre, and P. Pillet | (参考訳) 我々は,3体リングバーグ相互作用を変化させる微細構造状態に基づく3量子トフォリゲートの改良手法を開発した。
このスキームは、これまでの提案(i.i.beterov et al., physical review a 98, 042704 (2018))を大きく改善したものです。
異なるタイプの3体F\"オースター共鳴を用いることにより、レーザー励起と集合3体状態の位相ダイナミクスのスキームを大幅に単純化した。
このタイプのf\"orster共鳴は、2つ以上の原子を持つ系にのみ存在し、2つの体共鳴は欠如している。
本研究では,外部電界のゆらぎに対するゲート忠実度を低減し,リドバーグ原子に基づくトッフォリゲートの従来のスキームに比べ,共鳴電界値の微調整に外部磁場を使用する必要をなくした。
計算の結果, ゲート忠実度は99%であった。 We have developed an improved scheme of a three-qubit Toffoli gate based on fine structure state changing three-body Stark-tuned Rydberg interaction. This scheme is a substantial improvement of our previous proposal [I.I.Beterov et al., Physical Review A 98, 042704 (2018)]. Due to the use of a different type of three-body F\"orster resonance we substantially simplified the scheme of laser excitation and phase dynamics of collective three-body states. This type of F\"orster resonance exists only in systems with more than two atoms, while the two-body resonance is absent. We reduced the sensitivity of the gate fidelity to fluctuations of external electric field and eliminated the necessity to use external magnetic field for fine tuning of the resonant electric field value, compared to the previous scheme of Toffoli gate based on Rydberg atoms. A gate fidelity of >99% was demonstrated in the calculations. | 翻訳日:2023-03-03 22:45:37 公開日:2022-10-12 |
# 量子「接触」摩擦--熱ゆらぎによる運動摩擦係数の寄与 Quantum "contact" friction: the contribution of kinetic friction coefficient from thermal fluctuations ( http://arxiv.org/abs/2202.12717v3 ) ライセンス: Link先を確認 | Rasoul Kheiri | (参考訳) 運動摩擦の熱モデルは、変動する滑らかな表面を移動する古典的な負荷粒子に割り当てられる。
正弦波は緩和時間とともに表面ゆらぎに類似する。
ハミルトニアンは、ハーモニック振動子の系を記述する波の平均エネルギーに近似される。
振幅の量子化は、消滅と生成演算子を量子位相で乗算することで得られる。
さらに, 音響分散関係を考察し, 力自己相関関数から摩擦係数を評価する。
すべり粒子は、波動関数におけるトンネルや非局在化のような無視可能な量子効果を持つナノ粒子や先端を古典的に記述する一方で、表面変動の量子化モデルは、運動摩擦係数の温度依存性をもたらす。
高温では漸近的な値であり、低温では超過性を示す。 A thermal model of kinetic friction is assigned to a classical loaded particle moving on a fluctuating smooth surface. A sinusoidal wave resembles surface fluctuations with a relaxation time. The Hamiltonian is approximated to the mean energy of the wave describing a system of Harmonic oscillators. The quantization of amplitudes yields in terms of annihilation and creation operators multiplied by a quantum phase. Further, we consider acoustic dispersion relation and evaluate the friction coefficient from the force autocorrelation function. While the sliding particle remains classical describing a nano-particle or a tip with negligible quantum effects like tunneling or delocalization in the wave function, the quantized model of the surface fluctuations results in the temperature dependence of the kinetic friction coefficient. It follows an asymptotic value for higher temperatures and supperslipperiness at low temperatures. | 翻訳日:2023-02-24 03:36:07 公開日:2022-10-12 |
# 変量量子固有解器のパラメータ化2量子ゲート Parameterized Two-Qubit Gates for Enhanced Variational Quantum Eigensolver ( http://arxiv.org/abs/2203.04978v2 ) ライセンス: Link先を確認 | S. E. Rasmussen and N. T. Zinner | (参考訳) 変分量子固有解法(英: variational quantum eigensolver)は、近未来の量子デバイスに影響を及ぼすと予想される顕著なハイブリッド量子古典アルゴリズムである。
これらは通常、パラメータ化シングルキュービットゲートと固定2キュービットゲートからなる回路アンサッツに基づいている。
変分量子固有解法におけるパラメータ化2量子ゲートの効果について検討する。
回路における2量子ビットゲートの固定化とパラメータ化を用いて,変分量子固有解法をシミュレートし,量子化学や材料科学に応用できるハミルトニアン(ハミルトニアン)に対して,最適エネルギーと外れ値の両方において,パラメータ化バージョンが固定バージョンを上回っていることを示す。 The variational quantum eigensolver is a prominent hybrid quantum-classical algorithm expected to impact near-term quantum devices. They are usually based on a circuit ansatz consisting of parameterized single-qubit gates and fixed two-qubit gates. We study the effect of parameterized two-qubit gates in the variational quantum eigensolver. We simulate a variational quantum eigensolver algorithm using fixed and parameterized two-qubit gates in the circuit ansatz and show that the parameterized versions outperform the fixed versions, both when it comes to best energy and reducing outliers, for a range of Hamiltonians with applications in quantum chemistry and materials science. | 翻訳日:2023-02-22 19:27:08 公開日:2022-10-12 |
# 対称性解消エントロピーと全計数統計に対する普遍的熱補正 Universal Thermal Corrections to Symmetry-Resolved Entanglement Entropy and Full Counting Statistics ( http://arxiv.org/abs/2203.06708v2 ) ライセンス: Link先を確認 | Mostafa Ghasemi | (参考訳) 対称解 R\'{e}nyi および非零温度の円上の2次元共形場理論の絡み合いエントロピーを考える。
系の有限サイズによって引き起こされる非零質量ギャップを持つ一意な基底状態と仮定し、低温膨張における個々の電荷セクタの寄与に対する主補正を計算する。
質量ギャップの大きさと第一励起状態の縮退に加えて、これらの普遍的な補正は一次場の4点相関関数にのみ依存する。
また、基底状態の総計数統計量に対して熱補正を行い、 \textit{probability fluctuations} 関数を定義する。
e^{-2 \pi \delta_{\psi} \beta /l}$ でスケールし、ここで $\delta_{\psi}$ は最小重み状態のスケーリング次元である。
例として,スピンレスフェルミオンに対する対称分解エンタングルメントエントロピーとfcsの熱補正を明示的に評価する。 We consider the symmetry-resolved R\'{e}nyi and entanglement entropies for two-dimensional conformal field theories on a circle at nonzero temperature. We assume a unique ground state with a nonzero mass gap induced by the system's finite size and then calculate the leading corrections to the contributions of individual charge sectors in a low-temperature expansion. Besides the size of the mass gap and the degeneracy of the first excited state, these universal corrections depend only on the four-point correlation function of the primary fields. We also obtain thermal corrections to the full counting statistics of the ground state and define the \textit{probability fluctuations} function. It scales as $e^{-2 \pi \Delta_{\psi} \beta /L}$, where $\Delta_{\psi}$ is the scaling dimension of the lowest weight states. As an example, we explicitly evaluate the thermal corrections to the symmetry-resolved entanglement entropy and FCS for the spinless fermions. | 翻訳日:2023-02-22 05:30:40 公開日:2022-10-12 |
# 「私も私も、もしそうなら、何人?」...差別的プライバシーを守れるようにリスクコミュニケーションフォーマットを使って "Am I Private and If So, how Many?" -- Using Risk Communication Formats for Making Differential Privacy Understandable ( http://arxiv.org/abs/2204.04061v3 ) ライセンス: Link先を確認 | Daniel Franzen (1), Saskia Nu\~nez von Voigt (2), Peter S\"orries (1), Florian Tschorsch (2), Claudia M\"uller-Birn (1) ((1) Freie Universit\"at Berlin, (2) Technische Universit\"at Berlin) | (参考訳) 都市やコミュニティにとって、モビリティデータは必要な改善のための地域を特定するために不可欠である。
モビリティプロバイダが収集したデータは、必要なすべての情報を含んでいるが、個人のプライバシーは保存する必要がある。
differential privacy (dp)は、データ共有中にプライバシーの特定の制限が保持されることを保証する数学的特性を定義するが、その機能とプライバシ保護は素人に対して説明が難しい。
本稿では,DPのプライバシリスクのモデルと合わせて,リスクコミュニケーション形式を適応させる。
その結果、DPの機能ではなく、DPを使用する際の個人のプライバシーに対するリスクを説明するプライバシー通知が得られた。
我々はこれらの新しいプライバシーコミュニケーションフォーマットをクラウドソーシング研究で評価する。
客観的理解の観点からは,現在使用されているDP通信の最高性能とよく似ているが,参加者にその理解に自信を持たせることは出来なかった。
また,dunning-kruger効果に類似した,プライバシ通信形式や現在使用されているdp通信形式の有効性に関する統計数値の影響も見いだした。
これらの結果は, リスクビジュアライゼーションの活用によるフォーマットの理解性向上や, リスクコミュニケーションを読者の特性に合わせて調整するユーザインタフェースの活用など, 複数方向の仮説を生成する。 Mobility data is essential for cities and communities to identify areas for necessary improvement. Data collected by mobility providers already contains all the information necessary, but privacy of the individuals needs to be preserved. Differential privacy (DP) defines a mathematical property which guarantees that certain limits of privacy are preserved while sharing such data, but its functionality and privacy protection are difficult to explain to laypeople. In this paper, we adapt risk communication formats in conjunction with a model for the privacy risks of DP. The result are privacy notifications which explain the risk to an individual's privacy when using DP, rather than DP's functionality. We evaluate these novel privacy communication formats in a crowdsourced study. We find that they perform similarly to the best performing DP communications used currently in terms of objective understanding, but did not make our participants as confident in their understanding. We also discovered an influence, similar to the Dunning-Kruger effect, of the statistical numeracy on the effectiveness of some of our privacy communication formats and the DP communication format used currently. These results generate hypotheses in multiple directions, for example, toward the use of risk visualization to improve the understandability of our formats or toward adaptive user interfaces which tailor the risk communication to the characteristics of the reader. | 翻訳日:2023-02-19 16:11:59 公開日:2022-10-12 |
# 教室におけるSARS-CoV-2伝送防止のための新しいアプローチ: OpenFOAM を用いたCFD 研究 A novel approach to preventing SARS-CoV-2 transmission in classrooms: An OpenFOAM based CFD Study ( http://arxiv.org/abs/2211.06295v1 ) ライセンス: Link先を確認 | Anish Pal, Riddhideep Biswas, Ritam Pal, Sourav Sarkar, Achintya Mukhopadhyay | (参考訳) 新型コロナウイルスのパンデミックが続く中、教育部門は壊滅的な打撃を受けており、教室は無期限閉鎖されている。
本研究は,教室内における新型コロナウイルスの感染状況を調査し,長期的持続的ソリューションを提供することによって,既存のジレンマを解決することを目的とする。
本研究では,教師を伴って24名の学生が座る標準的な5m×3m×5m教室が検討されている。
Eulerian-Lagrangianフレームワークを用いて,OpenFOAMに基づく計算流体力学シミュレーションを行う。
確率的線量反応の枠組みに基づき,教室における感染リスクを2つの異なる症例で評価した。
(i)一部の生徒が感染している
(ii)教師が感染している。
教師が感染した場合、感染確率は特定の生徒の100%に達する可能性がある。
特定の学生が感染した場合、感受性のある人の感染リスクは30%に達する。
一般的に使用される布マスクは、感染感染の最大確率を約26%減らす感染感染感染防止に効果がないことが証明されている。
また、デスクに設置されたシールドの形で使われる別の一般的なソリューションは、感染リスクを50%減らすのに十分な保護を提供しられなかった。
さらに、これらのシールドは、フォマイト感染の源として機能する。
液滴を巻き込む天井から吊るされたスクリーンは、感染のリスクを90%から95%削減する新しいソリューションとして提案されている。
画面の表示により、クラス時間は55分延長できる。 The education sector has suffered a catastrophic setback due to ongoing COVID-pandemic, with classrooms being closed indefinitely. The current study aims to solve the existing dilemma by examining COVID transmission inside a classroom and providing long-term sustainable solutions. In this work, a standard 5m x 3m x 5m classroom is considered where 24 students are seated, accompanied by a teacher. A computational fluid dynamics simulation based on OpenFOAM is performed using a Eulerian-Lagrangian framework. Based on the stochastic dose response framework, we have evaluated the infection risk in the classroom for two distinct cases: (i) certain students are infected (ii) the teacher is infected. If the teacher is infected, the probability of infection could reach 100% for certain students. When certain students are infected, the maximum infection risk for a susceptible person reaches 30%. The commonly used cloth mask proves to be ineffective in providing protection against infection transmission reducing the maximum infection probability by approximately 26% only. Another commonly used solution in the form of shields installed on desks have also failed to provide adequate protection against infection reducing the infection risk only by 50%. Furthermore, the shields serves as a source of fomite mode of infection. Screens suspended from the ceiling, which entrap droplets, have been proposed as a novel solution that reduces the infection risk by 90% and 95% compared to the no screen scenario besides being completely devoid of fomite infection mode. As a result of the screens, the class-time can be extended by 55 minutes. | 翻訳日:2023-02-19 12:23:08 公開日:2022-10-12 |
# AI/機械学習加速器, スーパーコンピュータ, 計算集約アプリケーションにおけるエネルギー推定の動向 Trends in Energy Estimates for Computing in AI/Machine Learning Accelerators, Supercomputers, and Compute-Intensive Applications ( http://arxiv.org/abs/2210.17331v1 ) ライセンス: Link先を確認 | Sadasivan Shankar, Albert Reuther | (参考訳) 幾何学的スケーリング法則によって駆動される様々なシステムの計算エネルギー要件について検討し、過去10年間で人工知能や機械学習(AI-ML)の利用が増加している。
データ駆動ディスカバリに基づくより科学的および技術的な応用により、マシンラーニング、特にディープニューラルネットワークが広く利用されている。
このようなアプリケーションを実現するために、ハードウェアアクセラレータと高度なAI-MLメソッドの両方が新しいアーキテクチャ、システム設計、アルゴリズム、ソフトウェアを導入している。
エネルギートレンドの分析は 3つの重要な観察を示します
1)幾何学的スケーリングによるエネルギー効率の低下
2) ビットレベルのエネルギー効率は,命令レベル,あるいは,様々なシステム,特に大規模ai-mlアクセラレータやスーパーコンピュータのシステムレベルでの効率には変換されない。
3)応用レベルでは,汎用AI-ML手法は,幾何学的スケーリングや特別な加速器からエネルギーのゲインをオフセットして計算的にエネルギー集約化することができる。
さらに,省エネ効率と性能分析を融合し,将来的な高性能・持続可能コンピューティングを実現するための具体的ポインタを提供する。 We examine the computational energy requirements of different systems driven by the geometrical scaling law, and increasing use of Artificial Intelligence or Machine Learning (AI-ML) over the last decade. With more scientific and technology applications based on data-driven discovery, machine learning methods, especially deep neural networks, have become widely used. In order to enable such applications, both hardware accelerators and advanced AI-ML methods have led to the introduction of new architectures, system designs, algorithms, and software. Our analysis of energy trends indicates three important observations: 1) Energy efficiency due to geometrical scaling is slowing down; 2) The energy efficiency at the bit-level does not translate into efficiency at the instruction-level, or at the system-level for a variety of systems, especially for large-scale AI-ML accelerators or supercomputers; 3) At the application level, general-purpose AI-ML methods can be computationally energy intensive, off-setting the gains in energy from geometrical scaling and special purpose accelerators. Further, our analysis provides specific pointers for integrating energy efficiency with performance analysis for enabling high-performance and sustainable computing in the future. | 翻訳日:2023-02-19 12:07:57 公開日:2022-10-12 |
# 現代における監視技術とその社会への展開 A review of modern surveillance techniques and their presence in our society ( http://arxiv.org/abs/2210.09002v1 ) ライセンス: Link先を確認 | Alexis Roger | (参考訳) テクノロジーは今や私たちを取り巻いている。
特に最近の健康危機で、多くの人がリモートワークを始め、追加のコンピューターを家に持ち込んだ。
忘れられないスマートフォンと組み合わせることで、私たちは常にテクノロジーの驚異に囲まれています。
しかし彼らは、多くの人々が目をそらして、否定的に生きることを好んで選択する、かなり暗い側面、すなわち監視を伴っている。
これらのデバイスはどれも、私たちの目と耳に近づき続けるために使える。
現代の監視マシンは、新たな画期的な規模に達しました。
この問題を完全に理解するためには、この問題がどこから来るのか、また異なる俳優のレビューを理解するために、いくつかの歴史的背景を集めることが重要である。
各俳優は、希望する情報を取得するために使用する特定のスキルセットを持ち、どの情報を収集するかはその動機に強く依存する。
われわれの情報収集に使われた多くのトリックと、現在の監視環境におけるその関連性について検討する。 Technology is now omnipresent around us. Especially with the recent health crisis, many people started working remotely, bringing home an additional computer. Combining this with our smartphones that we could never leave behind, we are always surrounded by these technological marvels. However, they come along with a rather dark side from which many people choose to look away, preferring to live in denial: the surveillance. All of these devices can be used to keep a close eye and ear on us. The modern surveillance machine has reached a new, groundbreaking, size; and we will attempt to understand how we ended up in this situation. To have a complete understanding of the problem, it is important to gather some historical background to comprehend where this issue comes from as well as a review of the different actors. Each actor has a specific skillset it will use to acquire the desired information, and what information they choose to gather depends strongly on their motives. We will go over the many tricks used to gather our information, as well as its relevance in the current surveillance climate. | 翻訳日:2023-02-19 11:48:35 公開日:2022-10-12 |
# BiaScope: グラフ埋め込みのための視覚異常診断 BiaScope: Visual Unfairness Diagnosis for Graph Embeddings ( http://arxiv.org/abs/2210.06417v1 ) ライセンス: Link先を確認 | Agapi Rissaki, Bruno Scarone, David Liu, Aditeya Pandey, Brennan Klein, Tina Eliassi-Rad, Michelle A. Borkin | (参考訳) 機械学習モデルにおけるバイアス(すなわち系統的不公平)の問題は最近、研究者と実践者の双方の注目を集めている。
特にグラフマイニングコミュニティにとって、アルゴリズムの公平性に対する重要な目標は、例えばソーシャルメディアのレコメンデーションのような人間中心のアプリケーションで一般的に使われているので、グラフ埋め込みに含まれるバイアスを検出し軽減することである。
しかし、バイアスを検出する単純な分析手法は、一般に不公平な原因を明らかにしない集計統計を伴う。
その代わり、ビジュアルメソッドはグラフ埋め込みの包括的公平性を提供し、観察されたバイアスの原因を明らかにするのに役立つ。
本稿では,グラフ埋め込みにおけるエンドツーエンドの視覚不公平性診断を支援する対話型可視化ツールbiascopeを提案する。
このツールはドメインの専門家とのコラボレーションによるデザインスタディの産物です。
ユーザーが使えるようになる。
(i)公正性に関して2つの埋め込みを視覚的に比較する。
(ii)不公平に埋め込まれたノード又はグラフコミュニティの特定及び
(iii)関連する埋め込み部分空間と対応するグラフトポロジーを対話的に結びつけることでバイアスの源を理解する。
専門家のフィードバックは、我々のツールが不公平の検出と診断に有効であることを確認する。
そこで我々は,本ツールが研究者のアルゴリズム設計のコンパニオンであると同時に,既成のグラフ埋め込みを用いた実践者のためのガイドとなることを想定する。 The issue of bias (i.e., systematic unfairness) in machine learning models has recently attracted the attention of both researchers and practitioners. For the graph mining community in particular, an important goal toward algorithmic fairness is to detect and mitigate bias incorporated into graph embeddings since they are commonly used in human-centered applications, e.g., social-media recommendations. However, simple analytical methods for detecting bias typically involve aggregate statistics which do not reveal the sources of unfairness. Instead, visual methods can provide a holistic fairness characterization of graph embeddings and help uncover the causes of observed bias. In this work, we present BiaScope, an interactive visualization tool that supports end-to-end visual unfairness diagnosis for graph embeddings. The tool is the product of a design study in collaboration with domain experts. It allows the user to (i) visually compare two embeddings with respect to fairness, (ii) locate nodes or graph communities that are unfairly embedded, and (iii) understand the source of bias by interactively linking the relevant embedding subspace with the corresponding graph topology. Experts' feedback confirms that our tool is effective at detecting and diagnosing unfairness. Thus, we envision our tool both as a companion for researchers in designing their algorithms as well as a guide for practitioners who use off-the-shelf graph embeddings. | 翻訳日:2023-02-19 11:39:39 公開日:2022-10-12 |
# モバイルアプリ開発コースにおけるアクセシビリティの統合 Integrating Accessibility in a Mobile App Development Course ( http://arxiv.org/abs/2210.06132v1 ) ライセンス: Link先を確認 | Jaskaran Singh Bhatia, Parthasarathy P D, Snigdha Tiwari, Dhruv Nagpal, Swaroop Joshi | (参考訳) アクセス可能なソフトウェアへの関心の高まりは、コアコンピューティング教育にアクセシビリティを含めるコンピュータ教育者や教育研究者の努力を反映している。
インドにある大型私立大学で,中高レベルのAndroidアプリ開発コースでアクセシビリティを統合した。
このコースではアクセシビリティに関するトピックとして,アクセシビリティ意識(法律専門家によるゲスト講演),技術知識(androidアクセシビリティガイドラインとテストプラクティスの講義,プログラミング課題のアクセシビリティ実装のためのグレードドコンポーネント),共感(学生が目隠しをして,スクリーンリーダを使って携帯電話と対話する必要のあるアクティビティ)の3つが紹介されている。
A)プレ/ポストコースのアンケート,(B)4つのプログラム課題のそれぞれに対する反射的質問,(C)中間試験と最終試験の質問,の3つの尺度を用いて,学生の学習への影響を評価した。
その結果, (A) (p<05$) の学生は, このコースを受講した後に障害を考慮し, (B) 多くの学生は, アクセシブルアプリを使用しながら, 障害者が直面する課題に対して共感を抱き, (C) すべての学生は, 実世界のアプリのユーザインタフェースにおける少なくとも1つのアクセシビリティ問題にスクリーンショットを付与し, 90%の学生が正しい解決策を提供することができた。 The growing interest in accessible software reflects in computing educators' and education researchers' efforts to include accessibility in core computing education. We integrated accessibility in a junior/senior-level Android app development course at a large private university in India. The course introduced three accessibility-related topics using various interventions: Accessibility Awareness (a guest lecture by a legal expert), Technical Knowledge (lectures on Android accessibility guidelines and testing practices and graded components for implementing accessibility in programming assignments), and Empathy (an activity that required students to blindfold themselves and interact with their phones using a screen-reader). We evaluated their impact on student learning using three instruments: (A) A pre/post-course questionnaire, (B) Reflective questions on each of the four programming assignments, and (C) Midterm and Final exam questions. Our findings demonstrate that: (A) significantly more ($p<.05$) students considered disabilities when designing an app after taking this course, (B) many students developed empathy towards the challenges persons with disabilities face while using inaccessible apps, and (C) all students could correctly identify at least one accessibility issue in the user interface of a real-world app given its screenshot, and 90% of them could provide a correct solution to fix it. | 翻訳日:2023-02-19 11:38:54 公開日:2022-10-12 |
# 科学チームにおける階層の定量化 Quantifying hierarchy in scientific teams ( http://arxiv.org/abs/2210.05852v1 ) ライセンス: Link先を確認 | Fengli Xu, Lingfei Wu, James A. Evans | (参考訳) 本稿では,最近のPNAS論文 "Flat Teams Drive Scientific Innovation" Xu et alで使用されているデータ収集と機械学習モデルの詳細について述べる。
【2022a】
本稿では,学術出版物の特徴を用いて,著者チームの暗黙的階層を推定する方法について論じる。
また,チーム階層が科学的成果に与える影響を評価する手法についても述べる。
詳細はこの記事で継続的に更新されます。
生データとReadmeドキュメントは、このGitHubリポジトリXuなどからアクセスすることができる。
【2022b】 This paper provides a detailed description of the data collection and machine learning model used in our recent PNAS paper "Flat Teams Drive Scientific Innovation" Xu et al. [2022a]. Here, we discuss how the features of scientific publication can be used to estimate the implicit hierarchy in the corresponding author teams. Besides, we also describe the method of evaluating the impact of team hierarchy on scientific outputs. More details will be updated in this article continuously. Raw data and Readme document can be accessed in this GitHub repository Xu et al. [2022b]. | 翻訳日:2023-02-19 11:38:06 公開日:2022-10-12 |
# PATE:不動産・アメニティ・交通・感情を合わせて不動産価格予測 PATE: Property, Amenities, Traffic and Emotions Coming Together for Real Estate Price Prediction ( http://arxiv.org/abs/2209.05471v2 ) ライセンス: Link先を確認 | Yaping Zhao, Ramgopal Ravi, Shuhui Shi, Zhongrui Wang, Edmund Y. Lam, Jichang Zhao | (参考訳) 不動産価格は個人、家族、企業、政府に大きな影響を与える。
不動産価格予測の一般的な目的は、不動産そのものから他の寄与要因に至るまで、不動産取引から生じる社会経済パターンを特定し、活用することである。
しかし、価格予測は、プロパティ自身を超えて多くの特性を推定する、挑戦的な多次元問題である。
本稿では,周囲のアメニティ,交通条件,社会感情など,様々な社会経済的特徴の経済的貢献を評価するために,複数のデータソースを用いる。
中国・北京の28,550軒の住宅で実験を行い,その重要性からそれぞれの特徴をランク付けした。
マルチソース情報の利用により予測精度が向上するため、上記の特徴は不動産の経済的・社会的価値を評価する上で貴重な資源となる。
コードとデータは、https://github.com/IndigoPurple/PATEで入手できる。 Real estate prices have a significant impact on individuals, families, businesses, and governments. The general objective of real estate price prediction is to identify and exploit socioeconomic patterns arising from real estate transactions over multiple aspects, ranging from the property itself to other contributing factors. However, price prediction is a challenging multidimensional problem that involves estimating many characteristics beyond the property itself. In this paper, we use multiple sources of data to evaluate the economic contribution of different socioeconomic characteristics such as surrounding amenities, traffic conditions and social emotions. Our experiments were conducted on 28,550 houses in Beijing, China and we rank each characteristic by its importance. Since the use of multi-source information improves the accuracy of predictions, the aforementioned characteristics can be an invaluable resource to assess the economic and social value of real estate. Code and data are available at: https://github.com/IndigoPurple/PATE | 翻訳日:2023-02-19 11:08:10 公開日:2022-10-12 |
# 電磁誘導透明性を用いた量子ゲートの実証 Demonstration of a Quantum Gate using Electromagnetically Induced Transparency ( http://arxiv.org/abs/2204.03733v4 ) ライセンス: Link先を確認 | K. McDonnell and L. F. Keary and J. D. Pritchard | (参考訳) 電磁誘導透過(EIT)に基づく2つの中性原子間のネイティブな$\mathrm{CNOT}$ゲートを示す。
このプロトコルは、Rydberg状態の強い長距離相互作用を利用して、ブロック状態で操作された場合、ターゲット量子ビット上の条件状態転送を可能にする。
この方式の利点は、量子ビット数に依存しないパルスシーケンスを用いてマルチキュービットCNOT$^k$ゲートの実装を可能にし、デジタル量子アルゴリズムの効率的な実装のための単純なゲートと量子誤り訂正のための安定化器測定を提供することである。
我々は,$\mathcal{F}_\mathrm{CNOT}^\mathrm{cor} = 0.82(6)$,$\mathcal{F}_\mathrm{Bell}^\mathrm{cor} = 0.66(5)$の損失補正ゲート忠実度を実現し,現在レーザーパワーによって制限されているエンタングルドベル状態を作成する。
フォールトトレラントスケーリングに必要なレベルに進むために、いくつかの技術的改善を提案する。 We demonstrate a native $\mathrm{CNOT}$ gate between two individually addressed neutral atoms based on electromagnetically induced transparency (EIT). This protocol utilizes the strong long-range interactions of Rydberg states to enable conditional state transfer on the target qubit when operated in the blockade regime. An advantage of this scheme is it enables implementation of multi-qubit CNOT$^k$ gates using a pulse sequence independent of qubit number, providing a simple gate for efficient implementation of digital quantum algorithms and stabiliser measurements for quantum error correction. We achieve a loss corrected gate fidelity of $\mathcal{F}_\mathrm{CNOT}^\mathrm{cor} = 0.82(6)$, and prepare an entangled Bell state with $\mathcal{F}_\mathrm{Bell}^\mathrm{cor} = 0.66(5)$, limited at present by laser power. We present a number of technical improvements to advance this to a level required for fault-tolerant scaling. | 翻訳日:2023-02-17 23:48:13 公開日:2022-10-12 |
# 量子アニーリングによる折り畳み格子タンパク質 Folding lattice proteins with quantum annealing ( http://arxiv.org/abs/2205.06084v2 ) ライセンス: Link先を確認 | Anders Irb\"ack, Lucas Knuthson, Sandipan Mohanty and Carsten Peterson | (参考訳) 量子アニーリングは、難しい最適化問題に対する良い近似解を得るための有望なアプローチである。
タンパク質配列をその最小エネルギー構造に固定することはそのような問題を表す。
このタスクのために新しいアルゴリズムや技術をテストする場合、最小限の格子ベースのHPモデルには適している。
HPモデルは、疎水性残基を直接結合しない隣り合う相互作用が好ましい。
本稿では,量子アニーリング用に調整された格子タンパク質の新規なスピン表現法を開発した。
格子上に分散エンコードすることで、連鎖成長技術に基づく量子アニール上に格子タンパク質を折り畳む以前の試みとは異なる。
我々の符号化では、設計によるハミルトニアンは補助スピン変数を導入することなくイジン型アニールの計算に必要な二次構造を持つ。
この性質は長い鎖の研究を大いに促進する。
このアプローチは、スピン系をチェーンのような構成に制約するために必要なパラメータの変化に対して堅牢であり、ソリューションの品質の点で非常によく機能する。
以上の結果から, 従来のHPチェーンを100%のヒットレートで最大$N=30$ビーズで評価し, 従来のシミュレートアニールよりも優れた結果を得た。
さらに、この手法により、N=48$およびN=64$HPチェーンの最小エネルギーを、同様のヒットレートで回復することができる。
これらの結果は、一般的に用いられるハイブリッド量子古典的手法によって得られる。
純量子アニール法では,N=14$HPチェーンの折り畳みに成功した。
計算はd-wave advantage quantum annealer上で行われた。 Quantum annealing is a promising approach for obtaining good approximate solutions to difficult optimization problems. Folding a protein sequence into its minimum-energy structure represents such a problem. For testing new algorithms and technologies for this task, the minimal lattice-based HP model is well suited, as it represents a considerable challenge despite its simplicity. The HP model has favorable interactions between adjacent, not directly bound hydrophobic residues. Here, we develop a novel spin representation for lattice protein folding tailored for quantum annealing. With a distributed encoding onto the lattice, it differs from earlier attempts to fold lattice proteins on quantum annealers, which were based upon chain growth techniques. With our encoding, the Hamiltonian by design has the quadratic structure required for calculations on an Ising-type annealer, without having to introduce any auxiliary spin variables. This property greatly facilitates the study of long chains. The approach is robust to changes in the parameters required to constrain the spin system to chain-like configurations, and performs very well in terms of solution quality. The results are evaluated against existing exact results for HP chains with up to $N=30$ beads with 100% hit rate, thereby also outperforming classical simulated annealing. In addition, the method allows us to recover the lowest known energies for $N=48$ and $N=64$ HP chains, with similar hit rates. These results are obtained by the commonly used hybrid quantum-classical approach. For pure quantum annealing, our method successfully folds an $N=14$ HP chain. The calculations were performed on a D-Wave Advantage quantum annealer. | 翻訳日:2023-02-13 09:38:28 公開日:2022-10-12 |
# 光学的非古典状態検出のためのマルチコピーオブザーバブル Multicopy observables for the detection of optically nonclassical states ( http://arxiv.org/abs/2205.12040v2 ) ライセンス: Link先を確認 | Matthieu Arnhem, C\'elia Griffet and Nicolas J. Cerf | (参考訳) 古典的状態と非古典性を持つ状態とを区別することは、量子光学において長い間中心的な問題であった。
実装可能な光学的非古典性(すなわち、コヒーレントな状態の統計的混合との非互換性)を証明する基準を見つけることは、しばしば量子情報プロセスの前提条件である。
量子状態が光学的非古典性を示すかどうかを検出するための条件階層は、光学場のモーメントの行列に基づいて記述することができる(Phys. Rev. A 72, 043808 (2005))。
ここでは、量子状態のいくつかのレプリカに作用し、期待値がこれらの行列の行列式と一致する光学的非古典性観測器を設計し、状態トモグラフィーの必要性を克服する光学的非古典性の証人を提供する。
これらの多重コピー観測器は、線形光学演算と光子数検出器を含む物理的に実装可能なスキームのファミリーを構築するために使用される。 Distinguishing quantum states that admit a classical counterpart from those that exhibit nonclassicality has long been a central issue in quantum optics. Finding an implementable criterion certifying optical nonclassicality (i.e, the incompatibility with a statistical mixture of coherent states) is of major importance as it often is a prerequisite to quantum information processes. A hierarchy of conditions for detecting whether a quantum state exhibits optical nonclassicality can be written based on some matrices of moments of the optical field [Phys. Rev. A 72, 043808 (2005)]. Here, we design optical nonclassicality observables that act on several replicas of a quantum state and whose expectation value coincides with the determinant of these matrices, hence providing witnesses of optical nonclassicality that overcome the need for state tomography. These multicopy observables are used to construct a family of physically implementable schemes involving linear optical operations and photon number detectors. | 翻訳日:2023-02-11 22:02:50 公開日:2022-10-12 |
# 局所性から不規則性へ:大規模スカラー場理論における局所クエンチの導入 From locality to irregularity: Introducing local quenches in massive scalar field theory ( http://arxiv.org/abs/2205.12290v2 ) ライセンス: Link先を確認 | Dmitry S. Ageev, Aleksandr I. Belokon, Vasilii V. Pushkarev | (参考訳) 本稿では,非共形場理論における局所クエンチェの研究を開始する。
特に、任意の時空次元における大規模スカラー場理論における励起局所状態のダイナミクスを考察し、よく知られた2次元CFT結果を一般化する。
エネルギー密度, u(1)$-charge密度, $\phi^2(x)$-condensate post-quenchダイナミクスを導出し, 電界質量とクエンチ正規化パラメータの値に応じて, その進化の異なるレジームを同定する。
質量のない高次元局所クエンチに対しては、得られる自由理論公式と利用可能なホログラフィック結果とを簡単に比較する。
また,シリンダー上の大規模スカラー場理論における局所的クエンチについて検討し,それらのダイナミクスの複雑な局所化・非局在化パターンを持つ可観測性の予期せぬ不規則的・カオス的進化を引き起こすことを示した。 In this paper, we initiate the study of the local quenches in non-conformal field theories. In particular, we consider the dynamics of excited local states in massive scalar field theory in an arbitrary spacetime dimension and generalize the well-known two-dimensional CFT results. We derive the energy density, $U(1)$-charge density and $\phi^2(x)$-condensate post-quench dynamics and identify different regimes of their evolution depending on the values of the field mass and the quench regularization parameter. For massless higher-dimensional local quenches we briefly compare the obtained free theory formulae with the available holographic results. We also investigate the local quenches in massive scalar field theory on a cylinder and show that they cause unexpected erratic and chaotic-like evolution of observables with a complicated localization/delocalization pattern of their dynamics. | 翻訳日:2023-02-11 21:44:36 公開日:2022-10-12 |
# 実量子論と複素量子論の最適判別 Optimal discrimination between real and complex quantum theories ( http://arxiv.org/abs/2206.02212v2 ) ライセンス: Link先を確認 | Adam Bednorz, Josep Batle | (参考訳) 実数に基づいて量子論をテストするための最小の設定数を見つけ、ソースの分離性を仮定し、最近の提案 [m.-o. renou et al., nature 600, 625 (2021)] を修正した。
a$と$c$の3つの設定しか必要ありませんが、コンプレックスと実際の最大値の比率は、既存の提案よりも小さいです。
また,2つの設定と2つの観察結果が不十分であることが判明した。 We find the minimal number of settings to test quantum theory based on real numbers, assuming separability of the sources, modifying the recent proposal [M.-O. Renou et al., Nature 600, 625 (2021)]. The test needs only three settings for observers $A$ and $C$, but the ratio of complex to real maximum is smaller than in the existing proposal. We also found that two settings and two outcomes for both observes are insufficient. | 翻訳日:2023-02-10 12:17:51 公開日:2022-10-12 |
# 双曲型タイリングにおけるAharonov-Bohmケージ、フラットバンド、ギャップラベリング Aharonov-Bohm cages, flat bands, and gap labeling in hyperbolic tilings ( http://arxiv.org/abs/2206.04543v3 ) ライセンス: Link先を確認 | R. Mosseri, R. Vogeler, J. Vidal | (参考訳) アハラノフ・ボームケージ(Aharonov-Bohm caging)は、幾何学と磁場の競合から生じる局在化機構である。
元々はディス格子の密結合モデルのために記述され、この破壊的干渉現象は厳密な領域から波束が広がるのを防いでいる。
したがって、この効果に寄与する場の特異な値に対して、エネルギースペクトルは高度に退化した平坦なバンドの離散集合からなる。
本研究では,アハロノフ・ボームケージが負の曲線の双曲平面上で定義される双曲型双曲型タイリングの無限集合にも見られることを示す。
これらのタイルの構成を詳述し、高次曲面上の周期境界条件を考慮し、ホフシュタッターバターの計算を行う。
最近、いくつかのレギュラーな双曲型タイリングで観察されたように、これらの蝶はユークリッド種の自己相似構造を示さないが、まだいくつかのギャップがある。
また、磁場の特定の値に起因する高縮退状態のような興味深い特徴を示す双曲性カゴメタイリング(双曲性ダイスタイリングの双対)のエネルギースペクトルについても考察する。
これらの双曲型タイリングの2つの族について、ホフスタッター蝶の主な隙間におけるチャーン数を計算し、ユークリッドのケースにインスパイアされたギャップラベリングを提案する。
最後に,双曲型カゴメタイリングに属する三角形のhusimi cactusについても検討し,そのスペクトルと磁束の正確な表現を導出する。 Aharonov-Bohm caging is a localization mechanism stemming from the competition between the geometry and the magnetic field. Originally described for a tight-binding model in the dice lattice, this destructive interference phenomenon prevents any wavepacket spreading away from a strictly confined region. Accordingly, for the peculiar values of the field responsible for this effect, the energy spectrum consists of a discrete set of highly degenerate flat bands. In the present work, we show that Aharonov-Bohm cages are also found in an infinite set of hyperbolic dice tilings defined on a negatively curved hyperbolic plane. We detail the construction of these tilings and compute their Hofstadter butterflies by considering periodic boundary conditions on high-genus surfaces. As recently observed for some regular hyperbolic tilings, these butterflies do not manifest the self-similar structure of their Euclidean counterparts but still contain some gaps. We also consider the energy spectrum of hyperbolic kagome tilings (which are the dual of hyperbolic dice tilings), which displays interesting features, such as highly degenerate states arising for some particular values of the magnetic field. For these two families of hyperbolic tilings, we compute the Chern number in the main gaps of the Hofstadter butterfly and propose a gap labeling inspired by the Euclidean case. Finally, we also study the triangular Husimi cactus, which is a limiting case in the family of hyperbolic kagome tilings, and we derive an exact expression for its spectrum versus magnetic flux. | 翻訳日:2023-02-10 04:01:14 公開日:2022-10-12 |
# 量子場理論における励起状態の対称性解法 II:数値、相互作用理論、高次元 Symmetry Resolved Entanglement of Excited States in Quantum Field Theory II: Numerics, Interacting Theories and Higher Dimensions ( http://arxiv.org/abs/2206.12223v2 ) ライセンス: Link先を確認 | Luca Capizzi, Cecilia De Fazio, Michele Mazzoni, Luc\'ia Santamar\'ia-Sanz and Olalla A. Castro-Alvaredo | (参考訳) 最近の論文では、複素自由量子場理論における零密度励起状態の絡み合いの内容について研究し、対称性分解エントロピー(SREE)に着目した。
ゼロ密度状態により、無限体積系の基底状態より上の有限個の励起からなる状態を意味する。
SREEは内部対称性を持つ理論に対して定義され、各対称性セクターの総絡み合いへの寄与の尺度を提供する。
本研究では,sreのフーリエ変換率(すなわち荷電モーメントの比)が,励起の数,統計量,対称性の電荷,および系全体のエンタングルメント領域の相対的大きさにのみ依存するこれらの状態に対して非常に単純で普遍的な形式をとることを示した。
本稿では,2つの自由格子理論,すなわち1次元フェルミ気体と複素調和鎖における荷電モーメントの関数の計算による公式の数値的証拠を提供する。
また、相互作用する理論(例えばマグノン状態)の励起状態にも適用できることを示し、分岐点ツイスト場図の高次元一般化を開発し、結果として(相互作用)高次元モデルがもたらされる。 In a recent paper we studied the entanglement content of zero-density excited states in complex free quantum field theories, focusing on the symmetry resolved entanglement entropy (SREE). By zero-density states we mean states consisting of a fixed, finite number of excitations above the ground state in an infinite-volume system. The SREE is defined for theories that possess an internal symmetry and provides a measure of the contribution to the total entanglement of each symmetry sector. In our work, we showed that the ratio of Fourier-transforms of the SREEs (i.e. the ratio of charged moments) takes a very simple and universal form for these states, which depends only on the number, statistics and symmetry charge of the excitations as well as the relative size of the entanglement region with respect to the whole system's size. In this paper we provide numerical evidence for our formulae by computing functions of the charged moments in two free lattice theories: a 1D Fermi gas and a complex harmonic chain. We also extend our results in two directions: by showing that they apply also to excited states of interacting theories (i.e. magnon states) and by developing a higher dimensional generalisation of the branch point twist field picture, leading to results in (interacting) higher-dimensional models. | 翻訳日:2023-02-08 04:30:28 公開日:2022-10-12 |
# キャビティ内の真空揺らぎによる動的安定化:超強光子結合系における共鳴電子散乱 Dynamical stabilization by vacuum fluctuations in a cavity: Resonant electron scattering in the ultrastrong light-matter coupling regime ( http://arxiv.org/abs/2207.02077v2 ) ライセンス: Link先を確認 | D. A. Zezyulin, S. A. Kolodny, O. V. Kibis, I. V. Tokatly, I. V. Iorsh | (参考訳) 我々は空洞内の短距離反発電位による電子散乱の理論を開発した。
空洞電磁場への超強電子結合の過程において、磁場の真空揺らぎは、反発電位のコアに閉じ込められた準定常偏光子状態の動的安定化をもたらす。
自由電子のエネルギーが閉じ込められた状態のエネルギーと一致するとき、空洞光子の放出に伴う電子の非常に効率的な共鳴非弾性散乱が現れる。
この効果は、非古典光の自由電子源の基盤として議論されている。 We developed a theory of electron scattering by a short-range repulsive potential in a cavity. In the regime of ultrastrong electron coupling to the cavity electromagnetic field, the vacuum fluctuations of the field result in the dynamical stabilization of a quasistationary polariton state confined in the core of the repulsive potential. When the energy of a free electron coincides with the energy of the confined state, the extremely efficient resonant nonelastic scattering of the electron accompanied by emission of a cavity photon appears. This effect is discussed as a basis for possible free-electron sources of nonclassical light. | 翻訳日:2023-02-06 12:47:57 公開日:2022-10-12 |
# 高次元における密度支援ホッピングを持つスピンレスフェルミオンの量子多体傷 Quantum many-body scars of spinless fermions with density-assisted hopping in higher dimensions ( http://arxiv.org/abs/2207.06040v3 ) ライセンス: Link先を確認 | Kensuke Tamura, Hosho Katsura | (参考訳) 本稿では,量子多体散乱(QMBS)を示すスピンレスフェルミオンモデルについて紹介する。
モデルは任意の次元の任意の格子上で定義でき、空間的に変化する相互作用を可能にする。
我々は,有限エネルギー密度を持つ完全固有状態の塔を構築し,これらのqmbがエントロピーと相関関数の研究によって系の非熱的性質に寄与することを示した。
特定の初期状態からのクエンチダイナミクスについても検討し、QMBSが非熱化ダイナミクスを誘導することを確認した。
QMBSの別の特徴として、QMBSが一意な基底状態である親ハミルトニアンを与える。
私たちはまた、厳格にユニークさを証明します。 We introduce a class of spinless fermion models that exhibit quantum many-body scars (QMBS) originating from kinetic constraints in the form of density-assisted hopping. The models can be defined on any lattice in any dimension and allow for spatially varying interactions. We construct a tower of exact eigenstates with finite energy density, and we demonstrate that these QMBS are responsible for the nonthermal nature of the system by studying the entanglement entropy and correlation functions. The quench dynamics from certain initial states is also investigated, and it is confirmed that the QMBS induce nonthermalizing dynamics. As another characterization of the QMBS, we give a parent Hamiltonian for which the QMBS are unique ground states. We also prove the uniqueness rigorously. | 翻訳日:2023-02-05 06:58:16 公開日:2022-10-12 |
# キラル導波路を結合した1次元原子配列の集中したサブラジアントモード Concentrated subradiant modes in one-dimensional atomic array coupled with chiral waveguides ( http://arxiv.org/abs/2208.10785v2 ) ライセンス: Link先を確認 | Mengjie Yang, Luojia Wang, Xiaoxiong Wu, Han Xiao, Danying Yu, Luqi Yuan, Xianfeng Chen | (参考訳) 非エルミート系は最近広く関心を集め、非エルミート皮膚効果が詳細な研究を期待する最も顕著な量子現象の1つであり、様々なフェルミオン系やボソニック系で広く研究されている。
本稿では,2つの同一導波路を結合した傾斜1次元原子配列からなる非エルミート型原子導波路システムを提案する。
このようなシステムは、キラル-導波路光子相互作用による非相互長距離ホッピングを含む効果的な格子モデルを生成する。
中間界面に集合的原子状態の励起が集中し、サブラジアントモードに関連する非エルミート的皮膚効果を指しているのに対し、スーパーラジアントモードは拡張された特徴を示す。
シミュレーションの結果,小原子位置障害に対するロバスト性を有するサブラジアントファンネリング効果が得られた。
我々の研究は、オープン量子システムにおける非エルミート皮膚効果に対する基本的な理解を基礎とし、量子光学の分野で非エルミート系を研究するための将来の経路を提供する。 Non-Hermitian systems have recently attracted broad interest and exhibited intriguing physical phenomena, in which the non-Hermitian skin effect is one of the most remarkable quantum phenomena desiring detailed investigations and has been widely studied in various fermionic and bosonic systems. Here we propose a non-Hermitian atom-waveguide system composed of a tilted one-dimensional atomic array coupled with two identical waveguides with opposite chiralities. Such system creates an effective lattice model including nonreciprocal long-range hoppings through the chiral-waveguide photon-mediated interactions. We find the excitation of the collective atomic states concentrates in the middle interface, pointing towards the non-Hermitian skin effect associated with subradiant modes, while, on the contrary, superradiant modes exhibit extended features. Simulation results present subradiant funneling effect, with robustness against small atomic position disorders. Our work underpins the fundamental comprehension towards the non-Hermitian skin effect in open quantum systems and also provide prospective paths to study non-Hermitian systems in the area of quantum optics. | 翻訳日:2023-01-30 02:26:08 公開日:2022-10-12 |
# 自由フェルミオンページ曲線:正典型性と動的出現 Free-fermion Page Curve: Canonical Typicality and Dynamical Emergence ( http://arxiv.org/abs/2209.08871v2 ) ライセンス: Link先を確認 | Xie-Hang Yu, Zongping Gong, J. Ignacio Cirac | (参考訳) 我々は,新たに確立した非相互作用的(自由フェルミオン)ページ曲線を解析的に考察し,キネマティックな面とダイナミックな面の両方に注目した。
まず,ランダム自由フェルミオン状態の正準性と非特異性を明らかにする。
前者は小さなサブシステムで現れ、相互作用するケースでよく知られた結果よりも指数関数的に弱い。
後者は、サブシステムがマクロ的に大きい場合、すなわちシステム全体と同等である場合、自由フェルミオンページ曲線が相互作用ページ曲線と著しく異なる理由を説明する。
第2に, フリーフェルミオンページ曲線は, 長時間クエンチダイナミクスにおける単純なタイトバインディングモデルにおいて, 予期せぬ高い精度で現れることがわかった。
これは、一般化ギブスアンサンブルや準粒子画像のような従来のパラダイムが適用されないマクロスケールでの量子熱分解に関する稀な分析結果に寄与する。 We provide further analytical insights into the newly established noninteracting (free-fermion) Page curve, focusing on both the kinematic and dynamical aspects. First, we unveil the underlying canonical typicality and atypicality for random free-fermion states. The former appears for a small subsystem and is exponentially weaker than the well-known result in the interacting case. The latter explains why the free-fermion Page curve differs remarkably from the interacting one when the subsystem is macroscopically large, i.e., comparable with the entire system. Second, we find that the free-fermion Page curve emerges with unexpectedly high accuracy in some simple tight binding models in long-time quench dynamics. This contributes a rare analytical result concerning quantum thermalization on a macroscopic scale, where conventional paradigms such as the generalized Gibbs ensemble and quasi-particle picture are not applicable. | 翻訳日:2023-01-26 02:22:54 公開日:2022-10-12 |
# 量子位相解析によるエンコードデータのマッピングの理解 Understanding the Mapping of Encode Data Through An Implementation of Quantum Topological Analysis ( http://arxiv.org/abs/2209.10596v3 ) ライセンス: Link先を確認 | Andrew Vlasic and Anh Pham | (参考訳) トポロジカル・データ・アナリティクス(TDA)は、実世界のデータの幾何学的構造を洞察するために確立された分野である。
しかし、tdaの多くの手法は計算量が多い。
各ベッチ数を計算する方法が示されており、アルゴリズムを量子回路に変換することで高速化が得られる。
特定のベッチ数を計算する量子回路は、かなりの数のゲートを必要とし、データの少ない記録がなければ、現在、NISQ時代のプロセッサでは実装できない。
NISQ-era制限を前提として、符号化されたデータのユークリッド距離を計算し、所望のベッチ数を計算するハイブリッドメソッドを提案する。
この方法は、異なる符号化技術を持つ玩具データセットに適用される。
実験結果は、元のデータの幾何構造が明確に変化し、情報損失が生じるため、各符号化法でデータ内のノイズが増大することを示している。 Topological Data Analysis (TDA) is a well-established field derived to give insight into the geometric structure of real-world data. However, many methods in TDA are computationally intensive. The method that computes the respective Betti number has been shown to obtain a speed-up from translating the algorithm into a quantum circuit. The quantum circuit to calculate a particular Betti number requires a significant number of gates and, without a small record of data, is currently unable to be implemented on a NISQ-era processor. Given this NISQ-era restriction, a hybrid-method is proposed that calculates the Euclidean distance of the encoded data and computes the desired Betti number. This method is applied to a toy data set with different encoding techniques. The empirical results show the noise within the data is intensified with each encoding method as there is a clear change in the geometric structure of the original data, exhibiting information loss. | 翻訳日:2023-01-25 20:26:56 公開日:2022-10-12 |
# 大型SYKモデルと大規模SYKモデルにおけるクリロフ複雑性 Krylov complexity in large-$q$ and double-scaled SYK model ( http://arxiv.org/abs/2210.02474v2 ) ライセンス: Link先を確認 | Budhaditya Bhattacharjee, Pratik Nandy, Tanay Pathak | (参考訳) 2段階の極限におけるSachdev-Ye-Kitaev (SYK) モデルの大規模な$qの展開を考えると、Lanczos係数、Krylov複雑性、およびより高いKrylov累積を、$t/q$効果とともに昇華順序で計算する。
クリロフ複雑性は分布の「サイズ」を自然に記述し、高い累積量はよりリッチな情報をエンコードする。
さらに、無限温度での SYK$_q$ の倍スケール極限を考え、$q \sim \sqrt{N}$ を考える。
そのような極限において、スクランブル時間は0に縮まり、ランツォ係数は分岐する。
クリロフ複雑性の成長は「超高速」であり、以前はド・ジッター空間におけるスクランブルと関連していると推測されていた。 Considering the large-$q$ expansion of the Sachdev-Ye-Kitaev (SYK) model in the two-stage limit, we compute the Lanczos coefficients, Krylov complexity, and the higher Krylov cumulants in subleading order, along with the $t/q$ effects. The Krylov complexity naturally describes the "size" of the distribution, while the higher cumulants encode richer information. We further consider the double-scaled limit of SYK$_q$ at infinite temperature, where $q \sim \sqrt{N}$. In such a limit, we find that the scrambling time shrinks to zero, and the Lanczos coefficients diverge. The growth of Krylov complexity appears to be "hyperfast", which is previously conjectured to be associated with scrambling in de Sitter space. | 翻訳日:2023-01-23 17:27:10 公開日:2022-10-12 |
# ベルベース測定による多成分絡み合い測定 Multipartite entanglement measures via Bell basis measurements ( http://arxiv.org/abs/2210.02575v2 ) ライセンス: Link先を確認 | Jacob L. Beckey, G. Pelegr\'i, Steph Foulds, Natalie J. Pearson | (参考訳) ベル基底測定データから多元的絡み合い尺度の幅広いクラスを推定する方法を示す。
提案手法は,これらの測定方法の既知値に対する実験的要件を下げることに加えて,各測定値に対する$\epsilon$-close近似を達成するために必要な測定回数の簡易な解析を可能にする。
我々は,最近導入された集中的絡み合い (beckey et al. phys. rev. lett. 17, 140501 (2021)) の分析に注目する。
本研究では, 混合状態への集中性絡み合いの定義を拡張し, ベル基底測定データのみを用いて推定可能な混合状態の集中性絡み合いの下限を構築する方法を示す。
最後に,Rydberg原子量子コンピュータ上での実装を現実的にシミュレートすることで,本手法の実現可能性を示す。 We show how to estimate a broad class of multipartite entanglement measures from Bell basis measurement data. In addition to lowering the experimental requirements relative to previously known methods of estimating these measures, our proposed scheme also enables a simpler analysis of the number of measurement repetitions required to achieve an $\epsilon$-close approximation of the measures, which we provide for each. We focus our analysis on the recently introduced Concentratable Entanglements [Beckey et al. Phys. Rev. Lett. 127, 140501 (2021)] because many other well-known multipartite entanglement measures are recovered as special cases of this family of measures. We extend the definition of the Concentratable Entanglements to mixed states and show how to construct lower bounds on the mixed state Concentratable Entanglements that can also be estimated using only Bell basis measurement data. Finally, we demonstrate the feasibility of our methods by realistically simulating their implementation on a Rydberg atom quantum computer. | 翻訳日:2023-01-23 17:16:24 公開日:2022-10-12 |
# 光のトポロジカルレジリエント量子絡み合い状態としての非局所スカイミオン Non-local Skyrmions as topologically resilient quantum entangled states of light ( http://arxiv.org/abs/2210.04690v2 ) ライセンス: Link先を確認 | Pedro Ornelas, Isaac Nape, Robert de Mello Koch and Andrew Forbes | (参考訳) 1960年代初期、トニー・スカイムは位相構造の概念の発展に触発され、サブ原子粒子は1つの量子場の自然な励起として記述できると示唆した。
この目的のためにスカイミオンの概念は採用されなかったが、位相的に安定な磁場配置という概念は、凝縮物質物理学、音響学、そして近年の光学学において非常に多用途であることが証明されている。
ここでは、非自明なトポロジーを持つ最初の非局所量子絡み合い状態について報告する。
非自明な位相構造は、2光子絡み合い状態の個々の光子の性質には存在せず、むしろそれらの間の絡み合いから生じる。
量子波動関数のトポロジーは、そのような量子状態が絡み合いの崩壊に頑丈にし、絡み合い自体が消えるまでそのまま残る。
本研究は,絡み合いが脆弱であっても持続する位相的構造を持つ量子状態による量子情報の生成と保存について,エキサイティングな期待を抱いている。 In the early 1960s, inspired by developing notions of topological structure, Tony Skyrme suggested that sub-atomic particles be described as natural excitations of a single quantum field. Although never adopted for its intended purpose, the notion of a skyrmion as a topologically stable field configuration has proven highly versatile, finding application in condensed matter physics, acoustics and more recently optics, but all realised as localised fields and particles. Here we report the first non-local quantum entangled state with a non-trivial topology that is skyrmionic in nature. The non-trivial topological structure does not exist in the properties of the individual photons in the two-photon entangled state, but rather it emerges from the entanglement between them. We reveal a deep connection between entanglement and topology, giving rise to a new mechanism that we coin topological noise rejection, where the topology of the quantum wavefunction makes such quantum states robust to entanglement decay, remaining intact until the entanglement itself vanishes. Our findings hold exciting promise for the creation and preservation of quantum information by topologically structured quantum states that persist even when entanglement is fragile. | 翻訳日:2023-01-23 01:09:45 公開日:2022-10-12 |
# ハイブリッド量子古典型計算機上での深さ優先探索アルゴリズム Depth-First Grover Search Algorithm on Hybrid Quantum-Classical Computer ( http://arxiv.org/abs/2210.04664v2 ) ライセンス: Link先を確認 | Haoxiang Guo | (参考訳) 量子古典型ハイブリッドコンピュータの詳細な構成を実証した。
このアーキテクチャに基づいて、振幅インターセプションの有用な概念が説明される。
その後、深さ優先探索とグローバーのアルゴリズムの組み合わせに組み込まれ、未知数の解を持つ非構造化データベースの多重解探索問題を扱う新しいアプローチである深さ優先グローバー探索(dfgs)を生成する。
新しいアルゴリズムは、通常のグローバー探索と同じくらい効率的である$\mathcal{o}(m\sqrt{n})$の平均複雑性を達成し、すべての要素に対して手動で決定された定数$p$を持つ$\mathcal{o}(\sqrt{p}n)$は解であり、通常のグローバー探索は$\mathcal{o}(n\sqrt{n})$となる。
DFGSアルゴリズムはより堅牢で安定である。 We demonstrated the detailed construction of the hybrid quantum-classical computer. Based on this architecture, the useful concept of amplitude interception is illustrated. It is then embedded into a combination of Depth-First Search and Grover's algorithm to generate a novel approach, the Depth-First Grover Search(DFGS), to handle multi-solution searching problems on unstructured databases with an unknown number of solutions. Our new algorithm attains an average complexity of $\mathcal{O}(m\sqrt{N})$ which performs as efficient as a normal Grover Search, and a $\mathcal{O}(\sqrt{p}N)$ complexity with a manually determined constant $p$ for the case with all elements are solutions, where a normal Grover Search will degenerate to $\mathcal{O}(N\sqrt{N})$. The DFGS algorithm is more robust and stable in comparison. | 翻訳日:2023-01-23 01:09:25 公開日:2022-10-12 |
# レビテーションマイクロマグネットによるスピン・メカニカル相互作用の促進 Enhanced spin-mechanical interaction with levitated micromagnets ( http://arxiv.org/abs/2210.04751v2 ) ライセンス: Link先を確認 | Xue-Feng Pan, Xin-Lei Hei, Xing-Liang Dong, Jia-Qiang Chen, Cai-Peng Shen, Hamad Ali, and Peng-Bo Li | (参考訳) スピンメカニカルハイブリッドシステムは量子情報処理で広く使われている。
しかし、スピン-メカニカル相互作用は一般的に弱いため、強いカップリングや超強結合系へのスピン-メカニカル相互作用の強化は重要な課題である。
本稿では,ダイヤモンドスピン空隙と浮遊マイクロマグネットを用いて,スピンメカニカル結合強度を著しく向上させるプロトコルを提案する。
駆動電流を用いて浮遊マイクロマグネットの機械的運動を変調し、2フォノン駆動を誘導し、スピンフォノンおよびフォノンメディケードスピンスピンスピンスピン結合強度を指数関数的に向上させることができる。
さらに、このハイブリッドシステムを用いて、高忠実度シュロディンガーキャット状態と、高忠実でより高速なゲート速度を有する従来の2量子幾何位相ゲートを実現することができる。
このプロトコルは、レビテーションマイクロマグネットに結合されたNVスピンによる量子情報処理のための有望なプラットフォームを提供する。 Spin-mechanical hybrid systems have been widely used in quantum information processing. However, the spin-mechanical interaction is generally weak, making it a critical challenge to enhance the spin-mechanical interaction into the strong coupling or even ultra-strong coupling regime. Here, we propose a protocol that can significantly enhance the spin-mechanical coupling strength with a diamond spin vacancy and a levitated micromagnet. A driving electrical current is used to modulate the mechanical motion of the levitated micromagnet, which induces a two-phonon drive and can exponentially enhance the spin-phonon and phonon-medicated spin-spin coupling strengths. Furthermore, a high fidelity Schrodinger cat state and an unconventional 2-qubit geometric phase gate with high fidelity and faster gate speed can be achieved using this hybrid system. This protocol provides a promising platform for quantum information processing with NV spins coupled to levitated micromagnets. | 翻訳日:2023-01-23 00:57:05 公開日:2022-10-12 |
# なぜ$\psi$が不完全なのか:簡単なイラスト Why $\psi$ is incomplete indeed: a simple illustration ( http://arxiv.org/abs/2210.05969v1 ) ライセンス: Link先を確認 | Philippe Grangier | (参考訳) ノーベル賞はアスペクト、クロージャー、ツァイリンガーによって授与され、国際科学コミュニティはベルの不等式を実験的に破ることの基本的重要性を認めた。
しかし、ベルの仮説で何が失敗し、これらの不平等を招き、普通は「局所現実主義」、あるいはもっと適切に「古典的局所現実主義」と要約される。
最も一般的な説明は「量子非局所性(quantum non-locality)」であり、これはしかしながら相対論的因果関係と完全に一致している。
ここでは、「予測的不完全性」と呼ばれる別の選択肢を再カプセル化し、通常の状態ベクトル $\psi$ が実際に不完全であるという考えと密接に関連している。
しかし、$\psi$を完遂する正しい方法は、隠れた変数とは無関係であるが、ボーアが主張したように測定コンテキストを指定する必要がある。
ここで、議論をシンプルに保つために、2つのスピン1/2または2つの量子ビットの単純な場合を考えるが、一般に量子力学において適用される。 With the Nobel Prize attributed to Aspect, Clauser, and Zeilinger, the international scientific community acknowledged the fundamental importance of the experimental violation of Bell's inequalities. It is however still debated what fails in Bell's hypotheses, leading to these inequalities, and usually summarized as "local realism", or maybe more appropriately "classical local realism". The most common explanation is "quantum non-locality", that remains however fully compatible with relativistic causality; this makes wondering whether any non-local phenomenon is really involved in these experiments. Here we want to recapitulate another option, sometimes called "predictive incompleteness", closely related to the idea that the usual state vector $\psi$ is incomplete indeed, as it was claimed by Einstein, Podolsky and Rosen. However, the right way to complete $\psi$ has nothing to do with hidden variables, but requires to specify the measurement context, as it was claimed by Bohr. Here we will consider the simple case of two spin 1/2, or two qubits, in order to keep the argument simple, but it does apply generally in quantum mechanics. | 翻訳日:2023-01-22 19:48:59 公開日:2022-10-12 |
# パラメトリック駆動誘導長寿命モードによるキャビティマグノニクスのスピン電流の量子増幅 Quantum amplification of spin currents in cavity magnonics by a parametric drive induced long-lived mode ( http://arxiv.org/abs/2210.05898v1 ) ライセンス: Link先を確認 | Debsuvra Mukhopadhyay, Jayakrishnan M. P. Nair, G. S. Agarwal | (参考訳) キャビティを介するマグノン-マグノンカップリングは、2つの空間的に分離された磁気サンプル間のスピン波励起を伝達させる。
2光子パラメトリックドライブのキャビティへの応用は、この転送効率を著しく増幅させる可能性がある。
キャビティによる再帰的な多光子吸収は、アクセス可能なエネルギー準位の無限のラダーを開き、マグノンフォック空間内の高次遷移を引き起こす。
これは、隣接する試料がコヒーレントに汲み上げられたときに、磁気サンプルの1つから高められたスピン電流応答に反映される。
パラメトリック駆動によって誘導されるエンハンスメントは、安定な動的領域内でかなり高い。
具体的には、安定性境界の周辺付近では、スピン電流は数桁のオーダーで増幅される。
このような顕著な増強因子は、長寿命モードによって析出するパラメトリック的に誘導される強いコヒーレンスの出現に起因する。
マグノニクスでは文脈化されるが、原理の一般化はパラメトリックキャビティに含まれるシステム間のエネルギー移動を応用できる。 Cavity-mediated magnon-magnon coupling can lead to a transfer of spin-wave excitations between two spatially separated magnetic samples. We enunciate how the application of a two-photon parametric drive to the cavity can lead to stark amplification in this transfer efficiency. The recurrent multiphoton absorption by the cavity opens up an infinite ladder of accessible energy levels, which can induce higher-order transitions within the magnon Fock space. This is reflected in a heightened spin-current response from one of the magnetic samples when the neighboring sample is coherently pumped. The enhancement induced by the parametric drive can be considerably high within the stable dynamical region. Specifically, near the periphery of the stability boundary, the spin current is amplified by several orders of magnitude. Such striking enhancement factors are attributed to the emergence of parametrically induced strong coherences precipitated by a long-lived mode. While contextualized in magnonics, the generality of the principle would allow applications to energy transfer between systems contained in parametric cavities. | 翻訳日:2023-01-22 19:48:39 公開日:2022-10-12 |
# 拡張ディックモデルにおける量子カオス Quantum Chaos in the Extended Dicke Model ( http://arxiv.org/abs/2210.05869v1 ) ライセンス: Link先を確認 | Qian Wang | (参考訳) 量子多体系におけるカオス的シグネチャを、単一モードボソニック場に結合した相互作用する2レベル原子のアンサンブル、いわゆる拡張ディッケモデルを用いて体系的に研究する。
原子-原子相互作用の存在はまた、原子相互作用がモデルのカオス的性格にどのように影響するかを探索する。
エネルギースペクトル統計と固有状態の構造を解析することにより,モデル内のカオスの量子シグネチャを明らかにし,原子間相互作用の効果について考察する。
また,固有値に基づく指標と固有状態に基づく指標の両方から抽出したカオス境界の原子間相互作用依存性についても検討した。
スペクトル統計学における原子間相互作用の影響は固有状態の構造よりも強いことを示した。
定性的には、拡張ディッケモデルの原子間相互作用をオンにすると、ディッケモデルに見られる可積分性からカオスへの遷移が増幅される。 We systematically study the chaotic signatures in a quantum many-body system consisting of an ensemble of interacting two-level atoms coupled to a single-mode bosonic field, the so-called extended Dicke model. The presence of the atom-atom interaction also leads us to explore how the atomic interaction affects the chaotic characters of the model. By analyzing the energy spectral statistics and the structure of eigenstates, we reveal the quantum signatures of chaos in the model and discuss the effect of the atomic interaction. We also investigate the dependence of the boundary of chaos extracted from both eigenvalue-based and eigenstate-based indicators on the atomic interaction. We show that the impact of the atomic interaction on the spectral statistics is stronger than on the structure of eigenstates. Qualitatively, the integrablity-to-chaos transition found in the Dicke model is amplified when the interatomic interaction in the extended Dicke model is switched on. | 翻訳日:2023-01-22 19:48:06 公開日:2022-10-12 |
# 古典系および量子系における同期へのショートカット Shortcut to synchronization in classical and quantum systems ( http://arxiv.org/abs/2210.05848v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Impens and David Gu\'ery-Odelin | (参考訳) 同期は非線形物理学の主要な概念である。
多数の系では、正弦波の励起に対して長時間観察される。
本稿では,より高速に同期状態に達するための過渡的非正弦駆動の設計を行う。
本稿では,古典的なVan der Pol発振器の逆工学手法を例示する。
このアプローチは、系が位相空間において点的でないため、量子ケースに直接変換することはできない。
位相空間における有限サイズの量子分布を考慮に入れた反復的手法による手法の適用法を説明する。
結果として生じる駆動は、トレース距離に応じて同期状態に近い密度行列が得られることを示す。
提案手法は,非線形量子系の高速制御の例を示し,非線形性の存在下での量子速度制限の概念の疑問を提起する。 Synchronization is a major concept in nonlinear physics. In a large number of systems, it is observed at long times for a sinusoidal excitation. In this paper, we design a transiently non-sinusoidal driving to reach the synchronization regime more quickly. We exemplify an inverse engineering method to solve this issue on the classical Van der Pol oscillator. This approach cannot be directly transposed to the quantum case as the system is no longer point-like in phase space. We explain how to adapt our method by an iterative procedure to account for the finite-size quantum distribution in phase space. We show that the resulting driving yields a density matrix close to the synchronized one according to the trace distance. Our method provides an example of fast control of a nonlinear quantum system, and raises the question of the quantum speed limit concept in the presence of nonlinearities. | 翻訳日:2023-01-22 19:47:49 公開日:2022-10-12 |
# 熱光子散乱による回転デコヒーレンス Rotational decoherence due to thermal photon scattering ( http://arxiv.org/abs/2210.06133v1 ) ライセンス: Link先を確認 | Hamid Reza Naeij | (参考訳) 量子技術における量子システムの回転自由度の使用は、デコヒーレンス機構の下での環境効果によって制限される。
本研究では,自由度重ね合わせで作製した非球面量子系に対する弾性散乱の新たな形式に基づいて,デコヒーレンス機構を考察する。
熱光子からなる環境に浸漬した誘電楕円体の場合, 回転非干渉速度は, 系の2つの配置と, 並進光子とは異なる温度の7番目のパワーとの角度差に依存することを示した。
次に,環境球面高調波の角運動量量子数の異なる値が回転デコヒーレンス率に及ぼす影響を解析した。 The use of rotational degrees of freedom of quantum systems in quantum technologies is limited by environmental effects under decoherence mechanism. Here, we study the mechanism of decoherence based on a new formalism of elastic scattering for a nonspherical quantum system prepared in a superposition of rotational degrees of freedom. We show that for a dielectric ellipsoid immersed in an environment composed of thermal photons the rotational decoherence rate depends on the angular differences between the two configurations of the system and the seventh power of the temperature which is different from the translational one. Then we analyze the effect of different values of angular momentum quantum numbers of the environmental spherical harmonics on the rotational decoherence rate. | 翻訳日:2023-01-22 19:44:22 公開日:2022-10-12 |
# 空間境界シミュレーションによる量子後ゼロ知識 Post-Quantum Zero-Knowledge with Space-Bounded Simulation ( http://arxiv.org/abs/2210.06093v1 ) ライセンス: Link先を確認 | Prabhanjan Ananth and Alex B. Grilo | (参考訳) 従来のゼロ知識の定義では、対話プロトコルにおける任意の量子多項式時間検証器によって得られる知識は、量子多項式時間アルゴリズムによってシミュレートできる。
この定義の欠点は、シミュレータが検証者よりもはるかに多くの計算資源を消費できることである。
この欠点は、量子ゼロ知識という既存の概念が、特に短期的な量子デバイスを扱う場合、特定の設定では不可能であることを示している。
本研究では、近距離量子デバイスとより相性が良い量子後ゼロ知識のきめ細かい概念を開始する。
我々は、$(s,f)$空間有界量子零知識の概念を導入する。
この新たな概念では、ある関数$f(\cdot)$に対して、少なくとも$f(s)$-qubitsを使用する量子多項式時間アルゴリズムによって、$s$-qubitの悪意のある検証器をシミュレートし、検証器またはシミュレータが消費する古典的メモリの量を制限することを要求する。
対数量子空間 $s$ と (arbitrary) 多項式古典空間を持つ検証器に対して、$(s,f)$-space-bounded QZK, for $f(s)=2s$ がポスト量子片道函数の存在に基づいて達成可能であることを示す。
さらに、プロトコルは一定のラウンドで動作します。
- 超対数量子空間を持つ検証者が$s$ であり、量子後セキュアな一方向関数の存在を仮定すると、完全にブラックボックスシミュレーション(ブラックボックスシミュレーションの古典的類似物)を持つ$(s,f)$-space-bounded qzkプロトコルはbqpの言語でしか実現できない。 The traditional definition of quantum zero-knowledge stipulates that the knowledge gained by any quantum polynomial-time verifier in an interactive protocol can be simulated by a quantum polynomial-time algorithm. One drawback of this definition is that it allows the simulator to consume significantly more computational resources than the verifier. We argue that this drawback renders the existing notion of quantum zero-knowledge not viable for certain settings, especially when dealing with near-term quantum devices. In this work, we initiate a fine-grained notion of post-quantum zero-knowledge that is more compatible with near-term quantum devices. We introduce the notion of $(s,f)$ space-bounded quantum zero-knowledge. In this new notion, we require that an $s$-qubit malicious verifier can be simulated by a quantum polynomial-time algorithm that uses at most $f(s)$-qubits, for some function $f(\cdot)$, and no restriction on the amount of the classical memory consumed by either the verifier or the simulator. We explore this notion and establish both positive and negative results: - For verifiers with logarithmic quantum space $s$ and (arbitrary) polynomial classical space, we show that $(s,f)$-space-bounded QZK, for $f(s)=2s$, can be achieved based on the existence of post-quantum one-way functions. Moreover, our protocol runs in constant rounds. - For verifiers with super-logarithmic quantum space $s$, assuming the existence of post-quantum secure one-way functions, we show that $(s,f)$-space-bounded QZK protocols, with fully black-box simulation (classical analogue of black-box simulation) can only be achieved for languages in BQP. | 翻訳日:2023-01-22 19:43:23 公開日:2022-10-12 |
# 多レベル基底状態を持つ原子群-キャビティカップリングと非線形ダイナミクス Collective atom-cavity coupling and non-linear dynamics with atoms with multilevel ground states ( http://arxiv.org/abs/2210.06085v1 ) ライセンス: Link先を確認 | Elmer Suarez, Federico Carollo, Igor Lesanovsky, Beatriz Olmos, Philippe W. Courteille, Sebastian Slama | (参考訳) 多レベル基底状態多様体と光学キャビティモードを持つ原子間の集団結合を実験的および理論的に検討した。
我々の設定では、空洞場は基底状態の集団を光学的に励起する。
その後の力学は、個々の状態の占有とキャビティモードとの結合強度に依存する効果的な動的原子-キャビティ結合強度を用いて、便利に記述することができる。
これにより原子集団の原子-キャビティ結合強度に対する動的バックアクションが起こり、非指数緩和ダイナミクスを生じさせる。
レーザー冷却した$^{87}$rb原子を用いてこの効果を実験的に観察し, 集団正常モード分割をリアルタイムに観察した。
その結果,電子基底状態の多層構造は,2層原子のアンサンブルと比較して,原子キャビティ設定の緩和挙動を著しく変化させることができることがわかった。 We investigate experimentally and theoretically the collective coupling between atoms with multilevel ground state manifolds and an optical cavity mode. In our setup the cavity field optically pumps populations among the ground states. The ensuing dynamics can be conveniently described by means of an effective dynamical atom-cavity coupling strength that depends on the occupation of the individual states and their coupling strengths with the cavity mode. This leads to a dynamical backaction of the atomic populations on the atom-cavity coupling strength which results in a non-exponential relaxation dynamics. We experimentally observe this effect with laser-cooled $^{87}$Rb atoms, for which we monitor the collective normal-mode splitting in real time. Our results show that the multilevel structure of electronic ground states can significantly alter the relaxation behavior in atom-cavity settings as compared to ensembles of two-level atoms. | 翻訳日:2023-01-22 19:42:48 公開日:2022-10-12 |
# 量子準確率分布による非マルコフ性 Witnessing non-Markovianity by Quantum Quasi-Probability Distributions ( http://arxiv.org/abs/2210.06058v1 ) ライセンス: Link先を確認 | Moritz F. Richter, Raphael Wiedenmann and Heinz-Peter Breuer | (参考訳) 我々は、準確率分布により一般に混合された量子状態を表現するために、ランクワンプロジェクタ(純量子状態)とその誘導された情報完全量子計測(IC-POVM)からなるフレームを用いる。
有限次元系上の離散フレームの場合、これは準確率ベクトルによる表現のようなベクトルをもたらすが、連続変数(CV)系におけるコヒーレント状態の連続フレームに対しては、アプローチは直接グラウバー・スダルシャン P-函数とフシミ Q-函数による卓越した表現につながる。
これらの準確率分布間のコルモゴロフ距離は、量子状態の微分可能性を測定するトレース距離の上下境界につながると説明する。
これらの結果をオープン量子系の力学に応用し、P-およびQ-函数のコルモゴロフ距離に基づいて非マルコビアン性証人を構成する。
いくつかの例により、この証人の業績を議論し、トレース距離の直接評価が典型的に非常に要求される高エントロピー状態の体制において有用であることを示す。
cv系におけるガウス力学に対しては、p-函数間のコルモゴロフ距離に基づく適切な非マルコフ性測度を見つけることさえ可能であり、これは非ガウス性を示す証人として代用できる。 We employ frames consisting of rank-one projectors (i.e. pure quantum states) and their induced informationally complete quantum measurements (IC-POVMs) to represent generally mixed quantum states by quasi-probability distributions. In the case of discrete frames on finite dimensional systems this results in a vector like representation by quasi-probability vectors, while for the continuous frame of coherent states in continuous variable (CV) systems the approach directly leads to the celebrated representation by Glauber-Sudarshan P-functions and Husimi Q-functions. We explain that the Kolmogorov distances between these quasi-probability distributions lead to upper and lower bounds of the trace distance which measures the distinguishability of quantum states. We apply these results to the dynamics of open quantum systems and construct a non-Markovianity witness based on the Kolmogorov distance of the P- and Q-functions. By means of several examples we discuss the performance of this witness and demonstrate that it is useful in the regime of high entropy states for which a direct evaluation of the trace distance is typically very demanding. For Gaussian dynamics in CV systems we even find a suitable non-Markovianity measure based on the Kolmogorov distance between the P-functions which can alternatively be used as a witness for non-Gaussianity. | 翻訳日:2023-01-22 19:42:36 公開日:2022-10-12 |
# 崩壊しない2光子状態の多重測定 Multiple measurements on an uncollapsed entangled two-photon state ( http://arxiv.org/abs/2210.06045v1 ) ライセンス: Link先を確認 | Dalibor Jav\r{u}rek | (参考訳) 量子状態の崩壊の定義と相同性の相対性理論は実験的な状況へと発展し、複数の測定値が連続しない量子状態に対して取られる。
量子状態の崩壊時空間分布は、量子系を測定する検出器の基準フレームおよび検出器に対して移動する基準フレームに示される。
彼らの検査から、ある条件下では、複数の測定値が同じ非収束量子状態において許容される。
この手法の応用は、偏光とエネルギーに絡み合った光子対状態の測定に応用される。
私は、2つの測定値が未収束の光子対状態に対して取られる条件を導出する。
同じ非崩壊状態における複数の測定の許容から、深刻な結果が続く。
例えば、この状況における両方の検出器による測定は相関しない。
さらに、保存法則は個々の測定値に違反するが、平均値には違反しない。
このステートメントはエネルギーに絡み合った2光子状態で証明される。
これは、検出器が互いに相対的に静止して観測した実験結果と矛盾している。
量子状態の観測結果が相関しているという予測と実験結果が一致しない場合、コペンハーゲン解釈とは異なる量子状態の崩壊の新しい時空分布が、この状況の適切な解法として提案されなければならない。 The relativity of simultaneity together with definition of a quantum state's collapse result into experimental situations, where a multiple measurements can be taken on an uncollapsed quantum state. A quantum state's collapse space-time distribution is shown in a reference frame of a detector measuring the quantum system and in a reference frame moving relative to the detector. From their inspection follows, that under certain conditions, multiple measurements are allowed on the same uncollapsed quantum state. An application of the developed approach is shown on measurement of photon-pair state entangled in polarizations and energy. I derive conditions, under which two measurements can be taken on the uncollapsed photon-pair state. From allowance of multiple measurements on the same uncollapsed state follow serious consequences. For example, the measurements taken by both detectors in this situation are uncorrelated. Moreover, all the conservation laws could be violated in individual measurements, but not in mean value. This statement is proved on the two-photon state entangled in energy. This is in contradiction with experimental results observed by the detectors in rest relative to each other. If experimental results of the proposed experiment disagree with the predictions -- results measured on the quantum state are correlated, new space-time distribution of the quantum state's collapse, different from the Copenhagen interpretation, has to be proposed for proper solution of this situation. | 翻訳日:2023-01-22 19:42:11 公開日:2022-10-12 |
# スターネットワークシナリオにおける量子非局所性共有 Sharing Quantum Nonlocality in Star Network Scenarios ( http://arxiv.org/abs/2210.05985v1 ) ライセンス: Link先を確認 | Tinggui Zhang, Naihuan Jing and Shao-Ming Fei | (参考訳) ベル非局所性は量子物理学の基礎と密接に関連しており、量子鍵分布のセキュリティ問題に重要な応用がある。
近年,ベル非局所性の共有能力が広く研究されている。
量子ネットワーク状態の非局所性はより複雑である。
まず、一方的または両側的povm測定における最も単純な二局所性の共有能力について検討し、一方的測定によるネットワーク量子状態の非局所性共有能力はベル非局所性共有能力に似ているが、両側的測定では異なることを示した。
恒星ネットワークのシナリオでは、量子ネットワーク状態の非局所性共有特性について、ベル非局所性よりも強い共有能力を持つ量子ネットワーク状態の非局所性共有特性について、初めて包括的な結果を示す。 The Bell nonlocality is closely related to the foundations of quantum physics and has significant applications to security questions in quantum key distributions. In recent years, the sharing ability of the Bell nonlocality has been extensively studied. The nonlocality of quantum network states is more complex. We first discuss the sharing ability of the simplest bilocality under unilateral or bilateral POVM measurements, and show that the nonlocality sharing ability of network quantum states under unilateral measurements is similar to the Bell nonlocality sharing ability, but different under bilateral measurements. For the star network scenarios, we present for the first time comprehensive results on the nonlocality sharing properties of quantum network states, for which the quantum nonlocality of the network quantum states has a stronger sharing ability than the Bell nonlocality. | 翻訳日:2023-01-22 19:41:51 公開日:2022-10-12 |
# 重ね合わせ検出の難しさから暗号:量子公開鍵暗号とコミットメント From the Hardness of Detecting Superpositions to Cryptography: Quantum Public Key Encryption and Commitments ( http://arxiv.org/abs/2210.05978v1 ) ライセンス: Link先を確認 | Minki Hhan, Tomoyuki Morimae, Takashi Yamakawa | (参考訳) 最近aaronsonら(arxiv:2009.07450)は、2つの直交状態間の干渉を検出することはこれらの状態の交換と同じくらい難しいことを示した。
元々の動機は量子重力によるものだったが、量子暗号への応用を示す。
1. 暗号式 \emph{non-abelian} グループアクションから最初の公開鍵暗号スキームを構築する。
興味深いことに、メッセージが古典的であっても、我々のスキームの暗号文は量子である。
これにより、Ji et al. (TCC '19) が提示する開問題が解決される。
我々は,swap-trapdoor関数ペアと呼ばれる新たな抽象化を通じてスキームを構築する。
2. 量子ビットコミットメントのフレーバーを変換するシンプルで効率的なコンパイラを提供する。
より正確には、任意の接頭辞 X,Y $\in$ {computationally,statistally,perfectly} に対して、基本スキームが X-ハイディングおよび Y-バインディングであれば、結果として得られるスキームは Y-ハイディングおよび X-バインディングである。
コンパイラーはベーススキームを1回だけ呼びます。
これまで、すべての既知のコンパイラはベーススキームを多項式的に何度も呼び出す(cr\'epeau et al., eurocrypt '01 and yan, asiacrypt '22)。
変換の安全性証明には、量子補助入力を考慮してアーロンソン等の結果を一般化する。 Recently, Aaronson et al. (arXiv:2009.07450) showed that detecting interference between two orthogonal states is as hard as swapping these states. While their original motivation was from quantum gravity, we show its applications in quantum cryptography. 1. We construct the first public key encryption scheme from cryptographic \emph{non-abelian} group actions. Interestingly, the ciphertexts of our scheme are quantum even if messages are classical. This resolves an open question posed by Ji et al. (TCC '19). We construct the scheme through a new abstraction called swap-trapdoor function pairs, which may be of independent interest. 2. We give a simple and efficient compiler that converts the flavor of quantum bit commitments. More precisely, for any prefix X,Y $\in$ {computationally,statistically,perfectly}, if the base scheme is X-hiding and Y-binding, then the resulting scheme is Y-hiding and X-binding. Our compiler calls the base scheme only once. Previously, all known compilers call the base schemes polynomially many times (Cr\'epeau et al., Eurocrypt '01 and Yan, Asiacrypt '22). For the security proof of the conversion, we generalize the result of Aaronson et al. by considering quantum auxiliary inputs. | 翻訳日:2023-01-22 19:41:38 公開日:2022-10-12 |
# 量子分割と征服 Quantum divide and conquer ( http://arxiv.org/abs/2210.06419v1 ) ライセンス: Link先を確認 | Andrew M. Childs, Robin Kothari, Matt Kovacs-Deak, Aarthi Sundaram, Daochen Wang | (参考訳) 古典的アルゴリズム設計で広く使われている分数分解フレームワークは、$n$の問題をより小さなサブプロブレムに再帰的に分解する(例:$a$ copy of size $n/b$ each)とともに、コスト$C^{\textrm{aux}}(n)$の補助的な作業により、古典的複雑性の$C(n)$に対して$C(n) \leq a \, C(n/b) + C^{\textrm{aux}}(n)$の繰り返し関係を与える。
我々は、ある場合において、類似の反復関係 $$c_q(n) \leq \sqrt{a} \, c_q(n/b) + o(c^{\textrm{aux}}_q(n))$$$ が量子クエリの複雑性を特徴付けるような量子分割・変換フレームワークを記述する。
このフレームワークを用いて,文字列問題に対する近似量子問合せの複雑度を求める。
(i)正規言語を認識すること
(ii)String RotationとString Suffixの決定バージョン、および自然パラメータ化バージョン
(iii)最長増分、及び
(iv)最長の共通部分列。 The divide-and-conquer framework, used extensively in classical algorithm design, recursively breaks a problem of size $n$ into smaller subproblems (say, $a$ copies of size $n/b$ each), along with some auxiliary work of cost $C^{\textrm{aux}}(n)$, to give a recurrence relation $$C(n) \leq a \, C(n/b) + C^{\textrm{aux}}(n)$$ for the classical complexity $C(n)$. We describe a quantum divide-and-conquer framework that, in certain cases, yields an analogous recurrence relation $$C_Q(n) \leq \sqrt{a} \, C_Q(n/b) + O(C^{\textrm{aux}}_Q(n))$$ that characterizes the quantum query complexity. We apply this framework to obtain near-optimal quantum query complexities for various string problems, such as (i) recognizing regular languages; (ii) decision versions of String Rotation and String Suffix; and natural parameterized versions of (iii) Longest Increasing Subsequence and (iv) Longest Common Subsequence. | 翻訳日:2023-01-22 19:35:33 公開日:2022-10-12 |
# 光ナノ共振器 Optical nanoresonators ( http://arxiv.org/abs/2210.06326v1 ) ライセンス: Link先を確認 | Vasily V. Klimov | (参考訳) このレビューでは、オープン光ナノ共振器の動作原理、すなわち共振器の動作原理、すなわち真空中における共振波長よりも小さいすべてのサイズの記述と発展に関する古典的および近代的アプローチの分析と一般化について述べる。
特に、連続体における境界状態、アナポール状態、超キャビティモード、および非常に高品質な要素を持つ完全非放射モード、および電磁場の局在といった現象の物理学に注意が払われる。
メタマテリアルを用いたナノ共振器における自然発振の光学特性の解析についても概説する。
このレビューで検討されている効果は純粋に基本的なものではなく、光学ナノアンテナ、ナノレーザー、バイオセンサー、太陽光発電装置、非線形ナノフォトニクスの開発にも応用できる。 The review presents the analysis and generalization of classical and most modern approaches to the description and development of the principles of operation of open optical nanoresonators, that is, resonators, all sizes of which are smaller than the resonant wavelength of radiation in vacuum. Particular attention is paid to the physics of such phenomena as bound states in a continuum, anapole states, supercavity modes, and perfect nonradiating modes with extremely high-quality factors and localizations of electromagnetic fields. The analysis of the optical properties of natural oscillations in nanoresonators made of metamaterials is also presented in the review. The effects considered in this review are not purely fundamental, but can also find applications in the development of optical nanoantennas, nanolasers, biosensors, photovoltaic devices, and nonlinear nanophotonics. | 翻訳日:2023-01-22 19:35:06 公開日:2022-10-12 |
# 4次元における原子量子ホール系の実現 Realization of an atomic quantum Hall system in four dimensions ( http://arxiv.org/abs/2210.06322v1 ) ライセンス: Link先を確認 | Jean-Baptiste Bouhiron, Aur\'elien Fabre, Qi Liu, Quentin Redon, Nehal Mittal, Tanish Satoor, Raphael Lopes, Sylvain Nascimbene | (参考訳) 物質の位相状態は、現代における凝縮物系の理解の中心にある。
2次元(2次元)量子ホール絶縁体では、第一チャーン数で定義される非自明な位相は量子化されたホールコンダクタンスと保護された弾道エッジモードとして表される。
3d材料で実験的に実現されたトポロジカル絶縁体とワイル半金属の他に、理論上は3$の次元で予測される様々なトポロジカル系は、まだ未検討のままであり、中でも4dでの量子ホール効果の一般化である。
これまでのところ、4Dホール効果に関連する位相特性は、2Dシステムにおける幾何電荷ポンプ実験によって明らかにされている。
真の4Dホールシステムは電子回路でも実現されているが、位相量子化の直接的な証拠は報告されていない。
ここでは、光電場と2つの空間次元と電子スピン$J = 8$のジスプロシウム原子に符号化された2つの合成粒子とを結合することにより、4次元で進化する原子量子ホール系を設計する。
本研究では, 2次チャーン数による電磁非線形応答の量子化と, 1方向に沿った弾道運動と2方向の絶縁挙動を組み合わせた3次元ハイパーエッジモードの特性を計測する。
また、低軌道の励起を探索し、D\leq3$の円準同値と対照的に非平面サイクロトロン軌道を明らかにする。
強相関液体の研究から,量子重力やyang-mills場理論と関連した高エネルギーモデルのシミュレーションまで,4次元における相互作用する量子ホール系の研究への道が開けた。 Topological states of matter lie at the heart of our modern understanding of condensed matter systems. In two-dimensional (2D) quantum Hall insulators, the non-trivial topology, defined by the first Chern number, manifests as a quantized Hall conductance and protected ballistic edge modes. Besides topological insulators and Weyl semi-metals experimentally realized in 3D materials, a large variety of topological systems, theoretically predicted in dimensions $D > 3$, remains unexplored - among them a generalization of the quantum Hall effect in 4D. So far, topological properties linked with the 4D Hall effect have been revealed via geometrical charge pump experiments in 2D systems. A truly 4D Hall system has also been realized using electronic circuits - however, no direct evidence of topological quantization has been reported. Here, we engineer an atomic quantum Hall system evolving in 4D, by coupling with light fields two spatial dimensions and two synthetic ones encoded in the electronic spin $J = 8$ of dysprosium atoms. We measure the characteristic properties of a 4D quantum Hall system, namely the quantization of its electromagnetic non-linear response by a second Chern number, and the special nature of its 3D hyperedge modes, which combine ballistic motion along one orientation and insulating behaviour in the two remaining directions. We also probe low-lying excitations, revealing non-planar cyclotron orbits in contrast with their circular equivalents in $D\leq3$. Our findings pave the way to the exploration of interacting quantum Hall systems in 4D, from the investigation of strongly-correlated liquids to the simulation of high-energy models in link with quantum gravity and Yang-Mills field theory. | 翻訳日:2023-01-22 19:34:53 公開日:2022-10-12 |
# 再構成可能な光ツイーザーアレイにおける分子のオンデマンド絡み合い On-Demand Entanglement of Molecules in a Reconfigurable Optical Tweezer Array ( http://arxiv.org/abs/2210.06309v1 ) ライセンス: Link先を確認 | Connor M. Holland, Yukai Lu, Lawrence W. Cheuk | (参考訳) 量子情報処理、量子多体系のシミュレーション、量子エンハンスセンシングなど多くの量子応用には絡み合いが不可欠である。
分子は内部構造と相互作用が豊富であるため、量子科学の有望なプラットフォームとして提案されている。
個々の制御された分子の決定論的絡み合いは、それでも長い間実験的な課題であった。
ここでは,個別に調製された分子のオンデマンドの絡み合いを初めて示す。
再構成可能な光ツイーザアレイを用いて作製した分子対間の電気双極子相互作用を用いて、2量子ゲートの絡み合いを実現し、ベル対を決定論的に生成する。
その結果,量子情報処理,量子スピンモデルのシミュレーション,量子強調センシングに必要な重要な構成要素が示された。
彼らはまた、量子を増強した基礎物理学のテストにトラップ分子を使うことや、絡み合った物質との衝突や化学反応の探索など、新しい可能性を開く。 Entanglement is crucial to many quantum applications including quantum information processing, simulation of quantum many-body systems, and quantum-enhanced sensing. Molecules, because of their rich internal structure and interactions, have been proposed as a promising platform for quantum science. Deterministic entanglement of individually controlled molecules has nevertheless been a long-standing experimental challenge. Here we demonstrate, for the first time, on-demand entanglement of individually prepared molecules. Using the electric dipolar interaction between pairs of molecules prepared using a reconfigurable optical tweezer array, we realize an entangling two-qubit gate, and use it to deterministically create Bell pairs. Our results demonstrate the key building blocks needed for quantum information processing, simulation of quantum spin models, and quantum-enhanced sensing. They also open up new possibilities such as using trapped molecules for quantum-enhanced fundamental physics tests and exploring collisions and chemical reactions with entangled matter. | 翻訳日:2023-01-22 19:34:23 公開日:2022-10-12 |
# 可変状態エントロピーを持つ高次元2光子量子周波数コムのコヒーレント制御による量子ウォークのステアリング Steering of Quantum Walks through Coherent Control of High-dimensional Bi-photon Quantum Frequency Combs with Tunable State Entropies ( http://arxiv.org/abs/2210.06305v1 ) ライセンス: Link先を確認 | Raktim Haldar, Robert Johanning, Philip R\"ubeling, Anahita Khodadad Kashi, Thomas B{\ae}kkegaard, Surajit Bose, Nikolaj Thomas Zinner, and Michael Kues | (参考訳) 量子ウォークは、量子探索、量子情報処理、絡み合い輸送などの幅広い応用の中心である。
量子ウォーク(QW)の時間と方向の制御は、専用処理を実装する上で重要である。
しかし、現在のシステムでは、スケーラブルなフォーマットで達成するのは面倒です。
オンチップデバイスにおける光子の周波数自由度を符号化した高次元量子状態は、大規模複雑な量子システムのスケーラブルな生成と信頼性の高い操作のための重要な資産である。
これらの状態、すなわち量子周波数コム(QFC)は、単一の空間モードで膨大な情報を収容し、本質的にノイズ耐性を持ち、光ファイバによる伝送に適しているため、量子技術に革命をもたらす。
既存の文献では、非線形マイクロキャビティまたは導波管から連続波レーザーによって励起される最大絡み合ったQFCをフィルタアレイで生成することを目的としている。
フレキシブルディープ/デューレーションを持つQWは近年,このようなQFCから実証されている。
ここでは,最大絡み合うqfcの代わりに,新しいパルス励起・フィルタリング方式を用いて周期的に分極したニオブ酸リチウム導波路から波長可変エントロピーを持つ高次元量子フォトニック状態を生成する。
量子トモグラフィーを高忠実度で行うことにより、正規化エントロピーを持つQFCの生成を$\sim 0.35$から$ $1$に確認する。
これらの状態は、非理想的シナリオにおけるいくつかの量子計算および通信プロトコルのための優れたテストベッドとなり、ニューラルネットワークが未知の量子状態の分類を可能にする。
さらに, 可変エントロピーを有するqfcから開始されるqwsの方向制御のステアリングとコヒーレント制御を実験的に実証した。
本研究は,QWに対する新しい制御機構と,共同確率分布の新たな修正手段を提供する。 Quantum walks are central to a wide range of applications such as quantum search, quantum information processing, and entanglement transport. Gaining control over the duration and the direction of quantum walks (QWs) is crucial to implementing dedicated processing. However, in current systems, it is cumbersome to achieve in a scalable format. High-dimensional quantum states, encoded in the photons' frequency degree of freedom in on-chip devices are great assets for the scalable generation and reliable manipulation of large-scale complex quantum systems. These states, viz. quantum frequency combs (QFCs) accommodating huge information in a single spatial mode, are intrinsically noise tolerant, and suitable for transmission through optical fibers, thereby promising to revolutionize quantum technologies. Existing literature aimed to generate maximally entangled QFCs excited from continuous-wave lasers either from nonlinear microcavities or from waveguides with the help of filter arrays. QWs with flexible depth/duration have been lately demonstrated from such QFCs. Here, instead of maximally-entangled QFCs, we generate high-dimensional quantum photonic states with tunable entropies from periodically poled lithium niobate waveguides by exploiting a novel pulsed excitation and filtering scheme. We confirm the generation of QFCs with normalized entropies from $\sim 0.35$ to $1$ by performing quantum tomography with high fidelities. These states can be an excellent testbed for several quantum computation and communication protocols in nonideal scenarios and enable artificial neural networks to classify unknown quantum states. Further, we experimentally demonstrate the steering and coherent control of the directionality of QWs initiated from such QFCs with tunable entropies. Our findings offer a new control mechanism for QWs as well as novel modification means for joint probability distributions. | 翻訳日:2023-01-22 19:34:08 公開日:2022-10-12 |
# 構造化探索による連続多変数関数の量子最適化 Quantum Optimisation for Continuous Multivariable Functions by a Structured Search ( http://arxiv.org/abs/2210.06227v1 ) ライセンス: Link先を確認 | Edric Matwiejew, Jason Pye, Jingbo B. Wang | (参考訳) 最適化問題を解くことは、量子コンピュータの有望な短期的応用である。
量子変分アルゴリズムは量子重ね合わせと絡み合いを利用して古典的に調整可能なユニタリの交互列を用いて指数関数的に大きな解空間を最適化する。
しかし、先行研究は主に離散最適化問題に取り組んできた。
さらに、これらのアルゴリズムは一般に非構造化解空間の仮定の下で設計されており、非構造化グロバーの量子探索アルゴリズムの理論的な限界に速度を制限している。
本稿では, 離散化された連続解空間の一般構造特性を非構造的量子探索の限界を超える収束で利用することにより, 連続多変量関数を効率よく最適化できることを示す。
本稿では,量子多変量最適化アルゴリズム(qmoa)を導入し,既存の手法,特に高次元・振動関数の最適化においてその利点を示す。 Solving optimisation problems is a promising near-term application of quantum computers. Quantum variational algorithms leverage quantum superposition and entanglement to optimise over exponentially large solution spaces using an alternating sequence of classically tunable unitaries. However, prior work has primarily addressed discrete optimisation problems. In addition, these algorithms have been designed generally under the assumption of an unstructured solution space, which constrains their speedup to the theoretical limits for the unstructured Grover's quantum search algorithm. In this paper, we show that quantum variational algorithms can efficiently optimise continuous multivariable functions by exploiting general structural properties of a discretised continuous solution space with a convergence that exceeds the limits of an unstructured quantum search. We introduce the Quantum Multivariable Optimisation Algorithm (QMOA) and demonstrate its advantage over pre-existing methods, particularly when optimising high-dimensional and oscillatory functions. | 翻訳日:2023-01-22 19:33:40 公開日:2022-10-12 |
# 励起遮断原子量子レジスタ上の光マルチ量子ビットゲート演算 Optical multi-qubit gate operations on an excitation blockaded atomic quantum register ( http://arxiv.org/abs/2210.06212v1 ) ライセンス: Link先を確認 | Adam Kinos and Klaus M{\o}lmer | (参考訳) 我々は、2つの計算基底状態といわゆる閉塞状態における相互作用励起状態を持つ原子またはイオンの多量子系を考える。
そのような系の例としては、希土類イオンドープ結晶とトワイザー配列に閉じ込められた中性原子がある。
我々は,任意の所望のマルチ量子ビット製品状態上で複雑な位相係数を生じさせ,nビットトッフォリゲートなどのマルチ量子ビットゲートの実装に使用できる簡単なレーザー励起プロトコルを提案する。
操作は2つのパルスのみで行われ、各パルスが全てのキュービットを同時に処理する。
複雑な双曲型セカントパルスを用いることで、我々のスキームは頑丈であり、相互作用パラメータの可変性にもかかわらず励起状態への完全移動を許す。
マルチキュービットゲート性能の詳細な解析を提供する。 We consider a multi-qubit system of atoms or ions with two computational ground states and an interacting excited state in the so-called blockade regime, such that only one qubit can be excited at any one time. Examples of such systems are rare-earth-ion-doped crystals and neutral atoms trapped in tweezer arrays. We present a simple laser excitation protocol that yields a complex phase factor on any desired multi-qubit product state, and which can be used to implement multi-qubit gates such as the n-bit Toffoli gates. The operation is performed using only two pulses, where each pulse simultaneously address all qubits. By the use of complex hyperbolic secant pulses our scheme is robust and permits complete transfers to and from the excited states despite the variability of interaction parameters. A detailed analysis of the multi-qubit gate performance is provided. | 翻訳日:2023-01-22 19:33:13 公開日:2022-10-12 |
# 光子を介する双極子-双極子相互作用による捕捉原子の暗黒状態サイドバンド冷却 Enhanced dark-state sideband cooling in trapped atoms via photon-mediated dipole-dipole interactions ( http://arxiv.org/abs/2210.06198v1 ) ライセンス: Link先を確認 | Chung-Hsien Wang, Yi-Cheng Wang, Chi-Chih Chen, Chun-Che Wang, and H. H. Jen | (参考訳) 解決されたサイドバンド冷却は、閉じ込められた原子を原子ベースの量子技術で不可欠な運動基底状態に向かって冷却する上で重要なステップとなる。
ここでは、光子を介する双極子-双極子相互作用を利用して、閉じ込められた原子のダークステート側バンド冷却を増強する。
マジック粒子間距離に原子を配置することで、ターゲット原子内の冷却挙動が1つの原子が許容する限界を超えることを示す。
さらに、複数のマジック間隔を識別でき、原子数の増加に伴って冷却性能の適度な向上が予測できるレーザーデチューニングと異なる光偏光角を用いて、多原子構成の様々な原子構成を更に検討する。
本研究では,集合的および光誘起長距離双極子-双極子相互作用を持つ原子のサブレコイル冷却に関する知見を提供し,複数の量子レジスタにおける真の量子演算の実現に向けた道を開く。 Resolved sideband cooling provides a crucial step in subrecoil cooling the trapped atoms toward their motional ground state, which is essential in atom-based quantum technologies. Here we present an enhanced dark-state sideband cooling in trapped atoms utilizing photon-mediated dipole-dipole interactions among them. By placing the atoms at the magic interparticle distances, we manifest an outperformed cooling behavior in the target atom, which surpasses the limit that a single atom permits. We further investigate various atomic configurations in a multiatom setup with a laser detuning and different light polarization angles, where multiple magic spacings can be identified and a moderate improvement in cooling performance is predicted as the number of atoms increases. Our results provide insights to subrecoil cooling of atoms with collective and light-induced long-range dipole-dipole interactions, and pave the way toward implementing genuine quantum operations in multiple quantum registers. | 翻訳日:2023-01-22 19:32:46 公開日:2022-10-12 |
# 料理の生成文法 A generative grammar of cooking ( http://arxiv.org/abs/2211.09059v1 ) ライセンス: Link先を確認 | Ganesh Bagler | (参考訳) 料理は、原料を美味しい料理に変身させる独特の人間の努力である。
何世紀にもわたって、世界中の文化は料理の伝統に根ざした様々な料理の習慣を進化させてきた。
したがってレシピは、精巧な調理プロトコルにおける料理の知識を捉える文化カプセルである。
単純な量的モデルではレシピの構成や料理の進化の過程が解明されているが、言語などの他の文化的な特徴とは異なり、料理の原理は未解明のままである。
料理、レシピの作り方、料理の建築を規定する基本的なルールは不明確である。
本稿では,料理の語源を捉えた生成文法について述べる。
構造化されたレシピの広範なリポジトリを研究することにより、料理合成のための組み合わせシステムを構築するためのコア概念とルールを同定する。
言語の文脈でなされる作業の体系に基づいて、論理的に一貫性のある生成フレームワークのデモンストレーションは、料理行為に対する深い洞察を与えます。
栄養障害や生活習慣障害における食品の中枢的な役割を考えると、料理文法は、新しいレシピ生成のような創造的な追求の応用を超える食事介入を通じて公衆衛生を改善するのに有効である。 Cooking is a uniquely human endeavor for transforming raw ingredients into delicious dishes. Over centuries, cultures worldwide have evolved diverse cooking practices ingrained in their culinary traditions. Recipes, thus, are cultural capsules that capture culinary knowledge in elaborate cooking protocols. While simple quantitative models have probed the patterns in recipe composition and the process of cuisine evolution, unlike other cultural quirks such as language, the principles of cooking remain hitherto unexplored. The fundamental rules that drive the act of cooking, shaping recipe composition and cuisine architecture, are unclear. Here we present a generative grammar of cooking that captures the underlying culinary logic. By studying an extensive repository of structured recipes, we identify core concepts and rules that together forge a combinatorial system for culinary synthesis. Building on the body of work done in the context of language, the demonstration of a logically consistent generative framework offers profound insights into the act of cooking. Given the central role of food in nutrition and lifestyle disorders, culinary grammar provides leverage to improve public health through dietary interventions beyond applications for creative pursuits such as novel recipe generation. | 翻訳日:2023-01-22 19:26:04 公開日:2022-10-12 |
# リスに基づく最適化アルゴリズムと分類手法を用いた特徴の収集による不正紙幣の検出 Detection of fraudulent financial papers by picking a collection of characteristics using optimization algorithms and classification techniques based on squirrels ( http://arxiv.org/abs/2211.07747v1 ) ライセンス: Link先を確認 | Peyman Mohammadzadeh germi, Mohsen Najarbashi | (参考訳) 重要な投資決定を行うには、投資家は財務記録と経済情報を必要とする。
しかし、ほとんどの企業は金融声明を膨らませて投資家や金融機関を操っている。
不正な金融活動は、物理的であれ電子的であれ、金融または金融取引のシナリオに存在する。
この領域で発生した課題は、個人や機関に影響を与える問題や問題である。
この問題は、金融詐欺の流行と過去の研究の慎重さから、この分野で注目を集めている。
本研究では,この問題を解決するための主要なアプローチとして,リス最適化パターンに基づく特徴選択と分類法を組み合わせて,異常検出に基づくアプローチを用いた。
本手法の目的は、選択された特徴と最も近い近隣の分類、ニューラルネットワーク、サポートベクターマシン、ベイズアンの組み合わせを用いて、財務諸表の異常を検出するモデルを提供することである。
異常サンプルは分析され、評価基準を用いて推奨技術と比較される。
リス最適化のメタ探索能力は、金融データの異常を識別するアプローチの能力とともに、提案戦略の実装に有効であることが示されている。
彼らは専門知識のために偽の財務文書を発見した。 To produce important investment decisions, investors require financial records and economic information. However, most companies manipulate investors and financial institutions by inflating their financial statements. Fraudulent Financial Activities exist in any monetary or financial transaction scenario, whether physical or electronic. A challenging problem that arises in this domain is the issue that affects and troubles individuals and institutions. This problem has attracted more attention in the field in part owing to the prevalence of financial fraud and the paucity of previous research. For this purpose, in this study, the main approach to solve this problem, an anomaly detection-based approach based on a combination of feature selection based on squirrel optimization pattern and classification methods have been used. The aim is to develop this method to provide a model for detecting anomalies in financial statements using a combination of selected features with the nearest neighbor classifications, neural networks, support vector machine, and Bayesian. Anomaly samples are then analyzed and compared to recommended techniques using assessment criteria. Squirrel optimization's meta-exploratory capability, along with the approach's ability to identify abnormalities in financial data, has been shown to be effective in implementing the suggested strategy. They discovered fake financial statements because of their expertise. | 翻訳日:2023-01-22 19:25:47 公開日:2022-10-12 |
# ランベルトw線と有限正方形井戸センサ Lambert W Lines and Finite Square Well Sensors ( http://arxiv.org/abs/2210.07359v1 ) ライセンス: Link先を確認 | Ken Roberts, Najeh Jisrawi, J. Jeyasitharam, Shreyas Suresh, P. C. Deshmukh, S. R. Valluri | (参考訳) 1次元有限量子井戸(FSW)の有界エネルギーは、複素平面の2つのコピー間の滑らかなマッピングを含む幾何学的手法を用いて決定することができる。
この方法では、システムが井戸の深さや形状の変化に異常に敏感になるfswの特定の強度を識別することができる。
本稿では,その感度について検討し,その解決策を3次元可視化する。 The bound state energies of a 1-dimensional finite quantum square well (FSW) can be determined using a geometric method, involving a smooth mapping between two copies of the complex plane. The method allows one to identify particular strengths of the FSW at which the system can become unusually sensitive to changes in the well depth or geometry. In the present paper we explore that sensitivity, and exhibit a 3-D visualization of the solutions. | 翻訳日:2023-01-22 19:25:30 公開日:2022-10-12 |
# 損失非直交準モードにおけるねじれ状態の非線形光学的生成:解析解 Nonlinear optical generation of entangled squeezed states in lossy nonorthogonal quasimodes: an analytic solution ( http://arxiv.org/abs/2210.06521v1 ) ライセンス: Link先を確認 | Colin Vendromin and Marc M. Dignam | (参考訳) ナノキャビティ系の損失非直交準同相系における光の非線形生成量子状態に対する密度演算子は、スキーズと熱光子パラメータの時間依存性が3M$結合微分方程式の集合によって与えられる多重モード圧縮熱状態の解析形式を有することを証明した。
本手法を2つの非直交準モードを持つシステムに適用し,fock状態に基づくシミュレーションと良好な一致を得る。
このアプローチは、混合ガウスクラスター状態の生成をモデル化し最適化する効率的な方法を提供する。 We prove that the density operator for the nonlinearly-generated quantum state of light in the $M$ lossy nonorthogonal quasimodes of a nanocavity system has the analytic form of a multimode squeezed thermal state, where the time-dependence of the squeezing and thermal photon parameters are given by a set of $3M$ coupled differential equations. We apply our approach to a system with two highly nonorthogonal quasimodes and obtain good agreement with simulations using a basis of Fock states. Our approach provides an efficient way to model and optimize the generation of mixed Gaussian cluster states. | 翻訳日:2023-01-22 19:25:22 公開日:2022-10-12 |
# 溶融絶縁体からの超伝導 Superconductivity from a melted insulator ( http://arxiv.org/abs/2210.06508v1 ) ライセンス: Link先を確認 | S. Mukhopadhyay, J. Senior, J. Saez-Mollejo, D. Puglia, M. Zemlicka, J. Fink, A.P. Higginbotham | (参考訳) 量子相転移は通常、非零温度で臨界領域または交差領域を広げる。
ジョセフソンアレイはこの現象のモデルであり、臨界波インピーダンスで超伝導-絶縁体遷移を示し、よく理解された絶縁相を示す。
しかし、量子コンピューティングや気象学で使用される高インピーダンスアレイはこの遷移を回避し、名目上絶縁状態の深い超伝導挙動を示す。
このようなデバイスに批判的行動がないことはよく理解されていない。
ここでは、典型的な量子臨界拡大シナリオとは異なり、ジョセフソンアレイの温度が臨界領域を劇的にシフトさせることを示す。
このシフトは、融解した零温度絶縁体から生じる高温の超伝導状態をもたらす。
その結果、名目上絶縁状態における低温超伝導の発生と強絶縁相への遷移を定量的に説明できた。
さらに、我々の知る限り、異常金属抵抗飽和の開始に関する最初の理解を提示する。
この研究は、熱効果と量子臨界の間の非自明な相互作用を示す。
現実的な結果として、高インピーダンス量子回路のコヒーレンスが熱ゆらぎによって安定化されることが期待されている。 Quantum phase transitions typically result in a broadened critical or crossover region at nonzero temperature. Josephson arrays are a model of this phenomenon, exhibiting a superconductor-insulator transition at a critical wave impedance, and a well-understood insulating phase. Yet high-impedance arrays used in quantum computing and metrology apparently evade this transition, displaying superconducting behavior deep into the nominally insulating regime. The absence of critical behavior in such devices is not well understood. Here we show that, unlike the typical quantum-critical broadening scenario, in Josephson arrays temperature dramatically shifts the critical region. This shift leads to a regime of superconductivity at high temperature, arising from the melted zero-temperature insulator. Our results quantitatively explain the low-temperature onset of superconductivity in nominally insulating regimes, and the transition to the strongly insulating phase. We further present, to our knowledge, the first understanding of the onset of anomalous-metallic resistance saturation. This work demonstrates a non-trivial interplay between thermal effects and quantum criticality. A practical consequence is that, counterintuitively, the coherence of high-impedance quantum circuits is expected to be stabilized by thermal fluctuations. | 翻訳日:2023-01-22 19:25:09 公開日:2022-10-12 |
# スピン鎖の開放系スピン輸送と演算子質量散逸 Open-system spin transport and operator weight dissipation in spin chains ( http://arxiv.org/abs/2210.06494v1 ) ライセンス: Link先を確認 | Yongchan Yoo, Christopher David White, Brian Swingle | (参考訳) 非平衡定常状態を用いて、一次元スピン鎖の輸送のスケーリング挙動に対する散逸支援作用素進化(DAOE)の影響を研究する。
我々は XXZ 系の3つのモデルを考える: 不安定な異方性を持つ XXZ モデル(カオス)、外部場を持たない XXZ モデル(Bethe ansatz integrable)、自由フェルミオン可積分(ゼロ相互作用極限における)、自由フェルミオン可積分(自由フェルミオン可積分およびアンダーソン局所化)。
DAOEが輸送に与える影響は, システムの保存量に対する影響によって制御されていることを示す。
daoeがそれらの対称性を保存している程度には、システムの輸送特性のスケーリングを保ち、保存された量を壊す程度には、システムの輸送の拡散的スケーリングへと押し上げます。 We use non-equilibrium steady states to study the effect of dissipation-assisted operator evolution (DAOE) on the scaling behavior of transport in one-dimensional spin chains. We consider three models in the XXZ family: the XXZ model with staggered anisotropy, which is chaotic; XXZ model with no external field and tunable interaction, which is Bethe ansatz integrable and (in the zero interaction limit) free fermion integrable; and the disordered XY model, which is free-fermion integrable and Anderson localized. We find evidence that DAOE's effect on transport is controlled by its effect on the system's conserved quantities. To the extent that DAOE preserves those symmetries, it preserves the scaling of the system's transport properties; to the extent it breaks those conserved quantities, it pushes the system towards diffusive scaling of transport. | 翻訳日:2023-01-22 19:24:50 公開日:2022-10-12 |
# ゲージ理論の量子シミュレータにおける1/f$ノイズの抑制 Suppression of $1/f$ noise in quantum simulators of gauge theories ( http://arxiv.org/abs/2210.06489v1 ) ライセンス: Link先を確認 | Bhavik Kumar, Philipp Hauke, Jad C. Halimeh | (参考訳) より複雑なゲージ理論現象を量子シミュレーションするためには、異なる実験プラットフォーム上で避けられないゲージ破れ誤差の制御と抑制を可能にするスキームを考案する必要がある。
コヒーレントなエラーに対処するにはいくつかのアプローチが成功したが、デコヒーレンスでは比較的少ない。
対応するブロッホ・レッドフィールド方程式を数値的に解くことにより、最近開発された \textit{linear gauge protection} 法は、1/f^\beta$ ノイズによるゲージ違反の増大を 1/v^\beta$ として抑え、ここで v$ は保護強度であり、アーベル格子ゲージ理論では $\beta>0$ である。
我々は時間依存摂動理論を用いて解析的導出を伴う数値解析結果を支持する。
我々の発見は、現代のアナログ量子シミュレータとデジタルNISQデバイスに即時適用可能である。 In the current drive to quantum-simulate evermore complex gauge-theory phenomena, it is necessary to devise schemes allowing for the control and suppression of unavoidable gauge-breaking errors on different experimental platforms. Although there have been several successful approaches to tackle coherent errors, comparatively little has been done in the way of decoherence. By numerically solving the corresponding Bloch--Redfield equations, we show that the recently developed method of \textit{linear gauge protection} suppresses the growth of gauge violations due to $1/f^\beta$ noise as $1/V^\beta$, where $V$ is the protection strength and $\beta>0$, in Abelian lattice gauge theories, as we show through exemplary results for $\mathrm{U}(1)$ quantum link models and $\mathbb{Z}_2$ lattice gauge theories. We support our numerical findings with analytic derivations through time-dependent perturbation theory. Our findings are of immediate applicability in modern analog quantum simulators and digital NISQ devices. | 翻訳日:2023-01-22 19:24:32 公開日:2022-10-12 |
# 変分量子アルゴリズムの高速勾配推定 Fast gradient estimation for variational quantum algorithms ( http://arxiv.org/abs/2210.06484v1 ) ライセンス: Link先を確認 | Lennart Bittel, Jens Watty, Martin Kliesch | (参考訳) 変分量子アルゴリズムを訓練するための多くの最適化手法は、コスト関数の勾配の推定に基づいている。
量子測定の統計的性質のため、この推定には多くの回路評価が必要であり、これはアプローチ全体の重要なボトルネックである。
本稿では,この測定課題を緩和し,必要な測定ラウンドを削減するための新しい勾配推定法を提案する。
ベイズフレームワーク内および一般化されたパラメータシフト規則に基づいて、回路に関する事前情報を用いて、期待される統計的および系統的エラーを同時に最小化する推定戦略を求める。
提案手法は従来の勾配推定法を著しく上回り、一般的なQAOAセットアップにおいて必要な測定ラウンドを最大1桁まで削減できることを実証する。
また, 有限差分による推定は, 小型・中等度な測定予算の勾配精度においてパラメータシフト則より優れていることを示す。 Many optimization methods for training variational quantum algorithms are based on estimating gradients of the cost function. Due to the statistical nature of quantum measurements, this estimation requires many circuit evaluations, which is a crucial bottleneck of the whole approach. We propose a new gradient estimation method to mitigate this measurement challenge and reduce the required measurement rounds. Within a Bayesian framework and based on the generalized parameter shift rule, we use prior information about the circuit to find an estimation strategy that minimizes expected statistical and systematic errors simultaneously. We demonstrate that this approach can significantly outperform traditional gradient estimation methods, reducing the required measurement rounds by up to an order of magnitude for a common QAOA setup. Our analysis also shows that an estimation via finite differences can outperform the parameter shift rule in terms of gradient accuracy for small and moderate measurement budgets. | 翻訳日:2023-01-22 19:24:08 公開日:2022-10-12 |
# ランダム量子回路における固有状態熱化に対する場理論のアプローチ Field theory approach to eigenstate thermalization in random quantum circuits ( http://arxiv.org/abs/2210.06480v1 ) ライセンス: Link先を確認 | Yunxiang Liao and Victor Galitski | (参考訳) フロッケ作用素の固有関数の統計をフロッケランダム量子回路の大きな族に対して探究するために場理論的手法を用いる。
準エネルギー固有状態の相関関数を計算し、Berryの量子回路に対する予想と一致するランダムな行列の1次アンサンブル統計を示すことを示した。
この量は、スペクトル形成係数や任意の観測可能な期待値の温度依存性など、量子カオスのすべての重要な指標を決定する。
また、局所作用素の行列要素が固有状態熱化仮説(ETH)を満たすこと、すなわち、そのような作用素の対角行列要素の分散がシステムサイズにおいて指数関数的に小さいことを明示的に示すこともできる。
これらの結果は、物理的に厳密なレベルのフロッケランダム量子回路の族に対するethの証明を表している。
これと他のシグマ模型の計算のほとんどに対する顕著な疑問は、大きな n 個の極限における鞍点近似の妥当性の数学的に厳密な証明である。 We use field-theoretic methods to explore the statistics of eigenfunctions of the Floquet operator for a large family of Floquet random quantum circuits. The correlation function of the quasienergy eigenstates is calculated and shown to exhibit random matrix circular unitary ensemble statistics, which is consistent with the analogue of Berry's conjecture for quantum circuits. This quantity determines all key metrics of quantum chaos, such as the spectral form factor and thermalizing time-dependence of the expectation value of an arbitrary observable. It also allows us to explicitly show that the matrix elements of local operators satisfy the eigenstate thermalization hypothesis (ETH); i.e., the variance of the off-diagonal matrix elements of such operators is exponentially small in the system size. These results represent a proof of ETH for the family of Floquet random quantum circuits at a physical level of rigor. An outstanding open question for this and most of other sigma-model calculations is a mathematically rigorous proof of the validity of the saddle-point approximation in the large-N limit. | 翻訳日:2023-01-22 19:23:56 公開日:2022-10-12 |
# ランダムOracleモデルにおける量子深さ Quantum Depth in the Random Oracle Model ( http://arxiv.org/abs/2210.06454v1 ) ライセンス: Link先を確認 | Atul Singh Arora and Andrea Coladangelo and Matthew Coudron and Alexandru Gheorghiu and Uttam Singh and Hendrik Waldner | (参考訳) 浅層量子回路の計算能力を古典計算と組み合わせて包括的に評価する。
具体的には,探索問題のクラスについて,ランダムなオラクルに対して,以下の文が成り立つことを示す。
(a) $\mathsf{BPP}^{\mathsf{QNC}^{\mathsf{BPP}}} \neq \mathsf{BQP}$
これはランダムオラクルモデルにおけるjozsaの予想[qip 05]を反論する。
その結果、オラクルを暗号ハッシュ関数に置き換え、量子コンピューティングにおけるアーロンソンの10の半粒課題の1つに分解することで、クラス間での最初の即時分離を与える。
(b) $\mathsf{BPP}^{\mathsf{QNC}} \nsubseteq \mathsf{QNC}^{\mathsf{BPP}}$および$\mathsf{QNC}^{\mathsf{BPP}} \nsubseteq \mathsf{BPP}^{\mathsf{QNC}}$
これは古典計算と浅い量子計算の間に微妙な相互作用が存在することを示している。
実際、第2の分離では、ある問題に対して、1つの浅量子回路で適応測定を行う能力は、適応測定なしで多項式的に多くの浅量子回路を実行する能力よりも有用であることを示す。
(c)量子深度プロトコルの2メッセージ証明が存在する。
このようなプロトコルにより、古典的な検証者は、証明者が最小の量子深さの計算を行う必要があることを効率的に証明することができる。
量子深みの証明は、山川とzhandry [stoc 22]による最近の量子性構築の証明を用いてインスタンス化できる。 We give a comprehensive characterization of the computational power of shallow quantum circuits combined with classical computation. Specifically, for classes of search problems, we show that the following statements hold, relative to a random oracle: (a) $\mathsf{BPP}^{\mathsf{QNC}^{\mathsf{BPP}}} \neq \mathsf{BQP}$. This refutes Jozsa's conjecture [QIP 05] in the random oracle model. As a result, this gives the first instantiatable separation between the classes by replacing the oracle with a cryptographic hash function, yielding a resolution to one of Aaronson's ten semi-grand challenges in quantum computing. (b) $\mathsf{BPP}^{\mathsf{QNC}} \nsubseteq \mathsf{QNC}^{\mathsf{BPP}}$ and $\mathsf{QNC}^{\mathsf{BPP}} \nsubseteq \mathsf{BPP}^{\mathsf{QNC}}$. This shows that there is a subtle interplay between classical computation and shallow quantum computation. In fact, for the second separation, we establish that, for some problems, the ability to perform adaptive measurements in a single shallow quantum circuit, is more useful than the ability to perform polynomially many shallow quantum circuits without adaptive measurements. (c) There exists a 2-message proof of quantum depth protocol. Such a protocol allows a classical verifier to efficiently certify that a prover must be performing a computation of some minimum quantum depth. Our proof of quantum depth can be instantiated using the recent proof of quantumness construction by Yamakawa and Zhandry [STOC 22]. | 翻訳日:2023-01-22 19:23:41 公開日:2022-10-12 |
# LIMEADE: AI説明からアドバイスまで LIMEADE: From AI Explanations to Advice Taking ( http://arxiv.org/abs/2003.04315v4 ) ライセンス: Link先を確認 | Benjamin Charles Germain Lee, Doug Downey, Kyle Lo, Daniel S. Weld | (参考訳) 人間中心のAIの研究は、予測を説明できるシステムの利点を示している。
説明に反応してAIが人間からアドバイスを受ける方法も同様に有用である。
どちらの能力も透明な学習モデル(線形モデルやGA$^2$Msなど)でよく開発されているが、近年の手法(LIMEやSHAPなど)は不透明なモデルに対する説明を生成できるが、不透明なモデルのアドバイス方法にはほとんど注目されていない。
本稿では, 肯定的, 否定的アドバイス(ポストホックな説明など高レベルの語彙で表現される)を任意の不透明なモデルに変換する最初の一般的なフレームワークであるLIMEADEを紹介する。
画像分類とテキストレコメンデーションという2つの広いドメインにわたる70の実世界モデルのケーススタディを用いて,このアプローチの汎用性を示す。
本手法は,画像分類領域における厳密なベースラインと比較して精度が向上することを示す。
テキストのモダリティについて、我々のフレームワークを公開ウェブサイト上の科学論文のニューラルレコメンデータシステムに適用し、我々のユーザスタディは、我々のフレームワークがユーザコントロール、信頼、満足度を著しく高めることを示している。 Research in human-centered AI has shown the benefits of systems that can explain their predictions. Methods that allow an AI to take advice from humans in response to explanations are similarly useful. While both capabilities are well-developed for transparent learning models (e.g., linear models and GA$^2$Ms), and recent techniques (e.g., LIME and SHAP) can generate explanations for opaque models, little attention has been given to advice methods for opaque models. This paper introduces LIMEADE, the first general framework that translates both positive and negative advice (expressed using high-level vocabulary such as that employed by post-hoc explanations) into an update to an arbitrary, underlying opaque model. We demonstrate the generality of our approach with case studies on seventy real-world models across two broad domains: image classification and text recommendation. We show our method improves accuracy compared to a rigorous baseline on the image classification domains. For the text modality, we apply our framework to a neural recommender system for scientific papers on a public website; our user study shows that our framework leads to significantly higher perceived user control, trust, and satisfaction. | 翻訳日:2022-12-25 08:34:31 公開日:2022-10-12 |
# 分布ランダム林:不均一性調整と多変量分布回帰 Distributional Random Forests: Heterogeneity Adjustment and Multivariate Distributional Regression ( http://arxiv.org/abs/2005.14458v3 ) ライセンス: Link先を確認 | Domagoj \'Cevid, Loris Michel, Jeffrey N\"af, Nicolai Meinshausen, Peter B\"uhlmann | (参考訳) Random Forest (Breiman, 2001) は回帰と分類アルゴリズムとして成功し広く使われている。
その魅力と汎用性の理由のひとつは、トレーニングデータにカーネル型重み付け関数を(単純に)構築することであり、これは元の平均推定以外のターゲットにも使用できる。
本研究では, 推定対象とデータモデルに依存しない, 共同条件分布に基づく多変量応答のための新しい森林構築法を提案する。
mmd分布メトリックに基づく新しい分割基準を用い、多変量分布の異種性を検出するのに適している。
誘導重みは完全な条件分布の見積もりを定義し、これは任意の、あるいは潜在的に複雑な興味の対象に使用できる。
この手法は非常に汎用的であり、幅広い例で示すように、使い勝手の良い方法である。
コードはPythonとRパッケージとして利用可能である。 Random Forest (Breiman, 2001) is a successful and widely used regression and classification algorithm. Part of its appeal and reason for its versatility is its (implicit) construction of a kernel-type weighting function on training data, which can also be used for targets other than the original mean estimation. We propose a novel forest construction for multivariate responses based on their joint conditional distribution, independent of the estimation target and the data model. It uses a new splitting criterion based on the MMD distributional metric, which is suitable for detecting heterogeneity in multivariate distributions. The induced weights define an estimate of the full conditional distribution, which in turn can be used for arbitrary and potentially complicated targets of interest. The method is very versatile and convenient to use, as we illustrate on a wide range of examples. The code is available as Python and R packages drf. | 翻訳日:2022-11-26 23:03:37 公開日:2022-10-12 |
# 野生における物体のFew-Shot物体検出と視点推定 Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild ( http://arxiv.org/abs/2007.12107v2 ) ライセンス: Link先を確認 | Yang Xiao, Vincent Lepetit, Renaud Marlet | (参考訳) 物体の検出と画像の視点推定は3Dシーン理解の重要な課題である。
最近のアプローチは、オブジェクト検出と視点推定の非常に大きなベンチマークで優れた結果を得た。
しかし、わずかなサンプルで新しいオブジェクトカテゴリではパフォーマンスが遅れている。
本稿では,少数ショット物体検出と少数ショット視点推定の問題に対処する。
両タスクにおいて,オブジェクト検出用イメージパッチと視点推定用アライメント3Dモデルを用いて,異なるモーダルデータから抽出したクラス表現特徴を用いて,ネットワーク予測を導出する利点を実証する。
その単純さにもかかわらず,本手法は,PASCALやCOCO,Pascal3D+やObjectNet3Dなど,多種多様なデータセットに対して,最先端の手法よりも高い精度で性能を向上する。
さらに,3次元モデルが利用できない場合,異なるクラスにまたがる幾何学的類似性と一貫したポーズラベリングを活用し,単純なカテゴリー非依存視点推定手法を導入する。
パフォーマンスは緩やかに低下するが、このアプローチはこの設定の以前の方法よりも良い結果を得る。
最後に、私たちは、野生のObjectNet3D、Pascal3D+、Pix3Dの視点推定のための3つの挑戦的なベンチマークで、両方のショットタスクの組み合わせに初めて取り組み、非常に有望な結果を示しました。 Detecting objects and estimating their viewpoints in images are key tasks of 3D scene understanding. Recent approaches have achieved excellent results on very large benchmarks for object detection and viewpoint estimation. However, performances are still lagging behind for novel object categories with few samples. In this paper, we tackle the problems of few-shot object detection and few-shot viewpoint estimation. We demonstrate on both tasks the benefits of guiding the network prediction with class-representative features extracted from data in different modalities: image patches for object detection, and aligned 3D models for viewpoint estimation. Despite its simplicity, our method outperforms state-of-the-art methods by a large margin on a range of datasets, including PASCAL and COCO for few-shot object detection, and Pascal3D+ and ObjectNet3D for few-shot viewpoint estimation. Furthermore, when the 3D model is not available, we introduce a simple category-agnostic viewpoint estimation method by exploiting geometrical similarities and consistent pose labelling across different classes. While it moderately reduces performance, this approach still obtains better results than previous methods in this setting. Last, for the first time, we tackle the combination of both few-shot tasks, on three challenging benchmarks for viewpoint estimation in the wild, ObjectNet3D, Pascal3D+ and Pix3D, showing very promising results. | 翻訳日:2022-11-07 12:48:47 公開日:2022-10-12 |
# ワイヤレスフィンガープリンティング定位のためのリソースアウェア深層学習 Resource-aware Deep Learning for Wireless Fingerprinting Localization ( http://arxiv.org/abs/2211.01759v1 ) ライセンス: Link先を確認 | Gregor Cerar, Bla\v{z} Bertalani\v{c}, Carolina Fortuna | (参考訳) すでにエンドユーザに人気がある位置情報ベースのサービスは、必然的に新しいワイヤレスインフラストラクチャと新たなビジネスプロセスの一部になりつつある。
ますます普及しているディープラーニング(dl)人工知能手法は、広範囲な屋内無線計測データに基づく無線フィンガープリンティングのローカライズにおいて非常によく機能する。
しかし、複雑さが増すにつれて、これらの手法は計算量が非常に集中し、訓練とその後の操作の両方のためにエネルギーを消費するようになる。
2025年末までに740億ドルを超えると見積もられたモバイルユーザのみを考慮すれば、これらのユーザに提供するネットワークは、平均して1時間当たり1つのローカライズしか行わないと仮定すると、計算に使用される機械学習モデルは、年間65 \times 10^{12}$の予測を実行する必要がある。
この方程式に加え、より頻繁な位置更新に大きく依存する数十億の他の接続デバイスやアプリケーションも加わり、よりエネルギー効率の良いモデルが開発され使用されない限り、局所化が二酸化炭素排出量に大きく貢献することが明らかとなった。
本稿では,ワイヤレスローカライズの最新結果と動向について論じ,より持続可能なaiを実現するための道筋を検討する。
次に,DLモデル複雑度,エネルギー消費量,炭素フットプリントの計算手法について詳述し,指紋認証のためのよりリソースに配慮したモデルの開発方法を示す。
最終的に、関連する作業の複雑さとco$_2$フットプリントのトレーニングの観点から比較します。 Location based services, already popular with end users, are now inevitably becoming part of new wireless infrastructures and emerging business processes. The increasingly popular Deep Learning (DL) artificial intelligence methods perform very well in wireless fingerprinting localization based on extensive indoor radio measurement data. However, with the increasing complexity these methods become computationally very intensive and energy hungry, both for their training and subsequent operation. Considering only mobile users, estimated to exceed 7.4 billion by the end of 2025, and assuming that the networks serving these users will need to perform only one localization per user per hour on average, the machine learning models used for the calculation would need to perform $65 \times 10^{12}$ predictions per year. Add to this equation tens of billions of other connected devices and applications that rely heavily on more frequent location updates, and it becomes apparent that localization will contribute significantly to carbon emissions unless more energy-efficient models are developed and used. In this Chapter, we discuss the latest results and trends in wireless localization and look at paths towards achieving more sustainable AI. We then elaborate on a methodology for computing DL model complexity, energy consumption and carbon footprint and show on a concrete example how to develop a more resource-aware model for fingerprinting. We finally compare relevant works in terms of complexity and training CO$_2$ footprint. | 翻訳日:2022-11-06 15:13:50 公開日:2022-10-12 |
# グリッドセルとそのAIへの応用 Grid cells and their potential application in AI ( http://arxiv.org/abs/2210.12068v1 ) ライセンス: Link先を確認 | Jason Toy | (参考訳) 2005年のノーベル賞発見以来、グリッド細胞は神経科学者によって広く研究されてきた。
動物が動き回るにつれて環境をゆがめる多スケールの周期的な燃焼速度は、経路統合にとって重要であることが示されている。
複数の実験により、格子細胞は嗅覚、注意機構、想像された動き、そして神経再生の形で機能し、トルマンが1948年に想定した認知地図の脳のメカニズムを示す概念組織などの他の表現に対しても発火することが示されている。
ニューラルネットワークへのグリッドセルの統合により、より堅牢で汎用的でスマートなコンピュータが可能になる。
本稿では,その発見以降のグリッド細胞研究の概要,神経科学と認知科学における役割,人工知能研究の今後の方向性について概説する。 Since their Nobel Prize winning discovery in 2005, grid cells have been studied extensively by neuroscientists. Their multi-scale periodic firing rates tiling the environment as the animal moves around has been shown as critical for path integration. Multiple experiments have shown that grid cells also fire for other representations such as olfactory, attention mechanisms, imagined movement, and concept organization potentially acting as a form of neural recycling and showing the possible brain mechanism for cognitive maps that Tolman envisioned in 1948. Grid cell integration into artificial neural networks may enable more robust, generalized, and smarter computers. In this paper we give an overview of grid cell research since their discovery, their role in neuroscience and cognitive science, and possible future directions of artificial intelligence research. | 翻訳日:2022-10-30 12:12:00 公開日:2022-10-12 |
# 多カテゴリー逆設計ニューラルネットワークとdiblock共重合体への応用 A multi-category inverse design neural network and its application to diblock copolymers ( http://arxiv.org/abs/2210.13453v1 ) ライセンス: Link先を確認 | Dan Wei and Tiejun Zhou and Yunqing Huang and Kai Jiang | (参考訳) 本研究では、順序付けられた周期構造を物理パラメータにマッピングする多カテゴリ逆設計ニューラルネットワークを設計する。
ニューラルネットワークモデルは、分類器と構造パラメータマップ(spm)サブネットの2つの部分からなる。
分類器は構造を特定するために使用され、SPMサブネットは所望の構造の物理パラメータを予測するために使用される。
また,周期構造の回転および変換不変性を保証するために,拡張可能な相互空間データ拡張法を提案する。
提案するネットワークモデルとデータ拡張法をランドウ・ブラゾフスキーモデルに基づく二次元ブロック共重合体に適用する。
その結果,多カテゴリー逆設計ニューラルネットワークは,所望の構造の物理パラメータを高精度に予測できることがわかった。
さらに、多重分類の概念は、他の逆設計問題にも拡張することができる。 In this work, we design a multi-category inverse design neural network to map ordered periodic structure to physical parameters. The neural network model consists of two parts, a classifier and Structure-Parameter-Mapping (SPM) subnets. The classifier is used to identify structure, and the SPM subnets are used to predict physical parameters for desired structures. We also present an extensible reciprocal-space data augmentation method to guarantee the rotation and translation invariant of periodic structures. We apply the proposed network model and data augmentation method to two-dimensional diblock copolymers based on the Landau-Brazovskii model. Results show that the multi-category inverse design neural network is high accuracy in predicting physical parameters for desired structures. Moreover, the idea of multi-categorization can also be extended to other inverse design problems. | 翻訳日:2022-10-30 12:11:48 公開日:2022-10-12 |
# AIベースのマルウェア検出技術の現状と展望 The State-of-the-Art in AI-Based Malware Detection Techniques: A Review ( http://arxiv.org/abs/2210.11239v1 ) ライセンス: Link先を確認 | Adam Wolsey | (参考訳) 近年、人工知能技術は急速に進化し、サイバー犯罪者と戦うためのアプローチに革命をもたらした。
しかし、サイバーセキュリティ分野が進むにつれ、マルウェア開発も進み、企業によるマルウェア攻撃に対する防御力を強化するための経済的な衝動となっている。
このレビューは、マルウェアの検出と予防に使用される最先端のAI技術を概説することを目的としており、この分野における最新の研究の詳細な分析を提供する。
調査対象のアルゴリズムは、PC、クラウド、Android、IoTなど、さまざまなプラットフォームに適用される、Shallow Learning、Deep Learning、Bio-Inspired Computingで構成されている。
この調査は、サイバー犯罪者によるAIの急速な採用にも触れており、より高度なマルウェアを作成し、それらに対して防御するために設計されたAIアルゴリズムを活用するための手段となっている。 Artificial Intelligence techniques have evolved rapidly in recent years, revolutionising the approaches used to fight against cybercriminals. But as the cyber security field has progressed, so has malware development, making it an economic imperative to strengthen businesses' defensive capability against malware attacks. This review aims to outline the state-of-the-art AI techniques used in malware detection and prevention, providing an in-depth analysis of the latest studies in this field. The algorithms investigated consist of Shallow Learning, Deep Learning and Bio-Inspired Computing, applied to a variety of platforms, such as PC, cloud, Android and IoT. This survey also touches on the rapid adoption of AI by cybercriminals as a means to create ever more advanced malware and exploit the AI algorithms designed to defend against them. | 翻訳日:2022-10-23 20:27:59 公開日:2022-10-12 |
# BiLSTMを用いたバーチャルリアリティーと脳震源検出におけるスムース・スーツ・アセスメントの解析 Analysis of Smooth Pursuit Assessment in Virtual Reality and Concussion Detection using BiLSTM ( http://arxiv.org/abs/2210.11238v1 ) ライセンス: Link先を確認 | Prithul Sarker, Khondker Fariha Hossain, Isayas Berhe Adhanom, Philip K Pavilionis, Nicholas G. Murray, Alireza Tavakkoli | (参考訳) sport-related concussion (src) バッテリは、脳震縮の診断のために主観的な症状報告に大きく依存している。
残念なことに、SRCの選手は症状に無関心であれば、RTP(Return-to-play)が早すぎる可能性がある。
報告不足を克服し、さらなる怪我を防止できる正確な評価を提供することが重要である。
損傷のリスクを下げるためには、信頼性と客観的な結果を得るために、よりロバストで正確な震動検出方法が必要である。
本稿では,long short-term memory (lstm) recurrent neural network (rnn) アーキテクチャを用いて,oculomotorデータからsrcを検出する新しい手法を提案する。
特に、平均二乗誤差を異なる比例で組み込んだ新しい誤差計量を提案する。
vr-vomsデータセットの円滑な追跡実験の結果から,前庭眼運動スクリーニング(voms)の症状誘発よりも高い精度で脳震縮症状を予測できることが示唆された。 The sport-related concussion (SRC) battery relies heavily upon subjective symptom reporting in order to determine the diagnosis of a concussion. Unfortunately, athletes with SRC may return-to-play (RTP) too soon if they are untruthful of their symptoms. It is critical to provide accurate assessments that can overcome underreporting to prevent further injury. To lower the risk of injury, a more robust and precise method for detecting concussion is needed to produce reliable and objective results. In this paper, we propose a novel approach to detect SRC using long short-term memory (LSTM) recurrent neural network (RNN) architectures from oculomotor data. In particular, we propose a new error metric that incorporates mean squared error in different proportions. The experimental results on the smooth pursuit test of the VR-VOMS dataset suggest that the proposed approach can predict concussion symptoms with higher accuracy compared to symptom provocation on the vestibular ocular motor screening (VOMS). | 翻訳日:2022-10-23 20:27:03 公開日:2022-10-12 |
# レコメンデーションデータセットからのパーソナライズタスクのためのシミュレートされたコンテキストバンディット Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets ( http://arxiv.org/abs/2210.10631v1 ) ライセンス: Link先を確認 | Anton Dereventsov and Anton Bibin | (参考訳) 本研究では,映画レンズ,netflix, last.fm, million songなどのレコメンデーションデータセットからパーソナライズタスクのための文脈的バンディット環境をシミュレートする手法を提案する。
これにより、実生活データに基づいてパーソナライズ環境を開発し、現実のユーザインタラクションの微妙な性質を反映することができる。
得られた環境は、パーソナライズタスク、アルゴリズムベンチマーク、モデルシミュレーションなどを解決する方法の開発に利用できる。
我々は,movielens と imdb データセットの数値例を用いて本手法を実証する。 We propose a method for generating simulated contextual bandit environments for personalization tasks from recommendation datasets like MovieLens, Netflix, Last.fm, Million Song, etc. This allows for personalization environments to be developed based on real-life data to reflect the nuanced nature of real-world user interactions. The obtained environments can be used to develop methods for solving personalization tasks, algorithm benchmarking, model simulation, and more. We demonstrate our approach with numerical examples on MovieLens and IMDb datasets. | 翻訳日:2022-10-23 20:18:14 公開日:2022-10-12 |
# パンデミック制御のための深層学習型最適航空戦略 Deep Learning-Derived Optimal Aviation Strategies to Control Pandemics ( http://arxiv.org/abs/2210.10888v1 ) ライセンス: Link先を確認 | Syed Rizvi, Akash Awasthi, Maria J. Pel\'aez, Zhihui Wang, Vittorio Cristini, Hien Van Nguyen, Prashant Dogra | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の国々に影響を与えており、感染拡大を抑えるための公衆衛生政策を徹底的に求めている。
本研究では,世界規模でのCOVID-19感染動態に及ぼす人体移動(国際商業便による記述)の影響について検討した。
そこで我々は,時空間グラフ上で動作する動的接続性グラフSAGE(Dynamic Connectivity GraphSAGE)と呼ばれるグラフニューラルネットワークベースのフレームワークを開発した。
パンデミックの進展にともなう気流による異なる地理的位置の相対的影響を把握するために,我々はノード摂動実験を通じて,我々のモデルに対する局所感度解析を行った。
分析の結果,西欧,北アメリカ,中東がパンデミックに拍車をかけた地域であり,これらの地域を経由する航空交通の永続性に起因すると推定された。
これらの観測から、人体移動への干渉を最小限に抑えて、パンデミックのコントロールに高い影響を与える有形の航空交通量削減戦略を特定した。
我々の研究は、世界的なパンデミックを研究するための堅牢なディープラーニングベースのツールを提供しており、将来のアウトブレイク時の航空交通規制に関する情報決定を行う政策立案者にとって重要な意味を持つ。 The COVID-19 pandemic has affected countries across the world, demanding drastic public health policies to mitigate the spread of infection, leading to economic crisis as a collateral damage. In this work, we investigated the impact of human mobility (described via international commercial flights) on COVID-19 infection dynamics at the global scale. For this, we developed a graph neural network-based framework referred to as Dynamic Connectivity GraphSAGE (DCSAGE), which operates over spatiotemporal graphs and is well-suited for dynamically changing adjacency information. To obtain insights on the relative impact of different geographical locations, due to their associated air traffic, on the evolution of the pandemic, we conducted local sensitivity analysis on our model through node perturbation experiments. From our analyses, we identified Western Europe, North America, and Middle East as the leading geographical locations fueling the pandemic, attributed to the enormity of air traffic originating or transiting through these regions. We used these observations to identify tangible air traffic reduction strategies that can have a high impact on controlling the pandemic, with minimal interference to human mobility. Our work provides a robust deep learning-based tool to study global pandemics and is of key relevance to policy makers to take informed decisions regarding air traffic restrictions during future outbreaks. | 翻訳日:2022-10-23 20:18:03 公開日:2022-10-12 |
# RankT5: ランキング付きテキストランキングのための微調整T5 RankT5: Fine-Tuning T5 for Text Ranking with Ranking Losses ( http://arxiv.org/abs/2210.10634v1 ) ライセンス: Link先を確認 | Honglei Zhuang, Zhen Qin, Rolf Jagerman, Kai Hui, Ji Ma, Jing Lu, Jianmo Ni, Xuanhui Wang and Michael Bendersky | (参考訳) 近年,BERT などの事前学習言語モデルに基づくテキストランキングが大幅に進歩している。
しかし、t5のようなより強力なシーケンシャル・ツー・シーケンスモデルをどのように活用するかに関する研究は限られている。
既存の試みは通常、テキストランキングを分類として定式化し、ポストプロセッシングに頼ってランク付けリストを得る。
本稿では,2つのT5ベースのランキングモデル構造,エンコーダデコーダとエンコーダオンリーのモデル構造について検討し,クエリードキュメンテーションペアごとのランキングスコアを直接出力するだけでなく,ランキング性能を最適化するために,"ペアワイズ"や"リストワイズ"で微調整することもできる。
本実験により,提案したランキング損失モデルにより,公開テキストランキングデータセットのランキング性能が大幅に向上することを示す。
さらに、リストワイズランキング損失を微調整すると、分類損失を微調整したモデルと比較して、ドメイン外データセットにおけるゼロショットランキング性能が向上するように見える。 Recently, substantial progress has been made in text ranking based on pretrained language models such as BERT. However, there are limited studies on how to leverage more powerful sequence-to-sequence models such as T5. Existing attempts usually formulate text ranking as classification and rely on postprocessing to obtain a ranked list. In this paper, we propose RankT5 and study two T5-based ranking model structures, an encoder-decoder and an encoder-only one, so that they not only can directly output ranking scores for each query-document pair, but also can be fine-tuned with "pairwise" or "listwise" ranking losses to optimize ranking performances. Our experiments show that the proposed models with ranking losses can achieve substantial ranking performance gains on different public text ranking data sets. Moreover, when fine-tuned with listwise ranking losses, the ranking model appears to have better zero-shot ranking performance on out-of-domain data sets compared to the model fine-tuned with classification losses. | 翻訳日:2022-10-23 20:17:19 公開日:2022-10-12 |
# 自律型水上車両を用いた大型水資源監視のための情報基準付き検閲深層補強パトロール Censored Deep Reinforcement Patrolling with Information Criterion for Monitoring Large Water Resources using Autonomous Surface Vehicles ( http://arxiv.org/abs/2210.08115v1 ) ライセンス: Link先を確認 | Samuel Yanes Luis, Daniel Guti\'errez Reina, Sergio Toral Mar\'in | (参考訳) 大きな水資源のモニタリングとパトロールは、保全の大きな課題である。
通常、時間内で変化する基礎となる環境のデータを取得する問題は、情報の適切な定式化を伴う。
水質センサーモジュールを備えた自律型表面車両の使用は、汚染ピーク検出、藻の開花モニタリング、石油散布シナリオの早期警戒システムエージェントとして機能する。
情報収集に加えて、車両は非凸マップ上の障害物のないルートを計画する必要がある。
本研究は,静的および動的シナリオのパトロールタスクに対処する衝突のないポリシを実現するための枠組みを提案する。
情報ゲインをデータに対する不確実性低減の指標として,モデルに基づく障害物回避のためのq検閲機構により改良された深いq学習アルゴリズムを提案する。
その結果,静的および動的シナリオに対する水資源モニタリングにおける提案アルゴリズムの有用性が示された。
シミュレーションでは、ノイズネットワークの使用は探索の強化に適しており、3倍の冗長性が低下している。
また, 得られた汚染モデルの精度は, 平均13%, 危険な汚染ピークの検出率は37%であった。
以上より,自動運転車を用いたシナリオ監視のための枠組みの妥当性が示唆された。 Monitoring and patrolling large water resources is a major challenge for conservation. The problem of acquiring data of an underlying environment that usually changes within time involves a proper formulation of the information. The use of Autonomous Surface Vehicles equipped with water quality sensor modules can serve as an early-warning system agents for contamination peak-detection, algae blooms monitoring, or oil-spill scenarios. In addition to information gathering, the vehicle must plan routes that are free of obstacles on non-convex maps. This work proposes a framework to obtain a collision-free policy that addresses the patrolling task for static and dynamic scenarios. Using information gain as a measure of the uncertainty reduction over data, it is proposed a Deep Q-Learning algorithm improved by a Q-Censoring mechanism for model-based obstacle avoidance. The obtained results demonstrate the usefulness of the proposed algorithm for water resource monitoring for static and dynamic scenarios. Simulations showed the use of noise-networks are a good choice for enhanced exploration, with 3 times less redundancy in the paths. Previous coverage strategies are also outperformed both in the accuracy of the obtained contamination model by a 13% on average and by a 37% in the detection of dangerous contamination peaks. Finally, these results indicate the appropriateness of the proposed framework for monitoring scenarios with autonomous vehicles. | 翻訳日:2022-10-23 20:16:41 公開日:2022-10-12 |
# MACE: 生成モデルにおけるメンバシッププライバシ推定のための柔軟なフレームワーク MACE: A Flexible Framework for Membership Privacy Estimation in Generative Models ( http://arxiv.org/abs/2009.05683v5 ) ライセンス: Link先を確認 | Yixi Xu, Sumit Mukherjee, Xiyang Liu, Shruti Tople, Rahul Dodhia, Juan Lavista Ferres | (参考訳) 生成型機械学習モデルは、組織間でセンシティブなデータを共有する方法と見なされている。
差分的にプライベートな生成モデリング手法の開発は行われているが、これらの手法は一般にサブパーサンプルの品質をもたらし、現実世界のアプリケーションでの使用を制限する。
別の研究は、高品質なサンプルにつながるが、正式なプライバシー保証がない生成モデルの開発に焦点を当てている。
本稿では,生成モデルにおけるメンバシッププライバシ推定のための最初の形式的枠組みを提案する。
トレーニングサンプルとホールドアウトサンプルの統計的ばらつきとして会員プライバシーリスクを定式化し,このばらつきを推定するためのサンプルベース手法を提案する。
これまでの作業と比較すると、私たちのフレームワークはより現実的で柔軟な仮定をします。
まず、特に不均衡なデータセットに対する精度指標の代替として一般化可能な計量を提供する。
第2に,従来の研究から基礎となる分布に完全にアクセスできるという仮定を緩めるとともに,理論的保証付きサンプルベース推定を提案する。
第3に,最適なメンバシップアドバンテージによる人口レベルのメンバシッププライバシリスク推定と合わせて,個人のプライバシリスクによる個人レベルの評価を行う。
第4に、我々のフレームワークは、敵がカスタマイズされたクエリを通してトレーニングされたモデルにアクセスできるようにしますが、以前の作業には特定の属性が必要です。 Generative machine learning models are being increasingly viewed as a way to share sensitive data between institutions. While there has been work on developing differentially private generative modeling approaches, these approaches generally lead to sub-par sample quality, limiting their use in real world applications. Another line of work has focused on developing generative models which lead to higher quality samples but currently lack any formal privacy guarantees. In this work, we propose the first formal framework for membership privacy estimation in generative models. We formulate the membership privacy risk as a statistical divergence between training samples and hold-out samples, and propose sample-based methods to estimate this divergence. Compared to previous works, our framework makes more realistic and flexible assumptions. First, we offer a generalizable metric as an alternative to the accuracy metric especially for imbalanced datasets. Second, we loosen the assumption of having full access to the underlying distribution from previous studies , and propose sample-based estimations with theoretical guarantees. Third, along with the population-level membership privacy risk estimation via the optimal membership advantage, we offer the individual-level estimation via the individual privacy risk. Fourth, our framework allows adversaries to access the trained model via a customized query, while prior works require specific attributes. | 翻訳日:2022-10-19 22:08:53 公開日:2022-10-12 |
# 球面画像投影によるマルチパラメトリックMRIによるグリオーマ分割におけるU-Net不確かさの定量化 Quantifying U-Net Uncertainty in Multi-Parametric MRI-based Glioma Segmentation by Spherical Image Projection ( http://arxiv.org/abs/2210.06512v1 ) ライセンス: Link先を確認 | Zhenyu Yang, Kyle Lafata, Eugene Vaios, Zongsheng Hu, Trey Mullikin, Fang-Fang Yin, Chunhao Wang | (参考訳) 目的: グリオーマセグメンテーションにおける多パラメータMRI(MP-MRI)の球面投影に基づくU-Netセグメンテーション不確実性定量化手法の開発。
方法: 球面への平面MRIの投影は, 大域的解剖学的情報を保持する。
提案した球面投影型U-Net(SPU-Net)セグメンテーションモデル設計にそのような画像変換を組み込むことで、1つのMRIに対して複数のセグメンテーション予測が得られる。
最後のセグメンテーションは全ての予測の平均であり、変動は不確実性マップとして示される。
不確実性測定のパフォーマンスを比較するために不確実性スコアを導入した。
SPU-NetモデルはMP-MRIで369例のグリオーマに実装された。
3種類のspu-netを用いて腫瘍(et),腫瘍コア(tc)および全腫瘍(wt)を分割した。
spu-netを,(1)試験時間拡張型u-netと(2)分割精度(dice係数)と不確実性(不確実度マップと不確実性スコア)の両方における線形スケーリング型u-net(lsu-net)と比較した。
結果: SPU-Netは, 正しいセグメンテーション予測(腫瘍内部や健全な組織内部など)に対する不確実性が低く, 不正な結果(腫瘍境界など)に対する不確実性が高かった。
このモデルにより、U-Netで見逃された腫瘍の標的やセグメンテーションエラーを識別できる。
SPU-Netは3つの目標(ET/TC/WT)に対して0.826/0.848/0.936を達成し、U-Netでは0.784/0.643/0.872、LSU-Netでは0.743/0.702/0.876を達成した。
SPU-Netは統計的にかなり高いDice係数を達成した。
結論: SPU-Netは、グリオーマのセグメンテーションの不確実性を定量化し、セグメンテーションの精度を向上する強力なツールを提供する。
提案手法は,不確実性評価のための他の医用画像関連深層学習アプリケーションに一般化することができる。 Purpose: To develop a U-Net segmentation uncertainty quantification method based on spherical image projection of multi-parametric MRI (MP-MRI) in glioma segmentation. Methods: The projection of planar MRI onto a spherical surface retains global anatomical information. By incorporating such image transformation in our proposed spherical projection-based U-Net (SPU-Net) segmentation model design, multiple segmentation predictions can be obtained for a single MRI. The final segmentation is the average of all predictions, and the variation can be shown as an uncertainty map. An uncertainty score was introduced to compare the uncertainty measurements' performance. The SPU-Net model was implemented on 369 glioma patients with MP-MRI scans. Three SPU-Nets were trained to segment enhancing tumor (ET), tumor core (TC), and whole tumor (WT), respectively. The SPU-Net was compared with (1) classic U-Net with test-time augmentation (TTA) and (2) linear scaling-based U-Net (LSU-Net) in both segmentation accuracy (Dice coefficient) and uncertainty (uncertainty map and uncertainty score). Results: The SPU-Net achieved low uncertainty for correct segmentation predictions (e.g., tumor interior or healthy tissue interior) and high uncertainty for incorrect results (e.g., tumor boundaries). This model could allow the identification of missed tumor targets or segmentation errors in U-Net. The SPU-Net achieved the highest uncertainty scores for 3 targets (ET/TC/WT): 0.826/0.848/0.936, compared to 0.784/0.643/0.872 for the U-Net with TTA and 0.743/0.702/0.876 for the LSU-Net. The SPU-Net also achieved statistically significantly higher Dice coefficients. Conclusion: The SPU-Net offers a powerful tool to quantify glioma segmentation uncertainty while improving segmentation accuracy. The proposed method can be generalized to other medical image-related deep-learning applications for uncertainty evaluation. | 翻訳日:2022-10-14 17:56:17 公開日:2022-10-12 |
# 対数凹分布のサンプリングと正規化定数推定のための量子アルゴリズム Quantum Algorithms for Sampling Log-Concave Distributions and Estimating Normalizing Constants ( http://arxiv.org/abs/2210.06539v1 ) ライセンス: Link先を確認 | Andrew M. Childs, Tongyang Li, Jin-Peng Liu, Chunhao Wang, Ruizhe Zhang | (参考訳) 凸関数 $f\colon\mathbb{r}^{d}\to\mathbb{r}$ が与えられたとき、分布 $\propto e^{-f(x)}$ からサンプリングする問題は log-concave sampling と呼ばれる。
このタスクは、機械学習、物理学、統計など、幅広い応用がある。
本研究では、対数凹分布をサンプリングし、正規化定数 $\int_{\mathbb{R}^d}e^{-f(x)}\mathrm{d} x$ を推定するための量子アルゴリズムを開発する。
まず、量子アルゴリズムが評価(ゼロオーダー)クエリのみを使用するにもかかわらず、勾配(一階)クエリを使用する類似の古典的アルゴリズムのクエリ複雑性(条件番号$\kappa$および次元$d$)に一致する量子アルゴリズムを開発する。
定数の正規化を推定するために、これらのアルゴリズムは乗算誤差 $\epsilon$ の二次高速化も達成する。
次に,モンテカルロ法と量子ウォークの量子アナログを利用して,モンテカルロ法および量子ウォークの多項式スピードアップを達成するために,量子メトロポリス調整ランゲインアルゴリズムをクエリ複雑性$\widetilde{O}(\kappa^{1/2}d^{3/2}/\epsilon)$と$\widetilde{O}(\kappa^{1/2}d^{3/2}/\epsilon)$で開発する。
また、正規化定数を推定するために1/\epsilon^{1-o(1)$の量子下界を証明し、量子アルゴリズムのほぼ最適性を$\epsilon$で示している。 Given a convex function $f\colon\mathbb{R}^{d}\to\mathbb{R}$, the problem of sampling from a distribution $\propto e^{-f(x)}$ is called log-concave sampling. This task has wide applications in machine learning, physics, statistics, etc. In this work, we develop quantum algorithms for sampling log-concave distributions and for estimating their normalizing constants $\int_{\mathbb{R}^d}e^{-f(x)}\mathrm{d} x$. First, we use underdamped Langevin diffusion to develop quantum algorithms that match the query complexity (in terms of the condition number $\kappa$ and dimension $d$) of analogous classical algorithms that use gradient (first-order) queries, even though the quantum algorithms use only evaluation (zeroth-order) queries. For estimating normalizing constants, these algorithms also achieve quadratic speedup in the multiplicative error $\epsilon$. Second, we develop quantum Metropolis-adjusted Langevin algorithms with query complexity $\widetilde{O}(\kappa^{1/2}d)$ and $\widetilde{O}(\kappa^{1/2}d^{3/2}/\epsilon)$ for log-concave sampling and normalizing constant estimation, respectively, achieving polynomial speedups in $\kappa,d,\epsilon$ over the best known classical algorithms by exploiting quantum analogs of the Monte Carlo method and quantum walks. We also prove a $1/\epsilon^{1-o(1)}$ quantum lower bound for estimating normalizing constants, implying near-optimality of our quantum algorithms in $\epsilon$. | 翻訳日:2022-10-14 17:55:33 公開日:2022-10-12 |
# 収束バイディングのための一般確率最適化フレームワーク A General Stochastic Optimization Framework for Convergence Bidding ( http://arxiv.org/abs/2210.06543v1 ) ライセンス: Link先を確認 | Letif Mones and Sean Lovett | (参考訳) 本稿では,最適収束(仮想)入札曲線を得るための一般確率最適化フレームワークを提案する。
本フレームワークでは,入札価格とボリュームを同時に生成する線形プログラミングに基づく最適化モデルを構築した。
また,一般モデルにおける異なる近似や単純化は,自己スケジューリングや日和見的アプローチなど,よく知られた収束入札手法に自然に導かれることを示した。 We introduce a general stochastic optimization framework to obtain optimal convergence (virtual) bid curves. Within this framework, we develop a computationally tractable linear programming-based optimization model, which produces bid prices and volumes simultaneously. We also show that different approximations and simplifications in the general model lead naturally to well-known convergence bidding approaches, such as self-scheduling and opportunistic approaches. | 翻訳日:2022-10-14 17:54:50 公開日:2022-10-12 |
# 光時空間カオスを用いた意思決定用パラレルフォトニック加速器 Parallel photonic accelerator for decision making using optical spatiotemporal chaos ( http://arxiv.org/abs/2210.06976v1 ) ライセンス: Link先を確認 | Kensei Morijiri, Kento Takehana, Takatomo Mihana, Kazutaka Kanno, Makoto Naruse, and Atsushi Uchida | (参考訳) フォトニック加速器は人工知能応用で注目を集めている。
多武装バンディット問題は、強化学習を用いた意思決定の根本的な問題である。
しかし、物理的実現の技術的困難のため、フォトニック意思決定のスケーラビリティはまだ実験では実証されていない。
光時空間カオスを用いた大規模マルチアームバンディット問題を解決するための並列フォトニック意思決定システムを提案する。
512本の腕を持つバンディットの問題をオンラインで解決し、2桁の精度で以前の実験よりもはるかに大きい。
正しい意思決定のためのスケーリング特性をスロットマシン数の関数として検討し、0.86の指数として評価する。
この指数は以前の研究よりも小さく、提案された並列原理の優位性を示している。
この実験により、将来のフォトニック加速器の大規模マルチアームバンディット問題を解決するためのフォトニック決定が促進される。 Photonic accelerators have attracted increasing attention in artificial intelligence applications. The multi-armed bandit problem is a fundamental problem of decision making using reinforcement learning. However, the scalability of photonic decision making has not yet been demonstrated in experiments, owing to technical difficulties in physical realization. We propose a parallel photonic decision-making system for solving large-scale multi-armed bandit problems using optical spatiotemporal chaos. We solve a 512-armed bandit problem online, which is much larger than previous experiments by two orders of magnitude. The scaling property for correct decision making is examined as a function of the number of slot machines, evaluated as an exponent of 0.86. This exponent is smaller than that in previous work, indicating the superiority of the proposed parallel principle. This experimental demonstration facilitates photonic decision making to solve large-scale multi-armed bandit problems for future photonic accelerators. | 翻訳日:2022-10-14 17:54:11 公開日:2022-10-12 |
# 太陽ダイナミクス観測における注意に基づく生成ニューラルイメージ圧縮 Attention-Based Generative Neural Image Compression on Solar Dynamics Observatory ( http://arxiv.org/abs/2210.06478v1 ) ライセンス: Link先を確認 | Ali Zafari, Atefeh Khoshkhahtinat, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Daniel da Silva, Michael S. F. Kirk | (参考訳) NASAのSolar Dynamics Observatory(SDO)ミッションは、地球同期軌道から毎日1.4テラバイトのデータを収集する。
SDOのデータには、異なる波長で捉えた太陽の画像が含まれており、太陽を統治する動的な過程を理解するための科学的目的がある。
近年,end-to-end optimized artificial neural networks (ann) が画像圧縮を行う大きな可能性を示している。
annベースの圧縮方式は、従来の手作業による画像圧縮よりも優れている。
我々は、太陽力学を研究する宇宙ミッションにおいて、保存・回収に必要なデータ量を削減するために、アドホックなANNベースの画像圧縮スキームを設計した。
本研究では, 対向的に訓練されたニューラルイメージ圧縮ネットワークにおいて, 局所的および非局所的注意機構を利用するアテンションモジュールを提案する。
また,このニューラルイメージ圧縮機の知覚的品質も実証した。
SDO衛星からダウンロードされた画像の圧縮アルゴリズムは、JPEGやJPEG2000のような一般的な画像圧縮コーデックよりも、速度歪みのトレードオフが優れている。
さらに,提案手法は,BPG圧縮コーデックの最先端化に優れることを示した。 NASA's Solar Dynamics Observatory (SDO) mission gathers 1.4 terabytes of data each day from its geosynchronous orbit in space. SDO data includes images of the Sun captured at different wavelengths, with the primary scientific goal of understanding the dynamic processes governing the Sun. Recently, end-to-end optimized artificial neural networks (ANN) have shown great potential in performing image compression. ANN-based compression schemes have outperformed conventional hand-engineered algorithms for lossy and lossless image compression. We have designed an ad-hoc ANN-based image compression scheme to reduce the amount of data needed to be stored and retrieved on space missions studying solar dynamics. In this work, we propose an attention module to make use of both local and non-local attention mechanisms in an adversarially trained neural image compression network. We have also demonstrated the superior perceptual quality of this neural image compressor. Our proposed algorithm for compressing images downloaded from the SDO spacecraft performs better in rate-distortion trade-off than the popular currently-in-use image compression codecs such as JPEG and JPEG2000. In addition we have shown that the proposed method outperforms state-of-the art lossy transform coding compression codec, i.e., BPG. | 翻訳日:2022-10-14 17:44:46 公開日:2022-10-12 |
# ディープラーニングはいつ失敗し、どのように対処するのか?
高分子配列-プロパタイト代理模型の臨界解析 When does deep learning fail and how to tackle it? A critical analysis on polymer sequence-property surrogate models ( http://arxiv.org/abs/2210.06622v1 ) ライセンス: Link先を確認 | Himanshu and Tarak K Patra | (参考訳) ディープラーニングモデルの人気と、高分子特性の予測能力が高まっている。
これらのモデルは既存のデータを用いて構築することができ、ポリマー特性の迅速な予測に有用である。
しかし,ディープラーニングモデルの性能は,そのトポロジやトレーニングデータの量と密接に関連している。
ディープラーニングアーキテクチャを選択するためのfacileプロトコルは存在せず、ポリマーの均質なシーケンス・プロパティーデータを大量に持っていない。
これら2つの要因は、ディープラーニングモデルの効率的な開発における主要なボトルネックである。
ここでは,これらの要因の重大性を評価し,それに対処する新しいアルゴリズムを提案する。
ニューラルネットワークの層別線形展開は,与えられた問題に対する最適なニューラルネットワークトポロジーの同定に有用であることを示す。
さらに, ポリマーの離散列空間を機械学習パイプラインを用いて連続的な一次元潜在空間にマッピングし, 普遍的なディープラーニングモデルを構築するための最小データポイントを同定する。
提案手法は,共重合体のジャイレーション半径の1分子半径,共重合体の接着自由エネルギー,共重合体の共重合体適合剤の3つの代表例に対して実装し,提案手法の汎用性を実証した。
本研究は, 最小データとハイパーパラメータを用いた汎用ディープラーニングモデルの構築法を確立し, ポリマーのシーケンス定義特性を予測する。 Deep learning models are gaining popularity and potency in predicting polymer properties. These models can be built using pre-existing data and are useful for the rapid prediction of polymer properties. However, the performance of a deep learning model is intricately connected to its topology and the volume of training data. There is no facile protocol available to select a deep learning architecture, and there is a lack of a large volume of homogeneous sequence-property data of polymers. These two factors are the primary bottleneck for the efficient development of deep learning models. Here we assess the severity of these factors and propose new algorithms to address them. We show that a linear layer-by-layer expansion of a neural network can help in identifying the best neural network topology for a given problem. Moreover, we map the discrete sequence space of a polymer to a continuous one-dimensional latent space using a machine learning pipeline to identify minimal data points for building a universal deep learning model. We implement these approaches for three representative cases of building sequence-property surrogate models, viz., the single-molecule radius of gyration of a copolymer, adhesive free energy of a copolymer, and copolymer compatibilizer, demonstrating the generality of the proposed strategies. This work establishes efficient methods for building universal deep learning models with minimal data and hyperparameters for predicting sequence-defined properties of polymers. | 翻訳日:2022-10-14 17:38:02 公開日:2022-10-12 |
# 実データを用いた実世界のオフライン強化学習 Real World Offline Reinforcement Learning with Realistic Data Source ( http://arxiv.org/abs/2210.06479v1 ) ライセンス: Link先を確認 | Gaoyue Zhou, Liyiming Ke, Siddhartha Srinivasa, Abhinav Gupta, Aravind Rajeswaran, Vikash Kumar | (参考訳) オフライン強化学習(ORL)は、任意の事前生成経験から学習できることから、ロボット学習に大いに期待できる。
しかし、現在のorlベンチマークはほぼ完全にシミュレーション中であり、オンラインrlエージェントのリプレイバッファやサブオプティカルトラジェクタのようなデータセットを利用しており、実世界のロボティクスには限定的な関連性を持っている。
本研究(real-orl)では,密接なタスクの安全操作から収集したデータは,実世界のロボット学習においてより実用的なデータ源であることを示す。
これらの状況下では,4つの実世界のテーブルトップ操作タスクにおける代表orl法の一般化と伝達能力を評価する,800時間以上のロボット時間と270時間以上の人的作業時間という,広範な(6500以上のトラジェクタを収集した)経験的研究を行う。
本研究は,orlと模倣学習が異なる行動空間を好むこと,orlアルゴリズムがオフラインの異種データソースを活用すること,模倣学習を上回ることから一般化できることを見出した。
データセットと実装をURLでリリースします。 Offline reinforcement learning (ORL) holds great promise for robot learning due to its ability to learn from arbitrary pre-generated experience. However, current ORL benchmarks are almost entirely in simulation and utilize contrived datasets like replay buffers of online RL agents or sub-optimal trajectories, and thus hold limited relevance for real-world robotics. In this work (Real-ORL), we posit that data collected from safe operations of closely related tasks are more practical data sources for real-world robot learning. Under these settings, we perform an extensive (6500+ trajectories collected over 800+ robot hours and 270+ human labor hour) empirical study evaluating generalization and transfer capabilities of representative ORL methods on four real-world tabletop manipulation tasks. Our study finds that ORL and imitation learning prefer different action spaces, and that ORL algorithms can generalize from leveraging offline heterogeneous data sources and outperform imitation learning. We release our dataset and implementations at URL: https://sites.google.com/view/real-orl | 翻訳日:2022-10-14 17:28:37 公開日:2022-10-12 |
# 顕微鏡は必要なだけ Microscopy is All You Need ( http://arxiv.org/abs/2210.06526v1 ) ライセンス: Link先を確認 | Sergei V. Kalinin, Rama Vasudevan, Yongtao Liu, Ayana Ghosh, Kevin Roccapriore, and Maxim Ziatdinov | (参考訳) 我々は,アクティブベイズ法と強化学習法の開発と展開に,顕微鏡が理想的な実世界実験環境であることを示す。
実際、機械学習(ML)と人工知能によって過去10年間に達成された膨大な進歩は、パラダイム的MNISTから、GPT3、DALLEなどの大規模モデルのトレーニングに使用されるテキストと画像データの異常なコーパスまで、静的データセットの利用によって大きく達成されてきた。
しかし、最先端の継続的かつ微小な改善は、必ずしも現実世界のアプリケーションにおける進歩に変換されないことが認識されている。
ML法の開発には,電子顕微鏡や走査型プローブ顕微鏡,化学画像などの領域において,ドメイン固有の展開可能なアルゴリズムの経路を通すことが望まれる。
これは基礎的な物理研究の恩恵を受け、ロボット工学や製造といったより複雑な自律システムのテストベッドとして機能する。
走査と電子顕微鏡の良好な環境特性には、リスクの低いこと、ドメイン固有の事前および報酬の広範な可用性、異種変数の比較的小さな影響、上流の第一原理と下流の学習可能な物理モデルの両方の存在がある。
プログラム可能なインターフェース、エッジコンピューティング、および顕微鏡制御を容易にするAPIへのアクセスの最近の進歩は、すべて、運用顕微鏡へのMLコードのデプロイを簡単にする。
これらの考察を議論し、現実のML応用と科学的進歩を加速することにより、これらの議論がMLコミュニティのための新たな開発目標のセットを生み出すことを期待する。 We pose that microscopy offers an ideal real-world experimental environment for the development and deployment of active Bayesian and reinforcement learning methods. Indeed, the tremendous progress achieved by machine learning (ML) and artificial intelligence over the last decade has been largely achieved via the utilization of static data sets, from the paradigmatic MNIST to the bespoke corpora of text and image data used to train large models such as GPT3, DALLE and others. However, it is now recognized that continuous, minute improvements to state-of-the-art do not necessarily translate to advances in real-world applications. We argue that a promising pathway for the development of ML methods is via the route of domain-specific deployable algorithms in areas such as electron and scanning probe microscopy and chemical imaging. This will benefit both fundamental physical studies and serve as a test bed for more complex autonomous systems such as robotics and manufacturing. Favorable environment characteristics of scanning and electron microscopy include low risk, extensive availability of domain-specific priors and rewards, relatively small effects of exogeneous variables, and often the presence of both upstream first principles as well as downstream learnable physical models for both statics and dynamics. Recent developments in programmable interfaces, edge computing, and access to APIs facilitating microscope control, all render the deployment of ML codes on operational microscopes straightforward. We discuss these considerations and hope that these arguments will lead to creating a novel set of development targets for the ML community by accelerating both real-world ML applications and scientific progress. | 翻訳日:2022-10-14 17:28:17 公開日:2022-10-12 |
# MicroLib: SliceGANを用いた2Dマイクログラフから生成された3Dミクロ構造のライブラリ MicroLib: A library of 3D microstructures generated from 2D micrographs using SliceGAN ( http://arxiv.org/abs/2210.06541v1 ) ライセンス: Link先を確認 | Steve Kench, Isaac Squires, Amir Dahari, Samuel J Cooper | (参考訳) 3dマイクロ構造データセットは、有限要素モデリングで使われる幾何学的領域を定義するために一般的に用いられる。
これは、複雑な物質系が応用応力、温度、化学条件下でどのように振る舞うかを理解するのに有用なツールであることが証明されている。
しかし, 視野の制限, 解像度の低さ, 試料調製の困難さなど, 様々な理由により3次元画像化は困難である。
近年,1つの2次元入力スライスをトレーニングデータとして,任意の大きさの3次元微細構造データセットを統計的に生成する機械学習手法であるSliceGANが開発された。
本稿では, 生体材料から高強度鋼まで, 87種類の組織にSliceGANを適用した結果について述べる。
SliceGANが生成した合成体積の精度を示すために,2次元トレーニングデータと3次元世代間の3つの微細構造特性を比較し,良好な一致を示した。
この新しいマイクロ構造ライブラリはどちらもモデルで使用できる貴重な3Dマイクロ構造を提供しており、SliceGANアルゴリズムの適用性も広く示している。 3D microstructural datasets are commonly used to define the geometrical domains used in finite element modelling. This has proven a useful tool for understanding how complex material systems behave under applied stresses, temperatures and chemical conditions. However, 3D imaging of materials is challenging for a number of reasons, including limited field of view, low resolution and difficult sample preparation. Recently, a machine learning method, SliceGAN, was developed to statistically generate 3D microstructural datasets of arbitrary size using a single 2D input slice as training data. In this paper, we present the results from applying SliceGAN to 87 different microstructures, ranging from biological materials to high-strength steels. To demonstrate the accuracy of the synthetic volumes created by SliceGAN, we compare three microstructural properties between the 2D training data and 3D generations, which show good agreement. This new microstructure library both provides valuable 3D microstructures that can be used in models, and also demonstrates the broad applicability of the SliceGAN algorithm. | 翻訳日:2022-10-14 17:27:53 公開日:2022-10-12 |
# BLADERUNNER: 合成(AI生成)スタイルガン顔の迅速対策 BLADERUNNER: Rapid Countermeasure for Synthetic (AI-Generated) StyleGAN Faces ( http://arxiv.org/abs/2210.06587v1 ) ライセンス: Link先を確認 | Adam Dorian Wong | (参考訳) StyleGANはNVIDIAが開発したオープンソースのTensorFlow実装である。
高品質な顔画像生成に革命をもたらした。
しかし、この人工知能/機械学習(ai/ml)アルゴリズムの民主化により、敵対的な脅威俳優はソーシャルメディアプラットフォームにサイバーパーソナラまたはソック・パペットアカウントを確立することができるようになった。
超リアルな合成顔。
本稿では,AI/MLとサイバー・インフォメーション・オペレーションとの関連について調査する。
AI/MLアルゴリズムの普及は、DeepFakesや不正確なソーシャルメディアアカウントの増加につながっている。
脅威は戦略および作戦環境内で分析される。
既存の合成顔の識別方法は存在するが、これらは人間に頼って各写真を不整合として視覚的に精査する。
しかし,DLIB 68-landmark pre-trained ファイルを使用することで,StyleGAN 画像の繰り返し動作を利用して合成顔を分析し,検出することができる。
Project Blade RunnerはStyleGANイメージに対抗するために必要な2つのスクリプトを含んでいる。
PapersPlease.pyがアナライザとして機能することで、画像のスクラップからインジケータ・オブ・アタック(IOA)を引き出すことができる。
これらのIOAsは、実運用サンプルから合成顔を特定する検出器として機能するintra_us.pyにフィードバックすることができる。
オープンソースのblade runnerのコピーには、追加のユニットテストといくつかの機能がないかもしれないが、オープンソースコピーは、よりリーンで、より最適化され、情報セキュリティコミュニティのための概念実証である。
希望するエンドステートは、クローズドソースの前任者と同等の自動化を漸進的に追加することだ。 StyleGAN is the open-sourced TensorFlow implementation made by NVIDIA. It has revolutionized high quality facial image generation. However, this democratization of Artificial Intelligence / Machine Learning (AI/ML) algorithms has enabled hostile threat actors to establish cyber personas or sock-puppet accounts in social media platforms. These ultra-realistic synthetic faces. This report surveys the relevance of AI/ML with respect to Cyber & Information Operations. The proliferation of AI/ML algorithms has led to a rise in DeepFakes and inauthentic social media accounts. Threats are analyzed within the Strategic and Operational Environments. Existing methods of identifying synthetic faces exists, but they rely on human beings to visually scrutinize each photo for inconsistencies. However, through use of the DLIB 68-landmark pre-trained file, it is possible to analyze and detect synthetic faces by exploiting repetitive behaviors in StyleGAN images. Project Blade Runner encompasses two scripts necessary to counter StyleGAN images. Through PapersPlease.py acting as the analyzer, it is possible to derive indicators-of-attack (IOA) from scraped image samples. These IOAs can be fed back into among_us.py acting as the detector to identify synthetic faces from live operational samples. The opensource copy of Blade Runner may lack additional unit tests and some functionality, but the open-source copy is a redacted version, far leaner, better optimized, and a proof-of-concept for the information security community. The desired end-state will be to incrementally add automation to stay on-par with its closed-source predecessor. | 翻訳日:2022-10-14 17:27:34 公開日:2022-10-12 |
# Smooth Lossesのための個人用オンラインバッチ Differentially Private Online-to-Batch for Smooth Losses ( http://arxiv.org/abs/2210.06593v1 ) ライセンス: Link先を確認 | Qinzi Zhang, Hoang Tran, Ashok Cutkosky | (参考訳) 我々は、任意のオンライン凸最適化アルゴリズムが$O(\sqrt{T})$ regretを、最適収束率$\tilde O(1/\sqrt{T} + \sqrt{d}/\epsilon T)$で$\epsilon$-differentially private stochastic convex Optimizationアルゴリズムに変換し、線形時間におけるスムーズな損失を解消し、古典的な非プライベートな"online-to-batch"変換に直交する。
本手法をより高度な適応オンラインアルゴリズムに適用することにより, 収束率が未知分散やパラメータノルムに依存する適応微分プライベートアルゴリズムを生成する。 We develop a new reduction that converts any online convex optimization algorithm suffering $O(\sqrt{T})$ regret into an $\epsilon$-differentially private stochastic convex optimization algorithm with the optimal convergence rate $\tilde O(1/\sqrt{T} + \sqrt{d}/\epsilon T)$ on smooth losses in linear time, forming a direct analogy to the classical non-private "online-to-batch" conversion. By applying our techniques to more advanced adaptive online algorithms, we produce adaptive differentially private counterparts whose convergence rates depend on apriori unknown variances or parameter norms. | 翻訳日:2022-10-14 17:27:05 公開日:2022-10-12 |
# バックドアおよびフロントドア調整のためのニューラル平均埋め込み手法 A Neural Mean Embedding Approach for Back-door and Front-door Adjustment ( http://arxiv.org/abs/2210.06610v1 ) ライセンス: Link先を確認 | Liyuan Xu and Arthur Gretton | (参考訳) 本研究では, 後方調整と前方調整の2つの設定の下で, 平均的および非実効的治療効果を推定する。
どちらのケースも、隠れた共同創設者にアクセスすることなく治療効果を回復することが目標だ。
この目的は、まず、関係する共変量(「第一段階」回帰)が与えられた所望の結果変数の条件平均を推定し、次に、この関数の(条件)期待を「第二段階」手順とすることで達成される。
本稿では,第1段階の学習入力特徴に対する回帰関数を直接利用して,これらの条件予測を計算し,サンプリングや密度推定の必要性を回避することを提案する。
すべての機能と特徴(特に第2段階の出力特徴)は、データから順応的に学習されたニューラルネットワークであり、第1段階の最終層は線形であることが唯一の要件である。
提案手法は,実因果パラメータに収束することが示され,高次元画像データを含む課題因果ベンチマークにおいて,最新の最先端手法を上回っている。 We consider the estimation of average and counterfactual treatment effects, under two settings: back-door adjustment and front-door adjustment. The goal in both cases is to recover the treatment effect without having an access to a hidden confounder. This objective is attained by first estimating the conditional mean of the desired outcome variable given relevant covariates (the "first stage" regression), and then taking the (conditional) expectation of this function as a "second stage" procedure. We propose to compute these conditional expectations directly using a regression function to the learned input features of the first stage, thus avoiding the need for sampling or density estimation. All functions and features (and in particular, the output features in the second stage) are neural networks learned adaptively from data, with the sole requirement that the final layer of the first stage should be linear. The proposed method is shown to converge to the true causal parameter, and outperforms the recent state-of-the-art methods on challenging causal benchmarks, including settings involving high-dimensional image data. | 翻訳日:2022-10-14 17:26:44 公開日:2022-10-12 |
# プリプテッドドメイントランスフォーマー:ベルやホイッスルのない不均質な顔認識 Prepended Domain Transformer: Heterogeneous Face Recognition without Bells and Whistles ( http://arxiv.org/abs/2210.06529v1 ) ライセンス: Link先を確認 | Anjith George, Amir Mohammadi and Sebastien Marcel | (参考訳) Heterogeneous Face Recognition (HFR) とは、熱から可視画像(VIS)、スケッチから可視画像、近赤外線から可視画像など、異なる領域で撮影された顔画像と一致するものを指す。
これは、他のモダリティから取得した画像と可視スペクトル画像のマッチングに特に有用である。
非常に有用ではあるが、ソースとターゲットドメイン間のドメインギャップのため、HFRは難しい。
大規模な一対の不均一な顔画像データセットが欠落することが多く、不均一なタスクに特化したトレーニングモデルが禁止されている。
そこで本研究では,異なる知覚モーダル間での顔画像のマッチングを,驚くほどシンプルかつ効果的に行う方法を提案する。
提案手法の核となるアイデアは、事前学習された顔認識(fr)モデルの前に、prepended domain transformer(pdt)と呼ばれる新しいニューラルネットワークブロックを追加することである。
対照的な学習設定でペアのサンプルをほとんど持たずにこの新しいブロックをトレーニングすることは、多くのHFRベンチマークで最先端のパフォーマンスを達成するのに十分であった。
PDTブロックは、提案した汎用フレームワークを使用して、複数のソースとターゲットの組み合わせに対して再トレーニングすることができる。
提案手法はアーキテクチャ非依存であり、事前訓練されたFRモデルに追加可能である。
さらに、このアプローチはモジュール化されており、新しいブロックは最小限のペアサンプルでトレーニングできるため、実用的なデプロイがずっと簡単になる。
ソースコードとプロトコルは一般公開される予定だ。 Heterogeneous Face Recognition (HFR) refers to matching face images captured in different domains, such as thermal to visible images (VIS), sketches to visible images, near-infrared to visible, and so on. This is particularly useful in matching visible spectrum images to images captured from other modalities. Though highly useful, HFR is challenging because of the domain gap between the source and target domain. Often, large-scale paired heterogeneous face image datasets are absent, preventing training models specifically for the heterogeneous task. In this work, we propose a surprisingly simple, yet, very effective method for matching face images across different sensing modalities. The core idea of the proposed approach is to add a novel neural network block called Prepended Domain Transformer (PDT) in front of a pre-trained face recognition (FR) model to address the domain gap. Retraining this new block with few paired samples in a contrastive learning setup was enough to achieve state-of-the-art performance in many HFR benchmarks. The PDT blocks can be retrained for several source-target combinations using the proposed general framework. The proposed approach is architecture agnostic, meaning they can be added to any pre-trained FR models. Further, the approach is modular and the new block can be trained with a minimal set of paired samples, making it much easier for practical deployment. The source code and protocols will be made available publicly. | 翻訳日:2022-10-14 17:19:34 公開日:2022-10-12 |
# grabnerf: 一般化nerfを用いた透明・鏡面物体の多視点6自由度把握検出 GraspNeRF: Multiview-based 6-DoF Grasp Detection for Transparent and Specular Objects Using Generalizable NeRF ( http://arxiv.org/abs/2210.06575v1 ) ライセンス: Link先を確認 | Qiyu Dai, Yan Zhu, Yiran Geng, Ciyu Ruan, Jiazhao Zhang, He Wang | (参考訳) 本研究では,視覚に基づくロボットシステムにおいて重要な課題である,透視・鏡視対象物に対する6自由度把持検出に取り組んだ。
我々は初めて、一般化可能なニューラル放射場(NeRF)を活用するマルチビューRGBベースの6-DoFグリップ検出ネットワークGraspNeRFを提案する。
高精度に撮像された入力画像とシーンごとの時間的最適化を頼りにしている既存のNeRFベースの3DoFグリップ検出手法と比較して,本システムは低RGB入力によるゼロショットNeRF構築を行い,同時に6-DoFグリップをリアルタイムに確実に検出する。
提案フレームワークは,一般化可能なNeRFとグリップ検出をエンドツーエンドで共同で学習し,シーン表現構築を最適化する。
学習データとして,大規模フォトリアリスティックなドメインランダム化合成データセットを生成し,実際の世界への直接転送を可能にする。
人工環境および実環境環境における広範囲な実験により,本手法は実時間で残しながら,全ての実験のベースラインを大幅に上回ることを示した。 In this work, we tackle 6-DoF grasp detection for transparent and specular objects, which is an important yet challenging problem in vision-based robotic systems, due to the failure of depth cameras in sensing their geometry. We, for the first time, propose a multiview RGB-based 6-DoF grasp detection network, GraspNeRF, that leverages the generalizable neural radiance field (NeRF) to achieve material-agnostic object grasping in clutter. Compared to the existing NeRF-based 3-DoF grasp detection methods that rely on densely captured input images and time-consuming per-scene optimization, our system can perform zero-shot NeRF construction with sparse RGB inputs and reliably detect 6-DoF grasps, both in real-time. The proposed framework jointly learns generalizable NeRF and grasp detection in an end-to-end manner, optimizing the scene representation construction for the grasping. For training data, we generate a large-scale photorealistic domain-randomized synthetic dataset of grasping in cluttered tabletop scenes that enables direct transfer to the real world. Our extensive experiments in synthetic and real-world environments demonstrate that our method significantly outperforms all the baselines in all the experiments while remaining in real-time. | 翻訳日:2022-10-14 17:19:11 公開日:2022-10-12 |
# タスク類似性がバックドア攻撃および検出に及ぼす影響の理解 Understanding Impacts of Task Similarity on Backdoor Attack and Detection ( http://arxiv.org/abs/2210.06509v1 ) ライセンス: Link先を確認 | Di Tang, Rui Zhu, XiaoFeng Wang, Haixu Tang, Yi Chen | (参考訳) バックドア攻撃と検知に関する広範な研究により、敵の攻撃能力の限界と防御者の検出能力について、依然として基本的な疑問が残されている。
これらの質問に対する回答は、良性モデルが達成すべきプライマリタスクとバックドアモデルが実際に実行するバックドアタスクとの間の関係を深く理解することで見つけられると信じています。
この目的のために,マルチタスク学習における類似度指標を利用して,メインタスクとバックドアタスク間のバックドア距離(類似性)を正式に定義し,既存のステルスなバックドアアタックを解析し,バックドア距離を効果的に低減できないことを明らかにする。
そこで我々は,与えられた距離制約の下でバックドアモデルを自動的に生成するtsaアタックと呼ばれる新しい手法を更に設計し,新たなアタックが既存のアタックを上回ることを証明し,アタッカーの限界の理解に一歩近づいた。
最も重要なことは、バックドア距離とバックドア検出可能性の正の相関について、理論的な結果と実験的な証拠の両方を提供し、我々のタスクの類似性分析がバックドアのリスクをよりよく理解し、より効果的な軽減策を特定できる可能性を証明している。 With extensive studies on backdoor attack and detection, still fundamental questions are left unanswered regarding the limits in the adversary's capability to attack and the defender's capability to detect. We believe that answers to these questions can be found through an in-depth understanding of the relations between the primary task that a benign model is supposed to accomplish and the backdoor task that a backdoored model actually performs. For this purpose, we leverage similarity metrics in multi-task learning to formally define the backdoor distance (similarity) between the primary task and the backdoor task, and analyze existing stealthy backdoor attacks, revealing that most of them fail to effectively reduce the backdoor distance and even for those that do, still much room is left to further improve their stealthiness. So we further design a new method, called TSA attack, to automatically generate a backdoor model under a given distance constraint, and demonstrate that our new attack indeed outperforms existing attacks, making a step closer to understanding the attacker's limits. Most importantly, we provide both theoretic results and experimental evidence on various datasets for the positive correlation between the backdoor distance and backdoor detectability, demonstrating that indeed our task similarity analysis help us better understand backdoor risks and has the potential to identify more effective mitigations. | 翻訳日:2022-10-14 17:10:31 公開日:2022-10-12 |
# 小規模・中規模のセットアップサービスとしてのオンプレミス人工知能 On-Premise Artificial Intelligence as a Service for Small and Medium Size Setups ( http://arxiv.org/abs/2210.06956v1 ) ライセンス: Link先を確認 | Carolina Fortuna, Din Mu\v{s}i\'c, Gregor Cerar, Andrej \v{C}ampa, Panagiotis Kapsalis, Mihael Mohor\v{c}i\v{c} | (参考訳) 人工知能(AI)技術は、特定のドメインにカスタマイズされたデプロイメントから、垂直ドメインや産業に水平に浸透する汎用ソリューションへと移行している。
例えば、道路や橋のメンテナンスをいつ行うか、スマートシティのコストと安全性の観点から公共照明を最適化するかの判断は、aiモデルによってますます知らされるようになっている。
さまざまな商用ソリューションは、AI as a Service(AIaaS)をユーザフレンドリで使いやすいものにしますが、そのようなエコシステムの民主化を機能的に可能にしています。
本稿では,aiaasの機能と対応技術スタックについて論じ,サードパーティ依存やベンダロックインを伴わずに,データおよび技術プラットフォームを完全に制御可能な中小規模ユーザのオンプレミスセットアップに適した,オープンソースユーザフレンドリな技術を用いて実現可能性を分析する。 Artificial Intelligence (AI) technologies are moving from customized deployments in specific domains towards generic solutions horizontally permeating vertical domains and industries. For instance, decisions on when to perform maintenance of roads or bridges or how to optimize public lighting in view of costs and safety in smart cities are increasingly informed by AI models. While various commercial solutions offer user friendly and easy to use AI as a Service (AIaaS), functionality-wise enabling the democratization of such ecosystems, open-source equivalent ecosystems are lagging behind. In this chapter, we discuss AIaaS functionality and corresponding technology stack and analyze possible realizations using open source user friendly technologies that are suitable for on-premise set-ups of small and medium sized users allowing full control over the data and technological platform without any third-party dependence or vendor lock-in. | 翻訳日:2022-10-14 17:09:19 公開日:2022-10-12 |
# 繊維の自動符号化 Auto-Encoding Goodness of Fit ( http://arxiv.org/abs/2210.06546v1 ) ライセンス: Link先を確認 | Aaron Palmer, Zhiyi Chi, Derek Aguiar, Jinbo Bi | (参考訳) データ生成のための有意義な潜時表現を学習するためには、再構成誤差と潜時空間の分布がどれだけ前と近いかの間で慎重にバランスを取らなければならない。
しかし、このバランスは、ミニバッチ(ローカル)レベルと集約後(グローバル)レベルの両方で機能する基準の欠如により達成が困難である。
goodness of fit(gof)仮説テストは、潜在分布と対象分布クラスとの統計的不一致性の尺度を提供する。
本研究では,2段階の仮説テストを含むGoFAE(Goodness of Fit Autoencoder)を開発した。
ミニバッチレベルでは、正規化の目的としてGoFテスト統計を使用する。
よりグローバルなレベルでは、より高い批判、すなわち局所的なGoF p-値の均一性に関するテストに基づいて正規化係数を選択する。
遅延分布と先行ターゲットとの距離に制限された$L_2$-Wassersteinを限定することで、GoFテストの使用を正当化する。
我々はGoFテストを用いて、これらのテストに基づいた最適化がコンパクトリーマン多様体上の確率勾配(SGD)降下によって可能であることを示す。
実験により, p値の相互情報と一様性を用いて, 高い批判パラメータ選択手順が復元と生成のバランスをとることを示した。
最後に、GoFAEが競合する深層生成モデルと同等のFIDスコアと平均二乗誤差を達成し、様々な仮説テストに基づいて、潜在空間におけるガウシアンから統計的不明瞭性を保っていることを示す。 For generative autoencoders to learn a meaningful latent representation for data generation, a careful balance must be achieved between reconstruction error and how close the distribution in the latent space is to the prior. However, this balance is challenging to achieve due to a lack of criteria that work both at the mini-batch (local) and aggregated posterior (global) level. Goodness of fit (GoF) hypothesis tests provide a measure of statistical indistinguishability between the latent distribution and a target distribution class. In this work, we develop the Goodness of Fit Autoencoder (GoFAE), which incorporates hypothesis tests at two levels. At the mini-batch level, it uses GoF test statistics as regularization objectives. At a more global level, it selects a regularization coefficient based on higher criticism, i.e., a test on the uniformity of the local GoF p-values. We justify the use of GoF tests by providing a relaxed $L_2$-Wasserstein bound on the distance between the latent distribution and target prior. We propose to use GoF tests and prove that optimization based on these tests can be done with stochastic gradient (SGD) descent on a compact Riemannian manifold. Empirically, we show that our higher criticism parameter selection procedure balances reconstruction and generation using mutual information and uniformity of p-values respectively. Finally, we show that GoFAE achieves comparable FID scores and mean squared errors with competing deep generative models while retaining statistical indistinguishability from Gaussian in the latent space based on a variety of hypothesis tests. | 翻訳日:2022-10-14 16:54:07 公開日:2022-10-12 |
# FASTER-CE: 高速,疎,透明,ロバストな対実的説明 FASTER-CE: Fast, Sparse, Transparent, and Robust Counterfactual Explanations ( http://arxiv.org/abs/2210.06578v1 ) ライセンス: Link先を確認 | Shubham Sharma, Alan H. Gee, Jette Henderson, Joydeep Ghosh | (参考訳) 近年,個々のブラックボックスモデル予測を理解する上で有用な人中心的手法として,対人的説明が著しく人気が高まっている。
高品質なカウンターファクトが望まれるいくつかの特性が文献で確認されているが、説明の生成速度、堅牢性/感度、説明の簡潔さ(スパーシティ)の3つの重要な懸念は、比較的研究されていない。
本稿では,高速でスパースでロバストな反事実的説明を生成する新しいアルゴリズムであるFASTER-CEを提案する。
鍵となる考え方は、オートエンコーダを介して指定された潜在空間において、カウンターファクトの有望な探索方向を効率的に見つけることである。
これらの方向は、後続空間で推定されるように、元の入力特徴とターゲットのそれぞれに対する勾配に基づいて決定される。
最も有望な勾配方向の組み合わせを迅速に検証し、追加のユーザ定義制約を組み込むことで、スパースでリアルで、入力操作に頑健な複数の反事実的説明を生成することができる。
複合性の異なる3つのデータセットに関する実験を通じて,複数の説明を生成するための他の状態よりも高速であるだけでなく,望ましい(かつしばしば矛盾する)性質のより大きな集合を考える場合にも有意に優れていることを示した。
具体的には,sparsity, near, valid, speed of generation, and the robustness of explanationsという,複数のパフォーマンス指標にまたがる結果を示し,fast-ceファミリの能力を強調する。 Counterfactual explanations have substantially increased in popularity in the past few years as a useful human-centric way of understanding individual black-box model predictions. While several properties desired of high-quality counterfactuals have been identified in the literature, three crucial concerns: the speed of explanation generation, robustness/sensitivity and succinctness of explanations (sparsity) have been relatively unexplored. In this paper, we present FASTER-CE: a novel set of algorithms to generate fast, sparse, and robust counterfactual explanations. The key idea is to efficiently find promising search directions for counterfactuals in a latent space that is specified via an autoencoder. These directions are determined based on gradients with respect to each of the original input features as well as of the target, as estimated in the latent space. The ability to quickly examine combinations of the most promising gradient directions as well as to incorporate additional user-defined constraints allows us to generate multiple counterfactual explanations that are sparse, realistic, and robust to input manipulations. Through experiments on three datasets of varied complexities, we show that FASTER-CE is not only much faster than other state of the art methods for generating multiple explanations but also is significantly superior when considering a larger set of desirable (and often conflicting) properties. Specifically we present results across multiple performance metrics: sparsity, proximity, validity, speed of generation, and the robustness of explanations, to highlight the capabilities of the FASTER-CE family. | 翻訳日:2022-10-14 16:53:42 公開日:2022-10-12 |
# キャリブレーションは標本優先性を改善するか? Can Calibration Improve Sample Prioritization? ( http://arxiv.org/abs/2210.06592v1 ) ライセンス: Link先を確認 | Ganesh Tata, Gautham Krishna Gudur, Gopinath Chennupati, Mohammad Emtiyaz Khan | (参考訳) キャリブレーションはディープニューラルネットワークの過信予測を減らすことができるが、適切なサンプルを選択することでトレーニングを加速することもできる。
本稿では,それが可能であることを示す。
トレーニング中のサンプルのより良いサブセット選択(サンプル優先順位付けとも呼ばれる)における一般的なキャリブレーション手法の効果について検討し、キャリブレーションによってサブセットの品質が向上し、エポック毎のサンプル数(少なくとも70%)が減少し、トレーニングプロセス全体のスピードアップが可能であることを観察する。
さらに,トレーニング中に校正と校正を併用した校正事前訓練モデルを用いて,サンプルの優先順位付けを誘導する効果について検討した。 Calibration can reduce overconfident predictions of deep neural networks, but can calibration also accelerate training by selecting the right samples? In this paper, we show that it can. We study the effect of popular calibration techniques in selecting better subsets of samples during training (also called sample prioritization) and observe that calibration can improve the quality of subsets, reduce the number of examples per epoch (by at least 70%), and can thereby speed up the overall training process. We further study the effect of using calibrated pre-trained models coupled with calibration during training to guide sample prioritization, which again seems to improve the quality of samples selected. | 翻訳日:2022-10-14 16:53:15 公開日:2022-10-12 |
# 友人を見つける: 正しい協力者による個人化フェデレーション学習 Find Your Friends: Personalized Federated Learning with the Right Collaborators ( http://arxiv.org/abs/2210.06597v1 ) ライセンス: Link先を確認 | Yi Sui, Junfeng Wen, Yenson Lau, Brendan Leigh Ross, Jesse C. Cresswell | (参考訳) 従来の連合学習環境では、中央サーバがクライアントのネットワークを調整してひとつのグローバルモデルをトレーニングする。
しかし、グローバルモデルはデータの不均一性のために多くのクライアントに役立ちません。
さらに、クライアントがお互いの利益を享受できるように、クライアントを調整できる信頼された中央政党は存在しないかもしれない。
これらの懸念に対処するため、我々はFedeRiCoという新しい分散フレームワークを提案し、各クライアントはローカルなデータ配信に最適であるだけでなく、他のクライアントからも学べる。
期待最大化に基づいて、federicoは各クライアントのデータ上の他の参加者のモデルのユーティリティを見積もって、誰でも学習に適したコラボレータを選択できるようにします。
その結果,本アルゴリズムは,複数のベンチマークデータセットにおいて,他のフェデレーション,パーソナライズ,および/または分散アプローチよりも優れている。 In the traditional federated learning setting, a central server coordinates a network of clients to train one global model. However, the global model may serve many clients poorly due to data heterogeneity. Moreover, there may not exist a trusted central party that can coordinate the clients to ensure that each of them can benefit from others. To address these concerns, we present a novel decentralized framework, FedeRiCo, where each client can learn as much or as little from other clients as is optimal for its local data distribution. Based on expectation-maximization, FedeRiCo estimates the utilities of other participants' models on each client's data so that everyone can select the right collaborators for learning. As a result, our algorithm outperforms other federated, personalized, and/or decentralized approaches on several benchmark datasets, being the only approach that consistently performs better than training with local data only. | 翻訳日:2022-10-14 16:53:00 公開日:2022-10-12 |
# 多言語テキストデータ:多重因子分析によるアプローチ Multilingual textual data: an approach through multiple factor analysis ( http://arxiv.org/abs/2210.06527v1 ) ライセンス: Link先を確認 | Kostov Blechin and Alvarez-Esteban Ram\'on and B\'ecue-Bertaut M\'onica and Husson Fran\c{c}ois | (参考訳) 本稿では,異なる言語で回答された解答質問の分析に着目する。
文脈変数と呼ばれるクローズドエンド質問は、すべての回答者に質問され、後者が単語選択に影響を与えると仮定されるため、異なるサンプル間のフリーとクローズドレスポンスの関係を理解する。
我々は,単語の選択とこの選択を駆動する変数の関係を通して,異なる言語におけるオープンエンド応答を共同研究するために,「一般化集合語彙表の多重因子分析」(mfa-galt)を開発した。
MFA-GALTは、あるサンプルから別のサンプルへの変数のばらつきによって、単語間のばらつきが同じように構成されているかを研究する。
国際的な満足度調査への応用は, 提案した分かりやすい結果を示している。 This paper focuses on the analysis of open-ended questions answered in different languages. Closed-ended questions, called contextual variables, are asked to all respondents in order to understand the relationships between the free and the closed responses among the different samples since the latter assumably affect the word choices. We have developed "Multiple Factor Analysis on Generalized Aggregated Lexical Tables" (MFA-GALT) to jointly study the open-ended responses in different languages through the relationships between the choice of words and the variables that drive this choice. MFA-GALT studies if variability among words is structured in the same way by variability among variables, and inversely, from one sample to another. An application on an international satisfaction survey shows the easy-to-interpret results that are proposed. | 翻訳日:2022-10-14 16:43:48 公開日:2022-10-12 |
# コントラスト学習による言語非依存多言語情報検索 Language Agnostic Multilingual Information Retrieval with Contrastive Learning ( http://arxiv.org/abs/2210.06633v1 ) ライセンス: Link先を確認 | Xiyang Hu, Xinchi Chen, Peng Qi, Deguang Kong, Kunlun Liu, William Yang Wang, Zhiheng Huang | (参考訳) 多くの低リソース言語でトレーニングデータセットが欠如しているため、多言語情報検索は困難である。
本稿では,並列コーパスと非並列コーパスを利用して,事前学習した多言語言語モデルの言語間変換能力を向上させる手法を提案する。
本稿では,並列文対の言語間アライメントを改善するために,正規のコントラスト学習として意味的コントラストロスを設計し,並列コーパスと非並列コーパスの両方を活用し,多言語表現学習をさらに改善するための新しいコントラスト損失を提案する。
我々は、英語情報検索データセット上でモデルをトレーニングし、そのゼロショット転送能力を他の言語にテストする。
実験の結果,提案手法は検索性能の向上に大きく貢献するが,計算労力は大幅に削減されることがわかった。
私たちのモデルは少数の並列コーパスでもうまく機能します。
また、任意のバックボーンや他のタスクへのアドオンモジュールとして使用することもできる。
私たちのコードは、https://github.com/xiyanghu/multilingualIR.comで利用可能です。 Multilingual information retrieval is challenging due to the lack of training datasets for many low-resource languages. We present an effective method by leveraging parallel and non-parallel corpora to improve the pretrained multilingual language models' cross-lingual transfer ability for information retrieval. We design the semantic contrastive loss as regular contrastive learning to improve the cross-lingual alignment of parallel sentence pairs, and we propose a new contrastive loss, the language contrastive loss, to leverage both parallel corpora and non-parallel corpora to further improve multilingual representation learning. We train our model on an English information retrieval dataset, and test its zero-shot transfer ability to other languages. Our experiment results show that our method brings significant improvement to prior work on retrieval performance, while it requires much less computational effort. Our model can work well even with a small number of parallel corpora. And it can be used as an add-on module to any backbone and other tasks. Our code is available at: https://github.com/xiyanghu/multilingualIR. | 翻訳日:2022-10-14 16:43:34 公開日:2022-10-12 |
# GULP:表現間の予測に基づく計量 GULP: a prediction-based metric between representations ( http://arxiv.org/abs/2210.06545v1 ) ライセンス: Link先を確認 | Enric Boix-Adsera, Hannah Lawrence, George Stepaniants, Philippe Rigollet | (参考訳) さまざまなニューラルネットワークが学んだ表現を比較することは、さまざまなアーキテクチャを理解し、最終的に最適化するための重要なツールとして最近登場した。
本研究は,下流予測タスクをモチベーションとした表現間の距離測定系であるGULPを紹介する。
構成により、GULPは正規化線形予測タスクに対して、2つの表現間の予測性能の差を均一に制御する。
さらに、三角不等式や直交変換による不変性など、いくつかの望ましい構造的性質を満たすため、データの埋め込みや可視化に有用である。
我々はGULPを他の手法と比較して広範囲に評価し、アーキテクチャファミリを正しく区別し、トレーニングの過程で収束し、下流線形タスクにおける一般化性能を捉えることを示した。 Comparing the representations learned by different neural networks has recently emerged as a key tool to understand various architectures and ultimately optimize them. In this work, we introduce GULP, a family of distance measures between representations that is explicitly motivated by downstream predictive tasks. By construction, GULP provides uniform control over the difference in prediction performance between two representations, with respect to regularized linear prediction tasks. Moreover, it satisfies several desirable structural properties, such as the triangle inequality and invariance under orthogonal transformations, and thus lends itself to data embedding and visualization. We extensively evaluate GULP relative to other methods, and demonstrate that it correctly differentiates between architecture families, converges over the course of training, and captures generalization performance on downstream linear tasks. | 翻訳日:2022-10-14 16:42:05 公開日:2022-10-12 |
# qdtrack: 外観のみの複数物体追跡のための擬似類似性学習 QDTrack: Quasi-Dense Similarity Learning for Appearance-Only Multiple Object Tracking ( http://arxiv.org/abs/2210.06984v1 ) ライセンス: Link先を確認 | Tobias Fischer, Jiangmiao Pang, Thomas E. Huang, Linlu Qiu, Haofeng Chen, Trevor Darrell, Fisher Yu | (参考訳) 類似性学習は、オブジェクト追跡の重要なステップとして認識されている。
しかしながら、既存の複数のオブジェクト追跡手法では、画像内の情報領域の大部分を無視しながら、トレーニング対象としてスパースな基底真理マッチングのみを使用する。
本稿では,コントラスト学習のために,一対のイメージ上に数百のオブジェクト領域を密集した擬似Dense類似性学習を提案する。
この類似性学習と既存の複数の物体検出器を組み合わせることで、変位回帰や運動前兆を必要としない準拡散追跡(qdtrack)を構築する。
得られた特徴空間は、オブジェクトアソシエーションの推論時間において、単純な近接探索を許容する。
さらに,我々の類似性学習方式はビデオデータに限らず,静的入力からでも効果的なインスタンス類似性を学習できることを示す。
我々は、様々なMOTベンチマークで広範な実験を行う。
単純さにもかかわらず、QDTrackはすべてのベンチマークで最先端のトラッキング手法の性能に匹敵し、大規模なBDD100K MOTベンチマークに新しい最先端の手法をセットし、検出器に無視可能な計算オーバーヘッドを導入している。 Similarity learning has been recognized as a crucial step for object tracking. However, existing multiple object tracking methods only use sparse ground truth matching as the training objective, while ignoring the majority of the informative regions in images. In this paper, we present Quasi-Dense Similarity Learning, which densely samples hundreds of object regions on a pair of images for contrastive learning. We combine this similarity learning with multiple existing object detectors to build Quasi-Dense Tracking (QDTrack), which does not require displacement regression or motion priors. We find that the resulting distinctive feature space admits a simple nearest neighbor search at inference time for object association. In addition, we show that our similarity learning scheme is not limited to video data, but can learn effective instance similarity even from static input, enabling a competitive tracking performance without training on videos or using tracking supervision. We conduct extensive experiments on a wide variety of popular MOT benchmarks. We find that, despite its simplicity, QDTrack rivals the performance of state-of-the-art tracking methods on all benchmarks and sets a new state-of-the-art on the large-scale BDD100K MOT benchmark, while introducing negligible computational overhead to the detector. | 翻訳日:2022-10-14 16:24:28 公開日:2022-10-12 |
# タイムスタンプからのロバストアクションセグメンテーション Robust Action Segmentation from Timestamp Supervision ( http://arxiv.org/abs/2210.06501v1 ) ライセンス: Link先を確認 | Yaser Souri, Yazan Abu Farha, Emad Bahrami, Gianpiero Francesca, Juergen Gall | (参考訳) アクションセグメンテーションは、未トリミングビデオの各フレームに対するアクションラベルを予測するタスクである。
完全に教師された方法でアクションセグメンテーションのアプローチを訓練するためのアノテーションを得るにはコストがかかるため、アクションスクリプティング、アクションセット、あるいはより最近のタイムスタンプなど、様々な種類の弱い監督を用いてアクションセグメンテーションモデルを訓練する様々なアプローチが提案されている。
タイムスタンプの監督は、すべてのフレームに注釈をつけるよりも、1アクション当たりのタイムスタンプを1つ取得する方がコストが低いという、有望な弱い監督形態である。
しかしながら、以前の著作では、全てのアクションインスタンスがタイムスタンプでアノテートされていると仮定しており、アノテータはいかなるアクションも見逃さないと仮定しているため、制限的な仮定である。
この作業では、この制限的な仮定を緩和し、いくつかのアクションインスタンスに対するアノテーションの欠如を考慮に入れます。
私たちのアプローチは、他のアプローチやさまざまなベースラインと比較して、アノテーションの欠如に対して堅牢であることを示す。 Action segmentation is the task of predicting an action label for each frame of an untrimmed video. As obtaining annotations to train an approach for action segmentation in a fully supervised way is expensive, various approaches have been proposed to train action segmentation models using different forms of weak supervision, e.g., action transcripts, action sets, or more recently timestamps. Timestamp supervision is a promising type of weak supervision as obtaining one timestamp per action is less expensive than annotating all frames, but it provides more information than other forms of weak supervision. However, previous works assume that every action instance is annotated with a timestamp, which is a restrictive assumption since it assumes that annotators do not miss any action. In this work, we relax this restrictive assumption and take missing annotations for some action instances into account. We show that our approach is more robust to missing annotations compared to other approaches and various baselines. | 翻訳日:2022-10-14 16:09:36 公開日:2022-10-12 |
# MotionBERT:人間の動作分析のための統一プレトレーニング MotionBERT: Unified Pretraining for Human Motion Analysis ( http://arxiv.org/abs/2210.06551v1 ) ライセンス: Link先を確認 | Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang | (参考訳) 我々は,3次元ポーズ推定,骨格に基づく行動認識,メッシュ回復など,人間の動作分析のさまざまなサブタスクに取り組むための統合事前学習フレームワークであるMotionBERTを提案する。
提案するフレームワークは,モーションキャプチャデータや眼球内ビデオなど,あらゆる種類の人体の動きデータ資源を利用することができる。
プレテキストタスクでは、ノイズのある部分的な2次元観察から基礎となる3次元の動きを復元するために、モーションエンコーダが必要となる。
事前訓練された動作表現は、人間の動作に関する幾何学的、運動的、物理的知識を取得するので、容易に複数の下流タスクに転送できる。
動作エンコーダを新しいDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。
さらに,提案フレームワークは,学習した動作表現の汎用性を示す1-2階層の事前学習された動きエンコーダを単純に微調整することで,3つの下流タスクの最先端性能を実現する。 We present MotionBERT, a unified pretraining framework, to tackle different sub-tasks of human motion analysis including 3D pose estimation, skeleton-based action recognition, and mesh recovery. The proposed framework is capable of utilizing all kinds of human motion data resources, including motion capture data and in-the-wild videos. During pretraining, the pretext task requires the motion encoder to recover the underlying 3D motion from noisy partial 2D observations. The pretrained motion representation thus acquires geometric, kinematic, and physical knowledge about human motion and therefore can be easily transferred to multiple downstream tasks. We implement the motion encoder with a novel Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. More importantly, the proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with 1-2 linear layers, which demonstrates the versatility of the learned motion representations. | 翻訳日:2022-10-14 16:09:17 公開日:2022-10-12 |
# Flare7K: 現象学的夜間フレア除去データセット Flare7K: A Phenomenological Nighttime Flare Removal Dataset ( http://arxiv.org/abs/2210.06570v1 ) ライセンス: Link先を確認 | Yuekun Dai, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy | (参考訳) 人工光は通常、夜間に撮影された画像に強いレンズフレアアーティファクトを残す。
夜間フレアは視覚品質に影響を与えるだけでなく、視覚アルゴリズムの性能も低下させる。
既存のフレア除去法は主に昼間のフレア除去と夜間の故障に焦点を当てている。
夜間のフレア除去は、人工光の独特な輝度とスペクトル、夜間に撮影されたフレアの多様なパターンと画像劣化のために困難である。
夜間のフレア除去データセットの不足は、この重要な課題の研究を制限する。
本稿では,実世界の夜間レンズフレアの観測と統計に基づいて生成された,初めての夜間フレア除去データセットであるflare7kを紹介する。
25種類の散乱フレアと10種類の反射フレアからなる5000個の散乱フレアと2,000枚の反射フレア画像を提供する。
7000個のフレアパターンは、フレアのない画像にランダムに付加することができ、フレア腐食とフレアのない画像ペアを形成する。
ペア化されたデータにより、現実世界で撮影されたフレア崩壊画像の復元を効果的に行うことができる。
豊富なフレアパターンは別として、光源のラベル付け、シマー付きグレア、反射フレア、ストレークなど、既存のデータセットにはないリッチなアノテーションも提供しています。
したがって、我々のデータセットは、夜間のフレア除去およびフレアパターンのよりきめ細かい分析において、新しい作業を促進することができる。
大規模な実験により、我々のデータセットは既存のフレアデータセットに多様性を付加し、夜間フレア除去のフロンティアを押し上げます。 Artificial lights commonly leave strong lens flare artifacts on images captured at night. Nighttime flare not only affects the visual quality but also degrades the performance of vision algorithms. Existing flare removal methods mainly focus on removing daytime flares and fail in nighttime. Nighttime flare removal is challenging because of the unique luminance and spectrum of artificial lights and the diverse patterns and image degradation of the flares captured at night. The scarcity of nighttime flare removal datasets limits the research on this crucial task. In this paper, we introduce, Flare7K, the first nighttime flare removal dataset, which is generated based on the observation and statistics of real-world nighttime lens flares. It offers 5,000 scattering and 2,000 reflective flare images, consisting of 25 types of scattering flares and 10 types of reflective flares. The 7,000 flare patterns can be randomly added to flare-free images, forming the flare-corrupted and flare-free image pairs. With the paired data, we can train deep models to restore flare-corrupted images taken in the real world effectively. Apart from abundant flare patterns, we also provide rich annotations, including the labeling of light source, glare with shimmer, reflective flare, and streak, which are commonly absent from existing datasets. Hence, our dataset can facilitate new work in nighttime flare removal and more fine-grained analysis of flare patterns. Extensive experiments show that our dataset adds diversity to existing flare datasets and pushes the frontier of nighttime flare removal. | 翻訳日:2022-10-14 16:08:54 公開日:2022-10-12 |
# ニューラルビデオ圧縮における辺縁分布と学習分布のミスマッチ低減 Reducing The Mismatch Between Marginal and Learned Distributions in Neural Video Compression ( http://arxiv.org/abs/2210.06596v1 ) ライセンス: Link先を確認 | Muhammet Balcilar, Bharath Bhushan Damodaran, Pierre Hellier | (参考訳) 過去4年間、私たちは画像圧縮のためのエンドツーエンドのトレーニング可能なモデルの成功を目の当たりにした。
これらの機械学習(ml)技術は、何十年ものインクリメンタルな作業と比較して、圧縮テクニックのすべてのコンポーネントを学習します。
しかし、エンドツーエンドのMLモデルはVVCのような従来のビデオコーデックのパフォーマンスには達していない。
考えられる説明は、時間的冗長性を考慮したデータの欠如、あるいはニューラルモデルにおける潜在性の密度推定の非効率性である。
後者の問題は、潜在者の限界分布と学習前の分布との相違によって定義される。
このミスマッチはエントロピーモデルの償却ギャップと呼ばれ、圧縮されたデータのファイルサイズを拡大する。
本稿では,3つの最先端MLビデオ圧縮手法のアモータイズギャップを評価することを提案する。
第2に,アモータイズギャップを解決するための効率的で汎用的な手法を提案し,再建品質に影響を与えることなく,2\%から5\%の精度向上につながることを示した。 During the last four years, we have witnessed the success of end-to-end trainable models for image compression. Compared to decades of incremental work, these machine learning (ML) techniques learn all the components of the compression technique, which explains their actual superiority. However, end-to-end ML models have not yet reached the performance of traditional video codecs such as VVC. Possible explanations can be put forward: lack of data to account for the temporal redundancy, or inefficiency of latent's density estimation in the neural model. The latter problem can be defined by the discrepancy between the latent's marginal distribution and the learned prior distribution. This mismatch, known as amortization gap of entropy model, enlarges the file size of compressed data. In this paper, we propose to evaluate the amortization gap for three state-of-the-art ML video compression methods. Second, we propose an efficient and generic method to solve the amortization gap and show that it leads to an improvement between $2\%$ to $5\%$ without impacting reconstruction quality. | 翻訳日:2022-10-14 16:08:29 公開日:2022-10-12 |
# Nguni言語におけるサブワードセグメンダル言語モデリング Subword Segmental Language Modelling for Nguni Languages ( http://arxiv.org/abs/2210.06525v1 ) ライセンス: Link先を確認 | Francois Meyer and Jan Buys | (参考訳) サブワードはNLPにおけるテキストの標準単位となり、効率的なオープン語彙モデルを可能にしている。
バイトペア符号化(BPE)のようなアルゴリズムでは、サブワードセグメンテーションはトレーニング前にコーパスに適用される前処理ステップと見なされる。
これは複雑な形態を持つ低リソース言語に対する準最適セグメンテーションにつながる可能性がある。
自己回帰型言語モデルのための訓練を受けながら単語を分割する方法を学ぶサブワードセグメンテーション言語モデル(sslm)を提案する。
サブワードセグメンテーションと言語モデルを統合することで,lm性能を最適化するサブワードを学習する。
私たちは、南アフリカの4つのnguni言語でモデルをトレーニングします。
これらは低リソースの凝集言語なので、サブワード情報は重要である。
LMとしては、SSLMは、4つの言語で平均してBPEベースのモデルのような既存のアプローチよりも優れている。
さらに、教師なし形態素セグメンテーションにおける標準サブワードセグメンタよりも優れています。
また、単語レベルのシーケンスモデルとしてモデルをトレーニングし、教師なし形態素セグメンタが4言語すべてで既存の手法よりも優れています。
その結果,学習サブワードセグメンテーションは既存のサブワードセグメンタの効果的な代替手段であり,lm能力を向上させるモーフェムのようなサブワードをモデルが発見できることがわかった。 Subwords have become the standard units of text in NLP, enabling efficient open-vocabulary models. With algorithms like byte-pair encoding (BPE), subword segmentation is viewed as a preprocessing step applied to the corpus before training. This can lead to sub-optimal segmentations for low-resource languages with complex morphologies. We propose a subword segmental language model (SSLM) that learns how to segment words while being trained for autoregressive language modelling. By unifying subword segmentation and language modelling, our model learns subwords that optimise LM performance. We train our model on the 4 Nguni languages of South Africa. These are low-resource agglutinative languages, so subword information is critical. As an LM, SSLM outperforms existing approaches such as BPE-based models on average across the 4 languages. Furthermore, it outperforms standard subword segmenters on unsupervised morphological segmentation. We also train our model as a word-level sequence model, resulting in an unsupervised morphological segmenter that outperforms existing methods by a large margin for all 4 languages. Our results show that learning subword segmentation is an effective alternative to existing subword segmenters, enabling the model to discover morpheme-like subwords that improve its LM capabilities. | 翻訳日:2022-10-14 15:32:53 公開日:2022-10-12 |
# 大規模臨床ノートコーパスを用いた汎用臨床言語推論モデルの開発 Developing a general-purpose clinical language inference model from a large corpus of clinical notes ( http://arxiv.org/abs/2210.06566v1 ) ライセンス: Link先を確認 | Madhumita Sushil and Dana Ludwig and Atul J. Butte and Vivek A. Rudrapatna | (参考訳) 臨床言語推論のためのいくつかのバイオメディカル言語モデルがすでに開発されている。
しかし、これらのモデルは一般的に一般的な語彙を使い、比較的小さな臨床コーパスで訓練される。
臨床言語推論における言語モデルの性能に及ぼすドメイン固有語彙と大規模臨床訓練コーパスの使用の影響について検討した。
我々は、カリフォルニア大学サンフランシスコ校(UCSF)で著述された7500万の特定された臨床記録を多種多様な同定コーパスを用いて、変換器(BERT)モデルから双方向エンコーダデコーダを訓練した。
本モデルは,臨床言語概念認識,関係抽出,医療言語推論など,いくつかの臨床言語推論ベンチマークタスクで評価した。
また,UCSFからの放電サマリーを用いて,診断符号の割り当てと治療クラス推論の2つの課題について検討した。
本モデルは,UCSFデータを用いた2つのタスクのシステム内評価において,これらのモデルと同等の大きさのバイオメディカル言語モデルと同等の性能を発揮した。
ドメイン内語彙の使用は、長い文書のエンコーディングを改善するように見える。
大規模な臨床コーパスの使用は、文書エンコーディングと推論精度を高めるように見える。
しかし、省略分解能や数値的、時間的、暗黙的因果推論を改善するためには、さらなる研究が必要である。 Several biomedical language models have already been developed for clinical language inference. However, these models typically utilize general vocabularies and are trained on relatively small clinical corpora. We sought to evaluate the impact of using a domain-specific vocabulary and a large clinical training corpus on the performance of these language models in clinical language inference. We trained a Bidirectional Encoder Decoder from Transformers (BERT) model using a diverse, deidentified corpus of 75 million deidentified clinical notes authored at the University of California, San Francisco (UCSF). We evaluated this model on several clinical language inference benchmark tasks: clinical and temporal concept recognition, relation extraction and medical language inference. We also evaluated our model on two tasks using discharge summaries from UCSF: diagnostic code assignment and therapeutic class inference. Our model performs at par with the best publicly available biomedical language models of comparable sizes on the public benchmark tasks, and is significantly better than these models in a within-system evaluation on the two tasks using UCSF data. The use of in-domain vocabulary appears to improve the encoding of longer documents. The use of large clinical corpora appears to enhance document encoding and inferential accuracy. However, further research is needed to improve abbreviation resolution, and numerical, temporal, and implicitly causal inference. | 翻訳日:2022-10-14 15:32:29 公開日:2022-10-12 |
# DATScore:データ拡張翻訳による翻訳の評価 DATScore: Evaluating Translation with Data Augmented Translations ( http://arxiv.org/abs/2210.06576v1 ) ライセンス: Link先を確認 | Moussa Kamal Eddine, Guokan Shang, Michalis Vazirgiannis | (参考訳) 大規模事前学習型言語モデルの急速な発展は、自然言語生成(NLG)の分野だけでなく、その評価にも革命をもたらした。
BARTScoreの最近の研究に触発され、様々な側面から生成されたテキストの品質を評価するためにBART言語モデルを利用したメトリクスであるDATScoreを紹介した。
DATScoreはデータ拡張技術を使用して機械翻訳の評価を改善する。
我々の主な発見は、ソースおよび参照テキストのデータ拡張翻訳の導入は、生成された翻訳の品質を評価するのに大いに役立つことである。
また、BARTScoreのスコア計算プロセスを改善するために、2つの新しいスコア平均化と項重み付け戦略を提案する。
WMTの実験結果によると、DATScoreは、特に低リソース言語において、最近の最先端のメトリクスよりも、人間のメタ評価と相関している。
アブレーション研究は、新しいスコアリング戦略に付加される価値を示しています。
さらに,翻訳以外の3つのNLGタスクにおけるDATScoreの性能を拡張実験で報告した。 The rapid development of large pretrained language models has revolutionized not only the field of Natural Language Generation (NLG) but also its evaluation. Inspired by the recent work of BARTScore: a metric leveraging the BART language model to evaluate the quality of generated text from various aspects, we introduce DATScore. DATScore uses data augmentation techniques to improve the evaluation of machine translation. Our main finding is that introducing data augmented translations of the source and reference texts is greatly helpful in evaluating the quality of the generated translation. We also propose two novel score averaging and term weighting strategies to improve the original score computing process of BARTScore. Experimental results on WMT show that DATScore correlates better with human meta-evaluations than the other recent state-of-the-art metrics, especially for low-resource languages. Ablation studies demonstrate the value added by our new scoring strategies. Moreover, we report in our extended experiments the performance of DATScore on 3 NLG tasks other than translation. | 翻訳日:2022-10-14 15:32:11 公開日:2022-10-12 |
# NQライクな質問の生成による質問応答の改善 Improving Question Answering with Generation of NQ-like Questions ( http://arxiv.org/abs/2210.06599v1 ) ライセンス: Link先を確認 | Saptarashmi Bandyopadhyay, Shraman Pal, Hao Zou, Abhranil Chandra, Jordan Boyd-Graber | (参考訳) 質問応答(qa)システムは、収集にコストと時間を要する大量の注釈付きデータを必要とする。
既存のQAベンチマークのデータセットの変換は、さまざまなフォーマットや複雑さのために難しい。
これらの問題に対処するために,Quizbowl(QB)データセットの長いトリビア質問からNQ(Natural Questions)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
これは、qaシステムのためにより多くのデータを生成する自動化方法を提供します。
品質とデータ量を確保するため,ニューラル分類器を用いて不正な質問の検出と削除を行う。
低リソース環境では,NQデータとQBデータの両方のベースラインシステム上でのQA性能が向上することを示す。
我々のアルゴリズムは、QAシステムのデータ品質を維持しながら、トレーニングデータのスケーラビリティを向上させる。 Question Answering (QA) systems require a large amount of annotated data which is costly and time-consuming to gather. Converting datasets of existing QA benchmarks are challenging due to different formats and complexities. To address these issues, we propose an algorithm to automatically generate shorter questions resembling day-to-day human communication in the Natural Questions (NQ) dataset from longer trivia questions in Quizbowl (QB) dataset by leveraging conversion in style among the datasets. This provides an automated way to generate more data for our QA systems. To ensure quality as well as quantity of data, we detect and remove ill-formed questions using a neural classifier. We demonstrate that in a low resource setting, using the generated data improves the QA performance over the baseline system on both NQ and QB data. Our algorithm improves the scalability of training data while maintaining quality of data for QA systems. | 翻訳日:2022-10-14 15:31:55 公開日:2022-10-12 |
# 模倣学習による反復文書レベルの情報抽出 Iterative Document-level Information Extraction via Imitation Learning ( http://arxiv.org/abs/2210.06600v1 ) ライセンス: Link先を確認 | Yunmo Chen, William Gantt, Weiwei Gu, Tongfei Chen, Aaron Steven White, Benjamin Van Durme | (参考訳) 複雑な関係やテンプレートを抽出するための新しい反復抽出(IterX)モデル,すなわち、名前付きスロットから文書に含まれるテキストのスパンへのマッピングを表すNタプルを提案する。
ドキュメントは、任意のタイプのテンプレートのゼロまたはそれ以上のインスタンスをサポートし、ドキュメント内のテンプレートを識別し、各テンプレートのスロット値を抽出するタスクにつながる。
我々の模倣学習アプローチは、抽出器のトレーニングに事前定義されたテンプレート命令を使用する必要をなくし、SciREXの4項関係抽出とMUC-4のテンプレート抽出という2つの確立されたベンチマークの最先端結果につながる。 We present a novel iterative extraction (IterX) model for extracting complex relations, or templates, i.e., N-tuples representing a mapping from named slots to spans of text contained within a document. Documents may support zero or more instances of a template of any particular type, leading to the tasks of identifying the templates in a document, and extracting each template's slot values. Our imitation learning approach relieves the need to use predefined template orders to train an extractor and leads to state-of-the-art results on two established benchmarks -- 4-ary relation extraction on SciREX and template extraction on MUC-4 -- as well as a strong baseline on the new BETTER Granular task. | 翻訳日:2022-10-14 15:31:40 公開日:2022-10-12 |
# Few-Shot Aspect-Based Sentiment Analysisのためのインストラクションチューニング Instruction Tuning for Few-Shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2210.06629v1 ) ライセンス: Link先を確認 | Siddharth Varia, Shuai Wang, Kishaloy Halder, Robert Vacareanu, Miguel Ballesteros, Yassine Benajiba, Neha Anna John, Rishita Anubhai, Smaranda Muresan, Dan Roth | (参考訳) Aspect-based Sentiment Analysis (ABSA)は、アスペクト項、アスペクトカテゴリー、意見項、感情極性という4つの要素を含む、きめ細かい感情分析タスクである。
ほとんどの計算手法は、タプル(アスペクト項、感情極性)やトリプレット(アスペクト項、意見項、感情極性)といったABSAのサブタスクの一部に、パイプラインまたはジョイントモデリングアプローチを用いて焦点を当てている。
近年,テキストから4つの要素を1つ以上の四重項として抽出する手法が提案されている。
本研究では、さらに一歩進めてABSAを解くための統一的なフレームワークと、それに関連するサブタスクを提案する。
この目的のために、全てのサブタスクと4次予測タスク全体をカバーするマルチタスク学習方式で、t5モデルをインストラクションプロンプトで微調整する。
複数のベンチマークデータセットを用いた実験で、提案するマルチタスクプロンプトアプローチが、少数ショット学習環境でのパフォーマンス向上(絶対的な6.75$f1)をもたらすことを示した。 Aspect-based Sentiment Analysis (ABSA) is a fine-grained sentiment analysis task which involves four elements from user-generated texts: aspect term, aspect category, opinion term, and sentiment polarity. Most computational approaches focus on some of the ABSA sub-tasks such as tuple (aspect term, sentiment polarity) or triplet (aspect term, opinion term, sentiment polarity) extraction using either pipeline or joint modeling approaches. Recently, generative approaches have been proposed to extract all four elements as (one or more) quadruplets from text as a single task. In this work, we take a step further and propose a unified framework for solving ABSA, and the associated sub-tasks to improve the performance in few-shot scenarios. To this end, we fine-tune a T5 model with instructional prompts in a multi-task learning fashion covering all the sub-tasks, as well as the entire quadruple prediction task. In experiments with multiple benchmark data sets, we show that the proposed multi-task prompting approach brings performance boost (by absolute $6.75$ F1) in the few-shot learning setting. | 翻訳日:2022-10-14 15:31:26 公開日:2022-10-12 |
# サンプル拘束治療効果推定 Sample Constrained Treatment Effect Estimation ( http://arxiv.org/abs/2210.06594v1 ) ライセンス: Link先を確認 | Raghavendra Addanki, David Arbour, Tung Mai, Cameron Musco, Anup Rao | (参考訳) 治療効果の推定は因果推論の根本的な問題である。
我々は,効率的なランダム化対照試験の設計に焦点をあて,n$の個体群に対する治療の効果を正確に推定する。
特に, サンプル制約による治療効果の推定について検討し, 実験を行うには, 集団から$s \ll n$のサブセットを選択する必要がある。
このサブセットは、さらに治療と管理グループに分割する必要がある。
集団全体を治療と管理グループに分割するアルゴリズム、または単一の代表部分集合を選択するアルゴリズムはよく研究されている。
私たちの設定における重要な課題は、代表サブセットとそのセットのパーティションを共同で選ぶことです。
我々は,線形効果モデルに基づいて,個々の処理効果と平均処理効果の両方を推定する。
ランダム化された数値線形代数で用いられる離散性最小化とレバレッジスコアに基づくサンプリングとの接続を同定し、実証可能な実験設計とそれに対応する推定器を提供する。
我々の理論的結果は、s$が人口規模に等しい場合、既知の保証への円滑な遷移が得られる。
また,アルゴリズムの性能を実証的に示す。 Treatment effect estimation is a fundamental problem in causal inference. We focus on designing efficient randomized controlled trials, to accurately estimate the effect of some treatment on a population of $n$ individuals. In particular, we study sample-constrained treatment effect estimation, where we must select a subset of $s \ll n$ individuals from the population to experiment on. This subset must be further partitioned into treatment and control groups. Algorithms for partitioning the entire population into treatment and control groups, or for choosing a single representative subset, have been well-studied. The key challenge in our setting is jointly choosing a representative subset and a partition for that set. We focus on both individual and average treatment effect estimation, under a linear effects model. We give provably efficient experimental designs and corresponding estimators, by identifying connections to discrepancy minimization and leverage-score-based sampling used in randomized numerical linear algebra. Our theoretical results obtain a smooth transition to known guarantees when $s$ equals the population size. We also empirically demonstrate the performance of our algorithms. | 翻訳日:2022-10-14 15:22:53 公開日:2022-10-12 |
# 確率的勾配降下法に対する厳密な動的平均場理論 Rigorous dynamical mean field theory for stochastic gradient descent methods ( http://arxiv.org/abs/2210.06591v1 ) ライセンス: Link先を確認 | Cedric Gerbelot, Emanuele Troiani, Francesca Mignacco, Florent Krzakala and Lenka Zdeborova | (参考訳) 経験的リスク最小化を伴うガウスデータを用いた観測から推定器(例えば、m-推定器、浅いニューラルネットワーク、...)を学習し、一階勾配に基づく手法の厳密な高次元漸近性に対する閉形式方程式を証明した。
これには確率勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
得られた方程式は、勾配流に適用した場合の統計物理学からの力学平均場理論(DMFT)方程式の離散化の結果と一致する。
提案手法では,メモリカーネルの効率的な動的構造を明示的に記述し,非同一性共分散行列を持つデータセットに非分離性更新関数を含めることができる。
最後に,SGDの一般化されたバッチサイズおよび定常学習率を持つ方程式の数値的実装を提案する。 We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, ...) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates. | 翻訳日:2022-10-14 15:22:18 公開日:2022-10-12 |
# メタ学習におけるcmi境界の評価 : タイトネスと表現力 Evaluated CMI Bounds for Meta Learning: Tightness and Expressiveness ( http://arxiv.org/abs/2210.06511v1 ) ライセンス: Link先を確認 | Fredrik Hellstr\"om and Giuseppe Durisi | (参考訳) 最近の研究では、steinke and zakynthinou (2020) の条件付き相互情報(cmi)フレームワークは、アルゴリズムの安定性、vc次元、および従来の学習のための関連する複雑性尺度の観点から、一般化の保証を捉えるのに十分な表現力を持っている(haltyunyan et al., 2021, haghifam et al., 2021)。
したがって、一般化境界を確立する統一的な方法を提供する。
メタラーニングでは、情報理論の結果と古典的な学習理論の成果との間には、これまでのところ分割があった。
この作業では、この分割をブリッジする第一歩を踏み出します。
具体的には、評価されたCMI(e-CMI)の観点からメタ学習のための新しい一般化境界を提案する。
e-CMIフレームワークの表現性を示すために、f_i \circ h$という形式の関数によってパラメータ化された$\hat n$タスクの$n$サンプルを表現学習設定に適用する。
ここで、各$f_i \in \mathcal f$ はタスク固有関数であり、$h \in \mathcal h$ は共有表現である。
この設定のために、e-CMIフレームワークは、$\sqrt{ \mathcal C(\mathcal H)/(n\hat n) + \mathcal C(\mathcal F)/n} $ とスケールする有界性を持ち、$\mathcal C(\cdot)$ は仮説クラスの複雑性測度を表す。
このスケーリング挙動は、Gaussian complexityを用いてTripuraneni et al. (2020)で報告されたものと一致する。 Recent work has established that the conditional mutual information (CMI) framework of Steinke and Zakynthinou (2020) is expressive enough to capture generalization guarantees in terms of algorithmic stability, VC dimension, and related complexity measures for conventional learning (Harutyunyan et al., 2021, Haghifam et al., 2021). Hence, it provides a unified method for establishing generalization bounds. In meta learning, there has so far been a divide between information-theoretic results and results from classical learning theory. In this work, we take a first step toward bridging this divide. Specifically, we present novel generalization bounds for meta learning in terms of the evaluated CMI (e-CMI). To demonstrate the expressiveness of the e-CMI framework, we apply our bounds to a representation learning setting, with $n$ samples from $\hat n$ tasks parameterized by functions of the form $f_i \circ h$. Here, each $f_i \in \mathcal F$ is a task-specific function, and $h \in \mathcal H$ is the shared representation. For this setup, we show that the e-CMI framework yields a bound that scales as $\sqrt{ \mathcal C(\mathcal H)/(n\hat n) + \mathcal C(\mathcal F)/n} $, where $\mathcal C(\cdot)$ denotes a complexity measure of the hypothesis class. This scaling behavior coincides with the one reported in Tripuraneni et al. (2020) using Gaussian complexity. | 翻訳日:2022-10-14 15:16:53 公開日:2022-10-12 |
# ロバスト神経後部推定と統計的モデル批判 Robust Neural Posterior Estimation and Statistical Model Criticism ( http://arxiv.org/abs/2210.06564v1 ) ライセンス: Link先を確認 | Daniel Ward, Patrick Cannon, Mark Beaumont, Matteo Fasiolo, Sebastian M Schmon | (参考訳) 計算機シミュレーションは、科学全体の複雑な現象を理解するための貴重なツールであることが証明されている。
しかし、モデリングと予測のためのシミュレータの有用性は、しばしばデータ品質の低さと、モデル忠実性に対する実用的な制限によって制限される。
これらの困難を回避するために、モデルラーはシミュレータを真のデータ生成プロセスの理想論的表現として扱う必要があり、その結果、モデルの誤特定のリスクを慎重に考慮する必要があると論じている。
本研究では,シミュレーションモデルにおけるブラックボックスパラメータ推定を可能にするアルゴリズムのクラスであるneural posterior estimation (npe)を再検討し,シミュレーションから現実へのギャップの含意を検討する。
近年の研究では,これらの手法の信頼性が実証されているが,シミュレータモデル自体が生成した合成データを用いて解析を行ってきた。
そこで本論文では,NPEを用いた場合,非特異性の存在が信頼できない推論につながることを示す。
シミュレーションを用いた科学的調査は、誤特定の解釈可能な識別と頑健な推論コンポーネントを容易にし、モデルに適合させるために、モデル批判コンポーネントを取り入れるべきである、と我々は論じている。
シミュレーションと観測データとの差異を明示的にモデル化し,npeの拡張による2つの目標を同時に達成するためのロバスト神経後方推定(rnpe)を提案する。
提案手法は, 人工的に不特定な事例に対して評価し, RNPEがタスク全体にわたって良好に機能するのに対して, NPEを経口的に用いた場合, ミスリードや不安定な後肢が生じる。 Computer simulations have proven a valuable tool for understanding complex phenomena across the sciences. However, the utility of simulators for modelling and forecasting purposes is often restricted by low data quality, as well as practical limits to model fidelity. In order to circumvent these difficulties, we argue that modellers must treat simulators as idealistic representations of the true data generating process, and consequently should thoughtfully consider the risk of model misspecification. In this work we revisit neural posterior estimation (NPE), a class of algorithms that enable black-box parameter inference in simulation models, and consider the implication of a simulation-to-reality gap. While recent works have demonstrated reliable performance of these methods, the analyses have been performed using synthetic data generated by the simulator model itself, and have therefore only addressed the well-specified case. In this paper, we find that the presence of misspecification, in contrast, leads to unreliable inference when NPE is used naively. As a remedy we argue that principled scientific inquiry with simulators should incorporate a model criticism component, to facilitate interpretable identification of misspecification and a robust inference component, to fit 'wrong but useful' models. We propose robust neural posterior estimation (RNPE), an extension of NPE to simultaneously achieve both these aims, through explicitly modelling the discrepancies between simulations and the observed data. We assess the approach on a range of artificially misspecified examples, and find RNPE performs well across the tasks, whereas naively using NPE leads to misleading and erratic posteriors. | 翻訳日:2022-10-14 15:16:19 公開日:2022-10-12 |
# qmrnet:eo画像品質評価と超解像のための品質指標回帰 QMRNet: Quality Metric Regression for EO Image Quality Assessment and Super-Resolution ( http://arxiv.org/abs/2210.06618v1 ) ライセンス: Link先を確認 | David Berga, Pau Gall\'es, Katalin Tat\'aks, Eva Mohedano, Laura Riordan-Chen, Clara Garcia-Moll, David Vilaseca, Javier Mar\'in | (参考訳) 超解像(SR)の最近の進歩は、主に超解像地球観測(EO)の画像に使われていない顔、風景、物体などの一般的な目的の画像でテストされている。
本研究では,全参照および非参照画像品質評価(IQA)メトリクスを用いて,異なるEOデータセットに対する最先端SRアルゴリズムのベンチマークを行う。
また、画像の任意の特性(解像度、歪みなど)をトレーニングすることで品質(非参照メトリック)を予測でき、また、特定のメトリック目的のためにSRアルゴリズムを最適化できる新しい品質メトリック回帰ネットワーク(QMRNet)を提案する。
この研究は、画像の品質、検出、分類、およびEOのユースケースにおける画像圧縮を評価するために開発されたフレームワークIQUAFLOWの実装の一部である。
実験を統合し,ぼかし,シャープネス,snr,rer,地中サンプリング距離(gsd)などの特徴を予測したqmrnetアルゴリズムをテストし,1.0(n=50以下)以下の検証 medr と95\%以上のリコール率を得た。
総合ベンチマークでは、LIIF、CAR、MSRNの有望な結果と、SR予測を最適化するためのロスとしてQMRNetが使用される可能性を示している。
その単純さから、QMRNetはアーキテクチャとデータ処理が完全にスケーラブルであるため、他のユースケースや画像ドメインにも使用できる。 Latest advances in Super-Resolution (SR) have been tested with general purpose images such as faces, landscapes and objects, mainly unused for the task of super-resolving Earth Observation (EO) images. In this research paper, we benchmark state-of-the-art SR algorithms for distinct EO datasets using both Full-Reference and No-Reference Image Quality Assessment (IQA) metrics. We also propose a novel Quality Metric Regression Network (QMRNet) that is able to predict quality (as a No-Reference metric) by training on any property of the image (i.e. its resolution, its distortions...) and also able to optimize SR algorithms for a specific metric objective. This work is part of the implementation of the framework IQUAFLOW which has been developed for evaluating image quality, detection and classification of objects as well as image compression in EO use cases. We integrated our experimentation and tested our QMRNet algorithm on predicting features like blur, sharpness, snr, rer and ground sampling distance (GSD) and obtain validation medRs below 1.0 (out of N=50) and recall rates above 95\%. Overall benchmark shows promising results for LIIF, CAR and MSRN and also the potential use of QMRNet as Loss for optimizing SR predictions. Due to its simplicity, QMRNet could also be used for other use cases and image domains, as its architecture and data processing is fully scalable. | 翻訳日:2022-10-14 15:14:56 公開日:2022-10-12 |
# s4nd: 状態空間を用いた多次元信号としての映像と映像のモデリング S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces ( http://arxiv.org/abs/2210.06583v1 ) ライセンス: Link先を確認 | Eric Nguyen, Karan Goel, Albert Gu, Gordon W. Downs, Preey Shah, Tri Dao, Stephen A. Baccus, Christopher R\'e | (参考訳) 画像やビデオなどの視覚データは、本質的に連続した多次元信号の離散化としてモデル化される。
既存の連続信号モデルは、視覚データ(例えば画像)の信号を直接モデル化することで、この事実を活用しようとする。
しかし、これらのモデルは、大規模な画像分類やビデオ分類のような実用的な視覚タスクにおいて、まだ競争力のある性能を達成できていない。
深層状態空間モデル(SSM)に関する最近の研究に基づいて、画像やビデオを含む多次元データにSSMの連続信号モデリング能力を拡張した新しい多次元SSM層であるShamethodを提案する。
我々は,s4ndが連続多次元信号として1ドル,2ドル,3ドルで大規模視覚データをモデル化できることを示し,既存の最先端モデルでconv2d層とセルフアテンション層を \method\層に置き換えることで,強力な性能を示す。
ImageNet-1kでは、Vision Transformerベースラインのパフォーマンスが$1.5\%を超えると、パッチの1ドルDシーケンスでトレーニングされ、イメージを2ドルDでモデリングするときにConvNeXtにマッチする。
ビデオの場合、s4ndはhmdb-51のアクティビティ分類で$4\%$で膨らんだ$3$d convnextで改善される。
s4ndは、構成によって不変な大域的連続畳み込みカーネルを暗黙的に学習し、複数の解像度にわたる一般化を可能にする帰納的バイアスを提供する。
S4NDは、エイリアスを克服するためにS4の単純なバンドリミット修正を開発することで、強力なゼロショット(トレーニング時に見えない)解像度性能を実現し、ベースラインのConv2Dを8 \times 8$でトレーニングし、32$イメージで32$でテストすると、CIFAR-10で40\%以上のパフォーマンスを達成している。
プログレッシブリサイズでトレーニングすると、S4NDは高解像度モデルの$\sim 1\%$以内で、トレーニングは22\%$速くなります。 Visual data such as images and videos are typically modeled as discretizations of inherently continuous, multidimensional signals. Existing continuous-signal models attempt to exploit this fact by modeling the underlying signals of visual (e.g., image) data directly. However, these models have not yet been able to achieve competitive performance on practical vision tasks such as large-scale image and video classification. Building on a recent line of work on deep state space models (SSMs), we propose \method, a new multidimensional SSM layer that extends the continuous-signal modeling ability of SSMs to multidimensional data including images and videos. We show that S4ND can model large-scale visual data in $1$D, $2$D, and $3$D as continuous multidimensional signals and demonstrates strong performance by simply swapping Conv2D and self-attention layers with \method\ layers in existing state-of-the-art models. On ImageNet-1k, \method\ exceeds the performance of a Vision Transformer baseline by $1.5\%$ when training with a $1$D sequence of patches, and matches ConvNeXt when modeling images in $2$D. For videos, S4ND improves on an inflated $3$D ConvNeXt in activity classification on HMDB-51 by $4\%$. S4ND implicitly learns global, continuous convolutional kernels that are resolution invariant by construction, providing an inductive bias that enables generalization across multiple resolutions. By developing a simple bandlimiting modification to S4 to overcome aliasing, S4ND achieves strong zero-shot (unseen at training time) resolution performance, outperforming a baseline Conv2D by $40\%$ on CIFAR-10 when trained on $8 \times 8$ and tested on $32 \times 32$ images. When trained with progressive resizing, S4ND comes within $\sim 1\%$ of a high-resolution model while training $22\%$ faster. | 翻訳日:2022-10-14 15:14:11 公開日:2022-10-12 |
# 脳波システムにおけるXAI法の適用に向けて Toward the application of XAI methods in EEG-based systems ( http://arxiv.org/abs/2210.06554v1 ) ライセンス: Link先を確認 | Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete | (参考訳) 良く知られたデータセットシフト問題の興味深い例は、脳-コンピュータインタフェース(BCI)の文脈における脳波信号の分類である。
脳波信号の非定常性は、異なるセッションで使用されるBCI分類システムの一般化性能の低下につながる可能性がある。
本稿では,データセットシフト問題を,適切なeXplainable Artificial Intelligence(XAI)手法を用いて,分類目標の入力の関連特性を特定し,変換することで緩和できるという仮説から始める。
特に、感情認識のための典型的な脳波データセットに基づいて訓練された機械学習システムにおいて、XAI法によって生成された説明を実験的に分析する。
結果は、XAIメソッドで見つかる多くの関連コンポーネントがセッション間で共有され、より良い一般化が可能なシステムを構築するために使用できることを示している。
しかし、入力信号の関連成分は入力自体にも強く依存しているように見える。 An interesting case of the well-known Dataset Shift Problem is the classification of Electroencephalogram (EEG) signals in the context of Brain-Computer Interface (BCI). The non-stationarity of EEG signals can lead to poor generalisation performance in BCI classification systems used in different sessions, also from the same subject. In this paper, we start from the hypothesis that the Dataset Shift problem can be alleviated by exploiting suitable eXplainable Artificial Intelligence (XAI) methods to locate and transform the relevant characteristics of the input for the goal of classification. In particular, we focus on an experimental analysis of explanations produced by several XAI methods on an ML system trained on a typical EEG dataset for emotion recognition. Results show that many relevant components found by XAI methods are shared across the sessions and can be used to build a system able to generalise better. However, relevant components of the input signal also appear to be highly dependent on the input itself. | 翻訳日:2022-10-14 15:07:30 公開日:2022-10-12 |
# 失語障害を伴う一般化:バイスモータタスク学習のためのブロードオフラインデータを活用する Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks ( http://arxiv.org/abs/2210.06601v1 ) ライセンス: Link先を確認 | Kuan Fang, Patrick Yin, Ashvin Nair, Homer Walke, Gengchen Yan, Sergey Levine | (参考訳) 幅広いデータセットの利用は、幅広い分野の一般化に不可欠であることが証明されている。
しかし、新しい下流タスクに多様なマルチタスクデータを効果的に利用する方法は、ロボティクスにおいて依然として大きな課題である。
この課題に取り組むために,幅広いデータに対するオフライン強化学習と,学習損失表現空間におけるサブゴールによるオンライン微調整を組み合わせることで,時間的拡張課題に対する目標条件付きポリシーを取得する枠組みを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
広義のデータから学習した損失表現は、状態と目標に関するタスク関連情報を強調し、一般化を妨げる冗長なコンテキストを抽象化する。
これにより、目に見えないタスクのサブゴール計画を可能にし、ポリシーへのコンパクトな入力を提供し、微調整時の報酬形成を容易にする。
我々は,ロボット体験の大規模データセットを事前学習し,手作業による報酬を必要とせず,視覚入力から新たなタスクを効率的に調整できることを実証する。 The utilization of broad datasets has proven to be crucial for generalization for a wide range of fields. However, how to effectively make use of diverse multi-task data for novel downstream tasks still remains a grand challenge in robotics. To tackle this challenge, we introduce a framework that acquires goal-conditioned policies for unseen temporally extended tasks via offline reinforcement learning on broad data, in combination with online fine-tuning guided by subgoals in learned lossy representation space. When faced with a novel task goal, the framework uses an affordance model to plan a sequence of lossy representations as subgoals that decomposes the original task into easier problems. Learned from the broad data, the lossy representation emphasizes task-relevant information about states and goals while abstracting away redundant contexts that hinder generalization. It thus enables subgoal planning for unseen tasks, provides a compact input to the policy, and facilitates reward shaping during fine-tuning. We show that our framework can be pre-trained on large-scale datasets of robot experiences from prior work and efficiently fine-tuned for novel tasks, entirely from visual inputs without any manual reward engineering. | 翻訳日:2022-10-14 15:07:17 公開日:2022-10-12 |
# 連合学習による異常検出 Anomaly Detection via Federated Learning ( http://arxiv.org/abs/2210.06614v1 ) ライセンス: Link先を確認 | Marc Vucovich, Amogh Tarcar, Penjo Rebelo, Narendra Gade, Ruchi Porwal, Abdul Rahman, Christopher Redino, Kevin Choi, Dhruv Nandakumar, Robert Schiller, Edward Bowen, Alex West, Sanmitra Bhattacharya, Balaji Veeramani | (参考訳) 機械学習は、正常な動作と異常な振る舞いを解読するために分類器とオートエンコーダを組み込むことで、異常検出の分野を前進させた。
さらに、フェデレートされた学習は、クライアントに直接データを共有することなく、グローバルモデルを複数のクライアントのデータでトレーニングする方法を提供する。
本稿では,クライアントサーバ上での悪意あるネットワーク活動を検出するための,フェデレーション学習による新しい異常検出手法を提案する。
実験では,フェデレート学習フレームワークの分類器を用いたオートエンコーダを用いて,ネットワーク活動が良性であるか悪質であるかを判定する。
新たなmin-maxスカラーとサンプリング技術であるFedSamを用いて,フェデレーション学習により,グローバルモデルで各クライアントのデータから学習が可能となり,各クライアントがサイバー攻撃に対する侵入検知システムの防御を改善する手段が提供されることが分かった。 Machine learning has helped advance the field of anomaly detection by incorporating classifiers and autoencoders to decipher between normal and anomalous behavior. Additionally, federated learning has provided a way for a global model to be trained with multiple clients' data without requiring the client to directly share their data. This paper proposes a novel anomaly detector via federated learning to detect malicious network activity on a client's server. In our experiments, we use an autoencoder with a classifier in a federated learning framework to determine if the network activity is benign or malicious. By using our novel min-max scalar and sampling technique, called FedSam, we determined federated learning allows the global model to learn from each client's data and, in turn, provide a means for each client to improve their intrusion detection system's defense against cyber-attacks. | 翻訳日:2022-10-14 15:06:54 公開日:2022-10-12 |
# vr-sft: 相対求心性瞳孔欠陥を検出するために仮想現実でスウィングフラッシュライトを再現する VR-SFT: Reproducing Swinging Flashlight Test in Virtual Reality to Detect Relative Afferent Pupillary Defect ( http://arxiv.org/abs/2210.06474v1 ) ライセンス: Link先を確認 | Prithul Sarker, Nasif Zaman, Alireza Tavakkoli | (参考訳) 両眼間の相対的求心性非対称性は、交代光試験(alternating light test)とも呼ばれる振れ点灯試験(swing flashlight test)によって診断することができる。
これは現在でも最も使われている臨床検査の1つである。
変動する懐中電灯テストの素直なアプローチにもかかわらず、多くの要因が臨床方法論に可変性を付加し、測定の妥当性と信頼性を低下させることができる。
これには、小さな反応の悪い瞳孔、暗い虹彩、異色体、両眼の不均一な照明が含まれる。
これらの制限により、相対求心性非対称性の真の状態は混乱を引き起こし、様々な観察者が相対求心性瞳孔欠陥を異なる量化することができる。
したがって、振れ点灯試験の結果は主観的かつ曖昧である。
従来の揺動懐中電灯試験の限界を解消し、客観性を導入するために、仮想現実(VR)を活用して、揺動懐中電灯試験(VR-SFT)の新たなアプローチを提案する。
対象者の臨床記録とVR-SFTの結果は同等であることが示唆された。
本稿では,没入型VR体験の特徴を活かして,信頼性と客観的なフラッシュライトテストを作成する方法について述べる。 The relative afferent asymmetry between two eyes can be diagnosed using swinging flashlight test, also known as the alternating light test. This remains one of the most used clinical tests to this day. Despite the swinging flashlight test's straightforward approach, a number of factors can add variability into the clinical methodology and reduce the measurement's validity and reliability. This includes small and poorly responsive pupils, dark iris, anisocoria, uneven illumination in both eyes. Due to these limitations, the true condition of relative afferent asymmetry may create confusion and various observers may quantify the relative afferent pupillary defect differently. Consequently, the results of the swinging flashlight test are subjective and ambiguous. In order to eliminate the limitations of traditional swinging flashlight test and introduce objectivity, we propose a novel approach to the swinging flashlight exam, VR-SFT, by making use of virtual reality (VR). We suggest that the clinical records of the subjects and the results of VR-SFT are comparable. In this paper, we describe how we exploit the features of immersive VR experience to create a reliable and objective swinging flashlight test. | 翻訳日:2022-10-14 14:57:44 公開日:2022-10-12 |
# データ中毒の存在下で、クリーンなデータサブセットをふるいにかけるにはどうすればよいか? How to Sift Out a Clean Data Subset in the Presence of Data Poisoning? ( http://arxiv.org/abs/2210.06516v1 ) ライセンス: Link先を確認 | Yi Zeng, Minzhou Pan, Himanshu Jahagirdar, Ming Jin, Lingjuan Lyu and Ruoxi Jia | (参考訳) 現代の機械学習モデルのトレーニングに必要なデータ量を考えると、外部サプライヤーがますます増えている。
しかし、外部データを組み込むことでデータ中毒のリスクが生じ、攻撃者はモデルの有用性や整合性を損なうためにデータを操作します。
ほとんどの中毒防御は、クリーンなデータ(またはベースセット)へのアクセスを想定している。
この仮定は当然のことながら、ステルス性中毒の攻撃に関する研究が急速に進んでいることを考えると、疑問が持ち上がっている: 被告は汚染されたデータセットの中のクリーンなサブセットを本当に特定して、防衛を支援することができるのか?
本論文は, 被毒試料がベースセットに誤って混入した場合の防御効果について検討することから始める。
5つの防御効果を分析し,その性能は1%未満の毒点で劇的に低下することがわかった。
これらの結果は,高い精度でベースセットをふるい取ることが,これらの防御性能の鍵であることを示唆している。
これらの観察により,既存の自動化ツールと人間の検査が,データ中毒の有無でクリーンなデータをいかに正確に識別するかを調べた。
残念ながら、どちらの努力も必要な精度を達成できません。
さらに悪いことに、結果の多くはランダムな選択よりも悪い。
課題を明らかにすることに加えて,実践的な対策であるMeta-Siftを提案する。
提案手法は,既存攻撃の有毒サンプルがクリーンなデータ分布から移行しているという知見に基づく。
したがって、データセットのクリーンな部分のトレーニングと、破損した部分のテストは、高い予測損失をもたらす。
洞察を活用して、クリーンなデータを特定するための二段階最適化を定式化し、さらに効率と精度を改善するための一連のテクニックを導入します。
評価の結果,Meta-Siftは広範囲の毒素攻撃下で100%精度でクリーンなベースセットをシフできることがわかった。
選択されたベースセットは、防御が成功するのに十分な大きさである。 Given the volume of data needed to train modern machine learning models, external suppliers are increasingly used. However, incorporating external data poses data poisoning risks, wherein attackers manipulate their data to degrade model utility or integrity. Most poisoning defenses presume access to a set of clean data (or base set). While this assumption has been taken for granted, given the fast-growing research on stealthy poisoning attacks, a question arises: can defenders really identify a clean subset within a contaminated dataset to support defenses? This paper starts by examining the impact of poisoned samples on defenses when they are mistakenly mixed into the base set. We analyze five defenses and find that their performance deteriorates dramatically with less than 1% poisoned points in the base set. These findings suggest that sifting out a base set with high precision is key to these defenses' performance. Motivated by these observations, we study how precise existing automated tools and human inspection are at identifying clean data in the presence of data poisoning. Unfortunately, neither effort achieves the precision needed. Worse yet, many of the outcomes are worse than random selection. In addition to uncovering the challenge, we propose a practical countermeasure, Meta-Sift. Our method is based on the insight that existing attacks' poisoned samples shifts from clean data distributions. Hence, training on the clean portion of a dataset and testing on the corrupted portion will result in high prediction loss. Leveraging the insight, we formulate a bilevel optimization to identify clean data and further introduce a suite of techniques to improve efficiency and precision. Our evaluation shows that Meta-Sift can sift a clean base set with 100% precision under a wide range of poisoning attacks. The selected base set is large enough to give rise to successful defenses. | 翻訳日:2022-10-14 14:56:20 公開日:2022-10-12 |
# アクションフリートラジェクタを用いた半教師付きオフライン強化学習 Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories ( http://arxiv.org/abs/2210.06518v1 ) ライセンス: Link先を確認 | Qinqing Zheng, Mikael Henaff, Brandon Amos, Aditya Grover | (参考訳) 自然エージェントは、サイズ、品質、測定の種類が異なる複数のデータソースから効果的に学習することができる。
我々は,この不均一性をオフライン強化学習(rl)の文脈で検討する。
ここでは、エージェントは、状態、アクション、報酬三重項を含むラベル付き軌跡と、状態と報酬情報のみを含む未標識軌跡の2つの軌跡にアクセスすることができる。
この設定のために,ラベル付きデータの逆ダイナミクスモデルを学習し,ラベル付きデータのプロキシラベルを得るシンプルなメタアルゴリズムパイプラインを開発し,その後,trueおよびproxyラベル付きトラジェクタ上でオフラインrlアルゴリズムを使用する。
いくつかのd4rlベンチマーク \cite{fu2020d4rl}では、特定のオフラインrlアルゴリズムは、低リターンレジームから10\%のトラジェクタしかラベル付けしていなくても、完全なラベル付きデータセットでトレーニングされた変種のパフォーマンスにマッチすることができる。
最後に,ラベル付きおよびラベル付きデータセットのデータ中心特性とアルゴリズム設計の選択(逆ダイナミクス,オフラインrlアルゴリズムなど)の相互作用を調査し,半教師付きオフラインデータセット上でrlエージェントをトレーニングするための一般的な傾向とベストプラクティスを明らかにする。 Natural agents can effectively learn from multiple data sources that differ in size, quality, and types of measurements. We study this heterogeneity in the context of offline reinforcement learning (RL) by introducing a new, practically motivated semi-supervised setting. Here, an agent has access to two sets of trajectories: labelled trajectories containing state, action, reward triplets at every timestep, along with unlabelled trajectories that contain only state and reward information. For this setting, we develop a simple meta-algorithmic pipeline that learns an inverse-dynamics model on the labelled data to obtain proxy-labels for the unlabelled data, followed by the use of any offline RL algorithm on the true and proxy-labelled trajectories. Empirically, we find this simple pipeline to be highly successful -- on several D4RL benchmarks \cite{fu2020d4rl}, certain offline RL algorithms can match the performance of variants trained on a fully labeled dataset even when we label only 10\% trajectories from the low return regime. Finally, we perform a large-scale controlled empirical study investigating the interplay of data-centric properties of the labelled and unlabelled datasets, with algorithmic design choices (e.g., inverse dynamics, offline RL algorithm) to identify general trends and best practices for training RL agents on semi-supervised offline datasets. | 翻訳日:2022-10-14 14:55:52 公開日:2022-10-12 |
# 正規化最適輸送に基づく分布上のガウス過程 Gaussian Processes on Distributions based on Regularized Optimal Transport ( http://arxiv.org/abs/2210.06574v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Bachoc, Louis B\'ethune, Alberto Gonzalez-Sanz, Jean-Michel Loubes | (参考訳) 最適正規化輸送の双対定式化に基づく確率測度空間上の新しい核を提案する。
我々は、確率と基準測度 $\mathcal{u}$ の間の双対エントロピー緩和された最適輸送の解であるシンクホーンポテンシャルを用いて確率空間のヒルベルト埋め込みを提案する。
この構成によりヒルベルトノルムを用いることで有効なカーネルが得られることを示す。
我々は、カーネルが計算可能でありながら普遍性やいくつかの不変性のような理論的性質を享受していることを証明する。
さらに、このカーネルに基づくガウス過程の挙動に関する理論的保証を提供する。
経験的性能は、分布にインデックスされたプロセスのカーネルの他の伝統的な選択と比較される。 We present a novel kernel over the space of probability measures based on the dual formulation of optimal regularized transport. We propose an Hilbertian embedding of the space of probabilities using their Sinkhorn potentials, which are solutions of the dual entropic relaxed optimal transport between the probabilities and a reference measure $\mathcal{U}$. We prove that this construction enables to obtain a valid kernel, by using the Hilbert norms. We prove that the kernel enjoys theoretical properties such as universality and some invariances, while still being computationally feasible. Moreover we provide theoretical guarantees on the behaviour of a Gaussian process based on this kernel. The empirical performances are compared with other traditional choices of kernels for processes indexed on distributions. | 翻訳日:2022-10-14 14:50:04 公開日:2022-10-12 |
# オンライン離散距離学習によるタスクフリー連続学習 Task-Free Continual Learning via Online Discrepancy Distance Learning ( http://arxiv.org/abs/2210.06579v1 ) ライセンス: Link先を確認 | Fei Ye and Adrian G. Bors | (参考訳) 非定常データストリームからの学習は、明示的なタスク情報がないため、TFCL(Task-Free Continual Learning)とも呼ばれる。
近年,tfclの手法が提案されているが,理論的な保証がない。
また,tfcl中に解析を忘れたことは理論上は研究されなかった。
本稿では,来訪したサンプルとモデルトレーニングに利用可能な情報全体との差分距離に基づく一般化境界を提供する,新しい理論解析フレームワークを開発する。
この分析は、分類タスクにおける忘れ行動に対する新たな洞察を与える。
この理論モデルに着想を得て,混合モデルの動的成分展開機構,すなわちオンライン離散距離学習(ODDL)によって実現された新しいアプローチを提案する。
oddlは、現在のメモリバッファの確率的表現と既に蓄積された知識との差を推定し、最適な性能でコンパクトなネットワークアーキテクチャを保証するために拡張信号として使用する。
次に,最も関連性の高いサンプルをメモリバッファに選択的に格納する新しいサンプル選択手法を提案する。
提案手法を用いてtfcl実験を行い,提案手法が技術性能の水準を達成することを実証する。 Learning from non-stationary data streams, also called Task-Free Continual Learning (TFCL) remains challenging due to the absence of explicit task information. Although recently some methods have been proposed for TFCL, they lack theoretical guarantees. Moreover, forgetting analysis during TFCL was not studied theoretically before. This paper develops a new theoretical analysis framework which provides generalization bounds based on the discrepancy distance between the visited samples and the entire information made available for training the model. This analysis gives new insights into the forgetting behaviour in classification tasks. Inspired by this theoretical model, we propose a new approach enabled by the dynamic component expansion mechanism for a mixture model, namely the Online Discrepancy Distance Learning (ODDL). ODDL estimates the discrepancy between the probabilistic representation of the current memory buffer and the already accumulated knowledge and uses it as the expansion signal to ensure a compact network architecture with optimal performance. We then propose a new sample selection approach that selectively stores the most relevant samples into the memory buffer through the discrepancy-based measure, further improving the performance. We perform several TFCL experiments with the proposed methodology, which demonstrate that the proposed approach achieves the state of the art performance. | 翻訳日:2022-10-14 14:49:02 公開日:2022-10-12 |
# OpenCQA: チャートで回答するオープンエンドの質問 OpenCQA: Open-ended Question Answering with Charts ( http://arxiv.org/abs/2210.06628v1 ) ライセンス: Link先を確認 | Shankar Kantharaj, Xuan Long Do, Rixie Tiffany Ko Leong, Jia Qing Tan, Enamul Hoque, Shafiq Joty | (参考訳) チャートはデータを分析し、重要な洞察を伝えるのに非常に人気があります。
人々はしばしば、説明的な答えを必要とするオープンエンドの質問に答えるために可視化を分析する。
このような質問への回答は、多くの認知的、知覚的努力を必要とするため、しばしば困難で時間がかかります。
この課題に対処するために、私たちはopencqaと呼ばれる新しいタスクを紹介します。
アノテーションプロセスとデータセットの詳細な分析について紹介する。
3つの実用的な設定の下で一連のベースラインを実装し,評価する。
第1設定では、モデルへの入力として、チャート及び付随する物品が提供される。
第2の設定は、記事全体ではなく、関連する段落のみをチャートに提供し、第3の設定は、チャートのみに基づいて応答を生成するモデルを必要とする。
結果分析の結果,上位のモデルでは,複雑な論理的・算術的推論に苦しむ中,一般的に流麗でコヒーレントなテキストを生成することが判明した。 Charts are very popular to analyze data and convey important insights. People often analyze visualizations to answer open-ended questions that require explanatory answers. Answering such questions are often difficult and time-consuming as it requires a lot of cognitive and perceptual efforts. To address this challenge, we introduce a new task called OpenCQA, where the goal is to answer an open-ended question about a chart with descriptive texts. We present the annotation process and an in-depth analysis of our dataset. We implement and evaluate a set of baselines under three practical settings. In the first setting, a chart and the accompanying article is provided as input to the model. The second setting provides only the relevant paragraph(s) to the chart instead of the entire article, whereas the third setting requires the model to generate an answer solely based on the chart. Our analysis of the results show that the top performing models generally produce fluent and coherent text while they struggle to perform complex logical and arithmetic reasoning. | 翻訳日:2022-10-14 14:11:05 公開日:2022-10-12 |
# 副次的帰属型ロバスト学習によるフェアネス Fairness via Adversarial Attribute Neighbourhood Robust Learning ( http://arxiv.org/abs/2210.06630v1 ) ライセンス: Link先を確認 | Qi Qi, Shervin Ardeshir, Yi Xu, Tianbao Yang | (参考訳) 特権的および特権的でない特性群(例えば、人種、性別)間の公平性の改善は、多くの注目を集めている。
モデルが異なる感度特性で一様に機能することを示すために, 異なる感度属性群にまたがるより公平な表現分布を抑えるために, 原理化された \underline{R}obust \underline{A}dversarial \underline{A}ttribute \underline{N}eighbourhood (RAAN)損失を提案する。
RAANの鍵となる考え方は、それぞれのサンプルに逆向きの頑健な重みを割り当てることによって、異なる機密属性群間の偏りのある表現の差を緩和することである。
効率的な最適化アルゴリズムを提供するため、raanを結合合成関数の和にキャストし、確率的適応型(アダム型)および非適応型(sgd型)アルゴリズムフレームワークscraanを提案する。
フェアネス関連ベンチマークデータセットに関する広範囲な実証研究により,提案手法の有効性が検証された。 Improving fairness between privileged and less-privileged sensitive attribute groups (e.g, {race, gender}) has attracted lots of attention. To enhance the model performs uniformly well in different sensitive attributes, we propose a principled \underline{R}obust \underline{A}dversarial \underline{A}ttribute \underline{N}eighbourhood (RAAN) loss to debias the classification head and promote a fairer representation distribution across different sensitive attribute groups. The key idea of RAAN is to mitigate the differences of biased representations between different sensitive attribute groups by assigning each sample an adversarial robust weight, which is defined on the representations of adversarial attribute neighbors, i.e, the samples from different protected groups. To provide efficient optimization algorithms, we cast the RAAN into a sum of coupled compositional functions and propose a stochastic adaptive (Adam-style) and non-adaptive (SGD-style) algorithm framework SCRAAN with provable theoretical guarantee. Extensive empirical studies on fairness-related benchmark datasets verify the effectiveness of the proposed method. | 翻訳日:2022-10-14 14:04:42 公開日:2022-10-12 |
# これが「Wrong Lung!
医療データに対する教師なしマルチモーダルエンコーダの解釈可能性の評価と改善 That's the Wrong Lung! Evaluating and Improving the Interpretability of Unsupervised Multimodal Encoders for Medical Data ( http://arxiv.org/abs/2210.06565v1 ) ライセンス: Link先を確認 | Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, and Byron Wallace | (参考訳) EHR(Electronic Health Records)上のマルチモーダルモデルの事前トレーニングは、最小限の監督で下流タスクに転送可能な、学習表現の手段を提供する。
最近のマルチモーダルモデルは、画像領域と文間のソフトな局所的アライメントを誘導する。
これは医学領域において特に関心があり、フリーテキストで記述された特定の現象に関連する画像の領域をアライメントが強調することがある。
過去の研究は、注意"ヒートマップ"をこのように解釈できることを示唆しているが、そのようなアライメントについてはほとんど評価されていない。
ehrの最先端マルチモーダル(画像とテキスト)モデルのアライメントと、画像領域と文をリンクする人間のアノテーションを比較した。
私たちの主な発見は、テキストがしばしば注意に弱いか直観的でない影響を与えることであり、アライメントは一貫して解剖学的情報を反映していないことである。
さらに、"左"を"右"に置換するなど、合成された修正はハイライトに大きな影響を与えない。
モデルが画像への参加をオプトアウトすることや、数発の微調整のような単純なテクニックは、監督をほとんどあるいは全く行わずにアライメントを改善する能力を約束する。 Pretraining multimodal models on Electronic Health Records (EHRs) provides a means of learning representations that can transfer to downstream tasks with minimal supervision. Recent multimodal models induce soft local alignments between image regions and sentences. This is of particular interest in the medical domain, where alignments might highlight regions in an image relevant to specific phenomena described in free-text. While past work has suggested that attention "heatmaps" can be interpreted in this manner, there has been little evaluation of such alignments. We compare alignments from a state-of-the-art multimodal (image and text) model for EHR with human annotations that link image regions to sentences. Our main finding is that the text has an often weak or unintuitive influence on attention; alignments do not consistently reflect basic anatomical information. Moreover, synthetic modifications -- such as substituting "left" for "right" -- do not substantially influence highlights. Simple techniques such as allowing the model to opt out of attending to the image and few-shot finetuning show promise in terms of their ability to improve alignments with very little or no supervision. | 翻訳日:2022-10-14 14:03:58 公開日:2022-10-12 |
# lion: 3次元形状生成のための潜点拡散モデル LION: Latent Point Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2210.06978v1 ) ライセンス: Link先を確認 | Xiaohui Zeng, Arash Vahdat, Francis Williams, Zan Gojcic, Or Litany, Sanja Fidler, Karsten Kreis | (参考訳) 拡散モデル(DDM)は3次元点雲合成において有望な結果を示した。
3D DDMを進化させ、デジタルアーティストに役立てるためには
(i)高世代品質
二 条件合成及び形状補間等の操作及び応用の柔軟性及び
(iii)滑らかな表面やメッシュを出力できる能力。
そこで我々は3次元形状生成のための階層的潜在点拡散モデル(LION)を提案する。
LIONは、大域的なラテント表現と点構造ラテント空間を組み合わせた階層ラテント空間を持つ変分オートエンコーダ(VAE)として設定される。
これらの潜在空間において2つの階層的ddmを訓練する。
階層的VAEアプローチは、ポイントクラウド上で直接動作するDDMと比較してパフォーマンスを向上するが、ポイント構造化ラテントは依然としてDDMベースのモデリングに最適である。
実験的に、LIONは複数のShapeNetベンチマークで最先端の生成性能を達成する。
さらに、当社のVAEフレームワークは、LIONを様々なタスクに簡単に利用することができる: LIONはマルチモーダル形状のデノイングやボクセル条件の合成に優れ、テキストおよび画像駆動の3D生成に適応することができる。
また, 形状自動符号化と潜時形状補間を実証し, 平滑な3次元メッシュを生成するために, 現代の表面再構成技術でLIONを拡張した。
LIONは、高品質な生成、柔軟性、表面の再構築のために、3D形状を扱うアーティストに強力なツールを提供することを期待している。
プロジェクトページとコード:https://nv-tlabs.github.io/LION。 Denoising diffusion models (DDMs) have shown promising results in 3D point cloud synthesis. To advance 3D DDMs and make them useful for digital artists, we require (i) high generation quality, (ii) flexibility for manipulation and applications such as conditional synthesis and shape interpolation, and (iii) the ability to output smooth surfaces or meshes. To this end, we introduce the hierarchical Latent Point Diffusion Model (LION) for 3D shape generation. LION is set up as a variational autoencoder (VAE) with a hierarchical latent space that combines a global shape latent representation with a point-structured latent space. For generation, we train two hierarchical DDMs in these latent spaces. The hierarchical VAE approach boosts performance compared to DDMs that operate on point clouds directly, while the point-structured latents are still ideally suited for DDM-based modeling. Experimentally, LION achieves state-of-the-art generation performance on multiple ShapeNet benchmarks. Furthermore, our VAE framework allows us to easily use LION for different relevant tasks: LION excels at multimodal shape denoising and voxel-conditioned synthesis, and it can be adapted for text- and image-driven 3D generation. We also demonstrate shape autoencoding and latent shape interpolation, and we augment LION with modern surface reconstruction techniques to generate smooth 3D meshes. We hope that LION provides a powerful tool for artists working with 3D shapes due to its high-quality generation, flexibility, and surface reconstruction. Project page and code: https://nv-tlabs.github.io/LION. | 翻訳日:2022-10-14 14:03:16 公開日:2022-10-12 |
# SUMBot: オープンドメイン対話システムにおけるコンテキストの要約 SUMBot: Summarizing Context in Open-Domain Dialogue Systems ( http://arxiv.org/abs/2210.06496v1 ) ライセンス: Link先を確認 | Rui Ribeiro, Lu\'isa Coheur | (参考訳) 本稿では,オープンドメイン対話システムにおける関連情報をコンテキストとして含む問題について検討する。
ほとんどのモデルは、対話から重要な知識を特定し、組み込むのに苦労し、単にターン全体をコンテキストとして使うだけで、不要な情報でモデルに供給される入力のサイズを増加させます。
また、大型事前学習モデルの数百トークンの入力サイズ制限のため、履歴の領域は含まれず、対話からの情報的な部分を省略することができる。
この問題を克服するために,過去のすべての関連情報を追跡するモデルの能力を高めるため,履歴全体ではなくサマリでコンテキストの一部を代用するシンプルな手法を提案する。
要約文の導入により,回答生成作業が改善される可能性を示し,システムの弱点をさらに理解するための例を考察する。 In this paper, we investigate the problem of including relevant information as context in open-domain dialogue systems. Most models struggle to identify and incorporate important knowledge from dialogues and simply use the entire turns as context, which increases the size of the input fed to the model with unnecessary information. Additionally, due to the input size limitation of a few hundred tokens of large pre-trained models, regions of the history are not included and informative parts from the dialogue may be omitted. In order to surpass this problem, we introduce a simple method that substitutes part of the context with a summary instead of the whole history, which increases the ability of models to keep track of all the previous relevant information. We show that the inclusion of a summary may improve the answer generation task and discuss some examples to further understand the system's weaknesses. | 翻訳日:2022-10-14 13:54:07 公開日:2022-10-12 |
# ロボットによる連続的能動学習 Few-Shot Continual Active Learning by a Robot ( http://arxiv.org/abs/2210.04137v2 ) ライセンス: Link先を確認 | Ali Ayub and Carter Fendley | (参考訳) 本稿では,clエージェントに新しいタスクや事前学習されたタスクのためのラベル付きデータを提供し,エージェントが利用可能なラベル付き予算が限られている,難易度が高いが現実的な連続学習(cl)問題,単発連続学習(focal)について考察する。
そこで我々は,継続学習とアクティブラーニングの文献に基づいて,CLエージェントがいくつかのラベル付きトレーニング例から新しいオブジェクトクラスを継続的に学習できるフレームワークを開発する。
我々のフレームワークは、一様ガウス混合モデル(GMM)を用いて各オブジェクトクラスを表現し、擬似リハーサルを用いて破滅的忘れを緩和する。
このフレームワークはまた、事前学習されたクラスのガウス表現に関する不確実性尺度を使用して、インクリメントでラベル付けされる最も有益なサンプルを見つける。
対象分類タスクにおけるCORe-50データセットと実際のヒューマノイドロボットに対するアプローチを評価した。
その結果,本手法は,データセット上で最先端の結果を生成するだけでなく,ユーザが提供する限定的なラベル付けによる実環境における未確認オブジェクトの継続的な学習を可能にした。 In this paper, we consider a challenging but realistic continual learning (CL) problem, Few-Shot Continual Active Learning (FoCAL), where a CL agent is provided with unlabeled data for a new or a previously learned task in each increment and the agent only has limited labeling budget available. Towards this, we build on the continual learning and active learning literature and develop a framework that can allow a CL agent to continually learn new object classes from a few labeled training examples. Our framework represents each object class using a uniform Gaussian mixture model (GMM) and uses pseudo-rehearsal to mitigate catastrophic forgetting. The framework also uses uncertainty measures on the Gaussian representations of the previously learned classes to find the most informative samples to be labeled in an increment. We evaluate our approach on the CORe-50 dataset and on a real humanoid robot for the object classification task. The results show that our approach not only produces state-of-the-art results on the dataset but also allows a real robot to continually learn unseen objects in a real environment with limited labeling supervision provided by its user. | 翻訳日:2022-10-14 11:37:17 公開日:2022-10-12 |
# 深層学習による二次元材料のバンド構造パラメータの決定 Determining band structure parameters of two-dimensional materials by deep learning ( http://arxiv.org/abs/2210.06310v1 ) ライセンス: Link先を確認 | Paul Henderson, Areg Ghazaryan, Alexander A. Zibrov, Andrea F. Young, Maksym Serbyn | (参考訳) 二次元材料の分野は、複雑さを増す新しい高品質な化合物の製造と特性を習得してきた。
このような複合材料のバンド構造パラメータの決定は、定量的理論に必要な主要な要素である。
ab initio法はパラメータの定量的に正確な値を提供しないことが多いが、実験からバンド構造パラメータを推測することは、バンド構造の複雑さと実験プローブの間接的性質によって妨げられている。
本研究では,深層ニューラルネットワークに基づく実験データからバンド構造パラメータを決定する汎用フレームワークを提案する。
具体的な例として, この手法を三層グラフェンの浸透場容量測定に適用し, その状態密度を効果的に測定する。
まず,訓練された深層ネットワークが,強結合パラメータの関数として浸透場容量の正確な予測を行うことを示す。
次に、学習したネットワークからの高速かつ正確な予測を用いて、実験データから直接密結合パラメータを判定し、抽出されたパラメータを文献の値とよく一致させる。
提案手法の他の材料への応用の可能性, 浸透電界容量を超える実験技術について論じる。 The field of two-dimensional materials has mastered the fabrication and characterisation of a broad range of novel high-quality compounds that feature increasing complexity. Determination of the band structure parameters of such complex materials is a major ingredient required for quantitative theory. This task currently presents a formidable challenge: ab initio methods often do not provide quantitatively accurate values of parameters, whereas inferring band structure parameters from experiments is hindered by the complexity of the band structure and indirect nature of experimental probes. In this work we propose a general framework for determination of band structure parameters from experimental data based on deep neural networks. As a specific example we apply our method to the penetration field capacitance measurement of trilayer graphene that effectively probes its density of states. First, we demonstrate that a trained deep network gives accurate predictions for the penetration field capacitance as a function of tight-binding parameters. Next, we use the fast and accurate predictions from the trained network to automatically determine tight-binding parameters directly from experimental data, with extracted parameters being in a good agreement with values in the literature. We conclude by discussing potential applications of our method to other materials and experimental techniques beyond penetration field capacitance. | 翻訳日:2022-10-13 16:19:44 公開日:2022-10-12 |
# 決定木学習とテストのための超多項下限 Superpolynomial Lower Bounds for Decision Tree Learning and Testing ( http://arxiv.org/abs/2210.06375v1 ) ライセンス: Link先を確認 | Caleb Koch and Carmen Strassle and Li-Yang Tan | (参考訳) 決定木最適化問題に対する新しい硬度結果を確立し、1976年にHyafil と Rivest にさかのぼる一連の作業を加えた。
関数 $f$ と分布 $\mathcal{d}$ の明示的な表現を与え、$\mathcal{d}$ 以下の小さな決定木近似器を構築し、$\mathcal{d}$ の下で$f$ の小さな決定木近似器が存在するかどうかを判定する。
この結果から,アルゴリズムが$f$と$\mathcal{D}$にしかアクセスできないような,分散のないPAC学習と決定木テストのための新しい下位境界が示唆された。
具体的には、$n$-variable size-$s$ decision treeは時間$n^{\tilde{O}(\log\log s)}$で学べず、deep-$d$ decision treeは時間$\exp(d^{\,O(1)})$でテストできない。
学習において、以前の最下限は$\text{poly}(n)$-timeアルゴリズム(Alekhnovich, Braverman, Feldman, Klivans, Pitassi, 2009)のみを除外した。
テストのために、最近の研究は、$f$がランダムで$\mathcal{d}$がunexplicit(blais, ferreira pinto jr., harms, 2021)という設定で類似しているが比較できない境界を与える。
Set-Cover の硬さに関する妥当な予想を仮定すると、学習決定木に対する下限は、Ehrenfeucht と Haussler (1989) により、最もよく知られた上限の$n^{O(\log s)}$と一致する$n^{\Omega(\log s)}$に改善できることを示す。
クエリ複雑性に対するset-cover と xor lemmas の近似可能性という,最近の2つの作業の進歩を活かした統一フレームワークで結果を得た。
我々のフレームワークは汎用性があり、juntasやdnf式のような関連する概念クラスの結果をもたらします。 We establish new hardness results for decision tree optimization problems, adding to a line of work that dates back to Hyafil and Rivest in 1976. We prove, under randomized ETH, superpolynomial lower bounds for two basic problems: given an explicit representation of a function $f$ and a generator for a distribution $\mathcal{D}$, construct a small decision tree approximator for $f$ under $\mathcal{D}$, and decide if there is a small decision tree approximator for $f$ under $\mathcal{D}$. Our results imply new lower bounds for distribution-free PAC learning and testing of decision trees, settings in which the algorithm only has restricted access to $f$ and $\mathcal{D}$. Specifically, we show: $n$-variable size-$s$ decision trees cannot be properly PAC learned in time $n^{\tilde{O}(\log\log s)}$, and depth-$d$ decision trees cannot be tested in time $\exp(d^{\,O(1)})$. For learning, the previous best lower bound only ruled out $\text{poly}(n)$-time algorithms (Alekhnovich, Braverman, Feldman, Klivans, and Pitassi, 2009). For testing, recent work gives similar though incomparable bounds in the setting where $f$ is random and $\mathcal{D}$ is nonexplicit (Blais, Ferreira Pinto Jr., and Harms, 2021). Assuming a plausible conjecture on the hardness of Set-Cover, we show our lower bound for learning decision trees can be improved to $n^{\Omega(\log s)}$, matching the best known upper bound of $n^{O(\log s)}$ due to Ehrenfeucht and Haussler (1989). We obtain our results within a unified framework that leverages recent progress in two lines of work: the inapproximability of Set-Cover and XOR lemmas for query complexity. Our framework is versatile and yields results for related concept classes such as juntas and DNF formulas. | 翻訳日:2022-10-13 16:19:29 公開日:2022-10-12 |
# 呼吸運動(CMRxMotion)による超急性期MRI診断の試み The Extreme Cardiac MRI Analysis Challenge under Respiratory Motion (CMRxMotion) ( http://arxiv.org/abs/2210.06385v1 ) ライセンス: Link先を確認 | Shuo Wang, Chen Qin, Chengyan Wang, Kang Wang, Haoran Wang, Chen Chen, Cheng Ouyang, Xutong Kuang, Chengliang Dai, Yuanhan Mo, Zhang Shi, Chenchen Dai, Xinrong Chen, He Wang and Wenjia Bai | (参考訳) 心臓磁気共鳴(CMR)画像の画質は呼吸運動アーチファクトの影響を受けやすい。
実世界の呼吸運動アーチファクトに直面する自動セグメンテーション技術のモデルロバスト性は明らかでない。
CMRxMotion Challenge (CMRxMotion Challenge) における超急性期MRI画像解析の課題について述べる。
この課題は、イメージ品質に対する呼吸運動の影響を評価し、セグメンテーションモデルの堅牢性を調べるために、公開ベンチマークデータセットを確立することである。
課題は、40人の健康なボランティアを雇い、1回の画像訪問中に異なる呼吸保持行動を行い、人工物と組み合わせたシネ画像を得る。
放射線学者は、画像の品質を評価し、呼吸運動アーティファクトのレベルを注釈した。
診断精度の高い画像では, 左心室, 左心室, 右心室を更に区分けした。
訓練セット(20名のボランティア)とアノテーションのイメージを参加者に開放し、自動画像品質評価モデル(タスク1)と自動セグメンテーションモデル(タスク2)を開発する。
検証セットのイメージ(5人のボランティア)を課題参加者に公開するが、アノテーションは提出された予測のオンライン評価のために保持される。
テストセットのイメージとアノテーション(15人のボランティア)はいずれも保持されず、コンテナドッキングのオフライン評価にのみ使用された。
画像品質評価タスクはコーエンのカッパ統計によって定量的に評価され、セグメンテーションタスクはディーススコアとハウスドルフ距離によって評価される。 The quality of cardiac magnetic resonance (CMR) imaging is susceptible to respiratory motion artifacts. The model robustness of automated segmentation techniques in face of real-world respiratory motion artifacts is unclear. This manuscript describes the design of extreme cardiac MRI analysis challenge under respiratory motion (CMRxMotion Challenge). The challenge aims to establish a public benchmark dataset to assess the effects of respiratory motion on image quality and examine the robustness of segmentation models. The challenge recruited 40 healthy volunteers to perform different breath-hold behaviors during one imaging visit, obtaining paired cine imaging with artifacts. Radiologists assessed the image quality and annotated the level of respiratory motion artifacts. For those images with diagnostic quality, radiologists further segmented the left ventricle, left ventricle myocardium and right ventricle. The images of training set (20 volunteers) along with the annotations are released to the challenge participants, to develop an automated image quality assessment model (Task 1) and an automated segmentation model (Task 2). The images of validation set (5 volunteers) are released to the challenge participants but the annotations are withheld for online evaluation of submitted predictions. Both the images and annotations of the test set (15 volunteers) were withheld and only used for offline evaluation of submitted containerized dockers. The image quality assessment task is quantitatively evaluated by the Cohen's kappa statistics and the segmentation task is evaluated by the Dice scores and Hausdorff distances. | 翻訳日:2022-10-13 16:17:59 公開日:2022-10-12 |
# mecネットワークにおけるマルチモデルトランスフォーマによる多コンテンツ時系列人気予測 Multi-Content Time-Series Popularity Prediction with Multiple-Model Transformers in MEC Networks ( http://arxiv.org/abs/2210.05874v1 ) ライセンス: Link先を確認 | Zohreh HajiAkhondi-Meybodi, Arash Mohammadi, Ming Hou, Elahe Rahimian, Shahin Heidarian, Jamshid Abouei, Konstantinos N. Plataniotis | (参考訳) モバイルエッジキャッシング(mec)におけるコーディング/アンコードされたコンテンツ配置は、キャッシングノードのストレージにおけるコンテンツの多様性を高めることによって、グローバルなモバイルデータトラフィックの大幅な成長に対応する効率的なソリューションとして進化した。
マルチメディアコンテンツの履歴要求パターンの動的な性質を満たすために,最近の研究の焦点は,データ駆動型およびリアルタイムキャッシュ方式の開発に移されている。
この点において、ユーザの嗜好が短期的に変化し続けると仮定して、トップkの人気コンテンツが学習モデルの出力として識別される。
しかし、既存のデータ駆動人気予測モデルは、コーディング/アンコードされたコンテンツ配置フレームワークには適していない。
一方、符号化/アンコードされたコンテンツ配置では、コンテンツが2つのグループ、すなわち人気と非人気に分類されるだけでなく、コンテンツ要求の確率は、既存のデータ駆動の人気予測モデルでは提供されていない、部分的/完全的に保存すべきコンテンツを特定するために必要となる。
一方、ユーザの好みが短期的には変わらないという仮定は、スムーズなリクエストパターンを持つコンテンツに対してのみ有効である。
これらの課題に取り組むため,我々は,マルチモデル(ハイブリッド)トランスフォーマーベースのエッジキャッシング(mtec)フレームワークを開発した。
シミュレーション結果は,キャッシュヒット比,分類精度,転送バイト量の観点から,提案したMTECキャッシュフレームワークの有効性を比較検討した。 Coded/uncoded content placement in Mobile Edge Caching (MEC) has evolved as an efficient solution to meet the significant growth of global mobile data traffic by boosting the content diversity in the storage of caching nodes. To meet the dynamic nature of the historical request pattern of multimedia contents, the main focus of recent researches has been shifted to develop data-driven and real-time caching schemes. In this regard and with the assumption that users' preferences remain unchanged over a short horizon, the Top-K popular contents are identified as the output of the learning model. Most existing datadriven popularity prediction models, however, are not suitable for the coded/uncoded content placement frameworks. On the one hand, in coded/uncoded content placement, in addition to classifying contents into two groups, i.e., popular and nonpopular, the probability of content request is required to identify which content should be stored partially/completely, where this information is not provided by existing data-driven popularity prediction models. On the other hand, the assumption that users' preferences remain unchanged over a short horizon only works for content with a smooth request pattern. To tackle these challenges, we develop a Multiple-model (hybrid) Transformer-based Edge Caching (MTEC) framework with higher generalization ability, suitable for various types of content with different time-varying behavior, that can be adapted with coded/uncoded content placement frameworks. Simulation results corroborate the effectiveness of the proposed MTEC caching framework in comparison to its counterparts in terms of the cache-hit ratio, classification accuracy, and the transferred byte volume. | 翻訳日:2022-10-13 16:17:08 公開日:2022-10-12 |
# COVID-19患者の3徴候の経時的変化と臨床像の経時的変化予測 Deterioration Prediction using Time-Series of Three Vital Signs and Current Clinical Features Amongst COVID-19 Patients ( http://arxiv.org/abs/2210.05881v1 ) ライセンス: Link先を確認 | Sarmad Mehrdad, Farah E. Shamout, Yao Wang, S. Farokh Atashzar | (参考訳) 認知されていない患者の悪化は、高い致命率と死亡につながる可能性がある。
既存の劣化予測モデルの多くは、医療画像や総合的な検査など、病院で一般的に収集される多くの臨床情報を必要とする。
これは遠隔医療では不可能であり、最小限のデータに基づく劣化予測モデルのギャップを浮き彫りにして、診療所や老人ホーム、さらには患者の自宅でも大規模に記録することができる。
本研究では,今後3~24時間に患者が悪化するかどうかを予測できる予後予測モデルを提案する。
モデルは連続して3進的な記号を処理します。
(a)酸素飽和
(b)心拍数、及び
(c)温度。
このモデルは、性別、年齢、ワクチン接種状況、予防接種日、肥満、高血圧、糖尿病などの基本的な患者情報も備えている。
ニューヨーク・ラングーン・ヘルスで37,006人のCOVID-19患者から収集したデータを用いてモデルを訓練・評価した。
このモデルは324時間劣化予測のために、0.808-0.880の受信動作特性曲線(AUROC)の領域を達成する。
また,各入力特徴の重要性を評価するために咬合実験を行い,バイタルサインの変動を継続的に観察する意義を明らかにする。
ウェアラブルデバイスと自己申告した患者情報を用いて比較的容易に得られる最小特徴セットを用いて,正確な劣化予測を行う可能性を示した。 Unrecognized patient deterioration can lead to high morbidity and mortality. Most existing deterioration prediction models require a large number of clinical information, typically collected in hospital settings, such as medical images or comprehensive laboratory tests. This is infeasible for telehealth solutions and highlights a gap in deterioration prediction models that are based on minimal data, which can be recorded at a large scale in any clinic, nursing home, or even at the patient's home. In this study, we propose and develop a prognostic model that predicts if a patient will experience deterioration in the forthcoming 3-24 hours. The model sequentially processes routine triadic vital signs: (a) oxygen saturation, (b) heart rate, and (c) temperature. The model is also provided with basic patient information, including sex, age, vaccination status, vaccination date, and status of obesity, hypertension, or diabetes. We train and evaluate the model using data collected from 37,006 COVID-19 patients at NYU Langone Health in New York, USA. The model achieves an area under the receiver operating characteristic curve (AUROC) of 0.808-0.880 for 3-24 hour deterioration prediction. We also conduct occlusion experiments to evaluate the importance of each input feature, where the results reveal the significance of continuously monitoring the variations of the vital signs. Our results show the prospect of accurate deterioration forecast using a minimum feature set that can be relatively easily obtained using wearable devices and self-reported patient information. | 翻訳日:2022-10-13 16:16:39 公開日:2022-10-12 |
# 非凸最適化のためのMomentum Accelerated Adaptive Cubic Regularization法 A Momentum Accelerated Adaptive Cubic Regularization Method for Nonconvex Optimization ( http://arxiv.org/abs/2210.05987v1 ) ライセンス: Link先を確認 | Yihang Gao, Michael K. Ng | (参考訳) 立方体正規化法(CR)とその適応版(ARC)は、温和条件下で局所最小値への大域収束のため、制約のない非凸最適化問題の解法としてニュートン方式で人気がある。
本研究の主な目的は、収束性能を向上させるために運動量加速度適応型立方正則化法(ARCm)を開発することである。
運動量ステップサイズの適切な選択により、ARCm の大域収束と局所収束も \KL の性質の下で保証されることを示す。
このような大域的および局所的な収束は、計算コストの低い不正確な解法が反復手順で用いられる場合にも成立する。
非凸ロジスティック回帰モデルとロバスト線形回帰モデルの数値計算結果から,提案したARCmは最先端の立方正則化法(CR,運動量に基づくCR,ARC)と信頼領域法を著しく上回ることを示した。
特に、ARCmが要求する反復回数は、実験において最も競争力のある手法(ARC)が要求する10\%から50\%未満である。 The cubic regularization method (CR) and its adaptive version (ARC) are popular Newton-type methods in solving unconstrained non-convex optimization problems, due to its global convergence to local minima under mild conditions. The main aim of this paper is to develop a momentum-accelerated adaptive cubic regularization method (ARCm) to improve the convergent performance. With the proper choice of momentum step size, we show the global convergence of ARCm and the local convergence can also be guaranteed under the \KL property. Such global and local convergence can also be established when inexact solvers with low computational costs are employed in the iteration procedure. Numerical results for non-convex logistic regression and robust linear regression models are reported to demonstrate that the proposed ARCm significantly outperforms state-of-the-art cubic regularization methods (e.g., CR, momentum-based CR, ARC) and the trust region method. In particular, the number of iterations required by ARCm is less than 10\% to 50\% required by the most competitive method (ARC) in the experiments. | 翻訳日:2022-10-13 16:16:15 公開日:2022-10-12 |
# CLEEGN: プラグアンドプレイ自動脳波再構成のための畳み込みニューラルネットワーク CLEEGN: A Convolutional Neural Network for Plug-and-Play Automatic EEG Reconstruction ( http://arxiv.org/abs/2210.05988v1 ) ライセンス: Link先を確認 | Pin-Hua Lai, Wei-Chun Yang, Hsiang-Chieh Tsou, Chun-Shu Wei | (参考訳) ヒト脳波(Human Electroencephalography、EEG)は、高時間分解能で皮質神経電気生理学的活動を検出する脳波モニタリング法である。
eegの適用によって生じる最大の課題の1つは、記録中に避けられないアーティファクトに影響を受けやすい不安定な信号品質である。
現在までに、脳波アーチファクトの除去と再構築のための既存の技術は、オフライン分析のみに適用されているか、あるいはオンライン再構築を容易にするために個別のトレーニングデータが必要である。
脳波自動再構成のための新しい畳み込みニューラルネットワークであるCLEEGNを提案する。
CLEEGNは、既存のデータを使った主観非依存の事前訓練モデルに基づいており、さらなるキャリブレーションなしで新しいユーザーで操作できる。
cleegnの性能は,よく検討されたラベル付きデータセットの波形観測,再構成誤差評価,復号精度など複数の評価を用いて検証した。
模擬オンライン検証の結果, 校正がなくても, CLEEGNは脳活動の維持に大きく貢献し, 再構成された脳波データの復号精度において, オンライン/オフラインのアーティファクト除去手法を先導する性能を発揮することが示唆された。
さらに、モデルパラメータと潜在特徴の可視化はモデル行動を示し、既存の神経科学知識に関する説明可能な洞察を明らかにする。
我々は、CLEEGNの広範囲な応用を、オンラインプラグアンドプレイ脳波復号と分析の今後の研究に期待する。 Human electroencephalography (EEG) is a brain monitoring modality that senses cortical neuroelectrophysiological activity in high-temporal resolution. One of the greatest challenges posed in applications of EEG is the unstable signal quality susceptible to inevitable artifacts during recordings. To date, most existing techniques for EEG artifact removal and reconstruction are applicable to offline analysis solely, or require individualized training data to facilitate online reconstruction. We have proposed CLEEGN, a novel convolutional neural network for plug-and-play automatic EEG reconstruction. CLEEGN is based on a subject-independent pre-trained model using existing data and can operate on a new user without any further calibration. The performance of CLEEGN was validated using multiple evaluations including waveform observation, reconstruction error assessment, and decoding accuracy on well-studied labeled datasets. The results of simulated online validation suggest that, even without any calibration, CLEEGN can largely preserve inherent brain activity and outperforms leading online/offline artifact removal methods in the decoding accuracy of reconstructed EEG data. In addition, visualization of model parameters and latent features exhibit the model behavior and reveal explainable insights related to existing knowledge of neuroscience. We foresee pervasive applications of CLEEGN in prospective works of online plug-and-play EEG decoding and analysis. | 翻訳日:2022-10-13 16:15:52 公開日:2022-10-12 |
# Generative Adversarial Nets: 1つのトレーニングセットのみに基づいて新しいデータセットを生成することができるか? Generative Adversarial Nets: Can we generate a new dataset based on only one training set? ( http://arxiv.org/abs/2210.06005v1 ) ライセンス: Link先を確認 | Lan V. Truong | (参考訳) generative adversarial network(gan)は、2014年にgoodfellowらによって設計された機械学習フレームワークである。
GANフレームワークでは、生成モデルは、サンプルがモデル分布かデータ分布であるかを判断するために学習する識別モデルである敵に対してピットされる。
GANはトレーニングセットと同じ分布から新しいサンプルを生成する。
本研究では、トレーニングセットとは異なる分布を持つ新しいデータセットを作成することを目的とする。
さらに、生成データセットとトレーニングデータセットの分布の間のジェンセン=シャノンの発散は、いくつかのターゲット$\delta \in [0, 1]$で制御できる。
我々の仕事は、良質な米と似た特徴を持つ新米を生産する用途に動機づけられている。 A generative adversarial network (GAN) is a class of machine learning frameworks designed by Goodfellow et al. in 2014. In the GAN framework, the generative model is pitted against an adversary: a discriminative model that learns to determine whether a sample is from the model distribution or the data distribution. GAN generates new samples from the same distribution as the training set. In this work, we aim to generate a new dataset that has a different distribution from the training set. In addition, the Jensen-Shannon divergence between the distributions of the generative and training datasets can be controlled by some target $\delta \in [0, 1]$. Our work is motivated by applications in generating new kinds of rice that have similar characteristics as good rice. | 翻訳日:2022-10-13 16:15:26 公開日:2022-10-12 |
# SpecRNet: より高速でアクセシブルなオーディオディープフェイク検出を目指す SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection ( http://arxiv.org/abs/2210.06105v1 ) ライセンス: Link先を確認 | Piotr Kawa, Marcin Plata, Piotr Syga | (参考訳) オーディオディープフェイク(Audio DeepFakes)は、ディープニューラルネットワークを使用した発話である。
彼らは非常に誤解を招き、フェイクニュース、偽造、またはゆがみで脅かされている。
本研究では,早い推論時間と少ない計算要求で特徴付けられるニューラルネットワークアーキテクチャであるspecrnetを提供することにより,オーディオディープフェイク検出手法へのアクセシビリティ向上に重点を置く。
我々のベンチマークでは、オーディオサンプルを処理するのに最大40%の時間を要するSpecRNetが、最高のオーディオDeepFake検出モデルであるLCNNアーキテクチャに匹敵するパフォーマンスを提供することを示している。
このような方法は、オンラインマルチメディアサービスによって毎日アップロードされる大量のコンテンツを検証するだけでなく、平均的な市民がデバイス上の資料を評価することの要件の低さから利用することができる。
さらに、モデルの正確性を確認する3つのユニークな設定でベンチマークを提供する。
低リソースデータセットのシナリオ、短い発話の検出、限定的な攻撃ベンチマークを反映して、特定の攻撃が特定のアーキテクチャに与える影響を詳しく調べる。 Audio DeepFakes are utterances generated with the use of deep neural networks. They are highly misleading and pose a threat due to use in fake news, impersonation, or extortion. In this work, we focus on increasing accessibility to the audio DeepFake detection methods by providing SpecRNet, a neural network architecture characterized by a quick inference time and low computational requirements. Our benchmark shows that SpecRNet, requiring up to about 40% less time to process an audio sample, provides performance comparable to LCNN architecture - one of the best audio DeepFake detection models. Such a method can not only be used by online multimedia services to verify a large bulk of content uploaded daily but also, thanks to its low requirements, by average citizens to evaluate materials on their devices. In addition, we provide benchmarks in three unique settings that confirm the correctness of our model. They reflect scenarios of low-resource datasets, detection on short utterances and limited attacks benchmark in which we take a closer look at the influence of particular attacks on given architectures. | 翻訳日:2022-10-13 16:15:09 公開日:2022-10-12 |
# 加算型セキュア多要素計算によるQR分解のプライバシー Privacy of federated QR decomposition using additive secure multiparty computation ( http://arxiv.org/abs/2210.06163v1 ) ライセンス: Link先を確認 | Anne Hartebrodt and Richard R\"ottger | (参考訳) フェデレーション・ラーニング(federated learning, fl)は、プライバシーを意識したデータマイニング戦略である。
クライアントはローカルモデルを計算し、グローバルモデルを計算するアグリゲータに送信する。
ハイブリッドFLでは、クライアント固有の更新ではなく、グローバル集約統計のみをクリアテキストで利用できるように、ローカルパラメータをセキュアアグリゲーションを使用してマスクする。
フェデレートQR分解は、クロスサイロ・フェデレーション学習の文脈で広く研究されていない。
本稿では,クロスサイロflのための3つのqr分解アルゴリズムの適合性を検証し,生データをぼんやりと漏らさないgram-schmidtアルゴリズムに基づくプライバシ対応qr分解スキームを提案する。
このアルゴリズムを用いて線形回帰をフェデレートした方法で計算する。 Federated learning (FL) is a privacy-aware data mining strategy keeping the private data on the owners' machine and thereby confidential. The clients compute local models and send them to an aggregator which computes a global model. In hybrid FL, the local parameters are additionally masked using secure aggregation, such that only the global aggregated statistics become available in clear text, not the client specific updates. Federated QR decomposition has not been studied extensively in the context of cross-silo federated learning. In this article, we investigate the suitability of three QR decomposition algorithms for cross-silo FL and suggest a privacy-aware QR decomposition scheme based on the Gram-Schmidt algorithm which does not blatantly leak raw data. We apply the algorithm to compute linear regression in a federated manner. | 翻訳日:2022-10-13 16:08:34 公開日:2022-10-12 |
# 深部強化学習による平滑な軌道衝突回避 Smooth Trajectory Collision Avoidance through Deep Reinforcement Learning ( http://arxiv.org/abs/2210.06377v1 ) ライセンス: Link先を確認 | Sirui Song, Kirk Saunders, Ye Yue, Jundong Liu | (参考訳) 衝突回避は視覚誘導自律ナビゲーションにおいて重要なタスクである。
深層強化学習(DRL)に基づくソリューションが普及している。
本研究では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
1) 訓練飛行軌道の滑らかさ,及び
2)未熟な環境を扱うためのモデル一般化。
DRLの枠組みで定式化したモデルでは、衝突の確率を大幅に低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
提案された滑らかさの報奨は、飛行軌跡の1次および2次微分の組み合わせを最小化し、ポイントを均等に分散させることで飛行速度を安定させる。
新たな未知環境を扱うエージェントの能力を高めるために,異なるシーンに配置する際の状態と報酬関数の相違を改善するために,2つの実用的なセットアップを提案する。
実験は、全体的な設計と個々のコンポーネントの有効性を示す。 Collision avoidance is a crucial task in vision-guided autonomous navigation. Solutions based on deep reinforcement learning (DRL) has become increasingly popular. In this work, we proposed several novel agent state and reward function designs to tackle two critical issues in DRL-based navigation solutions: 1) smoothness of the trained flight trajectories; and 2) model generalization to handle unseen environments. Formulated under a DRL framework, our model relies on margin reward and smoothness constraints to ensure UAVs fly smoothly while greatly reducing the chance of collision. The proposed smoothness reward minimizes a combination of first-order and second-order derivatives of flight trajectories, which can also drive the points to be evenly distributed, leading to stable flight speed. To enhance the agent's capability of handling new unseen environments, two practical setups are proposed to improve the invariance of both the state and reward function when deploying in different scenes. Experiments demonstrate the effectiveness of our overall design and individual components. | 翻訳日:2022-10-13 16:07:25 公開日:2022-10-12 |
# 合成トレーニングデータを用いたrgbカメラによるユーロパレットのポーズ推定 Estimating the Pose of a Euro Pallet with an RGB Camera based on Synthetic Training Data ( http://arxiv.org/abs/2210.06001v1 ) ライセンス: Link先を確認 | Markus Knitt, Jakob Schyga, Asan Adamanov, Johannes Hinckeldeyn, Jochen Kreutzfeldt | (参考訳) パレットや他のロジスティクスオブジェクトのポーズの推定は、自動化されたマテリアルハンドリングやトラッキングなど、さまざまなユースケースにおいて不可欠である。
コンピュータビジョン、コンピューティングパワー、機械学習の革新は、カメラとニューラルネットワークに基づくデバイスフリーなローカライゼーションの新たな機会を開く。
ネットワークのトレーニングには、注釈付きのポーズを持つ大規模なイメージデータセットが必要である。
手動アノテーション、特に6dポーズは、非常に労働集約的なプロセスです。
したがって、新しいアプローチは、しばしば合成トレーニングデータを利用して、注釈付き画像データセットを生成するプロセスを自動化する。
本研究では,パレットの6次元ポーズ推定のための合成トレーニングデータの生成について述べる。
データは、Deep Object Pose Estimation (DOPE)アルゴリズムのトレーニングに使用される。
このアルゴリズムの実験的検証により,RGBカメラを用いた標準ユーロパレットの6次元ポーズ推定が可能であることが証明された。
異なる照明条件下での3つの異なるデータセットの結果の比較は、正確なロバストなローカライゼーションを実現するための適切なデータセット設計の関連性を示している。
定量的評価の結果,好適データセットの平均位置誤差は20cm以下であった。
検証済みのトレーニングデータセット及びユーロパレットのフォトリアリスティックモデルが公開されている。 Estimating the pose of a pallet and other logistics objects is crucial for various use cases, such as automatized material handling or tracking. Innovations in computer vision, computing power, and machine learning open up new opportunities for device-free localization based on cameras and neural networks. Large image datasets with annotated poses are required for training the network. Manual annotation, especially of 6D poses, is an extremely labor-intensive process. Hence, newer approaches often leverage synthetic training data to automatize the process of generating annotated image datasets. In this work, the generation of synthetic training data for 6D pose estimation of pallets is presented. The data is then used to train the Deep Object Pose Estimation (DOPE) algorithm. The experimental validation of the algorithm proves that the 6D pose estimation of a standardized Euro pallet with a Red-Green-Blue (RGB) camera is feasible. The comparison of the results from three varying datasets under different lighting conditions shows the relevance of an appropriate dataset design to achieve an accurate and robust localization. The quantitative evaluation shows an average position error of less than 20 cm for the preferred dataset. The validated training dataset and a photorealistic model of a Euro pallet are publicly provided. | 翻訳日:2022-10-13 16:06:43 公開日:2022-10-12 |
# 連結・自動運転のための効率的かつロバストなオブジェクトレベル協調認識フレームワーク An Efficient and Robust Object-Level Cooperative Perception Framework for Connected and Automated Driving ( http://arxiv.org/abs/2210.06289v1 ) ライセンス: Link先を確認 | Zhiying Song, Fuxi Wen, Hailiang Zhang, Jun Li | (参考訳) 特に車両の位置やポーズ情報が不正確である場合には、リアルタイムの要求と帯域制限のため、コラボレーティブな認識は自動運転では困難である。
本研究では,3dバウンディングボックス,位置,ポーズのデータを,連結車両間でブロードキャストして受信し,オブジェクトレベルで融合する,効率的なオブジェクトレベルの協調知覚フレームワークを提案する。
2つの反復閉点(ICP)と最適輸送理論に基づくマッチングアルゴリズムを開発し、車両が共同で検出した3次元境界箱間の総相関を最大化する。
実験の結果、各フレームごとに異なる車両からオブジェクトを関連付けるのに5msしかかからず、異なるレベルの位置と方向誤差に対して堅牢な性能が達成されている。
一方、提案フレームワークは、位置やエラー発生時の最先端ベンチマーク手法よりも優れている。 Cooperative perception is challenging for connected and automated driving because of the real-time requirements and bandwidth limitation, especially when the vehicle location and pose information are inaccurate. We propose an efficient object-level cooperative perception framework, in which data of the 3D bounding boxes, location, and pose are broadcast and received between the connected vehicles, then fused at the object level. Two Iterative Closest Point (ICP) and Optimal Transport theory-based matching algorithms are developed to maximize the total correlations between the 3D bounding boxes jointly detected by the vehicles. Experiment results show that it only takes 5ms to associate objects from different vehicles for each frame, and robust performance is achieved for different levels of location and heading errors. Meanwhile, the proposed framework outperforms the state-of-the-art benchmark methods when location or pose errors occur. | 翻訳日:2022-10-13 16:05:49 公開日:2022-10-12 |
# 一般凸集合上のオフラインおよびオンライン非単調DR-サブモジュラー最大化の近似可能性の解消 Resolving the Approximability of Offline and Online Non-monotone DR-Submodular Maximization over General Convex Sets ( http://arxiv.org/abs/2210.05965v1 ) ライセンス: Link先を確認 | Loay Mualem and Moran Feldman | (参考訳) 近年、dr-サブモジュラー連続関数の最大化は重要な研究分野となり、機械学習、通信システム、運用研究、経済学の領域で多くの実世界の応用が行われている。
この分野の研究の多くは、Vondr\'ak (2013) による不適応性による下閉凸集合の制約によって最大化される。
しかし、dur et al. (2021) は、任意の可算ベクトルの最小$\ell_{\infty}$-norm の関数である近似比を証明して、この近似可能性を回避することができることを示した。
この観察から、一般凸集合制約を受けるDR-部分モジュラ函数を最大化するための結果を得ることができ、この問題に関して複数の研究がなされている。
直近の多項式時間 $\tfrac{1}{4}(1m)$-approximation オフラインアルゴリズムは du (2022) によるものである。
しかし、対応するオンライン問題では、サブ指数時間 $\tfrac{1}{3\sqrt{3}}(1 - m)$-approximation アルゴリズムのみが知られている。
本研究では,最先端オフラインアルゴリズムの$\tfrac{1}{4}(1m)$を近似した多項式時間オンラインアルゴリズムを提案する。
また,我々のオンラインアルゴリズムとdu(2022)オフラインアルゴリズムがどちらも強い意味で最適であることを示す近似可能性結果を示す。
最後に,我々のアルゴリズムとduのアルゴリズム(理論上は以前にしか研究されていなかった)の実証的性能について検討し,収益の最大化,位置要約,二次プログラミングアプリケーションにおいて,従来提案していたアルゴリズムを一貫して上回っていることを示す。 In recent years, maximization of DR-submodular continuous functions became an important research field, with many real-worlds applications in the domains of machine learning, communication systems, operation research and economics. Most of the works in this field study maximization subject to down-closed convex set constraints due to an inapproximability result by Vondr\'ak (2013). However, Durr et al. (2021) showed that one can bypass this inapproximability by proving approximation ratios that are functions of $m$, the minimum $\ell_{\infty}$-norm of any feasible vector. Given this observation, it is possible to get results for maximizing a DR-submodular function subject to general convex set constraints, which has led to multiple works on this problem. The most recent of which is a polynomial time $\tfrac{1}{4}(1 - m)$-approximation offline algorithm due to Du (2022). However, only a sub-exponential time $\tfrac{1}{3\sqrt{3}}(1 - m)$-approximation algorithm is known for the corresponding online problem. In this work, we present a polynomial time online algorithm matching the $\tfrac{1}{4}(1 - m)$-approximation of the state-of-the-art offline algorithm. We also present an inapproximability result showing that our online algorithm and Du's (2022) offline algorithm are both optimal in a strong sense. Finally, we study the empirical performance of our algorithm and the algorithm of Du (which was only theoretically studied previously), and show that they consistently outperform previously suggested algorithms on revenue maximization, location summarization and quadratic programming applications. | 翻訳日:2022-10-13 15:59:51 公開日:2022-10-12 |
# 初等学習を伴わないテーブルのクラスタリング Clustering Embedding Tables, Without First Learning Them ( http://arxiv.org/abs/2210.05974v1 ) ライセンス: Link先を確認 | Henry Ling-Hei Tsang, Thomas Dybdahl Ahle | (参考訳) 分類的特徴を扱うために、機械学習システムは埋め込みテーブルを使用する。
これらの表は、現代のレコメンデーションシステムにおいて非常に大きくなり、トレーニング中にも記憶に適合する新しい方法の開発が必要となる。
テーブル圧縮の最も成功した手法は積量子化と残留ベクトル量子化である(gray & neuhoff, 1998)。
これらのメソッドはテーブル行をk-meansクラスタ化された"codewords"への参照に置き換える。
残念ながら、これは、テーブルを圧縮する前に最初に知る必要があることを意味するので、トレーニングではなく推論中にメモリを保存するだけである。
最近の研究では、トレーニング中のメモリ使用量を最小化するためにハッシュベースのアプローチが使用されているが、得られた圧縮は「後トレーニング」量子化によって得られるものよりも劣っている。
ハッシュとクラスタリングに基づく手法を組み合わせることで,両世界のベストが得られ得ることを示す。
まず、ハッシュベースの「スケッチ」を訓練し、クラスタ化し、クラスタ化量子化を訓練することにより、ハッシュベースの手法のトレーニング時間メモリ削減による後処理量子化に近い圧縮比を達成する。
提案手法は,従来の手法よりも圧縮精度や精度が向上し,最小二乗訓練において常に最適な埋め込みテーブルに収束することを示す。 To work with categorical features, machine learning systems employ embedding tables. These tables can become exceedingly large in modern recommendation systems, necessitating the development of new methods for fitting them in memory, even during training. Some of the most successful methods for table compression are Product- and Residual Vector Quantization (Gray & Neuhoff, 1998). These methods replace table rows with references to k-means clustered "codewords." Unfortunately, this means they must first know the table before compressing it, so they can only save memory during inference, not training. Recent work has used hashing-based approaches to minimize memory usage during training, but the compression obtained is inferior to that obtained by "post-training" quantization. We show that the best of both worlds may be obtained by combining techniques based on hashing and clustering. By first training a hashing-based "sketch", then clustering it, and then training the clustered quantization, our method achieves compression ratios close to those of post-training quantization with the training time memory reductions of hashing-based methods. We show experimentally that our method provides better compression and/or accuracy that previous methods, and we prove that our method always converges to the optimal embedding table for least-squares training. | 翻訳日:2022-10-13 15:59:21 公開日:2022-10-12 |
# 人間の定義した制約を保ちながら、実現可能で望ましい反事実生成 Feasible and Desirable Counterfactual Generation by Preserving Human Defined Constraints ( http://arxiv.org/abs/2210.05993v1 ) ライセンス: Link先を確認 | Homayun Afrabandpey, Michael Spranger | (参考訳) 本稿では,グローバルかつ局所的な実現可能性の制約を保った対実的(CF)説明を生成するための,ループ内の人間的アプローチを提案する。
グローバル実行可能性制約は、実行可能なCF説明を生成するのに必要な因果制約を指す。
単項および二項の因果制約に関する知識を持つドメインエキスパートを仮定すると、この知識を効果的に利用して、これらの制約に違反する勾配ステップを拒否することでCF説明を生成する。
ローカル実行可能性制約は、望ましいCF説明を生成するエンドユーザの制約を符号化する。
我々は,これらの制約をモデルのエンドユーザから抽出し,ユーザ定義距離メトリクスを用いてcf生成時に活用する。
本研究では,cf生成時に因果的制約を組み込むことにより,参加者に対する実現可能性や期待可能性の観点で説明が著しく向上することを示す。
局所的およびグローバルな実行可能性制約を同時に採用することは、ユーザの満足度は向上するが、グローバルな制約のみを取り入れることに比べ、参加者の望ましさを大幅に改善するものではない。 We present a human-in-the-loop approach to generate counterfactual (CF) explanations that preserve global and local feasibility constraints. Global feasibility constraints refer to the causal constraints that are necessary for generating actionable CF explanation. Assuming a domain expert with knowledge on unary and binary causal constraints, our approach efficiently employs this knowledge to generate CF explanation by rejecting gradient steps that violate these constraints. Local feasibility constraints encode end-user's constraints for generating desirable CF explanation. We extract these constraints from the end-user of the model and exploit them during CF generation via user-defined distance metric. Through user studies, we demonstrate that incorporating causal constraints during CF generation results in significantly better explanations in terms of feasibility and desirability for participants. Adopting local and global feasibility constraints simultaneously, although improves user satisfaction, does not significantly improve desirability of the participants compared to only incorporating global constraints. | 翻訳日:2022-10-13 15:59:01 公開日:2022-10-12 |
# SARAHに基づく確率的有限和共役変分不等式に対する変分推定アルゴリズム SARAH-based Variance-reduced Algorithm for Stochastic Finite-sum Cocoercive Variational Inequalities ( http://arxiv.org/abs/2210.05994v1 ) ライセンス: Link先を確認 | Aleksandr Beznosikov, Alexander Gasnikov | (参考訳) 変分不等式は、多くの応用を含む広い形式主義である。
機械学習などの応用によって動機付けられた確率的手法は非常に重要である。
本稿では,確率的有限和共役変分不等式の問題を考える。
そこで本研究では,SARAH分散低減手法に基づく手法の収束性について検討する。
強単調問題に対しては,この手法を用いて解への線形収束を実現できることを示す。
実験により,本手法の重要性と実用性を確認した。 Variational inequalities are a broad formalism that encompasses a vast number of applications. Motivated by applications in machine learning and beyond, stochastic methods are of great importance. In this paper we consider the problem of stochastic finite-sum cocoercive variational inequalities. For this class of problems, we investigate the convergence of the method based on the SARAH variance reduction technique. We show that for strongly monotone problems it is possible to achieve linear convergence to a solution using this method. Experiments confirm the importance and practical applicability of our approach. | 翻訳日:2022-10-13 15:58:41 公開日:2022-10-12 |
# 粒子に基づく流体力学学習のためのモーメントの保証保存 Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics ( http://arxiv.org/abs/2210.06036v1 ) ライセンス: Link先を確認 | Lukas Prantl, Benjamin Ummenhofer, Vladlen Koltun, Nils Thuerey | (参考訳) 学習物理シミュレーションにおいて線形運動量を保証する新しい手法を提案する。
既存の手法と異なり, 反対称連続畳み込み層によって実現される強い制約により運動量の保存を強制する。
これらの厳密な制約を階層的ネットワークアーキテクチャ、注意深く構築された再サンプリングスキーム、時間的コヒーレンスのためのトレーニングアプローチと組み合わせる。
提案手法を組み合わせることで,学習シミュレータの物理的精度を大幅に向上させることができる。
さらに, 引き起こされる物理的バイアスにより, 一般化性能が著しく向上し, 未確認のテストケースでは信頼性が向上する。
提案手法を,様々な,挑戦的な流体シナリオで評価する。
中でも,我々は,100万粒子までの新たなシナリオを一般化する手法を実証する。
提案手法は,従来の一般化とトレーニング性能を上回って複雑なダイナミクスを学習できることを示す。
このアプローチの実装はhttps://github.com/tum-pbs/dmcfで利用可能です。 We present a novel method for guaranteeing linear momentum in learned physics simulations. Unlike existing methods, we enforce conservation of momentum with a hard constraint, which we realize via antisymmetrical continuous convolutional layers. We combine these strict constraints with a hierarchical network architecture, a carefully constructed resampling scheme, and a training approach for temporal coherence. In combination, the proposed method allows us to increase the physical accuracy of the learned simulator substantially. In addition, the induced physical bias leads to significantly better generalization performance and makes our method more reliable in unseen test cases. We evaluate our method on a range of different, challenging fluid scenarios. Among others, we demonstrate that our approach generalizes to new scenarios with up to one million particles. Our results show that the proposed algorithm can learn complex dynamics while outperforming existing approaches in generalization and training performance. An implementation of our approach is available at https://github.com/tum-pbs/DMCF. | 翻訳日:2022-10-13 15:58:35 公開日:2022-10-12 |
# controlvae: 物理型文字生成制御系のモデルベース学習 ControlVAE: Model-Based Learning of Generative Controllers for Physics-Based Characters ( http://arxiv.org/abs/2210.06063v1 ) ライセンス: Link先を確認 | Heyuan Yao, Zhenhua Song, Baoquan Chen, Libin Liu | (参考訳) 本稿では,変分オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するための新しいモデルベースフレームワークであるControlVAEを紹介する。
このフレームワークは,多種多様な非組織的な動作シーケンスから,リッチでフレキシブルな潜在能力表現とスキル条件付き生成制御ポリシーを学習し,潜在空間をサンプリングすることで現実的な人間の行動の生成を可能にし,学習したスキルを再利用してさまざまな下流タスクを達成できるようにする。
ControlVAEのトレーニングでは、学習可能な世界モデルを用いて、潜伏空間の直接的な監視と制御ポリシーを実現する。
この世界モデルはシミュレーションシステムの未知のダイナミクスを効果的に捉え、高レベル下流タスクの効率的なモデルベース学習を可能にする。
また,vaeに基づく生成制御ポリシにおける状態条件優先分布を学習し,下流タスクにおける非条件優先性を上回るスキル埋め込みを生成する。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。 In this paper, we introduce ControlVAE, a novel model-based framework for learning generative motion control policies based on variational autoencoders (VAE). Our framework can learn a rich and flexible latent representation of skills and a skill-conditioned generative control policy from a diverse set of unorganized motion sequences, which enables the generation of realistic human behaviors by sampling in the latent space and allows high-level control policies to reuse the learned skills to accomplish a variety of downstream tasks. In the training of ControlVAE, we employ a learnable world model to realize direct supervision of the latent space and the control policy. This world model effectively captures the unknown dynamics of the simulation system, enabling efficient model-based learning of high-level downstream tasks. We also learn a state-conditional prior distribution in the VAE-based generative control policy, which generates a skill embedding that outperforms the non-conditional priors in downstream tasks. We demonstrate the effectiveness of ControlVAE using a diverse set of tasks, which allows realistic and interactive control of the simulated characters. | 翻訳日:2022-10-13 15:58:19 公開日:2022-10-12 |
# E3Bind:タンパク質-リガンドドッキングのためのエンドツーエンドの等価ネットワーク E3Bind: An End-to-End Equivariant Network for Protein-Ligand Docking ( http://arxiv.org/abs/2210.06069v1 ) ライセンス: Link先を確認 | Yangtian Zhang, Huiyu Cai, Chence Shi, Bozitao Zhong, Jian Tang | (参考訳) 特定のタンパク質標的に対するリガンド結合反応のシリコ予測は、薬物発見において決定的だが難しい課題である。
本研究は, ドッキング分子の位置, 配向, 配向の予測を目的とした, ブラインドフレキシブルな自己ドッキングに焦点を当てる。
従来の物理学に基づく手法は通常、不正確なスコアリング機能と高い推論コストに苦しむ。
近年,深層学習技術に基づくデータ駆動手法は,推論時の効率や有望な性能により,関心が高まりつつある。
これらの方法は通常、まずタンパク質とリガンドの間の距離を予測し、その後、予測された距離に基づいて最終的な座標を生成する2段階のアプローチを採用するか、あるいはリガンドのグローバルロート変換を直接予測する。
本稿では,異なる経路を採る。
タンパク質構造予測におけるAlphaFold2の再検討の成功に触発されて,リガンドポーズを反復的に更新するエンドツーエンドの同変ネットワークであるE3Bindを提案する。
E3Bindはドッキングにおける幾何学的制約と結合部位の局所的文脈を慎重に考慮し、タンパク質-リガンド相互作用をモデル化する。
標準ベンチマークデータセットの実験は、従来の、最近提案されたディープラーニング手法と比較して、エンドツーエンドのトレーニング可能なモデルの優れたパフォーマンスを示している。 In silico prediction of the ligand binding pose to a given protein target is a crucial but challenging task in drug discovery. This work focuses on blind flexible selfdocking, where we aim to predict the positions, orientations and conformations of docked molecules. Traditional physics-based methods usually suffer from inaccurate scoring functions and high inference cost. Recently, data-driven methods based on deep learning techniques are attracting growing interest thanks to their efficiency during inference and promising performance. These methods usually either adopt a two-stage approach by first predicting the distances between proteins and ligands and then generating the final coordinates based on the predicted distances, or directly predicting the global roto-translation of ligands. In this paper, we take a different route. Inspired by the resounding success of AlphaFold2 for protein structure prediction, we propose E3Bind, an end-to-end equivariant network that iteratively updates the ligand pose. E3Bind models the protein-ligand interaction through careful consideration of the geometric constraints in docking and the local context of the binding site. Experiments on standard benchmark datasets demonstrate the superior performance of our end-to-end trainable model compared to traditional and recently-proposed deep learning methods. | 翻訳日:2022-10-13 15:58:00 公開日:2022-10-12 |
# 2層ReLUネットワークにおけるスプリアスミニマの消滅 Annihilation of Spurious Minima in Two-Layer ReLU Networks ( http://arxiv.org/abs/2210.06088v1 ) ライセンス: Link先を確認 | Yossi Arjevani, Michael Field | (参考訳) ターゲットネットワークによってラベルが生成される2層ReLUニューラルネットワークの2乗損失に関する最適化問題について検討する。
リッチ対称性構造を用いて、過度パラメータ化が急激なミニマを消滅させるメカニズムを研究するための新しいツールセットを開発する。
異なる極小点における損失とヘッセンスペクトルについて鋭い解析的推定が得られ、対称性の小さい極小点をサドルに変えることができることが証明され、より対称性の小さい極小点ではより多くのニューロンが必要である。
コーシーのインターレース定理を用いて、損失関数の対称性構造から生じるある部分空間における降下方向の存在を証明する。
この解析的アプローチは、代数幾何学、表現論、対称性の破れといった分野に新しい手法を使用し、関連する損失の風景を勾配に基づく方法へアクセス可能にするために、過剰パラメータ化の有効性を厳密に確認する。
一定数のニューロンと入力に対して、スペクトル結果は標的の対称性破壊摂動の下でも真である。 We study the optimization problem associated with fitting two-layer ReLU neural networks with respect to the squared loss, where labels are generated by a target network. Use is made of the rich symmetry structure to develop a novel set of tools for studying the mechanism by which over-parameterization annihilates spurious minima. Sharp analytic estimates are obtained for the loss and the Hessian spectrum at different minima, and it is proved that adding neurons can turn symmetric spurious minima into saddles; minima of lesser symmetry require more neurons. Using Cauchy's interlacing theorem, we prove the existence of descent directions in certain subspaces arising from the symmetry structure of the loss function. This analytic approach uses techniques, new to the field, from algebraic geometry, representation theory and symmetry breaking, and confirms rigorously the effectiveness of over-parameterization in making the associated loss landscape accessible to gradient-based methods. For a fixed number of neurons and inputs, the spectral results remain true under symmetry breaking perturbation of the target. | 翻訳日:2022-10-13 15:57:40 公開日:2022-10-12 |
# 教育データからの創造的思考パターンのマイニングに向けて Towards Mining Creative Thinking Patterns from Educational Data ( http://arxiv.org/abs/2210.06118v1 ) ライセンス: Link先を確認 | Nasrin Shabani | (参考訳) 創造性(クリエイティビティ)、すなわち、有用で効果的な新鮮でオリジナルなアイデアや製品を生成し開発するプロセスは、様々な領域において貴重なスキルである。
創造性は、学校で教えるべき21世紀の必須スキルと呼ばれる。
創造性を促進するための教育技術の利用は活発な研究分野であり、教室における創造性を有益な学習結果に結びつけるいくつかの研究によって証明されている。
教育のための適応技術の研究が盛んに進んでいるにもかかわらず、教育データから創造的な思考パターンをマイニングすることは難しい課題である。
本稿では,この課題に対処するために,創造的パターンを特定する上で必要となる概念,事実,仮定を識別するためのドメイン固有の知識ベースを構築することにより,教育的知識の形式化に向けて第一歩を踏み出した。
次に,評価や授業活動といった生の教育データを文脈化するためのパイプラインを導入する。
最後に,知識ベースから学ぶためのルールベースアプローチを提案し,文脈データと知識から創造的思考パターンの抽出を容易にする。
本手法を実世界データセットを用いて評価し,提案するパイプラインが,学生の行動や評価課題から創造的思考パターンを理解する上でどのように役立つかを強調する。 Creativity, i.e., the process of generating and developing fresh and original ideas or products that are useful or effective, is a valuable skill in a variety of domains. Creativity is called an essential 21st-century skill that should be taught in schools. The use of educational technology to promote creativity is an active study field, as evidenced by several studies linking creativity in the classroom to beneficial learning outcomes. Despite the burgeoning body of research on adaptive technology for education, mining creative thinking patterns from educational data remains a challenging task. In this paper, to address this challenge, we put the first step towards formalizing educational knowledge by constructing a domain-specific Knowledge Base to identify essential concepts, facts, and assumptions in identifying creative patterns. We then introduce a pipeline to contextualize the raw educational data, such as assessments and class activities. Finally, we present a rule-based approach to learning from the Knowledge Base, and facilitate mining creative thinking patterns from contextualized data and knowledge. We evaluate our approach with real-world datasets and highlight how the proposed pipeline can help instructors understand creative thinking patterns from students' activities and assessment tasks. | 翻訳日:2022-10-13 15:57:22 公開日:2022-10-12 |
# aergia: フェデレーション学習システムにおける多様性の活用 Aergia: Leveraging Heterogeneity in Federated Learning Systems ( http://arxiv.org/abs/2210.06154v1 ) ライセンス: Link先を確認 | Bart Cox, Lydia Y. Chen, J\'er\'emie Decouchant | (参考訳) Federated Learning(FL)は、分散ディープラーニングの一般的なアプローチであり、中央サーバにおける大量のデータのプールを防止する。
FLはクライアントに頼って、ローカルデータセットを使用してグローバルモデルを更新する。
従来のflアルゴリズムでは、各トレーニングラウンド毎に、すべてのクライアントがモデル更新を集約する前に送信するのを待つ中央フェデレータを使用する。
実際のデプロイメントでは、クライアントは異なるコンピューティング能力とネットワーク能力を持っているため、遅いクライアントはパフォーマンスのボトルネックになる可能性がある。
以前の作業では、各学習ラウンドにデッドラインを使用することで、フェデレーターが遅いクライアントの更新の遅れを無視したり、クライアントが期限前に部分的にトレーニングされたモデルを送信するように提案されている。
トレーニングプロセスをスピードアップするため,我々は,遅いクライアントを対象とする新しいアプローチであるaergiaを提案する。
i) 訓練に最も計算集約的なモデルの部分を凍結すること。
(ii)模型の未完成部分を訓練すること。
(iii) モデルの凍結した部分のトレーニングを、独自のデータセットを使用してトレーニングするより高速なクライアントにオフロードする。
オフロード決定は、クライアントがレポートするトレーニング速度と、信頼できる実行環境によってプライベートに評価されるデータセット間の類似性に基づいて、フェデレータによって編成される。
Aergiaは高い精度を維持し,FedAvgとTiFLと比較して,異種環境下でのトレーニング時間を最大27%,53%削減できることを示す。 Federated Learning (FL) is a popular approach for distributed deep learning that prevents the pooling of large amounts of data in a central server. FL relies on clients to update a global model using their local datasets. Classical FL algorithms use a central federator that, for each training round, waits for all clients to send their model updates before aggregating them. In practical deployments, clients might have different computing powers and network capabilities, which might lead slow clients to become performance bottlenecks. Previous works have suggested to use a deadline for each learning round so that the federator ignores the late updates of slow clients, or so that clients send partially trained models before the deadline. To speed up the training process, we instead propose Aergia, a novel approach where slow clients (i) freeze the part of their model that is the most computationally intensive to train; (ii) train the unfrozen part of their model; and (iii) offload the training of the frozen part of their model to a faster client that trains it using its own dataset. The offloading decisions are orchestrated by the federator based on the training speed that clients report and on the similarities between their datasets, which are privately evaluated thanks to a trusted execution environment. We show through extensive experiments that Aergia maintains high accuracy and significantly reduces the training time under heterogeneous settings by up to 27% and 53% compared to FedAvg and TiFL, respectively. | 翻訳日:2022-10-13 15:57:00 公開日:2022-10-12 |
# Enemy Spotted:ガンショット分類とローカライゼーションのためのゲーム内ガンサウンドデータセット Enemy Spotted: in-game gun sound dataset for gunshot classification and localization ( http://arxiv.org/abs/2210.05917v1 ) ライセンス: Link先を確認 | Junwoo Park, Youngwoo Cho, Gyuhyeon Sim, Hojoon Lee, Jaegul Choo | (参考訳) 近年,音の分類やローカライゼーションのタスクにおいて,ドメイン知識を欠く単純かつ高性能な学習手法が注目されている。
しかし、既存のデータセットにおける銃声の欠如は、ディープラーニングモデルを利用して犯人を銃声から検出するサポートシステムを実装する上で大きな障害となっている。
銃声の発生は稀で予測できないため、実世界で銃音を収集することは不可能である。
代替として、実戦を模倣するように設計されたFPSゲームから銃音が得られる。
最近のFPSゲームは、危険な状況でもシミュレーションしながら、安全に銃声データを収集できる現実的な環境を提供する。
ゲーム環境の利点を生かして、銃器の分類と銃弾のローカライゼーションタスクのための銃弾データセット、すなわちBGGを構築した。
BGGデータセットは37種類の銃器、距離、音源と受信機の間の方向で構成されている。
我々は,BGGデータセットに基づいて,複数の音の分類と位置決めベースラインを訓練することにより,銃弾の位置と種類を特定するのに十分な情報を持っていることを慎重に検証する。
その後,bggデータセットを利用することで,実世界の銃器分類や局所化作業の精度を高めることができることを示す。 Recently, deep learning-based methods have drawn huge attention due to their simple yet high performance without domain knowledge in sound classification and localization tasks. However, a lack of gun sounds in existing datasets has been a major obstacle to implementing a support system to spot criminals from their gunshots by leveraging deep learning models. Since the occurrence of gunshot is rare and unpredictable, it is impractical to collect gun sounds in the real world. As an alternative, gun sounds can be obtained from an FPS game that is designed to mimic real-world warfare. The recent FPS game offers a realistic environment where we can safely collect gunshot data while simulating even dangerous situations. By exploiting the advantage of the game environment, we construct a gunshot dataset, namely BGG, for the firearm classification and gunshot localization tasks. The BGG dataset consists of 37 different types of firearms, distances, and directions between the sound source and a receiver. We carefully verify that the in-game gunshot data has sufficient information to identify the location and type of gunshots by training several sound classification and localization baselines on the BGG dataset. Afterward, we demonstrate that the accuracy of real-world firearm classification and localization tasks can be enhanced by utilizing the BGG dataset. | 翻訳日:2022-10-13 15:51:18 公開日:2022-10-12 |
# 確率が十分でない:確率的不確実性をもつ確率的力学モデルのための形式的制御器合成 Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic Dynamical Models with Epistemic Uncertainty ( http://arxiv.org/abs/2210.05989v1 ) ライセンス: Link先を確認 | Thom Badings, Licio Romao, Alessandro Abate, Nils Jansen | (参考訳) 複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
確率的ノイズはアレター性不確実性を引き起こすが、モデルパラメータの不正確な知識と外乱の存在はてんかん不確実性を引き起こす。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
しかし、根底にあるモデルはアレタリックな不確実性のみを捉えているため、モデルパラメータや乱れが正確に知られている必要がある。
この制約を克服するための我々の貢献は、確率的ノイズ、不確定パラメータ、外乱を伴う連続状態モデルに対する新しい抽象ベースコントローラ合成法である。
サンプリング手法とロバスト解析により,いわゆるインターバルマルコフ決定過程(imdp)の遷移確率間隔において,ユーザの特定信頼度レベルと認識的不確実性の両方を捉えた。
そして、この抽象的なimdp上で最適なポリシーを合成し、(信頼度レベルが指定された)連続モデルに対するフィードバックコントローラに変換し、同じ性能保証を施す。
実験により, エピステマティックな不確実性を考慮した場合, パラメータ値の変動に対してより堅牢な制御が可能であることを確認した。 Capturing uncertainty in models of complex dynamical systems is crucial to designing safe controllers. Stochastic noise causes aleatoric uncertainty, whereas imprecise knowledge of model parameters and the presence of external disturbances lead to epistemic uncertainty. Several approaches use formal abstractions to synthesize policies that satisfy temporal specifications related to safety and reachability. However, the underlying models exclusively capture aleatoric but not epistemic uncertainty, and thus require that model parameters and disturbances are known precisely. Our contribution to overcoming this restriction is a novel abstraction-based controller synthesis method for continuous-state models with stochastic noise, uncertain parameters, and external disturbances. By sampling techniques and robust analysis, we capture both aleatoric and epistemic uncertainty, with a user-specified confidence level, in the transition probability intervals of a so-called interval Markov decision process (iMDP). We then synthesize an optimal policy on this abstract iMDP, which translates (with the specified confidence level) to a feedback controller for the continuous model, with the same performance guarantees. Our experimental benchmarks confirm that accounting for epistemic uncertainty leads to controllers that are more robust against variations in parameter values. | 翻訳日:2022-10-13 15:50:46 公開日:2022-10-12 |
# Amazon Alexaによる生物学的知識グラフに関する質問 Question Answering Over Biological Knowledge Graph via Amazon Alexa ( http://arxiv.org/abs/2210.06040v1 ) ライセンス: Link先を確認 | Md. Rezaul Karim and Hussain Ali and Prinon Das and Mohamed Abdelwaheb and Stefan Decker | (参考訳) 薬物、遺伝子、タンパク質、ウイルス、およびそれらのメカニズムに関する構造的および非構造的なデータや事実は、膨大な数の科学論文に散らばっている。
これらの論文は大規模知識源であり、特定の生物学的プロセスのメカニズムに関する知識の普及に大きな影響を与える可能性がある。
知識グラフ(KG)は、そのような事実とデータを統合して構築することができ、データ統合、探索、フェデレーションクエリに使用される。
しかし、データ資産やセマンティック技術に関する知識が不足しているため、大規模なKGの探索とクエリは一部のユーザにとって面倒である。
質問答えシステム(QA)は、KGに含まれる三つ組を自動で使用することで、自然言語による質問に対する回答を可能にする。
近年,スマートシステムやデバイスを音声コマンドで制御する能力によって,デジタルアシスタントの利用と適応が拡大している。
この記事では、Amazon Alexaの音声対応インターフェースをKG上のQAに使用することについて述べる。
概念実証として、よく知られたDisgeNET KGを使用し、21,671遺伝子と30,170の疾患、疾患、臨床または異常なヒトの表現型の間の113万の遺伝子消失関連に関する知識を含む。
我々の研究は、アレックスが大規模な知識ベースから特定の生物学的実体の事実を見つけるのにどのように役立つかを示している。 Structured and unstructured data and facts about drugs, genes, protein, viruses, and their mechanism are spread across a huge number of scientific articles. These articles are a large-scale knowledge source and can have a huge impact on disseminating knowledge about the mechanisms of certain biological processes. A knowledge graph (KG) can be constructed by integrating such facts and data and be used for data integration, exploration, and federated queries. However, exploration and querying large-scale KGs is tedious for certain groups of users due to a lack of knowledge about underlying data assets or semantic technologies. A question-answering (QA) system allows the answer of natural language questions over KGs automatically using triples contained in a KG. Recently, the use and adaption of digital assistants are getting wider owing to their capability at enabling users to voice commands to control smart systems or devices. This paper is about using Amazon Alexa's voice-enabled interface for QA over KGs. As a proof-of-concept, we use the well-known DisgeNET KG, which contains knowledge covering 1.13 million gene-disease associations between 21,671 genes and 30,170 diseases, disorders, and clinical or abnormal human phenotypes. Our study shows how Alex could be of help to find facts about certain biological entities from large-scale knowledge bases. | 翻訳日:2022-10-13 15:50:24 公開日:2022-10-12 |
# NIST 2020 SRE CTSチャレンジのためのTHUEEシステム記述 THUEE system description for NIST 2020 SRE CTS challenge ( http://arxiv.org/abs/2210.06111v1 ) ライセンス: Link先を確認 | Yu Zheng, Jinghan Peng, Miao Zhao, Yufeng Ma, Min Liu, Xinyue Ma, Tianyu Liang, Tianlong Kong, Liang He, Minqiang Xu | (参考訳) 本稿では、nist 2020 speaker recognition evaluation (sre) conversational telephone speech (cts) チャレンジにおけるtheeチームのシステム記述について述べる。
この評価では、ResNet74、ResNet152、RepVGG-B2などのサブシステムが話者埋め込み抽出器として開発された。
我々はAM-SoftmaxとAAM-Softmaxに基づく損失関数(CM-Softmax)を組み合わせた。
システム性能をさらに向上するための2段階のトレーニング戦略を採用した。
個々のシステムを最終提出として融合しました。
我々のアプローチは優れたパフォーマンスをもたらし、挑戦で1位にランクインします。 This paper presents the system description of the THUEE team for the NIST 2020 Speaker Recognition Evaluation (SRE) conversational telephone speech (CTS) challenge. The subsystems including ResNet74, ResNet152, and RepVGG-B2 are developed as speaker embedding extractors in this evaluation. We used combined AM-Softmax and AAM-Softmax based loss functions, namely CM-Softmax. We adopted a two-staged training strategy to further improve system performance. We fused all individual systems as our final submission. Our approach leads to excellent performance and ranks 1st in the challenge. | 翻訳日:2022-10-13 15:50:04 公開日:2022-10-12 |
# 話者分離のための個別条件と負距離 Individualized Conditioning and Negative Distances for Speaker Separation ( http://arxiv.org/abs/2210.06368v1 ) ライセンス: Link先を確認 | Tao Sun, Nidal Abuhajar, Shuyu Gong, Zhewei Wang, Charles D. Smith, Xianhui Wang, Li Xu, Jundong Liu | (参考訳) 話者分離は、混合信号から複数の音声を抽出することを目的としている。
本稿では,既存の話者分離ソリューションを改善するための2つの話者認識設計を提案する。
第1のモデルは、音声サンプルを統合して個別化された話者条件を生成し、分離モジュールが適切に分離された出力を生成するためのインフォームドガイダンスを提供する話者条件ネットワークである。
第2の設計は、分離音声における非目標音声の削減を目的としている。
この目的のために,チャネル出力における非目標音声の出現をペナルティ化するための負距離と,分離された音声をクリーンターゲットに近づけるための正距離を提案する。
重み付きサムとトリプレットのような2つの異なるセットアップを探索し、これら2つの距離を統合して分離ネットワークの補助損失を形成する。
LibriMixで行った実験は,提案モデルの有効性を実証する。 Speaker separation aims to extract multiple voices from a mixed signal. In this paper, we propose two speaker-aware designs to improve the existing speaker separation solutions. The first model is a speaker conditioning network that integrates speech samples to generate individualized speaker conditions, which then provide informed guidance for a separation module to produce well-separated outputs. The second design aims to reduce non-target voices in the separated speech. To this end, we propose negative distances to penalize the appearance of any non-target voice in the channel outputs, and positive distances to drive the separated voices closer to the clean targets. We explore two different setups, weighted-sum and triplet-like, to integrate these two distances to form a combined auxiliary loss for the separation networks. Experiments conducted on LibriMix demonstrate the effectiveness of our proposed models. | 翻訳日:2022-10-13 15:49:57 公開日:2022-10-12 |
# アルツハイマー病のサブタイプ同定のための病理ステアリングネットワーク Pathology Steered Stratification Network for Subtype Identification in Alzheimer's Disease ( http://arxiv.org/abs/2210.05880v1 ) ライセンス: Link先を確認 | Enze Xu, Jingwen Zhang, Jiadi Li, Defu Yang, Guorong Wu, Minghan Chen | (参考訳) アルツハイマー病 (ad) は、βアミロイド、病理tau、神経変性を特徴とする異種多因子性神経変性障害である。
神経生物学的検査と臨床評価の間の大きな異質性は、アルツハイマー病の早期診断における現在の最大の課題であり、信頼性の高い神経生物学的バイオマーカーによって定義され、臨床結果と密接に関連する老化集団の包括的成層化を求めるものである。
しかし、ADサブタイプ同定の神経イメージング研究における既存の統計的推測手法は、神経病理領域の知識を考慮に入れず、しばしば神経学の原理と矛盾する結果をもたらす可能性がある。
この知識ギャップを埋めるために,本邦のAD病理とマルチモーダル縦型神経画像データを統合し,高齢化人口を分類する新しい病理ステアリング階層ネットワーク(PSSN)を提案する。
理論に基づく生物学的モデリングとデータ駆動深層学習を組み合わせることで、この学際的なアプローチは、個体の終末状態と一致する長期的なバイオマーカー予測を生成するだけでなく、異なる神経学的基盤を持つ細粒度のサブタイプへと被験者を階層化することができる。
階層化はk-meansを上回り,様々な臨床スコアのクラスタ間不均一性とクラスタ内均質性の両方を維持できる。
ここではADスペクトルにまたがる6つのサブタイプを同定し,それぞれのサブタイプが臨床結果と一致した特徴的なバイオマーカーパターンを示す。
疾患進化グラフは、症状前診断およびガイド治療の補助となるサブタイプ遷移確率の定量化によってさらに提供される。 Alzheimer's disease (AD) is a heterogeneous, multifactorial neurodegenerative disorder characterized by beta-amyloid, pathologic tau, and neurodegeneration. The massive heterogeneity between neurobiological examinations and clinical assessment is the current biggest challenge in the early diagnosis of Alzheimer's disease, urging for a comprehensive stratification of the aging population that is defined by reliable neurobiological biomarkers and closely associated with clinical outcomes. However, existing statistical inference approaches in neuroimaging studies of AD subtype identification fail to take into account the neuropathological domain knowledge, which could lead to ill-posed results that are sometimes inconsistent with neurological principles. To fill this knowledge gap, we propose a novel pathology steered stratification network (PSSN) that integrates mainstream AD pathology with multimodal longitudinal neuroimaging data to categorize the aging population. By combining theory-based biological modeling and data-driven deep learning, this cross-disciplinary approach can not only generate long-term biomarker prediction consistent with the end-state of individuals but also stratifies subjects into fine-grained subtypes with distinct neurological underpinnings, where ag-ing brains within the same subtype share com-mon biological behaviors that emerge as similar trajectories of cognitive decline. Our stratification outperforms K-means and SuStaIn in both inter-cluster heterogeneity and intra-cluster homogeneity of various clinical scores. Importantly, we identify six subtypes spanning AD spectrum, where each subtype exhibits a distinctive biomarker pattern that is consistent with its clinical outcome. A disease evolutionary graph is further provided by quantifying subtype transition probabilities, which may assist pre-symptomatic diagnosis and guide therapeutic treatments. | 翻訳日:2022-10-13 15:49:20 公開日:2022-10-12 |
# 機械学習推論のための異種クラウドシステムの構築 Building Heterogeneous Cloud System for Machine Learning Inference ( http://arxiv.org/abs/2210.05889v1 ) ライセンス: Link先を確認 | Baolin Li, Siddharth Samsi, Vijay Gadepally, Devesh Tiwari | (参考訳) オンライン推論は、顧客要求を満たすためにクラウドプラットフォームにデプロイされた、多くのビジネスにとって重要なサービス製品になりつつある。
収益生成能力にもかかわらず、これらのサービスはqos(quality-of-service)とコスト予算の制約の下で運用する必要があります。
本稿では,QoSターゲットとコスト予算を満たしながらクエリスループットを最大化する,新しいランタイムフレームワークであるKAIROSを紹介する。
KAIROSは、オンライン探索のオーバーヘッドを伴わずに不均一な計算ハードウェアのプールを構築し、実行時に推論クエリを最適に分散する新しい技術の設計と実装を行っている。
産業グレードのディープラーニング(DL)モデルを用いた評価では,KAIROSは最適均一解のスループットを最大2倍に向上し,探索オーバーヘッドを無視するために競合するスキームの有利な実装にもかかわらず,最先端のスキームを最大70%上回っている。 Online inference is becoming a key service product for many businesses, deployed in cloud platforms to meet customer demands. Despite their revenue-generation capability, these services need to operate under tight Quality-of-Service (QoS) and cost budget constraints. This paper introduces KAIROS, a novel runtime framework that maximizes the query throughput while meeting QoS target and a cost budget. KAIROS designs and implements novel techniques to build a pool of heterogeneous compute hardware without online exploration overhead, and distribute inference queries optimally at runtime. Our evaluation using industry-grade deep learning (DL) models shows that KAIROS yields up to 2X the throughput of an optimal homogeneous solution, and outperforms state-of-the-art schemes by up to 70\%, despite advantageous implementations of the competing schemes to ignore their exploration overhead. | 翻訳日:2022-10-13 15:48:50 公開日:2022-10-12 |
# ニューラルタンジェントカーネルによるバックドア攻撃 Few-shot Backdoor Attacks via Neural Tangent Kernels ( http://arxiv.org/abs/2210.05929v1 ) ライセンス: Link先を確認 | Jonathan Hayase, Sewoong Oh | (参考訳) バックドア攻撃では、攻撃者が不正な例をトレーニングセットに注入する。
攻撃者の目標は、最終訓練されたモデルに、テスト入力に予め定義されたトリガを追加すると、攻撃者の望ましいターゲットラベルを予測することである。
これらの攻撃の中心は、攻撃の成功率と不正なトレーニング例の数とのトレードオフである。
我々はこの攻撃を,訓練モデルの攻撃成功率を最大化する強毒例の構築という,新たな二段階最適化問題として捉える。
ニューラル・タンジェント・カーネルを用いて、攻撃対象モデルのトレーニングダイナミクスを近似し、強毒例を自動的に学習する。
CIFAR-10 と ImageNet のサブクラスを WideResNet-34 と ConvNeXt で周期的およびパッチトリガ攻撃において実験し,NTBA が設計した有毒な例がベースラインに比べて10倍少ない毒性例に対して90% の攻撃成功率を達成したことを示す。
カーネル線形回帰解析を用いてNTBAが設計した攻撃の解釈を行った。
さらに,神経接核の形状によって明らかにされる過パラメータ深層ニューラルネットワークの脆弱性を実証する。 In a backdoor attack, an attacker injects corrupted examples into the training set. The goal of the attacker is to cause the final trained model to predict the attacker's desired target label when a predefined trigger is added to test inputs. Central to these attacks is the trade-off between the success rate of the attack and the number of corrupted training examples injected. We pose this attack as a novel bilevel optimization problem: construct strong poison examples that maximize the attack success rate of the trained model. We use neural tangent kernels to approximate the training dynamics of the model being attacked and automatically learn strong poison examples. We experiment on subclasses of CIFAR-10 and ImageNet with WideResNet-34 and ConvNeXt architectures on periodic and patch trigger attacks and show that NTBA-designed poisoned examples achieve, for example, an attack success rate of 90% with ten times smaller number of poison examples injected compared to the baseline. We provided an interpretation of the NTBA-designed attacks using the analysis of kernel linear regression. We further demonstrate a vulnerability in overparametrized deep neural networks, which is revealed by the shape of the neural tangent kernel. | 翻訳日:2022-10-13 15:48:30 公開日:2022-10-12 |
# 技術知的財産のための適応的デュアルチャネル畳み込みハイパーグラフ表現学習 Adaptive Dual Channel Convolution Hypergraph Representation Learning for Technological Intellectual Property ( http://arxiv.org/abs/2210.05947v1 ) ライセンス: Link先を確認 | Yuxin Liu, Yawen Li, Yingxia Shao, Zeli Guan | (参考訳) ビッグデータの時代には、個別の国では、技術知的財産における隠れ情報マイニングの需要が高まっている。
技術的知的財産権のためのかなりの数のグラフ学習アルゴリズムが提案されている。
目標は、グラフ構造を通して技術的知的財産エンティティとその関係をモデル化し、ニューラルネットワークアルゴリズムを用いてグラフ内の隠された構造情報を抽出することである。
しかし、既存のグラフ学習アルゴリズムのほとんどは、技術的知的財産における二項関係の情報マイニングにのみ焦点をあてており、非二項関係に隠された上位情報を無視している。
そこで,デュアルチャネル畳み込みに基づくハイパーグラフニューラルネットワークモデルを提案する。
技術知的財産データから構築されたハイパーグラフについて、ハイパーグラフのハイパーグラフチャネルと線拡大グラフチャネルを用いてハイパーグラフを学習し、2つのチャネルの出力表現を適応的に融合させるアテンション機構を導入する。
提案したモデルは、さまざまなデータセット上で既存のアプローチより優れている。 In the age of big data, the demand for hidden information mining in technological intellectual property is increasing in discrete countries. Definitely, a considerable number of graph learning algorithms for technological intellectual property have been proposed. The goal is to model the technological intellectual property entities and their relationships through the graph structure and use the neural network algorithm to extract the hidden structure information in the graph. However, most of the existing graph learning algorithms merely focus on the information mining of binary relations in technological intellectual property, ignoring the higherorder information hidden in non-binary relations. Therefore, a hypergraph neural network model based on dual channel convolution is proposed. For the hypergraph constructed from technological intellectual property data, the hypergraph channel and the line expanded graph channel of the hypergraph are used to learn the hypergraph, and the attention mechanism is introduced to adaptively fuse the output representations of the two channels. The proposed model outperforms the existing approaches on a variety of datasets. | 翻訳日:2022-10-13 15:48:08 公開日:2022-10-12 |
# ゼロリソース音声言語のためのキーワードローカライズ Towards visually prompted keyword localisation for zero-resource spoken languages ( http://arxiv.org/abs/2210.06229v1 ) ライセンス: Link先を確認 | Leanne Nortje and Herman Kamper | (参考訳) システムにキーワードの視覚的描写を示し、このキーワードを含む音声発話をゼロソース音声コーパスから見つけることを想像してみよう。
このタスクを形式化し、視覚刺激キーワードローカライズ(vpkl)と呼ぶ。キーワードの画像が与えられたら、そのキーワードがどこで発生したかを検出し、予測する。
VPKLを実現するために,新しいキーワードサンプリング方式で学習する,新たなローカライズアテンション機構を備えた音声ビジョンモデルを提案する。
これらのイノベーションが既存の音声ビジョンモデルよりもvpklの改善をもたらすことを示す。
また、画像に視覚ラベルをタグ付けし、ラベルなしの音声とペア付けする視覚的バズ・オブ・ワード(BoW)モデルと比較した。
このビジュアルなBoWは、直接書かれたキーワードでクエリできるが(画像クエリは私たちのものだが)、新しいモデルは、検出とローカライゼーションの両方で視覚的なBoWよりも優れており、ローカライゼーションF1は16%改善されている。 Imagine being able to show a system a visual depiction of a keyword and finding spoken utterances that contain this keyword from a zero-resource speech corpus. We formalise this task and call it visually prompted keyword localisation (VPKL): given an image of a keyword, detect and predict where in an utterance the keyword occurs. To do VPKL, we propose a speech-vision model with a novel localising attention mechanism which we train with a new keyword sampling scheme. We show that these innovations give improvements in VPKL over an existing speech-vision model. We also compare to a visual bag-of-words (BoW) model where images are automatically tagged with visual labels and paired with unlabelled speech. Although this visual BoW can be queried directly with a written keyword (while our's takes image queries), our new model still outperforms the visual BoW in both detection and localisation, giving a 16% relative improvement in localisation F1. | 翻訳日:2022-10-13 15:42:00 公開日:2022-10-12 |
# CTCに基づくASRのための文脈認識型知識伝達戦略 A context-aware knowledge transferring strategy for CTC-based ASR ( http://arxiv.org/abs/2210.06244v1 ) ライセンス: Link先を確認 | Ke-Han Lu, Kuan-Yu Chen | (参考訳) 非自己回帰自動音声認識(ASR)モデリングは、高速な復号化速度と優れた性能のため、近年注目を集めている。
代表者の中で、コネクショニスト時間分類(CTC)に基づく手法は依然として支配的ストリームである。
しかし、理論的に本質的な欠陥、トークン間の独立性の仮定は、作品の分野におけるパフォーマンスの障壁を生み出している。
この課題を軽減するため,CTCベースのASRのための知識伝達モジュールと文脈認識学習戦略からなる文脈認識型知識伝達戦略を提案する。
前者は事前訓練された言語モデルから言語情報を抽出し,後者は条件付き独立仮定による制約を修飾する。
その結果,wav2vec2.0上に構築された知識注入型CTCベースのASRについて述べる。
AISHELL-1とAISHELL-2データセットに関する一連の実験は、提案手法の有効性を実証している。 Non-autoregressive automatic speech recognition (ASR) modeling has received increasing attention recently because of its fast decoding speed and superior performance. Among representatives, methods based on the connectionist temporal classification (CTC) are still a dominating stream. However, the theoretically inherent flaw, the assumption of independence between tokens, creates a performance barrier for the school of works. To mitigate the challenge, we propose a context-aware knowledge transferring strategy, consisting of a knowledge transferring module and a context-aware training strategy, for CTC-based ASR. The former is designed to distill linguistic information from a pre-trained language model, and the latter is framed to modulate the limitations caused by the conditional independence assumption. As a result, a knowledge-injected context-aware CTC-based ASR built upon the wav2vec2.0 is presented in this paper. A series of experiments on the AISHELL-1 and AISHELL-2 datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2022-10-13 15:41:42 公開日:2022-10-12 |
# 進化的単画素イメージングによる組合せ最適化問題の解法 Solving combinational optimization problems with evolutionary single-pixel imaging ( http://arxiv.org/abs/2210.05923v1 ) ライセンス: Link先を確認 | Wei Huang, Jiaxiang Li, Shuming Jiao, Zibang Zhang | (参考訳) spi(single-pixel imaging)は、従来のカメラの画素センサーアレイを単一画素検出器に置き換えた新しい光学イメージング技術である。
以前の研究では通常、SPIはオブジェクト画像のキャプチャや画像処理タスクの実行に使用される。
本研究では,画像に加え,他の種類のデータを処理するためのSPI方式を提案する。
数値分割やグラフ最大カットを含む組合せ最適化問題の解法として,SPIを用いてイジングマシンモデルを光学的に実装した。
シミュレーションおよび実験により,提案手法は進化的照明パターンを用いてハミルトン関数を最適化できることを示す。 Single-pixel imaging (SPI) is a novel optical imaging technique by replacing the pixelated sensor array in a conventional camera with a single-pixel detector. In previous works, SPI is usually used for capturing object images or performing image processing tasks. In this work, we propose a SPI scheme for processing other types of data in addition to images. An Ising machine model is implemented optically with SPI for solving combinational optimization problems including number partition and graph maximum cut. Simulated and experimental results show that our proposed scheme can optimize the Hamiltonian function with evolutionary illumination patterns. | 翻訳日:2022-10-13 15:41:07 公開日:2022-10-12 |
# 3次元脳と心臓容積生成モデル:調査 3D Brain and Heart Volume Generative Models: A Survey ( http://arxiv.org/abs/2210.05952v1 ) ライセンス: Link先を確認 | Yanbin Liu, Girish Dwivedi, Farid Boussaid and Mohammed Bennamoun | (参考訳) 生成型adversarial networkやオートエンコーダといった生成モデルは、その優れたデータ生成能力のために医療分野で大きな注目を集めている。
本稿では,脳と心臓に焦点を当てた3次元(3次元)ボリューム生成モデルの包括的調査を行う。
非条件・条件生成モデルの新しい精巧な分類法が提案され、無条件合成、分類、条件合成、セグメンテーション、妄想、発見、登録など、脳と心臓の様々な医療タスクをカバーする。
関連するバックグラウンドを提供し、各タスクを調べ、将来的な方向性を提案する。
最新の出版物のリストはgithubで更新され、url{https://github.com/csyanbin/3d-medical-generative-survey}の急速な流入に追随する。 Generative models such as generative adversarial networks and autoencoders have gained a great deal of attention in the medical field due to their excellent data generation capability. This paper provides a comprehensive survey of generative models for three-dimensional (3D) volumes, focusing on the brain and heart. A new and elaborate taxonomy of unconditional and conditional generative models is proposed to cover diverse medical tasks for the brain and heart: unconditional synthesis, classification, conditional synthesis, segmentation, denoising, detection, and registration. We provide relevant background, examine each task and also suggest potential future directions. A list of the latest publications will be updated on Github to keep up with the rapid influx of papers at \url{https://github.com/csyanbin/3D-Medical-Generative-Survey}. | 翻訳日:2022-10-13 15:40:55 公開日:2022-10-12 |
# Vast-Receptive-Field Attention を用いた高効率画像超解像 Efficient Image Super-Resolution using Vast-Receptive-Field Attention ( http://arxiv.org/abs/2210.05960v1 ) ライセンス: Link先を確認 | Lin Zhou, Haoming Cai, Jinjin Gu, Zheyuan Li, Yingqi Liu, Xiangyu Chen, Yu Qiao, Chao Dong | (参考訳) 注意機構は、高度な超解像(SR)ネットワークの設計において重要な役割を果たす。
本研究では,アテンション機構を改善し,効率的なSRネットワークを設計する。
簡単なピクセルアテンションモジュールから始めて、パラメータを小さくすることで、より優れた超解像性能を実現するために徐々に修正する。
具体的なアプローチとしては,(1)注意ブランチの受容野の増大,(2)大規模密畳み込み核の奥行き分離畳み込みへの置換,(3)画素正規化の導入などがある。
これらのアプローチはアテンション機構の設計のための明確な進化のロードマップを描いている。
これらの観測結果に基づき,VAst-Receptive-field PixelアテンションネットワークであるVapSRを提案する。
実験はVapSRの優れた性能を示す。
VapSRはより少ないパラメータで現在の軽量ネットワークより優れている。
VapSRの軽量版では、IMDBとRFDNの21.68%と28.18%のパラメータしか使用できない。
コードとモデルは url{https://github.com/zhoumumu/vapsr で入手できる。 The attention mechanism plays a pivotal role in designing advanced super-resolution (SR) networks. In this work, we design an efficient SR network by improving the attention mechanism. We start from a simple pixel attention module and gradually modify it to achieve better super-resolution performance with reduced parameters. The specific approaches include: (1) increasing the receptive field of the attention branch, (2) replacing large dense convolution kernels with depth-wise separable convolutions, and (3) introducing pixel normalization. These approaches paint a clear evolutionary roadmap for the design of attention mechanisms. Based on these observations, we propose VapSR, the VAst-receptive-field Pixel attention network. Experiments demonstrate the superior performance of VapSR. VapSR outperforms the present lightweight networks with even fewer parameters. And the light version of VapSR can use only 21.68% and 28.18% parameters of IMDB and RFDN to achieve similar performances to those networks. The code and models are available at url{https://github.com/zhoumumu/VapSR. | 翻訳日:2022-10-13 15:40:40 公開日:2022-10-12 |
# ring++: スパーススキャンマップ上のグローバルローカライズのためのroto-translation invariant gram RING++: Roto-translation Invariant Gram for Global Localization on a Sparse Scan Map ( http://arxiv.org/abs/2210.05984v1 ) ライセンス: Link先を確認 | Xuecheng Xu, Sha Lu, Jun Wu, Haojian Lu, Qiuguo Zhu, Yiyi Liao, Rong Xiong and Yue Wang | (参考訳) グローバルなローカライゼーションは多くのロボットアプリケーションにおいて重要な役割を果たす。
lidarベースのグローバルローカライゼーションは、照明や季節変化に対する堅牢性にコミュニティの焦点をあてている。
大きな視点差の下でのローカライゼーションを改善するため,位置認識のためのロト変換不変表現と,回転推定と翻訳推定の両方のためのグローバル収束を備えたRing++を提案する。
理論的保証により、RING++はスパーススキャン付き軽量マップを使用して、大きな視点差に対処することができる。
さらに,ロト翻訳不変性を保った表現のための特徴抽出器の十分な条件を導出し,Ring++を汎用的なマルチチャネル機能に適用可能なフレームワークとする。
我々の知る限りでは、これはスパーススキャンマップにおけるグローバルローカライゼーションのすべてのサブタスクに対処する初めての学習不要フレームワークである。
実世界のデータセット上での検証は、最先端の学習フリーな方法よりも優れたパフォーマンスを示し、学習ベースの方法と競合するパフォーマンスを示す。
最後に、RING++をマルチロボット/セッションSLAMシステムに統合し、協調アプリケーションにおいてその効率性を実現する。 Global localization plays a critical role in many robot applications. LiDAR-based global localization draws the community's focus with its robustness against illumination and seasonal changes. To further improve the localization under large viewpoint differences, we propose RING++ which has roto-translation invariant representation for place recognition, and global convergence for both rotation and translation estimation. With the theoretical guarantee, RING++ is able to address the large viewpoint difference using a lightweight map with sparse scans. In addition, we derive sufficient conditions of feature extractors for the representation preserving the roto-translation invariance, making RING++ a framework applicable to generic multi-channel features. To the best of our knowledge, this is the first learning-free framework to address all subtasks of global localization in the sparse scan map. Validations on real-world datasets show that our approach demonstrates better performance than state-of-the-art learning-free methods, and competitive performance with learning-based methods. Finally, we integrate RING++ into a multi-robot/session SLAM system, performing its effectiveness in collaborative applications. | 翻訳日:2022-10-13 15:40:22 公開日:2022-10-12 |
# モノクラービデオによる個人化顔のNeRFモデルの構築 Reconstructing Personalized Semantic Facial NeRF Models From Monocular Video ( http://arxiv.org/abs/2210.06108v1 ) ライセンス: Link先を確認 | Xuan Gao, Chenglai Zhong, Jun Xiang, Yang Hong, Yudong Guo, Juyong Zhang | (参考訳) 本稿では,ニューラルラディアンスフィールドで定義された人間の頭部のセマンティックモデルを提案する。
3D一貫性ヘッドモデルは、不整合と解釈可能な基底の集合で構成され、低次元表現係数で駆動することができる。
ニューラルネットワークの強力な表現能力により、構築されたモデルは、従来のメッシュブレンドシェープでは表現できない毛髪、着用などの複雑な顔の特徴を表現できる。
パーソナライズされた意味的顔モデルを構築するために、ベースを複数の多レベルボクセルフィールドとして定義する。
短時間の単眼RGB映像を入力として、10~20分で対象者の顔のNeRFモデルを構築でき、所定の表現係数と視野方向で数ミリ秒で写真リアルな人間の頭部画像を描画することができる。
この表現を顔の再ターゲティングや表情編集といった多くのタスクに適用する。
実験結果は、その強力な表現能力とトレーニング/推論速度を示す。
デモビデオとリリースされたコードは、プロジェクトページで公開されています。 We present a novel semantic model for human head defined with neural radiance field. The 3D-consistent head model consist of a set of disentangled and interpretable bases, and can be driven by low-dimensional expression coefficients. Thanks to the powerful representation ability of neural radiance field, the constructed model can represent complex facial attributes including hair, wearings, which can not be represented by traditional mesh blendshape. To construct the personalized semantic facial model, we propose to define the bases as several multi-level voxel fields. With a short monocular RGB video as input, our method can construct the subject's semantic facial NeRF model with only ten to twenty minutes, and can render a photo-realistic human head image in tens of miliseconds with a given expression coefficient and view direction. With this novel representation, we apply it to many tasks like facial retargeting and expression editing. Experimental results demonstrate its strong representation ability and training/inference speed. Demo videos and released code are provided in our project page: https://ustc3dv.github.io/NeRFBlendShape/ | 翻訳日:2022-10-13 15:40:02 公開日:2022-10-12 |
# ロバスト形状マッチングのためのスペクトル注意による多分解能関数マップの学習 Learning Multi-resolution Functional Maps with Spectral Attention for Robust Shape Matching ( http://arxiv.org/abs/2210.06373v1 ) ライセンス: Link先を確認 | Lei Li, Nicolas Donati, Maks Ovsjanikov | (参考訳) 本研究では,スペクトルに着目した多分解能関数写像に基づく新しい非剛性形状マッチングフレームワークを提案する。
既存の関数マップ学習手法はすべて、スペクトル分解能ハイパーパラメータの重要な選択に依存しており、これは全体的な精度に深刻な影響を与えるか、慎重に選択しなければ過度に適合する。
本稿では,スペクトル分解能チューニングを,スペクトル注意の導入により緩和できることを示す。
我々のフレームワークは、教師なしと教師なしの両方の環境で適用可能であり、所定の形状の入力に応じてスペクトル分解能を適応できるようにネットワークをトレーニングできることを示す。
より具体的には、スペクトル分解能の範囲にわたる対応を特徴付ける多分解能関数写像を計算し、この表現を単一コヒーレントな最終対応に組み合わせるためのスペクトル注意ネットワークを提案する。
本手法は, 高いスペクトル分解能が好まれる近異量入力で精度が向上するだけでなく, 重要な非異方性歪みが存在する場合でも合理的なマッチングが得られ, 既存の手法に大きな課題となっている。
提案手法は,ほぼ等尺および非等尺な形状マッチングベンチマークのスイートを用いた実験により,優れた性能を示す。 In this work, we present a novel non-rigid shape matching framework based on multi-resolution functional maps with spectral attention. Existing functional map learning methods all rely on the critical choice of the spectral resolution hyperparameter, which can severely affect the overall accuracy or lead to overfitting, if not chosen carefully. In this paper, we show that spectral resolution tuning can be alleviated by introducing spectral attention. Our framework is applicable in both supervised and unsupervised settings, and we show that it is possible to train the network so that it can adapt the spectral resolution, depending on the given shape input. More specifically, we propose to compute multi-resolution functional maps that characterize correspondence across a range of spectral resolutions, and introduce a spectral attention network that helps to combine this representation into a single coherent final correspondence. Our approach is not only accurate with near-isometric input, for which a high spectral resolution is typically preferred, but also robust and able to produce reasonable matching even in the presence of significant non-isometric distortion, which poses great challenges to existing methods. We demonstrate the superior performance of our approach through experiments on a suite of challenging near-isometric and non-isometric shape matching benchmarks. | 翻訳日:2022-10-13 15:39:21 公開日:2022-10-12 |
# プライベート非凸ERMのためのモーメントアグリゲーション Momentum Aggregation for Private Non-convex ERM ( http://arxiv.org/abs/2210.06328v1 ) ライセンス: Link先を確認 | Hoang Tran, Ashok Cutkosky | (参考訳) 我々は,滑らかな$d$次元目的に対して,プライバシ保存非凸経験的リスク最小化(erm)のための新しいアルゴリズムと収束保証を導入する。
異なる時代における例の再帰を生かした滑らかな対象に対する確率的勾配降下の感度解析を改良した。
この新しいアプローチと最近の運動量解析とプライベートアグリゲーション手法を組み合わせることで、$(\epsilon,\delta)$-differential privateアルゴリズムを提供し、通常の$\tilde o\left(\frac{d^{1/3}}{(\epsilon n)^{2/3}}\right)$ in $o\left(\frac{n^{7/3}\epsilon^{4/3}}{d^{2/3}}\right)$グラデーション評価を行い、これまでの$\tilde o\left(\frac{d^{1/4}}{\sqrt{\epsilon n}}\right)$の最高勾配境界を改善した。 We introduce new algorithms and convergence guarantees for privacy-preserving non-convex Empirical Risk Minimization (ERM) on smooth $d$-dimensional objectives. We develop an improved sensitivity analysis of stochastic gradient descent on smooth objectives that exploits the recurrence of examples in different epochs. By combining this new approach with recent analysis of momentum with private aggregation techniques, we provide an $(\epsilon,\delta)$-differential private algorithm that finds a gradient of norm $\tilde O\left(\frac{d^{1/3}}{(\epsilon N)^{2/3}}\right)$ in $O\left(\frac{N^{7/3}\epsilon^{4/3}}{d^{2/3}}\right)$ gradient evaluations, improving the previous best gradient bound of $\tilde O\left(\frac{d^{1/4}}{\sqrt{\epsilon N}}\right)$. | 翻訳日:2022-10-13 15:33:40 公開日:2022-10-12 |
# DQLAP:実蒸気タービンシステムの更新ポリシー付き深部Q-Learning Recommenderアルゴリズム DQLAP: Deep Q-Learning Recommender Algorithm with Update Policy for a Real Steam Turbine System ( http://arxiv.org/abs/2210.06399v1 ) ライセンス: Link先を確認 | M.H. Modirrousta, M. Aliyari Shoorehdeli, M. Yari, A. Ghahremani | (参考訳) 現代の産業システムでは、時間的欠陥の診断と最良の方法の使用がますます重要になっている。
障害が検出されない場合や遅れが検出されない場合、システムやリソースを無駄にすることができる。
マシンラーニングとディープラーニングは,データベース障害診断のための様々な手法を提案し,最も信頼性が高く実用的な方法を模索している。
本稿では,欠陥検出のためのディープラーニングと強化学習に基づくフレームワークの開発を目的とする。
新しいデータが受信された場合、強化学習ポリシーを更新することにより、精度を高め、データの不均衡を克服し、将来の欠陥を予測することができる。
この手法を実装することで、同様のパラメータを持つ典型的なバックプロパゲーション多層ニューラルネットワーク予測と比較して、すべての評価指標に3.5%ドル、予測速度に3.5%ドル、全ての評価指標に4.5%ドルが増加します。 In modern industrial systems, diagnosing faults in time and using the best methods becomes more and more crucial. It is possible to fail a system or to waste resources if faults are not detected or are detected late. Machine learning and deep learning have proposed various methods for data-based fault diagnosis, and we are looking for the most reliable and practical ones. This paper aims to develop a framework based on deep learning and reinforcement learning for fault detection. We can increase accuracy, overcome data imbalance, and better predict future defects by updating the reinforcement learning policy when new data is received. By implementing this method, we will see an increase of $3\%$ in all evaluation metrics, an improvement in prediction speed, and $3\%$ - $4\%$ in all evaluation metrics compared to typical backpropagation multi-layer neural network prediction with similar parameters. | 翻訳日:2022-10-13 15:33:09 公開日:2022-10-12 |
# 高速道路橋梁システムの地震信頼性解析のためのグラフニューラルネットワークサロゲート Graph Neural Network Surrogate for seismic reliability analysis of highway bridge system ( http://arxiv.org/abs/2210.06404v1 ) ライセンス: Link先を確認 | Tong Liu, Hadi Meidani | (参考訳) 輸送ネットワークの迅速な信頼性評価は、これらのシステムに関連する準備、リスク緩和、応答管理手順を強化することができる。
ネットワーク信頼性のアプローチは一般にネットワークレベルの応答を考慮し、計算コストがより詳細なノードレベルの応答を考慮しない。
本稿では,関心点と他のノード間のノードレベルの接続性を確率的橋梁条件と地震事象下で定量化する,グラフニューラルネットワークに基づく橋梁網の高速地震信頼性評価手法を提案する。
カリフォルニアにおける輸送システムの数値実験により,モンテカルロ法と比較して提案手法の精度,計算効率,ロバスト性を実証した。 Rapid reliability assessment of transportation networks can enhance preparedness, risk mitigation and response management procedures related to these systems. Network reliability approaches commonly consider network-level responses, and due to computational cost do not consider the more detailed node-level responses. In this paper, we propose a rapid seismic reliability assessment approach for bridge networks based on graph neural networks, where node-level connectivities, between points of interest and other nodes, are quantified under probabilistic bridge conditions and earthquake events. Via numerical experiments on transportation systems in California, we demonstrate the accuracy, computational efficiency and robustness of the proposed approach compared to the Monte Carlo approach. | 翻訳日:2022-10-13 15:32:53 公開日:2022-10-12 |
# FedProp:フェデレートセミ教師付き学習のためのクロスクライアントラベルの伝播 FedProp: Cross-client Label Propagation for Federated Semi-supervised Learning ( http://arxiv.org/abs/2210.06434v1 ) ライセンス: Link先を確認 | Jonathan Scott, Michelle Yeo, Christoph H. Lampert | (参考訳) フェデレーテッド・ラーニング(FL)は、複数のクライアントが、他の参加者とデータを共有する必要のない方法で、機械学習モデルを共同でトレーニングすることを可能にする。
すべてのクライアントデータが完全にラベル付けされている教師付き設定では、データプライバシを必要とする学習タスクにflが広く採用されている。
しかし、クライアントが部分的にラベル付けされているか、完全にラベル付けされていないデータを持っている半教師付き環境で、フェデレーション学習をいかにうまく行うかは、現在進行中の研究課題である。
本稿では,半教師付き学習(SSL)に対する多様体に基づくアプローチに従う新しい手法であるFedPropを提案する。
複数のクライアントのデータから共同でデータ多様体を推定し、クロスクライアントラベル伝播を用いて擬似ラベルを計算する。
クライアントがデータを誰とでも共有しなければならないことを避けるため、FedPropは2つの暗号化的にセキュアで高効率なプロトコルを使用している。
3つの標準ベンチマーク実験により、FedPropは以前のフェデレーションSSLメソッドよりも高い分類精度を達成することが示された。
さらに、擬似ラベルベースの技術として、feedpropは、他のフェデレーションsslアプローチ、特に一貫性に基づくアプローチを補完する。
両者を組み合わせることで,さらなる精度向上が可能であることを示す。 Federated learning (FL) allows multiple clients to jointly train a machine learning model in such a way that no client has to share their data with any other participating party. In the supervised setting, where all client data is fully labeled, FL has been widely adopted for learning tasks that require data privacy. However, it is an ongoing research question how to best perform federated learning in a semi-supervised setting, where the clients possess data that is only partially labeled or even completely unlabeled. In this work, we propose a new method, FedProp, that follows a manifold-based approach to semi-supervised learning (SSL). It estimates the data manifold jointly from the data of multiple clients and computes pseudo-labels using cross-client label propagation. To avoid that clients have to share their data with anyone, FedProp employs two cryptographically secure yet highly efficient protocols: secure Hamming distance computation and secure summation. Experiments on three standard benchmarks show that FedProp achieves higher classification accuracy than previous federated SSL methods. Furthermore, as a pseudolabel-based technique, FedProp is complementary to other federated SSL approaches, in particular consistency-based ones. We demonstrate experimentally that further accuracy gains are possible by combining both. | 翻訳日:2022-10-13 15:32:44 公開日:2022-10-12 |
# ディープコンビネーションアグリゲーション Deep Combinatorial Aggregation ( http://arxiv.org/abs/2210.06436v1 ) ライセンス: Link先を確認 | Yuesong Shen, Daniel Cremers | (参考訳) ニューラルネットワークは不確実性の推定が不十分であることが知られており、この問題を改善するための様々なアプローチが提案されている。
これは、不確実性を認識した学習タスクの最先端結果を達成する、シンプルで効果的な方法である。
本研究では,ディープコンビネーションアグリゲーション(dca)と呼ばれる深層アンサンブルの組合せ一般化について検討する。
DCAはネットワークコンポーネントの複数のインスタンスを生成し、それらの組み合わせを集約して、多様化したモデルの提案と予測を生成する。
DCAコンポーネントは、異なるレベルの粒度で定義することができる。
また,粗粒dcasは,予測性能と不確実性推定の両面で,不確実性認識学習の深層アンサンブルを上回ることがわかった。
細粒度DCAでは,DCWA(Deep combinatorial weight averaging)と呼ばれる平均パラメータ化手法がベースライントレーニングを改善することが判明した。
確率的重量平均法(swa)と同等であるが、個別の訓練スケジュールやバッチノルム層の適応を必要としない。
さらに,DCWA と DCA の訓練を支援する整合性を持たせることを提案する。
ドメイン内,分布シフト,分布外画像分類タスクを実験し,dcwa法とdca法の有効性を実証的に確認した。 Neural networks are known to produce poor uncertainty estimations, and a variety of approaches have been proposed to remedy this issue. This includes deep ensemble, a simple and effective method that achieves state-of-the-art results for uncertainty-aware learning tasks. In this work, we explore a combinatorial generalization of deep ensemble called deep combinatorial aggregation (DCA). DCA creates multiple instances of network components and aggregates their combinations to produce diversified model proposals and predictions. DCA components can be defined at different levels of granularity. And we discovered that coarse-grain DCAs can outperform deep ensemble for uncertainty-aware learning both in terms of predictive performance and uncertainty estimation. For fine-grain DCAs, we discover that an average parameterization approach named deep combinatorial weight averaging (DCWA) can improve the baseline training. It is on par with stochastic weight averaging (SWA) but does not require any custom training schedule or adaptation of BatchNorm layers. Furthermore, we propose a consistency enforcing loss that helps the training of DCWA and modelwise DCA. We experiment on in-domain, distributional shift, and out-of-distribution image classification tasks, and empirically confirm the effectiveness of DCWA and DCA approaches. | 翻訳日:2022-10-13 15:32:21 公開日:2022-10-12 |
# Phantom - 複雑な経済システムと市場のエージェントベースモデリングのためのRL駆動フレームワーク Phantom -- An RL-driven framework for agent-based modeling of complex economic systems and markets ( http://arxiv.org/abs/2210.06012v1 ) ライセンス: Link先を確認 | Leo Ardon, Jared Vann, Deepeka Garg, Tom Spooner, Sumitra Ganesh | (参考訳) エージェント・ベース・モデリング(abm)は、システム内の自律的意思決定コンポーネントやエージェントの振る舞いを特定し、システムのダイナミクスをその相互作用から生じさせることによって、複雑なシステムのモデリングを行うための計算手法である。
マルチエージェント強化学習(marl:multi-agent reinforcement learning)の分野における最近の進歩により、複数のエージェントが同時に学習する複雑な環境の平衡を学べるようになった。
しかし、ほとんどのABMフレームワークはRLネイティブではなく、エージェントの振る舞いを学ぶためにMARLと互換性のある概念やインターフェースを提供していない。
本稿では,abm と marl のギャップを埋めるための新しいフレームワーク phantom を提案する。
phantomは、経済システムや市場のような複雑なマルチエージェントシステムのエージェントベースモデリングのためのrl駆動フレームワークである。
これを実現するためにフレームワークは、動的部分的可観測性、エージェントユーティリティ/報酬関数のエンコード機能、エージェントの嗜好や型の不均一性、エージェントが動作可能な順序(例えばStackelbergゲームや複雑なターンテイク環境)の制約を含む、MARL互換の用語でABMを指定するツールを提供する。
本稿では,これらの特徴,その設計上の根拠を述べ,otc(over-the-counter)市場をモデル化しシミュレートする方法を示す。 Agent based modeling (ABM) is a computational approach to modeling complex systems by specifying the behavior of autonomous decision-making components or agents in the system and allowing the system dynamics to emerge from their interactions. Recent advances in the field of Multi-agent reinforcement learning (MARL) have made it feasible to learn the equilibrium of complex environments where multiple agents learn at the same time - opening up the possibility of building ABMs where agent behaviors are learned and system dynamics can be analyzed. However, most ABM frameworks are not RL-native, in that they do not offer concepts and interfaces that are compatible with the use of MARL to learn agent behaviors. In this paper, we introduce a new framework, Phantom, to bridge the gap between ABM and MARL. Phantom is an RL-driven framework for agent-based modeling of complex multi-agent systems such as economic systems and markets. To enable this, the framework provides tools to specify the ABM in MARL-compatible terms - including features to encode dynamic partial observability, agent utility / reward functions, heterogeneity in agent preferences or types, and constraints on the order in which agents can act (e.g. Stackelberg games, or complex turn-taking environments). In this paper, we present these features, their design rationale and show how they were used to model and simulate Over-The-Counter (OTC) markets. | 翻訳日:2022-10-13 15:31:58 公開日:2022-10-12 |
# 非公理的項論理:認知的記号的推論の計算理論 Non-Axiomatic Term Logic: A Computational Theory of Cognitive Symbolic Reasoning ( http://arxiv.org/abs/2210.06316v1 ) ライセンス: Link先を確認 | Kotaro Funakoshi | (参考訳) 本稿では,人工知能における人型記号推論の理論的計算枠組みとして,非公理項論理(NATL)を提案する。
natlは、アリストテレスの用語論理に触発された離散的な構文体系と、分散表現や埋め込みという現代的な概念に基づく連続的な意味体系を結合する。
本稿では,系統学と論理学の文献に提案されたアプローチを位置づけ,その枠組みを説明する。
理論に留まらず、それを実装するにはさらに詳細化する必要があるため、定量的評価は提示されていない。
代わりに、natlを用いた議論の質的分析、認知科学/ロボット工学関連の研究への応用、機械の実装に関する課題について論じる。 This paper presents Non-Axiomatic Term Logic (NATL) as a theoretical computational framework of humanlike symbolic reasoning in artificial intelligence. NATL unites a discrete syntactic system inspired from Aristotle's term logic and a continuous semantic system based on the modern idea of distributed representations, or embeddings. This paper positions the proposed approach in the phylogeny and the literature of logic, and explains the framework. As it is yet no more than a theory and it requires much further elaboration to implement it, no quantitative evaluation is presented. Instead, qualitative analyses of arguments using NATL, some applications to possible cognitive science/robotics-related research, and remaining issues towards a machinery implementation are discussed. | 翻訳日:2022-10-13 15:31:30 公開日:2022-10-12 |
# シャッフル付きSGDA:非凸P{\L}極小最適化のための高速収束 SGDA with shuffling: faster convergence for nonconvex-P{\L} minimax optimization ( http://arxiv.org/abs/2210.05995v1 ) ライセンス: Link先を確認 | Hanseul Cho, Chulhee Yun | (参考訳) 確率勾配降下度(SGDA)は有限サム最小値最適化問題の解法の一つである。
SGDAのほとんどの実践的な実装は、ランダムに部品をリシャッフルし、それらを逐次使用する(すなわち、非置換サンプリング)が、ミニマックスアルゴリズムに対するこのアプローチに関する理論的結果はほとんどない。
このギャップを狭めるために、Polyak-{\L}ojasiewicz (P{\L}) 幾何を用いた滑らかな非凸非凹面対象に対するランダムリシャッフル(SGDA-RR)によるSGDAの収束境界について検討する。
非凸-p{\l} 目的と原始-p{\l}-p{\l} 目的の同時および交代 sgda-rr を解析し,再配置 sgda よりも高速に収束率を得る。
また,SGDA-RRは,全バッチ勾配勾配上昇(GDA)の既知速度を回復する。
最後に, P{\L}-P{\L} の場合の完全バッチ速度と一致する 2 時間スケール GDA の包括的下限を示す。 Stochastic gradient descent-ascent (SGDA) is one of the main workhorses for solving finite-sum minimax optimization problems. Most practical implementations of SGDA randomly reshuffle components and sequentially use them (i.e., without-replacement sampling); however, there are few theoretical results on this approach for minimax algorithms, especially outside the easier-to-analyze (strongly-)monotone setups. To narrow this gap, we study the convergence bounds of SGDA with random reshuffling (SGDA-RR) for smooth nonconvex-nonconcave objectives with Polyak-{\L}ojasiewicz (P{\L}) geometry. We analyze both simultaneous and alternating SGDA-RR for nonconvex-P{\L} and primal-P{\L}-P{\L} objectives, and obtain convergence rates faster than with-replacement SGDA. Our rates also extend to mini-batch SGDA-RR, recovering known rates for full-batch gradient descent-ascent (GDA). Lastly, we present a comprehensive lower bound for two-time-scale GDA, which matches the full-batch rate for primal-P{\L}-P{\L} case. | 翻訳日:2022-10-13 15:31:17 公開日:2022-10-12 |
# ISCSLP 2022中英コードスイッチングASRチャレンジの概要 Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge ( http://arxiv.org/abs/2210.06091v1 ) ライセンス: Link先を確認 | Shuhao Deng, Chengfei Li, infeng Bai, Qingqing Zhang, Wei-Qiang Zhang, Runyan Yang, Gaofeng Cheng, Pengyuan Zhang and Yonghong Yan | (参考訳) コードスイッチング自動音声認識は、多言語言語間のコードスイッチング現象と日常生活におけるコードスイッチング現象の頻発により、最も困難で価値のある自動音声認識のシナリオの1つである。
ISCSLP 2022 China- English Code-Switching Automatic Speech Recognition (CSASR) Challengeは、コードスイッチング自動音声認識の開発を促進することを目的としている。
ISCSLP 2022 CSASRチャレンジでは、TAL_CSASRコーパスとMagicData-RAMCコーパス、参加者のための開発とテストセットの2つのトレーニングセットが提供され、CSASRモデルのトレーニングと評価に使用された。
この課題に加えて、参照のためのベースラインシステムパフォーマンスも提供します。
その結果、40以上のチームがこの挑戦に参加し、勝者チームは16.70%の混合エラー率(MER)をテストセットで達成し、ベースラインシステムと比較して9.8%のMERを絶対的に改善した。
本稿では,データセット,関連するベースラインシステム,要件について述べるとともに,提案システムで使用されるcsasrチャレンジ結果と主要なテクニックとトリックを要約する。 Code-switching automatic speech recognition becomes one of the most challenging and the most valuable scenarios of automatic speech recognition, due to the code-switching phenomenon between multilingual language and the frequent occurrence of code-switching phenomenon in daily life. The ISCSLP 2022 Chinese-English Code-Switching Automatic Speech Recognition (CSASR) Challenge aims to promote the development of code-switching automatic speech recognition. The ISCSLP 2022 CSASR challenge provided two training sets, TAL_CSASR corpus and MagicData-RAMC corpus, a development and a test set for participants, which are used for CSASR model training and evaluation. Along with the challenge, we also provide the baseline system performance for reference. As a result, more than 40 teams participated in this challenge, and the winner team achieved 16.70% Mixture Error Rate (MER) performance on the test set and has achieved 9.8% MER absolute improvement compared with the baseline system. In this paper, we will describe the datasets, the associated baselines system and the requirements, and summarize the CSASR challenge results and major techniques and tricks used in the submitted systems. | 翻訳日:2022-10-13 15:30:35 公開日:2022-10-12 |
# ダブルバブル, トイ, トラブル: トランジティビティによる認証ロバスト性向上 Double Bubble, Toil and Trouble: Enhancing Certified Robustness through Transitivity ( http://arxiv.org/abs/2210.06077v1 ) ライセンス: Link先を確認 | Andrew C. Cullen, Paul Montague, Shijie Liu, Sarah M. Erfani, Benjamin I.P. Rubinstein | (参考訳) ニューラルネットワークモデルの分類をひっくり返す微妙な敵対的な例に反応して、最近の研究はソリューションとして認定ロバスト性を促進している。
そこで、ネットワーク入力のランダムな平滑化により、すべてのノルムバウンド攻撃に対する予測の不変性が達成される。
今日の最先端の認定では、テスト中の入力インスタンスでクラス出力スコアを最適に利用しています。
しかし、テスト中のインスタンスの周囲のローカル情報を使って、そのような低い境界を改善できるかどうかについては、明らかな疑問である。
本研究は,認証の推移性と入力空間の幾何学の両方を利用して,今日の「最適」証明をどのように改善できるかを実証し,幾何学的証明ロバストネス(Geometrically-Informed Certified Robustness)と呼ぶものを生み出した。
認証のセットの境界にある点までの距離を最小にすることで、このアプローチは80\%以上の小さなimagenetインスタンスの認証を改善し、関連する認証を平均5 \%$増加させる。
認定半径を増大させるトレーニング時間プロセスを導入すると、より有望な結果が得られ、達成された認定半径の4ドルポイントが均一に上昇する。 In response to subtle adversarial examples flipping classifications of neural network models, recent research has promoted certified robustness as a solution. There, invariance of predictions to all norm-bounded attacks is achieved through randomised smoothing of network inputs. Today's state-of-the-art certifications make optimal use of the class output scores at the input instance under test: no better radius of certification (under the $L_2$ norm) is possible given only these score. However, it is an open question as to whether such lower bounds can be improved using local information around the instance under test. In this work, we demonstrate how today's "optimal" certificates can be improved by exploiting both the transitivity of certifications, and the geometry of the input space, giving rise to what we term Geometrically-Informed Certified Robustness. By considering the smallest distance to points on the boundary of a set of certifications this approach improves certifications for more than $80\%$ of Tiny-Imagenet instances, yielding an on average $5 \%$ increase in the associated certification. When incorporating training time processes that enhance the certified radius, our technique shows even more promising results, with a uniform $4$ percentage point increase in the achieved certified radius. | 翻訳日:2022-10-13 15:25:02 公開日:2022-10-12 |
# ローカルクエリはいつ堅牢な学習に有用か? When are Local Queries Useful for Robust Learning? ( http://arxiv.org/abs/2210.06089v1 ) ライセンス: Link先を確認 | Pascale Gourdeau, Varun Kanade, Marta Kwiatkowska, James Worrell | (参考訳) 正確なボール内ロバストリスクと、Gourdeau et al. (2019) によるランダムな例へのアクセスを考えると、概念クラスの堅牢な学習性には分布仮定が必要であることが示されている。
本稿では,局所的クエリを用いて学習者がより多くのパワーを与えられる学習モデルについて検討し,このロバスト性の概念に対してロバストな経験的リスク最小化(erm)を行う最初の分散フリーアルゴリズムを提案する。
私たちが検討する最初の学習モデルは、学習者がトレーニングサンプルの近くのポイントのラベルをクエリできるローカルメンバシップクエリ(LMQ)を使用する。
均一分布の下では、LMQ は接続の堅牢性しきい値や、決定リストやハーフスペースのような任意のスーパークラスを増大させません。
この負の結果に直面して、局所等価クエリー(LEQ)オラクルを導入する。これは、仮説と目標概念がトレーニングサンプルの点付近の摂動領域に一致するかどうかを返却し、もし存在するなら逆例を示す。
一方、クエリ半径$\lambda$が敵の摂動予算$\rho$より厳密に小さい場合、分散のない堅牢な学習は様々な概念クラスでは不可能であり、一方、$\lambda=\rho$の設定は堅牢なEMMアルゴリズムの開発を可能にします。
そして、オンライン学習保証に基づいてこれらのアルゴリズムの問合せ複雑性を制限し、特別な結合の場合にはこれらの境界をさらに改善します。
ハーフスペースに対して、$\{0,1\}^n$ と $\mathbb{R}^n$ の両方にマージンを持つ堅牢な学習アルゴリズムを与える。 Distributional assumptions have been shown to be necessary for the robust learnability of concept classes when considering the exact-in-the-ball robust risk and access to random examples by Gourdeau et al. (2019). In this paper, we study learning models where the learner is given more power through the use of local queries, and give the first distribution-free algorithms that perform robust empirical risk minimization (ERM) for this notion of robustness. The first learning model we consider uses local membership queries (LMQ), where the learner can query the label of points near the training sample. We show that, under the uniform distribution, LMQs do not increase the robustness threshold of conjunctions and any superclass, e.g., decision lists and halfspaces. Faced with this negative result, we introduce the local equivalence query (LEQ) oracle, which returns whether the hypothesis and target concept agree in the perturbation region around a point in the training sample, as well as a counterexample if it exists. We show a separation result: on one hand, if the query radius $\lambda$ is strictly smaller than the adversary's perturbation budget $\rho$, then distribution-free robust learning is impossible for a wide variety of concept classes; on the other hand, the setting $\lambda=\rho$ allows us to develop robust ERM algorithms. We then bound the query complexity of these algorithms based on online learning guarantees and further improve these bounds for the special case of conjunctions. We finish by giving robust learning algorithms for halfspaces with margins on both $\{0,1\}^n$ and $\mathbb{R}^n$. | 翻訳日:2022-10-13 15:24:39 公開日:2022-10-12 |
# ディープラーニングのための高速ベイズ更新 : アクティブラーニングのユースケース Fast Bayesian Updates for Deep Learning with a Use Case in Active Learning ( http://arxiv.org/abs/2210.06112v1 ) ライセンス: Link先を確認 | Marek Herde and Zhixin Huang and Denis Huseljic and Daniel Kottke and Stephan Vogt and Bernhard Sick | (参考訳) 新しいデータが到着したときのディープニューラルネットワークのリトレーニングは通常、計算コストがかかる。
さらに、時間や計算上の制約により、そのようなコストのかかる再訓練を許さないアプリケーションもある。
高速ベイジアンアップデートはこの問題の解決策として考えられる。
そこで本研究では,モンテカルロサンプルに基づくベイズ更新と,様々なベイズ型ニューラルネットワーク,すなわちドロップアウト,アンサンブル,スペクトル正規化ニューラルガウス過程(sngp)に対するラプラス近似を提案する。
大規模な評価研究において、SNGPと組み合わせたアップデートは、コストのかかるリトレーニングの高速かつ競争的な代替手段であることを示す。
ユースケースとして、SNGPのベイジアン更新と異なるシーケンシャルクエリ戦略を組み合わせることで、アクティブラーニングにおける選択性能の向上を実証する。 Retraining deep neural networks when new data arrives is typically computationally expensive. Moreover, certain applications do not allow such costly retraining due to time or computational constraints. Fast Bayesian updates are a possible solution to this issue. Therefore, we propose a Bayesian update based on Monte-Carlo samples and a last-layer Laplace approximation for different Bayesian neural network types, i.e., Dropout, Ensemble, and Spectral Normalized Neural Gaussian Process (SNGP). In a large-scale evaluation study, we show that our updates combined with SNGP represent a fast and competitive alternative to costly retraining. As a use case, we combine the Bayesian updates for SNGP with different sequential query strategies to exemplarily demonstrate their improved selection performance in active learning. | 翻訳日:2022-10-13 15:24:02 公開日:2022-10-12 |
# ベイズ擬核集合の発散測度について On Divergence Measures for Bayesian Pseudocoresets ( http://arxiv.org/abs/2210.06205v1 ) ライセンス: Link先を確認 | Balhae Kim, Jungwon Choi, Seanie Lee, Yoonho Lee, Jung-Woo Ha, Juho Lee | (参考訳) ベイズ擬似コアセット(Bayesian pseudocoreset)は、後方のパラメータが元のデータセットと近似する小さな合成データセットである。
有望ではあるが、ディープニューラルネットワークによる画像分類のような現実的な問題では、ベイジアン擬似コアセットのスケーラビリティはまだ検証されていない。
一方、データセット蒸留法も同様に小さなデータセットを構築し、合成データセットを用いた最適化は、フルデータによる最適化と競合する性能を持つソリューションに収束する。
大規模環境では,データセットの蒸留が実証的に検証されているが,このフレームワークは推定点に制限されており,ベイズ推定への適応は検討されていない。
本稿では,2つの代表的なデータセット蒸留アルゴリズムを,逆KL分散とワッサーシュタイン距離を最小化して擬似コアセットを構築する手法に近似した。
さらに、ベイズ擬似コアセット構成におけるそのような発散対策の統一的な視点を提供する。
最後に,前方kl発散を最小化するベイズ型擬似コアセットアルゴリズムを提案する。
実験の結果,これらの手法から構築した擬似コア集合は,高次元ベイズ推定問題においても真の後方を反映することが示された。 A Bayesian pseudocoreset is a small synthetic dataset for which the posterior over parameters approximates that of the original dataset. While promising, the scalability of Bayesian pseudocoresets is not yet validated in realistic problems such as image classification with deep neural networks. On the other hand, dataset distillation methods similarly construct a small dataset such that the optimization using the synthetic dataset converges to a solution with performance competitive with optimization using full data. Although dataset distillation has been empirically verified in large-scale settings, the framework is restricted to point estimates, and their adaptation to Bayesian inference has not been explored. This paper casts two representative dataset distillation algorithms as approximations to methods for constructing pseudocoresets by minimizing specific divergence measures: reverse KL divergence and Wasserstein distance. Furthermore, we provide a unifying view of such divergence measures in Bayesian pseudocoreset construction. Finally, we propose a novel Bayesian pseudocoreset algorithm based on minimizing forward KL divergence. Our empirical results demonstrate that the pseudocoresets constructed from these methods reflect the true posterior even in high-dimensional Bayesian inference problems. | 翻訳日:2022-10-13 15:23:30 公開日:2022-10-12 |
# FCT-GAN:フーリエ変換によるテーブル合成の強化 FCT-GAN: Enhancing Table Synthesis via Fourier Transform ( http://arxiv.org/abs/2210.06239v1 ) ライセンス: Link先を確認 | Zilong Zhao, Robert Birke, Lydia Y. Chen | (参考訳) 合成表データは知識の共有の代替として出現し、欧州一般データ保護規則(GDPR)などの制限的なデータアクセス規則に準拠している。
主流の最先端の表型データシンセサイザーは、ジェネレータと判別器からなる生成型逆ネットワーク(gans)から方法論を導出する。
畳み込みニューラルネットワークは、表データ合成のための完全接続ネットワークよりも優れたアーキテクチャであることが示されているが、表データの2つの重要な特性を見落としている。
(i)柱間の大域的相関、
(ii)入力データの列順列に合成する不変量
上記の問題に対処するため,Fourier条件付き表層生成対向ネットワーク(FCT-GAN)を提案する。
特徴トークン化とフーリエネットワークを導入してトランスフォーマティブ型生成器と判別器を構築し,コラム間の局所的およびグローバル的依存関係をキャプチャする。
トークン化器は局所的な空間的特徴をキャプチャし、元のデータをトークンに変換する。
フーリエネットワークはトークンを周波数領域に変換し、要素ごとに学習可能なフィルタを乗算する。
ベンチマークと実世界のデータに対する広範囲な評価は、FCT-GANが高い機械学習ユーティリティ(最先端のベースラインよりも最大27.8%良い)と元のデータと高い統計的類似性(最大26.5%良い)で表層データを合成できることを示している。 Synthetic tabular data emerges as an alternative for sharing knowledge while adhering to restrictive data access regulations, e.g., European General Data Protection Regulation (GDPR). Mainstream state-of-the-art tabular data synthesizers draw methodologies from Generative Adversarial Networks (GANs), which are composed of a generator and a discriminator. While convolution neural networks are shown to be a better architecture than fully connected networks for tabular data synthesizing, two key properties of tabular data are overlooked: (i) the global correlation across columns, and (ii) invariant synthesizing to column permutations of input data. To address the above problems, we propose a Fourier conditional tabular generative adversarial network (FCT-GAN). We introduce feature tokenization and Fourier networks to construct a transformer-style generator and discriminator, and capture both local and global dependencies across columns. The tokenizer captures local spatial features and transforms original data into tokens. Fourier networks transform tokens to frequency domains and element-wisely multiply a learnable filter. Extensive evaluation on benchmarks and real-world data shows that FCT-GAN can synthesize tabular data with high machine learning utility (up to 27.8% better than state-of-the-art baselines) and high statistical similarity to the original data (up to 26.5% better), while maintaining the global correlation across columns, especially on high dimensional dataset. | 翻訳日:2022-10-13 15:23:11 公開日:2022-10-12 |
# 機械学習を用いたシカゴ郊外の住宅価格予測と不動産市場分析 Predicting housing prices and analyzing real estate market in the Chicago suburbs using Machine Learning ( http://arxiv.org/abs/2210.06261v1 ) ライセンス: Link先を確認 | Kevin Xu, Hieu Nguyen | (参考訳) 住宅の価格設定は様々な要因によって決定される。
しかし、ポストパンデミック市場はシカゴ郊外でボラティリティを経験しており、住宅価格に大きな影響を与えている。
本研究では, ナパービル/ボリングブルック不動産市場において, これらの住宅属性に基づく不動産価格の予測を機械学習モデルを用いて行い, 不安定な市場空間におけるモデルの有効性を評価する。
不動産サイトであるredfinのデータを収集し、2018年から2022年の夏までの売り上げを調査対象とした。
この範囲でこれらの販売を分析することで、住宅市場の現状を把握し、価格動向を把握できる。
データのモデル化には、線形回帰、サポートベクトル回帰、決定木回帰、ランダムフォレスト回帰、xgboost回帰といったモデルを用いた。
結果を分析するために,各モデルのmae値,rmse値,r-squared値の比較を行った。
その結果,XGBoostモデルでは,ポストパンデミック条件による付加ボラティリティにもかかわらず,住宅価格の予測に最適であることが判明した。
モデリング後、モデル構築における変数の重み付けを評価するためにShapley Values (SHAP) が用いられた。 The pricing of housing properties is determined by a variety of factors. However, post-pandemic markets have experienced volatility in the Chicago suburb area, which have affected house prices greatly. In this study, analysis was done on the Naperville/Bolingbrook real estate market to predict property prices based on these housing attributes through machine learning models, and to evaluate the effectiveness of such models in a volatile market space. Gathering data from Redfin, a real estate website, sales data from 2018 up until the summer season of 2022 were collected for research. By analyzing these sales in this range of time, we can also look at the state of the housing market and identify trends in price. For modeling the data, the models used were linear regression, support vector regression, decision tree regression, random forest regression, and XGBoost regression. To analyze results, comparison was made on the MAE, RMSE, and R-squared values for each model. It was found that the XGBoost model performs the best in predicting house prices despite the additional volatility sponsored by post-pandemic conditions. After modeling, Shapley Values (SHAP) were used to evaluate the weights of the variables in constructing models. | 翻訳日:2022-10-13 15:22:42 公開日:2022-10-12 |
# マルチエージェント強化学習におけるハイブリッド演習による集中訓練 Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.06274v1 ) ライセンス: Link先を確認 | Pedro P. Santos, Diogo S. Carvalho, Miguel Vasco, Alberto Sardinha, Pedro A. Santos, Ana Paiva, Francisco S. Melo | (参考訳) エージェント間の情報共有を生かして,エージェントが任意のコミュニケーションレベルで協調作業を行うための新しいパラダイムであるマルチエージェント強化学習(MARL)にハイブリッド実行を導入する。
ハイブリッド実行では、コミュニケーションレベルはエージェント間の通信を許可しない(完全に分散化)設定から、完全な通信を特徴とする(完全に集中化)設定まで様々である。
我々の設定を形式化するために、エージェント間の通信プロセスを明示的にモデル化するハイブリッドPOMDPと呼ばれるマルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)を新たに定義する。
我々は,エージェントの観測値の推定に自己回帰的予測モデルを組み合わせたアプローチであるmaroと,集中型トレーニングフェーズで異なるコミュニケーションレベルをシミュレートするドロップアウトベースのrlトレーニングスキームを提案する。
我々は、MARLにおける部分観測可能性の負の影響を強調するために、以前のベンチマークの標準シナリオと拡張についてMAROを評価する。
実験の結果,提案手法はベースラインを一貫して上回っており,エージェントが情報共有をうまく活用しながら,誤った通信で行動できることがわかった。 We introduce hybrid execution in multi-agent reinforcement learning (MARL), a new paradigm in which agents aim to successfully perform cooperative tasks with any communication level at execution time by taking advantage of information-sharing among the agents. Under hybrid execution, the communication level can range from a setting in which no communication is allowed between agents (fully decentralized), to a setting featuring full communication (fully centralized). To formalize our setting, we define a new class of multi-agent partially observable Markov decision processes (POMDPs) that we name hybrid-POMDPs, which explicitly models a communication process between the agents. We contribute MARO, an approach that combines an autoregressive predictive model to estimate missing agents' observations, and a dropout-based RL training scheme that simulates different communication levels during the centralized training phase. We evaluate MARO on standard scenarios and extensions of previous benchmarks tailored to emphasize the negative impact of partial observability in MARL. Experimental results show that our method consistently outperforms baselines, allowing agents to act with faulty communication while successfully exploiting shared information. | 翻訳日:2022-10-13 15:22:23 公開日:2022-10-12 |
# 言語モデルは現実的なタブラルデータジェネレータである Language Models are Realistic Tabular Data Generators ( http://arxiv.org/abs/2210.06280v1 ) ライセンス: Link先を確認 | Vadim Borisov, Kathrin Se{\ss}ler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci | (参考訳) タブラルデータは、最も古く、最もユビキタスな形式のデータである。
しかしながら、元のデータの特徴を持つ合成サンプルの生成は、依然として表データにとって重要な課題である。
コンピュータビジョン領域の多くの生成モデル(オートエンコーダや生成逆数ネットワークなど)は表型データ生成に適応しているが、近年のトランスフォーマーベースの大規模言語モデル(LLM)への研究は少ない。
そこで本研究では, 自動回帰生成 LLM を利用して, 合成かつ高現実的な表形式データをサンプリングする GReaT (Generation of Realistic Tabular data) を提案する。
さらに、greatは、任意の機能のサブセットを条件付けすることで、表形式のデータ分布をモデル化できる。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
GReaTは、異質な特徴型を持つ多くの実世界のデータセットに対して、最先端のパフォーマンスを維持している。 Tabular data is among the oldest and most ubiquitous forms of data. However, the generation of synthetic samples with the original data's characteristics still remains a significant challenge for tabular data. While many generative models from the computer vision domain, such as autoencoders or generative adversarial networks, have been adapted for tabular data generation, less research has been directed towards recent transformer-based large language models (LLMs), which are also generative in nature. To this end, we propose GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive generative LLM to sample synthetic and yet highly realistic tabular data. Furthermore, GReaT can model tabular data distributions by conditioning on any subset of features; the remaining features are sampled without additional overhead. We demonstrate the effectiveness of the proposed approach in a series of experiments that quantify the validity and quality of the produced data samples from multiple angles. We find that GReaT maintains state-of-the-art performance across many real-world data sets with heterogeneous feature types. | 翻訳日:2022-10-13 15:22:00 公開日:2022-10-12 |
# システムを賭ける:ラインアップを使ってフットボールの得点を予測する Betting the system: Using lineups to predict football scores ( http://arxiv.org/abs/2210.06327v1 ) ライセンス: Link先を確認 | George Peters and Diogo Pacheco | (参考訳) 本稿では,我々が開発した機械学習予測モデルを用いて,最終点におけるラインアップの役割を分析し,サッカーのランダム性を低減することを目的とする。
サッカークラブはラインアップに数百万ドルを投資し、個々の統計がどのようにより良い結果をもたらすかを知り、投資を最適化する。
さらに、スポーツ賭けは指数関数的に増加し、将来を予測することは利益であり、望ましい。
英プレミアリーグ(2020-2022)の機械学習モデルと履歴プレイヤーデータを用いて得点を予測し、個々の成績が試合の結果をどのように改善できるかを理解する。
有用なモデルを見つける可能性を最大化するために,様々な予測手法を比較した。
異なるテクニックを比較するために、サッカーのスコアを予測するヒューリスティックと機械学習のモデルを作りました。
さまざまな機能セットを使用して、ゴールキーパーの統計がアタッカーの統計よりも重要であることを示した。
実世界のアプリケーションにおけるモデルの有効性を評価するために,幅広い評価プロセスを適用した。
100試合連続の予測の後、私たちはうまくすべての降格チームを予測しました。
サポートベクター回帰は最終スコアを予測する他の手法よりも優れており、ラインアップが予測を改善することを示す。
最後に、実世界のオッズデータを用いて賭けシステムをエミュレートする場合、私たちのモデルは利益(42%のリターン)でした。 This paper aims to reduce randomness in football by analysing the role of lineups in final scores using machine learning prediction models we have developed. Football clubs invest millions of dollars on lineups and knowing how individual statistics translate to better outcomes can optimise investments. Moreover, sports betting is growing exponentially and being able to predict the future is profitable and desirable. We use machine learning models and historical player data from English Premier League (2020-2022) to predict scores and to understand how individual performance can improve the outcome of a match. We compared different prediction techniques to maximise the possibility of finding useful models. We created heuristic and machine learning models predicting football scores to compare different techniques. We used different sets of features and shown goalkeepers stats are more important than attackers stats to predict goals scored. We applied a broad evaluation process to assess the efficacy of the models in real world applications. We managed to predict correctly all relegated teams after forecast 100 consecutive matches. We show that Support Vector Regression outperformed other techniques predicting final scores and that lineups do improve predictions. Finally, our model was profitable (42% return) when emulating a betting system using real world odds data. | 翻訳日:2022-10-13 15:21:42 公開日:2022-10-12 |
# コンテキストにフォーカスすること:過剰なエンティティの曖昧さを改善する Focusing on Context is NICE: Improving Overshadowed Entity Disambiguation ( http://arxiv.org/abs/2210.06164v1 ) ライセンス: Link先を確認 | Vera Provatorova, Simone Tedeschi, Svitlana Vakulenko, Roberto Navigli, Evangelos Kanoulas | (参考訳) エンティティ曖昧化(Entity Disambiguation、ED)は、構造化知識ベースにおける対応するエントリに言及する曖昧なエンティティをマッピングするタスクである。
あいまいなエンティティに言及すると、モデルの方がより頻度が高く、文脈的に関連しないエンティティをトップにランク付けする可能性がはるかに高いのです。
ここでは、エンティティ型情報を用いてコンテキストを活用し、周波数ベースの事前の過度な参照を避ける反復的なアプローチであるNICEを提案する。
実験の結果,NICEは,頻繁なエンティティに対して競争力を持ちながら,オーバーシャドードエンティティ上で最高のパフォーマンスを達成できることがわかった。 Entity disambiguation (ED) is the task of mapping an ambiguous entity mention to the corresponding entry in a structured knowledge base. Previous research showed that entity overshadowing is a significant challenge for existing ED models: when presented with an ambiguous entity mention, the models are much more likely to rank a more frequent yet less contextually relevant entity at the top. Here, we present NICE, an iterative approach that uses entity type information to leverage context and avoid over-relying on the frequency-based prior. Our experiments show that NICE achieves the best performance results on the overshadowed entities while still performing competitively on the frequent entities. | 翻訳日:2022-10-13 15:15:39 公開日:2022-10-12 |
# fastrisk: 迅速かつ正確な解釈可能なリスクスコア FasterRisk: Fast and Accurate Interpretable Risk Scores ( http://arxiv.org/abs/2210.05846v1 ) ライセンス: Link先を確認 | Jiachang Liu, Chudi Zhong, Boxuan Li, Margo Seltzer, Cynthia Rudin | (参考訳) 前世紀を通じて、リスクスコアは医療や刑事司法において最も一般的な予測モデルであった。
リスクスコアは整数係数を持つ疎線形モデルであり、しばしばこれらのモデルを記憶またはインデックスカードに配置することができる。
通常、リスクスコアはデータなしでもロジスティック回帰係数を丸めることで作成されているが、これらの方法は確実に高品質のリスクスコアを生成するものではない。
最近の研究は数理プログラミングを用いており、計算が遅い。
データから得られた高品質なリスクスコアのコレクションを効率的に作成するためのアプローチを導入する。
具体的には、ビーム探索アルゴリズムを用いて、それぞれ異なるサポートセットを持つほぼ最適スパース連続解のプールを生成する。
これらの連続解はそれぞれ「スターレイ」探索によって別のリスクスコアに変換され、そこでは係数を逐次丸め、ロジスティック損失を低く抑えるために様々な乗算器が検討される。
我々のアルゴリズムは、ユーザが考慮すべきすべての高品質のリスクスコアを返します。
この方法は数分で完成し、様々な応用に有用である。 Over the last century, risk scores have been the most popular form of predictive model used in healthcare and criminal justice. Risk scores are sparse linear models with integer coefficients; often these models can be memorized or placed on an index card. Typically, risk scores have been created either without data or by rounding logistic regression coefficients, but these methods do not reliably produce high-quality risk scores. Recent work used mathematical programming, which is computationally slow. We introduce an approach for efficiently producing a collection of high-quality risk scores learned from data. Specifically, our approach produces a pool of almost-optimal sparse continuous solutions, each with a different support set, using a beam-search algorithm. Each of these continuous solutions is transformed into a separate risk score through a "star ray" search, where a range of multipliers are considered before rounding the coefficients sequentially to maintain low logistic loss. Our algorithm returns all of these high-quality risk scores for the user to consider. This method completes within minutes and can be valuable in a broad variety of applications. | 翻訳日:2022-10-13 15:14:22 公開日:2022-10-12 |
# 適応的知識蒸留によるグラフニューラルネットワークの促進 Boosting Graph Neural Networks via Adaptive Knowledge Distillation ( http://arxiv.org/abs/2210.05920v1 ) ライセンス: Link先を確認 | Zhichun Guo, Chunhui Zhang, Yujie Fan, Yijun Tian, Chuxu Zhang, Nitesh Chawla | (参考訳) グラフニューラルネットワーク(GNN)は、多様なグラフマイニングタスクにおいて顕著なパフォーマンスを示している。
異なるGNNは、同じメッセージパッシングフレームワークとして統一することができるが、同じグラフから補完的な知識を学ぶ。
知識蒸留(KD)は、複数のモデルからの多様な知識を組み合わせるために開発された。
能力の高い教師から軽量な生徒に知識を伝達する。
しかし、過剰なスムースを避けるために、GNNはしばしば浅く、KDの設定から逸脱する。
この文脈では、kdの利点をモデル圧縮から分離し、知識の伝達力を強調することで、kdを再検討する。
この目的のために、我々は、コンパクトな教師から同じ能力の学生に知識を伝達する方法と、学習者のGNN自身の力を利用して知識を学ぶ方法の2つの課題に取り組む必要がある。
本稿では,複数のGNNからの知識を学生GNNに順次伝達する,BGNNと呼ばれる新しい適応型KDフレームワークを提案する。
また,適応型温度モジュールと重量加重モジュールについても紹介する。
これらのモジュールは、生徒に効果的な学習のための適切な知識を導く。
大規模な実験はBGNNの有効性を実証した。
特に,ノード分類は最大3.05%改善され,グラフ分類は7.67%改善した。 Graph neural networks (GNNs) have shown remarkable performance on diverse graph mining tasks. Although different GNNs can be unified as the same message passing framework, they learn complementary knowledge from the same graph. Knowledge distillation (KD) is developed to combine the diverse knowledge from multiple models. It transfers knowledge from high-capacity teachers to a lightweight student. However, to avoid oversmoothing, GNNs are often shallow, which deviates from the setting of KD. In this context, we revisit KD by separating its benefits from model compression and emphasizing its power of transferring knowledge. To this end, we need to tackle two challenges: how to transfer knowledge from compact teachers to a student with the same capacity; and, how to exploit student GNN's own strength to learn knowledge. In this paper, we propose a novel adaptive KD framework, called BGNN, which sequentially transfers knowledge from multiple GNNs into a student GNN. We also introduce an adaptive temperature module and a weight boosting module. These modules guide the student to the appropriate knowledge for effective learning. Extensive experiments have demonstrated the effectiveness of BGNN. In particular, we achieve up to 3.05% improvement for node classification and 7.67% improvement for graph classification over vanilla GNNs. | 翻訳日:2022-10-13 15:14:04 公開日:2022-10-12 |
# 乗算器の交互方向法によるマルチタスク学習のための評価指標の最適化 Optimizing Evaluation Metrics for Multi-Task Learning via the Alternating Direction Method of Multipliers ( http://arxiv.org/abs/2210.05935v1 ) ライセンス: Link先を確認 | Ge-Yang Ke, Yan Pan, Jian Yin, Chang-Qin Huang | (参考訳) マルチタスク学習(mtl)は、共有要因を活用し、複数のタスクの一般化性能を向上させることを目的としている。
様々な指標(例えば、Fスコア、ROC曲線下のエリア)を用いて、MTL法の性能を評価する。
既存のmtl法は、分類の誤分類エラーや回帰の平均二乗誤差を最小化しようとする。
本稿では,MLL問題に対する評価指標を直接最適化する手法を提案する。
評価指標を直接最適化する MTL の定式化は,(1) タスクの関連性を捉えるために,各タスクの重み行列上に定義された正則化器,(2) 複数の構造的ヒンジ損失の和,それぞれが1つのタスクにおける評価指標のサロゲートに対応する2つの部分の組み合わせである。
この定式化は、どちらも非滑らかであるため、最適化において困難である。
この問題に対処するため, 乗算器の交互方向スキームに基づく新しい最適化手法を提案し, 最適化問題を正規化器に対応するサブプロブレムと構造的ヒンジ損失に対応するサブプロブレムに分解する。
大規模な MTL 問題に対して、最初のサブプロブレムは閉形式解を持つ。
第2のサブプロブレムを解決するために,座標上昇を用いた効率的な原始双対アルゴリズムを提案する。
広範な評価結果から,mtl問題群において,評価指標を直接最適化するmtl法が,対応する基準法に対して優れた性能向上率を示すことが示された。 Multi-task learning (MTL) aims to improve the generalization performance of multiple tasks by exploiting the shared factors among them. Various metrics (e.g., F-score, Area Under the ROC Curve) are used to evaluate the performances of MTL methods. Most existing MTL methods try to minimize either the misclassified errors for classification or the mean squared errors for regression. In this paper, we propose a method to directly optimize the evaluation metrics for a large family of MTL problems. The formulation of MTL that directly optimizes evaluation metrics is the combination of two parts: (1) a regularizer defined on the weight matrix over all tasks, in order to capture the relatedness of these tasks; (2) a sum of multiple structured hinge losses, each corresponding to a surrogate of some evaluation metric on one task. This formulation is challenging in optimization because both of its parts are non-smooth. To tackle this issue, we propose a novel optimization procedure based on the alternating direction scheme of multipliers, where we decompose the whole optimization problem into a sub-problem corresponding to the regularizer and another sub-problem corresponding to the structured hinge losses. For a large family of MTL problems, the first sub-problem has closed-form solutions. To solve the second sub-problem, we propose an efficient primal-dual algorithm via coordinate ascent. Extensive evaluation results demonstrate that, in a large family of MTL problems, the proposed MTL method of directly optimization evaluation metrics has superior performance gains against the corresponding baseline methods. | 翻訳日:2022-10-13 15:13:46 公開日:2022-10-12 |
# 小データの累積分布関数の推定による分類 Classification by estimating the cumulative distribution function for small data ( http://arxiv.org/abs/2210.05953v1 ) ライセンス: Link先を確認 | Meng-Xian Zhua and Yuan-Hai Shao | (参考訳) 本稿では,与えられたデータの条件付き確率関数を推定して分類問題を考察する。
実験データに対する従来の予測リスク推定理論とは異なり、フレドホルム方程式を用いて確率を計算することにより、データの分布を推定する。
フレッドホルム方程式に基づいて、累積分布関数を推定して予測される新たなリスク推定理論を示す。
新しい予測リスク推定の主な特徴は、入力空間の分布に対するリスクを測定することである。
対応する経験的リスク推定も提示され、インセンティブ損失を導入して、$\varepsilon$-insensitive $L_{1}$ cumulative support vector machines(\varepsilon$-$L_{1}$VSVM)が提案される。
新たなメカニズムに基づく分類モデルと分類評価指標が従来のものと異なる点に注意が必要である。
実験の結果,提案した$\varepsilon$-$L_{1}$VSVMと対応する累積分布関数インジケータが,データ分類の有効性と解釈性に与える影響が示された。 In this paper, we study the classification problem by estimating the conditional probability function of the given data. Different from the traditional expected risk estimation theory on empirical data, we calculate the probability via Fredholm equation, this leads to estimate the distribution of the data. Based on the Fredholm equation, a new expected risk estimation theory by estimating the cumulative distribution function is presented. The main characteristics of the new expected risk estimation is to measure the risk on the distribution of the input space. The corresponding empirical risk estimation is also presented, and an $\varepsilon$-insensitive $L_{1}$ cumulative support vector machines ($\varepsilon$-$L_{1}$VSVM) is proposed by introducing an insensitive loss. It is worth mentioning that the classification models and the classification evaluation indicators based on the new mechanism are different from the traditional one. Experimental results show the effectiveness of the proposed $\varepsilon$-$L_{1}$VSVM and the corresponding cumulative distribution function indicator on validity and interpretability of small data classification. | 翻訳日:2022-10-13 15:13:19 公開日:2022-10-12 |
# 学習モデルを用いた効率的なオフラインポリシー最適化 Efficient Offline Policy Optimization with a Learned Model ( http://arxiv.org/abs/2210.05980v1 ) ライセンス: Link先を確認 | Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng Yan, Zhongwen Xu | (参考訳) MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
高性能のため、MCTSは正確な学習モデルと多数のシミュレーションを必要とするため、膨大な計算時間を要する。
本稿では, MuZero Unplugged がオフラインの RL 設定ではうまく動作しないという仮説について考察する。
1) 限られたデータカバレッジで学ぶこと
2 確率環境のオフラインデータから学ぶこと。
3) オフラインデータに対する不適切なパラメータ化モデル
4) 計算予算が低いこと。
我々は、上記の問題に対処するために、正規化されたワンステップルックアヘッドアプローチを提案する。
高価なMCTSを計画する代わりに、学習モデルを使ってワンステップのロールアウトに基づいて有利な見積もりを構築する。
政策改善は、データセットの正規化による推定優位性を最大化する方向に向かっている。
我々はBSuite環境を用いて広範囲にわたる実験を行い、仮説を検証し、RL Unplugged Atariベンチマークでアルゴリズムを実行する。
実験の結果,提案手法は不正確な学習モデルでも安定した性能が得られることがわかった。
大規模Atariベンチマークでは,提案手法が MuZero Unplugged を43%上回った。
最も顕著なのは、同じハードウェアとソフトウェアスタックで150%のIQM正規化スコアを達成するのに、MuZero Unplugged (17.8時間)と比較してわずか5.6%のウォールクロック時間(すなわち1時間)しか使わないことである。 MuZero Unplugged presents a promising approach for offline policy learning from logged data. It conducts Monte-Carlo Tree Search (MCTS) with a learned model and leverages Reanalyze algorithm to learn purely from offline data. For good performance, MCTS requires accurate learned models and a large number of simulations, thus costing huge computing time. This paper investigates a few hypotheses where MuZero Unplugged may not work well under the offline RL settings, including 1) learning with limited data coverage; 2) learning from offline data of stochastic environments; 3) improperly parameterized models given the offline data; 4) with a low compute budget. We propose to use a regularized one-step look-ahead approach to tackle the above issues. Instead of planning with the expensive MCTS, we use the learned model to construct an advantage estimation based on a one-step rollout. Policy improvements are towards the direction that maximizes the estimated advantage with regularization of the dataset. We conduct extensive empirical studies with BSuite environments to verify the hypotheses and then run our algorithm on the RL Unplugged Atari benchmark. Experimental results show that our proposed approach achieves stable performance even with an inaccurate learned model. On the large-scale Atari benchmark, the proposed method outperforms MuZero Unplugged by 43%. Most significantly, it uses only 5.6% wall-clock time (i.e., 1 hour) compared to MuZero Unplugged (i.e., 17.8 hours) to achieve a 150% IQM normalized score with the same hardware and software stacks. | 翻訳日:2022-10-13 15:12:58 公開日:2022-10-12 |
# 自動補助損失探索による強化学習 Reinforcement Learning with Automated Auxiliary Loss Search ( http://arxiv.org/abs/2210.06041v1 ) ライセンス: Link先を確認 | Tairan He, Yuge Zhang, Kan Ren, Minghuan Liu, Che Wang, Weinan Zhang, Yuqing Yang, Dongsheng Li | (参考訳) 状態表現は複雑な強化学習(RL)の課題を解決するために重要である。
近年の多くの研究は、情報表現学習のための補助的損失の設計に重点を置いている。
残念ながら、これらの手作りの目的は専門家の知識に大きく依存しており、準最適かもしれない。
本稿では,自動補助損失探索 (Automated Auxiliary Loss Search, A2LS) という,補助損失関数を用いたより優れた表現を学習するための原理的,普遍的な手法を提案する。
具体的には、収集された軌道データに基づいて、7.5 の一般補助損失空間を 10^{20}$ と定義し、効率的な進化的探索戦略で空間を探索する。
実験の結果,a2-winnerが検出した補助損失は,高次元 (画像) と低次元 (ベクトル) の両方の非知覚タスクの性能を大幅に向上させ,異なる設定と異なるベンチマーク領域において有望な一般化能力を示した。
補助損失のパターンとrl性能の関係を明らかにするため,統計解析を行った。 A good state representation is crucial to solving complicated reinforcement learning (RL) challenges. Many recent works focus on designing auxiliary losses for learning informative representations. Unfortunately, these handcrafted objectives rely heavily on expert knowledge and may be sub-optimal. In this paper, we propose a principled and universal method for learning better representations with auxiliary loss functions, named Automated Auxiliary Loss Search (A2LS), which automatically searches for top-performing auxiliary loss functions for RL. Specifically, based on the collected trajectory data, we define a general auxiliary loss space of size $7.5 \times 10^{20}$ and explore the space with an efficient evolutionary search strategy. Empirical results show that the discovered auxiliary loss (namely, A2-winner) significantly improves the performance on both high-dimensional (image) and low-dimensional (vector) unseen tasks with much higher efficiency, showing promising generalization ability to different settings and even different benchmark domains. We conduct a statistical analysis to reveal the relations between patterns of auxiliary losses and RL performance. | 翻訳日:2022-10-13 15:12:34 公開日:2022-10-12 |
# AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション AISFormer: Amodal Instance Segmentation with Transformer ( http://arxiv.org/abs/2210.06323v1 ) ライセンス: Link先を確認 | Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, and Ngan Le | (参考訳) Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。
最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。
本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。
具体的には、AISFormerには4つのモジュールがある。
(i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。
(ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する
(iii)見えないマスクの埋め込み:アモーダルと目に見えるマスクのコヒーレンスをモデル化し
(iv)マスク予測:occluder, visible, amodal, invisibleを含む出力マスクの推定。
AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範囲な実験とアブレーション研究を行った。
コードは、https://github.com/UARK-AICV/AISFormerで入手できる。 Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer | 翻訳日:2022-10-13 15:07:37 公開日:2022-10-12 |
# ViewBirdiformer:1つの自我中心の視点から地上の群集軌道と自我運動を復元する学習 ViewBirdiformer: Learning to recover ground-plane crowd trajectories and ego-motion from a single ego-centric view ( http://arxiv.org/abs/2210.06332v1 ) ライセンス: Link先を確認 | Mai Nishimura, Shohei Nobuhara, Ko Nishino | (参考訳) 本研究では,観察された自我中心の映像から,群集の歩行者とその観察者の地上平面軌道を復元する新たな鳥化学習手法を提案する。
view birdificationは、静的な背景を見るのが困難で確実に追跡できない密集した群衆において、移動ロボットのナビゲーションとローカライズに必須となる。
主に2つの理由から挑戦している。
一 歩行者の絶対軌跡は、自我中心のビデオにおける観察された相対的な動きから切り離さなければならない観察者の動きに絡み合っており、
二 歩行者運動の相互作用を記述した群集運動モデルは、予め不明な場面に特有である。
そこで本研究では,観衆の移動を暗黙的にモデル化するViewBirdiformerというトランスフォーマーネットワークを導入し,観衆の平面軌道上の相対的な2次元運動観測を,観衆間の交叉による観衆とカメラの軌道上に分解する。
最も重要なのは、ViewBirdiformerがワンフォワードパスでビューバード化を実現し、正確なリアルタイム、常に状況認識への扉を開くことである。
大規模な実験結果から,ViewBirdiformerは3桁の精度で実行時間を短縮できることがわかった。 We introduce a novel learning-based method for view birdification, the task of recovering ground-plane trajectories of pedestrians of a crowd and their observer in the same crowd just from the observed ego-centric video. View birdification becomes essential for mobile robot navigation and localization in dense crowds where the static background is hard to see and reliably track. It is challenging mainly for two reasons; i) absolute trajectories of pedestrians are entangled with the movement of the observer which needs to be decoupled from their observed relative movements in the ego-centric video, and ii) a crowd motion model describing the pedestrian movement interactions is specific to the scene yet unknown a priori. For this, we introduce a Transformer-based network referred to as ViewBirdiformer which implicitly models the crowd motion through self-attention and decomposes relative 2D movement observations onto the ground-plane trajectories of the crowd and the camera through cross-attention between views. Most important, ViewBirdiformer achieves view birdification in a single forward pass which opens the door to accurate real-time, always-on situational awareness. Extensive experimental results demonstrate that ViewBirdiformer achieves accuracy similar to or better than state-of-the-art with three orders of magnitude reduction in execution time. | 翻訳日:2022-10-13 15:07:13 公開日:2022-10-12 |
# コントラスト学習のための自己注意メッセージパッシング Self-Attention Message Passing for Contrastive Few-Shot Learning ( http://arxiv.org/abs/2210.06339v1 ) ライセンス: Link先を確認 | Ojas Kishorkumar Shirekar, Anuj Singh, Hadi Jamali-Rad | (参考訳) 人間は、わずかな例から新しい表現をほとんど監督せずに学習するユニークな能力を持っている。
しかし、ディープラーニングモデルは、十分なレベルで実行するために大量のデータと監督を必要とする。
unsupervised few-shot learning (u-fsl)は、機械と人間の間のギャップを埋めることを目的としている。
複雑なサンプル間関係の発見におけるグラフニューラルネットワーク(GNN)の能力に着想を得て,U-FSL事前学習のための新しい自己認識型メッセージパスコントラスト学習手法(SAMP-CLR)を提案する。
また,OpT-Tune をベースとした最適トランスポート(OT)に基づく微調整戦略を提案し,タスク認識を新しいエンドツーエンドの非教師なし小ショット分類フレームワーク (SAMPTransfer) に効率的に誘導する。
実験の結果,SAMPTransferの様々なダウンストリーム数ショット分類シナリオにおける有効性が相関し, miniImagenet と tieredImagenet のベンチマークで U-FSL の新たな最先端性を設定し,それぞれ7%以上と5%以上の改善を実現した。
さらなる調査では、SAMPTransferは miniImagenet の教師付きベースラインと同等であり、挑戦的なクロスドメインシナリオにおいて既存の U-FSL ベースラインを上回ります。
私たちのコードはGitHubリポジトリのhttps://github.com/ojss/SAMPTransfer/にある。 Humans have a unique ability to learn new representations from just a handful of examples with little to no supervision. Deep learning models, however, require an abundance of data and supervision to perform at a satisfactory level. Unsupervised few-shot learning (U-FSL) is the pursuit of bridging this gap between machines and humans. Inspired by the capacity of graph neural networks (GNNs) in discovering complex inter-sample relationships, we propose a novel self-attention based message passing contrastive learning approach (coined as SAMP-CLR) for U-FSL pre-training. We also propose an optimal transport (OT) based fine-tuning strategy (we call OpT-Tune) to efficiently induce task awareness into our novel end-to-end unsupervised few-shot classification framework (SAMPTransfer). Our extensive experimental results corroborate the efficacy of SAMPTransfer in a variety of downstream few-shot classification scenarios, setting a new state-of-the-art for U-FSL on both miniImagenet and tieredImagenet benchmarks, offering up to 7%+ and 5%+ improvements, respectively. Our further investigations also confirm that SAMPTransfer remains on-par with some supervised baselines on miniImagenet and outperforms all existing U-FSL baselines in a challenging cross-domain scenario. Our code can be found in our GitHub repository at https://github.com/ojss/SAMPTransfer/. | 翻訳日:2022-10-13 15:06:51 公開日:2022-10-12 |
# mffn:camouflaged object detectionのためのマルチビュー機能融合ネットワーク MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection ( http://arxiv.org/abs/2210.06361v1 ) ライセンス: Link先を確認 | Dehua Zheng, Xiaochen Zheng, Laurence T. Yang, Yuan Gao, Chenlu Zhu and Yiheng Ruan | (参考訳) camouflaged object detection (cod) に関する最近の研究は、複雑な周囲に隠された高い隠されたオブジェクトを分割することを目的としている。
小さなファジィなカモフラージュされた物体は、視覚的に区別できない特性をもたらす。
しかし、現在のシングルビューCOD検出器は背景散乱器に敏感である。
したがって、カモフラージュされた物体のぼやけた境界と可変形状は、単一視野検出器で完全に捕捉することが困難である。
これらの障害を克服するために,多視点特徴融合ネットワーク (mffn) と呼ばれる,画像中の不明瞭な物体,すなわち多角,距離,視点から観察する人間の動作を模倣する手法を提案する。
具体的には、データ拡張によって複数の観察方法(マルチビュー)を生成し、それらを入力として適用する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
さらに、我々のMFFNは、設計した階層ビューとチャネル統合モジュールによるビュー間の依存と相互作用を利用する。
さらに,マルチビューの協調 (co-attention of multi-view, camv) と呼ばれる2段階アテンションモジュールを用いて,異なるビュー間の補完情報を活用する。
channel fusion unit (cfu) と呼ばれるローカルオーバーオールモジュールを設計し、様々な特徴マップのチャンネル毎の文脈的手がかりを反復的に探索した。
実験の結果,本手法は同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能することがわかった。
コードはhttps: //github.com/dwardzheng/MFFN_CODで入手できる。 Recent research about camouflaged object detection (COD) aims to segment highly concealed objects hidden in complex surroundings. The tiny, fuzzy camouflaged objects result in visually indistinguishable properties. However, current single-view COD detectors are sensitive to background distractors. Therefore, blurred boundaries and variable shapes of the camouflaged objects are challenging to be fully captured with a single-view detector. To overcome these obstacles, we propose a behavior-inspired framework, called Multi-view Feature Fusion Network (MFFN), which mimics the human behaviors of finding indistinct objects in images, i.e., observing from multiple angles, distances, perspectives. Specifically, the key idea behind it is to generate multiple ways of observation (multi-view) by data augmentation and apply them as inputs. MFFN captures critical edge and semantic information by comparing and fusing extracted multi-view features. In addition, our MFFN exploits the dependence and interaction between views by the designed hierarchical view and channel integration modules. Furthermore, our methods leverage the complementary information between different views through a two-stage attention module called Co-attention of Multi-view (CAMV). And we designed a local-overall module called Channel Fusion Unit (CFU) to explore the channel-wise contextual clues of diverse feature maps in an iterative manner. The experiment results show that our method performs favorably against existing state-of-the-art methods via training with the same data. The code will be available at https: //github.com/dwardzheng/MFFN_COD. | 翻訳日:2022-10-13 15:06:23 公開日:2022-10-12 |
# AdaNorm: CNNのための適応的なグラディエントノルム補正ベースの最適化 AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs ( http://arxiv.org/abs/2210.06364v1 ) ライセンス: Link先を確認 | Shiv Ram Dubey, Satish Kumar Singh, Bidyut Baran Chaudhuri | (参考訳) 確率勾配降下(SGD)最適化器は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される。
近年、Adam、diffGrad、Radam、AdaBeliefなどの適応運動量に基づくSGDオプティマイザが導入されている。
しかし、既存のSGDオプティマイザは過去のイテレーションの勾配基準を活用せず、収束と性能が劣っている。
本稿では,グラデーションノルムの適応的トレーニング履歴に基づいて,各イテレーションにおける勾配のノルムを補正し,新しいadanormベースのsgdオプティマイザを提案する。
これにより,提案手法はトレーニング中,高次かつ表現的な勾配を維持でき,低次および非定型的な勾配問題を解くことができる。
提案された概念は汎用的であり、既存のSGDオプティマイザで使用することができる。
本稿では,Adam,diffGrad,Radam,AdaBeliefの4つの最先端オプティマイザを用いたAdaNormの有効性を示す。
本稿では,CIFAR10,CIFAR100,TinyImageNetを含む3つのベンチマークオブジェクト認識データセット上で,VGG16,ResNet18,ResNet50の3つのCNNモデルを用いた最適化手法による性能改善について述べる。
コード: \url{https://github.com/shivram 1987/adanorm}。 The stochastic gradient descent (SGD) optimizers are generally used to train the convolutional neural networks (CNNs). In recent years, several adaptive momentum based SGD optimizers have been introduced, such as Adam, diffGrad, Radam and AdaBelief. However, the existing SGD optimizers do not exploit the gradient norm of past iterations and lead to poor convergence and performance. In this paper, we propose a novel AdaNorm based SGD optimizers by correcting the norm of gradient in each iteration based on the adaptive training history of gradient norm. By doing so, the proposed optimizers are able to maintain high and representive gradient throughout the training and solves the low and atypical gradient problems. The proposed concept is generic and can be used with any existing SGD optimizer. We show the efficacy of the proposed AdaNorm with four state-of-the-art optimizers, including Adam, diffGrad, Radam and AdaBelief. We depict the performance improvement due to the proposed optimizers using three CNN models, including VGG16, ResNet18 and ResNet50, on three benchmark object recognition datasets, including CIFAR10, CIFAR100 and TinyImageNet. Code: \url{https://github.com/shivram1987/AdaNorm}. | 翻訳日:2022-10-13 15:05:57 公開日:2022-10-12 |
# 大規模オンライン連続学習における情報保持の改善 Improving information retention in large scale online continual learning ( http://arxiv.org/abs/2210.06401v1 ) ライセンス: Link先を確認 | Zhipeng Cai and Vladlen Koltun and Ozan Sener | (参考訳) 非定常分布からサンプリングされたデータのストリームが与えられると、オンライン継続学習(ocl)は、既存の知識を保持しながら、新しいデータに効率的に適応することを目的としている。
情報保持(以前の知識を保持する能力)に対処する典型的なアプローチは、新しいデータとリプレイバッファの混合を用いて、一定サイズのリプレイバッファと計算勾配を維持することである。
驚いたことに、最近の研究(Cai et al., 2021)は、リプレイバッファが無制限である場合でも、情報の保持が大規模なOCLにおいて問題であり続けることを示唆している。
本稿では,情報保持に関するこの特異性に注目し,対処する。
この問題の原因を特定するために,厳密なストレージ制限がなくても,時間毎に限られた計算予算が与えられた場合,sgdを定常的あるいは定常的に減少する学習率でネイティブに適用しても,長期的情報保持の最適化に失敗することを理論的に示す。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
具体的には、適応移動平均(AMA)最適化と移動平均学習率スケジュール(MALR)を設計する。
本稿では,CLOC(Continuous Localization)やGoogle Landmarks,ImageNetなど,大規模ベンチマークにおけるAMA+MALRの有効性を示す。
コードは出版時に公開される。 Given a stream of data sampled from non-stationary distributions, online continual learning (OCL) aims to adapt efficiently to new data while retaining existing knowledge. The typical approach to address information retention (the ability to retain previous knowledge) is keeping a replay buffer of a fixed size and computing gradients using a mixture of new data and the replay buffer. Surprisingly, the recent work (Cai et al., 2021) suggests that information retention remains a problem in large scale OCL even when the replay buffer is unlimited, i.e., the gradients are computed using all past data. This paper focuses on this peculiarity to understand and address information retention. To pinpoint the source of this problem, we theoretically show that, given limited computation budgets at each time step, even without strict storage limit, naively applying SGD with constant or constantly decreasing learning rates fails to optimize information retention in the long term. We propose using a moving average family of methods to improve optimization for non-stationary objectives. Specifically, we design an adaptive moving average (AMA) optimizer and a moving-average-based learning rate schedule (MALR). We demonstrate the effectiveness of AMA+MALR on large-scale benchmarks, including Continual Localization (CLOC), Google Landmarks, and ImageNet. Code will be released upon publication. | 翻訳日:2022-10-13 15:05:32 公開日:2022-10-12 |
# AniFaceGAN:ビデオアバターの3D対応顔画像生成 AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars ( http://arxiv.org/abs/2210.06465v1 ) ライセンス: Link先を確認 | Yue Wu, Yu Deng, Jiaolong Yang, Fangyun Wei, Qifeng Chen, Xin Tong | (参考訳) 2D生成モデルは顔画像生成とアニメーションに大きな進歩を遂げているが、異なるカメラ視点から画像をレンダリングする際には、3Dの不整合のような望ましくないアーチファクトに悩まされることが多い。
これにより、実際のアニメーションと区別できないビデオアニメーションの合成が不可能になる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
これらの手法は、異なるビューにまたがって生成された画像の3d一貫性を保存できるが、表情制御が最も有用で望ましい他の属性に対するきめ細かい制御はできない。
本稿では,マルチビュー一貫した顔アニメーション生成のためのアニマタブル3D対応GANを提案する。
鍵となるアイデアは、3D認識GANの3D表現をテンプレートフィールドと変形フィールドに分解することであり、前者は標準表現で異なるアイデンティティを表現し、後者は各アイデンティティの表現バリエーションを特徴付ける。
変形による表情の有意義な制御を実現するために,3次元認識GANの対角訓練において,ジェネレータとパラメトリック3次元顔モデル間の3次元レベルの模倣学習手法を提案する。
これにより,非構造化2次元画像のみを用いて訓練しても,高画質な顔画像生成が可能となる。
大規模な実験は、これまでの作業よりも優れたパフォーマンスを示します。
プロジェクトページ: https://yuewuhkust.github.io/anifacegan Although 2D generative models have made great progress in face image generation and animation, they often suffer from undesirable artifacts such as 3D inconsistency when rendering images from different camera viewpoints. This prevents them from synthesizing video animations indistinguishable from real ones. Recently, 3D-aware GANs extend 2D GANs for explicit disentanglement of camera pose by leveraging 3D scene representations. These methods can well preserve the 3D consistency of the generated images across different views, yet they cannot achieve fine-grained control over other attributes, among which facial expression control is arguably the most useful and desirable for face animation. In this paper, we propose an animatable 3D-aware GAN for multiview consistent face animation generation. The key idea is to decompose the 3D representation of the 3D-aware GAN into a template field and a deformation field, where the former represents different identities with a canonical expression, and the latter characterizes expression variations of each identity. To achieve meaningful control over facial expressions via deformation, we propose a 3D-level imitative learning scheme between the generator and a parametric 3D face model during adversarial training of the 3D-aware GAN. This helps our method achieve high-quality animatable face image generation with strong visual 3D consistency, even though trained with only unstructured 2D images. Extensive experiments demonstrate our superior performance over prior works. Project page: https://yuewuhkust.github.io/AniFaceGAN | 翻訳日:2022-10-13 15:05:07 公開日:2022-10-12 |
# 凍結型視覚変換器の適応性向上のためのプロンプト生成ネットワーク Prompt Generation Networks for Efficient Adaptation of Frozen Vision Transformers ( http://arxiv.org/abs/2210.06466v1 ) ライセンス: Link先を確認 | Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano | (参考訳) 大規模な事前トレーニングモデル、特に視覚言語データからトレーニングされたモデルは、より大きなトレーニングデータセットとモデルの両方から得られる膨大な価値を示しています。
したがって、これらの発展の恩恵を受けるために、大規模な一般事前学習から特定の下流タスクへの移行学習と適応モデルへの新たな関心が高まっている。
しかし、モデルのサイズが継続的に大きくなることは、ファインチューニングの古典的アプローチでさえ、大きな機関を除いては不可能になりつつあることを意味している。
素早い傾きは、凍結されたモデルへの追加入力のみを学習することによって、モデルに適応するための柔軟な方法として現れてきたが、これまでは微調整よりもパフォーマンスが劣っていた。
そこで本稿では,トークンの学習ライブラリから抽出した入力依存的なプロンプトを生成するPrompt Generation Network (PGN)を提案する。
PGNは様々な新しいデータセットに事前学習モデルを適用するのに有効であることを示す。
従来のプロンプト学習手法を大きなマージンで上回り、12のデータセットのうち5つをフルフィニングし、パラメータを100倍少なくする。
pgnは複数のデータセットを同時にトレーニングし推論するためにも使え、ドメイン間でトークンを割り当てることを学ぶことができる。
これらの結果から, PGNは凍結モデルの下流適応のための, 実用的でスケーラブルなアプローチであると結論付けた。
コードはhttps://github.com/jochemloedeman/pgnで入手できる。 Large-scale pretrained models, especially those trained from vision-language data have demonstrated the tremendous value that can be gained from both larger training datasets and models. Thus, in order to benefit from these developments, there is renewed interest in transfer learning and adapting models from large-scale general pretraining to particular downstream tasks. However, the continuously increasing size of the models means that even the classic approach of finetuning is becoming infeasible for all but big institutions. Prompt leaning has emerged as a flexible way to adapt models by solely learning additional inputs to a model that is kept frozen, but so far performances remained inferior to finetuning. To address this, we propose the Prompt Generation Network (PGN) that generates input-dependent prompts by sampling from a learned library of tokens. We show the PGN is effective in adapting pretrained models to various new datasets. It surpasses previous prompt-learning methods by a large margin and even fullfinetuning on 5 out of 12 datasets while requiring 100x less parameters. PGN can even be used for training and inferring on multiple datasets simultaneously and learns to allocate tokens between domains. Given these findings, we conclude that PGN is a viable and scalable approach for downstream adaptation of frozen models. Code is available at https://github.com/jochemloedeman/PGN. | 翻訳日:2022-10-13 15:04:41 公開日:2022-10-12 |
# tooth3ds : 口腔内3dスキャンによる歯の分節とラベリングのベンチマーク Teeth3DS: a benchmark for teeth segmentation and labeling from intra-oral 3D scans ( http://arxiv.org/abs/2210.06094v1 ) ライセンス: Link先を確認 | Achraf Ben-Hamadou and Oussama Smaoui and Houda Chaabouni-Chouayakh and Ahmed Rekik and Sergi Pujades and Edmond Boyer and Julien Strippoli and Aur\'elien Thollot and Hugo Setbon and Cyril Trosset and Edouard Ladroit | (参考訳) 歯のセグメンテーションとラベル付けはコンピュータ支援歯科(CAD)システムの重要な構成要素である。
実際、歯科補綴または補綴治療計画に先立って、CADシステムは、まず3D歯科スキャンで見える歯のインスタンスを正確に分類し、ラベル付けする必要がある。
しかし、特に公開されているデータセットやベンチマークが欠如していることを考えると、このような自動化された正確な歯科用セグメンテーションとラベルツールの開発は非常に困難である。
本稿では,歯の識別,セグメンテーション,ラベル付け,3Dモデリング,3D再構成などの口腔内3Dスキャン分析に3Dビジョン研究コミュニティを刺激する3DTeethSeg 2022 MICCAIチャレンジのフレームで作成された,最初の公開ベンチマークであるTeeth3DSを紹介する。
歯3dsは1800個の口腔内スキャン(23999本の注釈付き歯)からなり、5年以上の専門経験を持つ歯科矯正医や歯医者によって、それぞれに上下顎と下下顎を覆っている900人の患者から集められている。 Teeth segmentation and labeling are critical components of Computer-Aided Dentistry (CAD) systems. Indeed, before any orthodontic or prosthetic treatment planning, a CAD system needs to first accurately segment and label each instance of teeth visible in the 3D dental scan, this is to avoid time-consuming manual adjustments by the dentist. Nevertheless, developing such an automated and accurate dental segmentation and labeling tool is very challenging, especially given the lack of publicly available datasets or benchmarks. This article introduces the first public benchmark, named Teeth3DS, which has been created in the frame of the 3DTeethSeg 2022 MICCAI challenge to boost the research field and inspire the 3D vision research community to work on intra-oral 3D scans analysis such as teeth identification, segmentation, labeling, 3D modeling and 3D reconstruction. Teeth3DS is made of 1800 intra-oral scans (23999 annotated teeth) collected from 900 patients covering the upper and lower jaws separately, acquired and validated by orthodontists/dental surgeons with more than 5 years of professional experience. | 翻訳日:2022-10-13 14:57:40 公開日:2022-10-12 |
# M$^3$Video: 自己監督型ビデオ表現学習のためのマスクッドモーションモデリング M$^3$Video: Masked Motion Modeling for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2210.06096v1 ) ライセンス: Link先を確認 | Xinyu Sun, Peihao Chen, Liangwei Chen, Thomas H. Li, Mingkui Tan and Chuang Gan | (参考訳) 本研究では,ラベル付ビデオからビデオ特徴を学習することを目的とした自己教師付ビデオ表現学習について検討する。
現在の手法では、ビデオ領域を覆ってモデルを訓練して、これらの領域の空間情報(例えば元のピクセル)を再構築することが多い。
しかし、このモデルは単一のフレーム内でのコンテンツを考慮した情報再構成が容易である。
その結果,映像解析において重要なフレーム間の相互作用を学習することは無視される可能性がある。
本稿では,マスキング領域における移動物体の運動予測をモデルに強制することにより表現を学習するための,マスキングモーションモデリング(m$^3$video)と呼ばれる新しい自己教師あり学習タスクを提案する。
このタスクで運動目標を生成するために、光学フローを用いて物体を追跡する。
運動対象は、追跡対象の位置遷移と形状変化から成り、複数のフレームを包括的に考慮する必要がある。
さらに,このモデルが細かな動きの詳細を捉えるのを助けるために,低時間分解能のビデオに基づいて,高時間分解能の軌道運動目標を予測することを強制する。
M$^3$Videoタスクを使用して事前トレーニングを行った後、このモデルでは、スムーズなサンプル映像を入力として取り込んでも、細かな動きの詳細を予測できる。
4つのベンチマークデータセットに対して広範な実験を行う。
注目すべきは、400エポックで事前トレーニングを行う場合には、67.6\%から69.2\%に、Somes-Something V2とKineetics-400データセットでそれぞれ78.8\%から79.7\%に精度を向上する。 We study self-supervised video representation learning that seeks to learn video features from unlabeled videos, which is widely used for video analysis as labeling videos is labor-intensive. Current methods often mask some video regions and then train a model to reconstruct spatial information in these regions (e.g., original pixels). However, the model is easy to reconstruct this information by considering content in a single frame. As a result, it may neglect to learn the interactions between frames, which are critical for video analysis. In this paper, we present a new self-supervised learning task, called Masked Motion Modeling (M$^3$Video), for learning representation by enforcing the model to predict the motion of moving objects in the masked regions. To generate motion targets for this task, we track the objects using optical flow. The motion targets consist of position transitions and shape changes of the tracked objects, thus the model has to consider multiple frames comprehensively. Besides, to help the model capture fine-grained motion details, we enforce the model to predict trajectory motion targets in high temporal resolution based on a video in low temporal resolution. After pre-training using our M$^3$Video task, the model is able to anticipate fine-grained motion details even taking a sparsely sampled video as input. We conduct extensive experiments on four benchmark datasets. Remarkably, when doing pre-training with 400 epochs, we improve the accuracy from 67.6\% to 69.2\% and from 78.8\% to 79.7\% on Something-Something V2 and Kinetics-400 datasets, respectively. | 翻訳日:2022-10-13 14:57:18 公開日:2022-10-12 |
# uplift and upsample:アップリフト変圧器を用いた効率的な3次元ポーズ推定 Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting Transformers ( http://arxiv.org/abs/2210.06110v1 ) ライセンス: Link先を確認 | Moritz Einfalt, Katja Ludwig, Rainer Lienhart | (参考訳) ビデオにおけるモノラルな3Dポーズ推定の最先端は、2Dから3Dポーズアップリフトのパラダイムに支配されている。
アップリフトメソッド自体はかなり効率的であるが、真の計算複雑性はフレーム毎の2dポーズ推定に依存する。
本稿では, 時間的にスパースな2次元ポーズ列を操作できるが, 時間的に密な3次元ポーズ推定を生成できる変圧器ベースのポーズ上昇スキームを提案する。
トランスフォーマーブロック内のテンポラリアップサンプリングにマスクドトークンモデリングをどのように利用できるかを示す。
これにより、入力2Dポーズのサンプリングレートとビデオのターゲットフレームレートを分離し、全体的な計算複雑性を大幅に減らすことができる。
さらに,これまでほとんど無視されてきた大規模モーションキャプチャアーカイブの事前トレーニングオプションについても検討した。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
提案手法は,それぞれ45.0mm,46.9mmのmpjpeを用いて,推定時間を12倍に削減しつつ,最先端の手法と競合することができる。
これにより、定常およびモバイルアプリケーションにおける可変コンシューマハードウェアによるリアルタイムスループットが可能になる。
コードとモデルはhttps://github.com/goldbricklemon/uplift-upsample-3dhpeでリリースします。 The state-of-the-art for monocular 3D human pose estimation in videos is dominated by the paradigm of 2D-to-3D pose uplifting. While the uplifting methods themselves are rather efficient, the true computational complexity depends on the per-frame 2D pose estimation. In this paper, we present a Transformer-based pose uplifting scheme that can operate on temporally sparse 2D pose sequences but still produce temporally dense 3D pose estimates. We show how masked token modeling can be utilized for temporal upsampling within Transformer blocks. This allows to decouple the sampling rate of input 2D poses and the target frame rate of the video and drastically decreases the total computational complexity. Additionally, we explore the option of pre-training on large motion capture archives, which has been largely neglected so far. We evaluate our method on two popular benchmark datasets: Human3.6M and MPI-INF-3DHP. With an MPJPE of 45.0 mm and 46.9 mm, respectively, our proposed method can compete with the state-of-the-art while reducing inference time by a factor of 12. This enables real-time throughput with variable consumer hardware in stationary and mobile applications. We release our code and models at https://github.com/goldbricklemon/uplift-upsample-3dhpe | 翻訳日:2022-10-13 14:56:48 公開日:2022-10-12 |
# 空中セグメンテーションにおける領域間混合階層型インスタンス Hierarchical Instance Mixing across Domains in Aerial Segmentation ( http://arxiv.org/abs/2210.06216v1 ) ライセンス: Link先を確認 | Edoardo Arnaudo, Antonio Tavera, Fabrizio Dominici, Carlo Masone, Barbara Caputo | (参考訳) 本研究では,航空意味セグメンテーションにおける教師なし領域適応の課題について検討し,ドメイン混合に基づく自律運転のための現在の最先端アルゴリズムは,航空セグメンテーションにうまく変換できないことを発見した。
これは2つの要因による。
(i)混合画像におけるドメインの不均衡を引き起こす意味圏の拡張の差が大きいこと、及び
(ii)同一の場面を異なる視点から見ることができ、画像に意味的要素の明確かつ反復可能な構造が存在しないため、空中シーンにおける構造的一貫性が運転シーンよりも弱いこと。
これらの問題に対する我々の解決策は
一 階層型混合(HIMix)と呼ばれるドメイン間の空域分割のための新しい混合戦略で、各セマンティックマスクから連結成分の集合を抽出し、セマンティック階層に従ってそれらを混合する。
(i)2つの別々のセグメンテーションヘッドに、対照的な方法で同じ画像のバリエーションを供給し、より微細なセグメンテーションマップを生成するツインヘッドアーキテクチャ。
LoveDAベンチマークで広範な実験を行い、私たちのソリューションは現在の最先端よりも優れています。 We investigate the task of unsupervised domain adaptation in aerial semantic segmentation and discover that the current state-of-the-art algorithms designed for autonomous driving based on domain mixing do not translate well to the aerial setting. This is due to two factors: (i) a large disparity in the extension of the semantic categories, which causes a domain imbalance in the mixed image, and (ii) a weaker structural consistency in aerial scenes than in driving scenes since the same scene might be viewed from different perspectives and there is no well-defined and repeatable structure of the semantic elements in the images. Our solution to these problems is composed of: (i) a new mixing strategy for aerial segmentation across domains called Hierarchical Instance Mixing (HIMix), which extracts a set of connected components from each semantic mask and mixes them according to a semantic hierarchy and, (ii) a twin-head architecture in which two separate segmentation heads are fed with variations of the same images in a contrastive fashion to produce finer segmentation maps. We conduct extensive experiments on the LoveDA benchmark, where our solution outperforms the current state-of-the-art. | 翻訳日:2022-10-13 14:56:13 公開日:2022-10-12 |
# レイテンシを考慮した空間的動的ネットワーク Latency-aware Spatial-wise Dynamic Networks ( http://arxiv.org/abs/2210.06223v1 ) ライセンス: Link先を確認 | Yizeng Han, Zhihang Yuan, Yifan Pu, Chenhao Xue, Shiji Song, Guangyu Sun, Gao Huang | (参考訳) 空間的な動的畳み込みは、ディープネットワークの推論効率を改善するための有望なアプローチとなっている。
より多くの計算を最も情報性の高いピクセルに割り当てることで、適応推論パラダイムは画像特徴の空間的冗長性を低減し、かなりの量の不要な計算を省く。
しかし、従来の方法によって達成された理論的効率は、特にマルチコアプロセッサ(例えばgpu)では、現実的なスピードアップにはほとんど変換できない。
重要な課題は、既存の文献は最小限の計算でアルゴリズムを設計することにのみ焦点を絞っており、実際のレイテンシがスケジューリング戦略やハードウェア特性に影響されるという事実を無視していることである。
理論計算と実用効率のギャップを埋めるため,新しい遅延予測モデルの指導の下で粗粒度空間適応推論を行う待ち時間認識型空間ワイド・ダイナミック・ネットワーク (LASNet) を提案する。
遅延予測モデルは、アルゴリズム、スケジューリング戦略、ハードウェア特性を同時に考慮し、動的ネットワークの推論遅延を効率的に推定することができる。
遅延予測器を用いて、様々なハードウェアプラットフォーム上でのアルゴリズム設計とスケジューリング最適化の両方を導出する。
画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,深層ネットワークの実用的推論効率が大幅に向上することを示す。
例えば、ImageNetバリデーションセット上のResNet-101の平均レイテンシは、それぞれ精度を犠牲にすることなく、サーバGPU(Nvidia Tesla-V100)とエッジデバイス(Nvidia Jetson TX2 GPU)で36%と46%削減できる。
コードはhttps://github.com/LeapLabTHU/LASNetで入手できる。 Spatial-wise dynamic convolution has become a promising approach to improving the inference efficiency of deep networks. By allocating more computation to the most informative pixels, such an adaptive inference paradigm reduces the spatial redundancy in image features and saves a considerable amount of unnecessary computation. However, the theoretical efficiency achieved by previous methods can hardly translate into a realistic speedup, especially on the multi-core processors (e.g. GPUs). The key challenge is that the existing literature has only focused on designing algorithms with minimal computation, ignoring the fact that the practical latency can also be influenced by scheduling strategies and hardware properties. To bridge the gap between theoretical computation and practical efficiency, we propose a latency-aware spatial-wise dynamic network (LASNet), which performs coarse-grained spatially adaptive inference under the guidance of a novel latency prediction model. The latency prediction model can efficiently estimate the inference latency of dynamic networks by simultaneously considering algorithms, scheduling strategies, and hardware properties. We use the latency predictor to guide both the algorithm design and the scheduling optimization on various hardware platforms. Experiments on image classification, object detection and instance segmentation demonstrate that the proposed framework significantly improves the practical inference efficiency of deep networks. For example, the average latency of a ResNet-101 on the ImageNet validation set could be reduced by 36% and 46% on a server GPU (Nvidia Tesla-V100) and an edge device (Nvidia Jetson TX2 GPU) respectively without sacrificing the accuracy. Code is available at https://github.com/LeapLabTHU/LASNet. | 翻訳日:2022-10-13 14:55:51 公開日:2022-10-12 |
# 3次元シーングラフ生成のための文脈情報探索 Explore Contextual Information for 3D Scene Graph Generation ( http://arxiv.org/abs/2210.06240v1 ) ライセンス: Link先を確認 | Yuanyuan Liu, Chengjiang Long, Zhaoxuan Zhang, Bokai Liu, Qiang Zhang, Baocai Yin, Xin Yang | (参考訳) 3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。
粗い分類と単一関係ラベルに対する3d sggの精度は徐々に向上しているが、既存の作品の性能は細粒度や多層的な状況では完璧にはほど遠い。
本稿では,細粒度エンティティクラス,複数の関係ラベル,高い精度を同時に満たそうとする3d sggタスクの文脈情報を完全に探索するフレームワークを提案する。
提案手法は,グラフ特徴抽出モジュールとグラフコンテキスト推論モジュールから構成され,適切な情報冗長性特徴抽出,構造化組織,階層推論を実現する。
提案手法は,3DSSGデータセットにおける従来の手法よりも,特に関係予測サブタスクにおいて,優れた,あるいは競争的な性能を実現する。 3D scene graph generation (SGG) has been of high interest in computer vision. Although the accuracy of 3D SGG on coarse classification and single relation label has been gradually improved, the performance of existing works is still far from being perfect for fine-grained and multi-label situations. In this paper, we propose a framework fully exploring contextual information for the 3D SGG task, which attempts to satisfy the requirements of fine-grained entity class, multiple relation labels, and high accuracy simultaneously. Our proposed approach is composed of a Graph Feature Extraction module and a Graph Contextual Reasoning module, achieving appropriate information-redundancy feature extraction, structured organization, and hierarchical inferring. Our approach achieves superior or competitive performance over previous methods on the 3DSSG dataset, especially on the relationship prediction sub-task. | 翻訳日:2022-10-13 14:55:23 公開日:2022-10-12 |
# 輪郭からのイベントベース非剛性再構成 Event-based Non-Rigid Reconstruction from Contours ( http://arxiv.org/abs/2210.06270v1 ) ライセンス: Link先を確認 | Yuxuan Xue, Haolong Li, Stefan Leutenegger, J\"org St\"uckler | (参考訳) 高速非剛性物体の時間的変形の視覚的再構成は、従来のフレームベースカメラでは難しい課題である。
本稿では,イベントベースカメラからの計測値を用いて変形を再構成する新しい手法を提案する。
すべてのイベントが動きによって生成される静的背景の仮定の下で、確率的最適化フレームワークにおいて、オブジェクト輪郭で生成されたイベントからオブジェクトの変形を推定する。
輪郭上のメッシュ顔とイベントを関連付け、イベントピクセルと関連する顔との間の視線のアライメントを最大化する。
合成データおよび実データを用いた実験において,人間の手の動きを再構築するための最先端最適化と学習に基づくアプローチよりも,この手法の利点を実証する。
実験のビデオはhttps://youtu.be/gzfw7i5okjgで見ることができる。 Visual reconstruction of fast non-rigid object deformations over time is a challenge for conventional frame-based cameras. In this paper, we propose a novel approach for reconstructing such deformations using measurements from event-based cameras. Under the assumption of a static background, where all events are generated by the motion, our approach estimates the deformation of objects from events generated at the object contour in a probabilistic optimization framework. It associates events to mesh faces on the contour and maximizes the alignment of the line of sight through the event pixel with the associated face. In experiments on synthetic and real data, we demonstrate the advantages of our method over state-of-the-art optimization and learning-based approaches for reconstructing the motion of human hands. A video of the experiments is available at https://youtu.be/gzfw7i5OKjg | 翻訳日:2022-10-13 14:55:09 公開日:2022-10-12 |
# SeKron: 多くの因子構造をサポートする分解方法 SeKron: A Decomposition Method Supporting Many Factorization Structures ( http://arxiv.org/abs/2210.06299v1 ) ライセンス: Link先を確認 | Marawan Gamal Abdel Hameed, Ali Mosleh, Marzieh S. Tahaei, Vahid Partovi Nia | (参考訳) 畳み込みニューラルネットワーク(CNN)は、ほとんどの画像処理やコンピュータビジョンアプリケーションのデファクトスタンダードとなっているが、エッジデバイスへの展開は依然として難しい。
テンソル分解法は、畳み込みテンソルに特定の因子分解構造を課すことで、幅広いデバイス制約を満たすためにcnnを圧縮する手段を提供する。
しかし、最先端の分解手法によって提示される小さな分解構造に制限されることは、準最適性能をもたらす可能性がある。
そこで我々は, Kronecker 生成物の配列を用いて, 様々な因子分解構造を提供する新しいテンソル分解法 SeKron を提案する。
近似クロネッカー因子を再帰的に発見することにより、各因子分解構造に対する最適分解に到達する。
SeKron は Tensor-Train (TT), Tensor-Ring (TR), Canonical Polyadic (CP), Tucker decompositions など,広く用いられている手法を一般化したフレキシブルな分解であることを示す。
重要なことは、全てのSeKron構造で共有される効率的な畳み込みプロジェクションアルゴリズムを導き、CNNモデルをシームレスに圧縮する。
高レベルコンピュータビジョンタスクと低レベルコンピュータビジョンタスクの両方におけるモデル圧縮についてsekronを検証する。 While convolutional neural networks (CNNs) have become the de facto standard for most image processing and computer vision applications, their deployment on edge devices remains challenging. Tensor decomposition methods provide a means of compressing CNNs to meet the wide range of device constraints by imposing certain factorization structures on their convolution tensors. However, being limited to the small set of factorization structures presented by state-of-the-art decomposition approaches can lead to sub-optimal performance. We propose SeKron, a novel tensor decomposition method that offers a wide variety of factorization structures, using sequences of Kronecker products. By recursively finding approximating Kronecker factors, we arrive at optimal decompositions for each of the factorization structures. We show that SeKron is a flexible decomposition that generalizes widely used methods, such as Tensor-Train (TT), Tensor-Ring (TR), Canonical Polyadic (CP) and Tucker decompositions. Crucially, we derive an efficient convolution projection algorithm shared by all SeKron structures, leading to seamless compression of CNN models. We validate SeKron for model compression on both high-level and low-level computer vision tasks and find that it outperforms state-of-the-art decomposition methods. | 翻訳日:2022-10-13 14:54:57 公開日:2022-10-12 |
# fonttransformer: 積み重ねトランスフォーマーによる中国の高分解能グリフ画像合成 FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis via Stacked Transformers ( http://arxiv.org/abs/2210.06301v1 ) ライセンス: Link先を確認 | Yitian Liu (1), Zhouhui Lian (1) ((1) Wangxuan Institute of Computer Technology, Peking University, Beijing, China) | (参考訳) オンライントレーニングサンプルから高品質な中国語フォントの自動生成は、特にサンプル数が非常に少ない場合には難しい課題である。
既存の少数ショットフォント生成手法では、不正確な位相構造や不完全なストロークを持つ低解像度のグリフ画像のみを合成できる。
そこで本研究では,階層化トランスフォーマーを用いた中国語グリフ画像合成のための新しい数ショット学習モデルであるFontTransformerを提案する。
鍵となるアイデアは、予測誤差の蓄積を避けるために並列トランスを適用し、合成ストロークの品質を高めるためにシリアルトランスを利用することである。
また,より高度なグリフ情報と事前知識をモデルに供給する新しい符号化方式を設計し,より高解像度で視覚的なグリフ画像の生成を可能にする。
数発の中国語フォント合成タスクにおける他のアプローチと比較して,定性的および定量的な実験結果は,本手法の優位性を示している。 Automatic generation of high-quality Chinese fonts from a few online training samples is a challenging task, especially when the amount of samples is very small. Existing few-shot font generation methods can only synthesize low-resolution glyph images that often possess incorrect topological structures or/and incomplete strokes. To address the problem, this paper proposes FontTransformer, a novel few-shot learning model, for high-resolution Chinese glyph image synthesis by using stacked Transformers. The key idea is to apply the parallel Transformer to avoid the accumulation of prediction errors and utilize the serial Transformer to enhance the quality of synthesized strokes. Meanwhile, we also design a novel encoding scheme to feed more glyph information and prior knowledge to our model, which further enables the generation of high-resolution and visually-pleasing glyph images. Both qualitative and quantitative experimental results demonstrate the superiority of our method compared to other existing approaches in the few-shot Chinese font synthesis task. | 翻訳日:2022-10-13 14:54:35 公開日:2022-10-12 |
# 教師なしセマンティクスセグメンテーションのための動的クラスタリングネットワーク Dynamic Clustering Network for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2210.05944v1 ) ライセンス: Link先を確認 | Kehan Li, Zhennan Wang, Zesen Cheng, Runyi Yu, Yian Zhao, Guoli Song, Li Yuan, Jie Chen | (参考訳) 近年,画素レベルの意味関係を表現できる自己教師型視覚変換器(ViT)の能力は,教師なし密接な予測タスクの開発を促進する。
本研究では,教師なしセマンティックセグメンテーションタスクへの自己教師付きViTの転送について検討する。
単一の画像内の自己教師付きvitの画素レベル表現が良好なクラス内コンパクト性とクラス間識別を実現するという解析に基づいて、異なる画像のクラスタ中心を動的に推定する動的クラスタリングネットワーク(dcn)を提案する。
提案されたモジュラリティの損失をトレーニングすることで、dcnはプロトタイプのセットを各イメージのピクセル表現のクラスタセンターにプロジェクションし、異なるクラスタにピクセルを割り当てることを学び、各イメージをクラスに依存しない領域に分割する。
教師なしのセマンティックセグメンテーションタスクを実現するため、領域分類問題として扱う。
我々は,DCNが生成する領域に基づいて,地域レベルの表現を抽出し,教師なしの方法で分類する方法を探究する。
提案手法は,教師なしセマンティックセグメンテーションにおけるトラフ実験の有効性を実証し,PASCAL VOC 2012における最先端セマンティックセグメンテーションタスクを実現する。 Recently, the ability of self-supervised Vision Transformer (ViT) to represent pixel-level semantic relationships promotes the development of unsupervised dense prediction tasks. In this work, we investigate transferring self-supervised ViT to unsupervised semantic segmentation task. According to the analysis that the pixel-level representations of self-supervised ViT within a single image achieve good intra-class compactness and inter-class discrimination, we propose the Dynamic Clustering Network (DCN) to dynamically infer the underlying cluster centers for different images. By training with the proposed modularity loss, the DCN learns to project a set of prototypes to cluster centers for pixel representations in each image and assign pixels to different clusters, resulting on dividing each image to class-agnostic regions. For achieving unsupervised semantic segmentation task, we treat it as a region classification problem. Based on the regions produced by the DCN, we explore different ways to extract region-level representations and classify them in an unsupervised manner. We demonstrate the effectiveness of the proposed method trough experiments on unsupervised semantic segmentation, and achieve state-of-the-art performance on PASCAL VOC 2012 unsupervised semantic segmentation task. | 翻訳日:2022-10-13 14:49:20 公開日:2022-10-12 |
# ZITS++: 構造優先のインクリメンタルトランスの改善によるイメージインペイント ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors ( http://arxiv.org/abs/2210.05950v1 ) ライセンス: Link先を確認 | Chenjie Cao, Qiaole Dong, Yanwei Fu | (参考訳) 画像塗布タスクは、破損した画像の欠落領域を埋める。
近年、印象的な成果が得られているが、鮮明なテクスチャと妥当な構造の両方で腐敗した画像を復元することは依然として困難である。
従来の手法では、畳み込みニューラルネットワーク(cnns)の受容場によって制限された全体構造を失う一方で、規則的なテクスチャのみを取り扱う。
そこで本研究では,zitsモデルよりも改良された構造前処理系(zits++)上で,ゼロ初期化残差付加型インクリメンタルトランスフォーマー(インクリメンタルトランスフォーマー)を学習する。
具体的には,1つの劣化画像が与えられた場合,トランスフォーマー構造復元器(tsr)モジュールを用いて,低解像度で全体構造前処理を復元し,さらにssu(simple structure upsampler)モジュールにより高分解能にアップサンプリングする。
さらに,画像テクスチャの細部をよく再現するために,フーリエCNNテクスチャ復元(FTR)モジュール(Fourier CNN Texture Restoration, FTR)を用いる。
一般的に、FTRは画像構造上の事前訓練なしで独立して事前訓練することができる。
さらに, ゼロ初期化残留付加(ZeroRA)の新たな漸進的トレーニング戦略により, TSRからのアップサンプリングされた構造前駆体をStructure Feature Encoder (SFE)によりさらに処理し, FTRを更新する。
基本的に、大きな不規則マスクを符号化するために、新しいマスク位置符号化法が提案されている。
各種データセットに対する大規模な実験は、他の競合相手と比較して、我々のモデルの有効性を検証する。
また,画像の塗装作業において,様々な先行課題の比較と検証を行う。 The image inpainting task fills missing areas of a corrupted image. Despite impressive results have been achieved recently, it is still challenging to restore corrupted images with both vivid textures and reasonable structures. Some previous methods only tackle regular textures while losing holistic structures limited by receptive fields of Convolution Neural Networks (CNNs). To this end, we study learning a Zero-initialized residual addition based Incremental Transformer on Structural priors (ZITS++), an improved model over our conference ZITS model. Specifically, given one corrupt image, we present the Transformer Structure Restorer (TSR) module to restore holistic structural priors at low image resolution, which are further upsampled by Simple Structure Upsampler (SSU) module to higher image resolution. Further, to well recover image texture details, we take the Fourier CNN Texture Restoration (FTR) module, which has both the Fourier and large-kernel attention convolutions. Typically, FTR can be independently pre-trained without image structural priors. Furthermore, to enhance the FTR, the upsampled structural priors from TSR are further processed by Structure Feature Encoder (SFE), and updating the FTR by a novel incremental training strategy of Zero-initialized Residual Addition (ZeroRA). Essentially, a new masking positional encoding is proposed to encode the large irregular masks. Extensive experiments on various datasets validate the efficacy of our model compared with other competitors. We also conduct extensive ablation to compare and verify various priors for image inpainting tasks. | 翻訳日:2022-10-13 14:48:57 公開日:2022-10-12 |
# 確率運動予測のための人関節運動の拡散補正 Human Joint Kinematics Diffusion-Refinement for Stochastic Motion Prediction ( http://arxiv.org/abs/2210.05976v1 ) ライセンス: Link先を確認 | Dong Wei, Huaijiang Sun, Bin Li, Jianfeng Lu, Weiqing Li, Xiaoning Sun, Shengxiang Hu | (参考訳) 確率的人間の運動予測は、過去から1つのポーズシーケンスを与えられた複数の妥当な将来の動きを予測することを目的としている。
これまでのほとんどの研究は、精度を向上させるために精巧な損失を設計することに重点を置いており、多様性は典型的には潜伏変数のセットをランダムにサンプリングし、それによって起こりうる動きへとデコードする。
しかし、このサンプリングと復号の合同トレーニングは、学習された潜伏変数が強い復号器によって無視される傾向があるため、後続の崩壊に悩まされる。
あるいは、非平衡熱力学における拡散過程に着想を得て、人間の関節のキネマティクスを加熱粒子として扱う拡散確率モデルであるMotionDiffを提案する。
このプロセスは、訓練可能なパラメータをもたずに「白く」潜伏音を得る自然な方法を提供し、人間の運動予測は、観測されたシーケンスで条件付けられたノイズ分布を現実的な将来の動きに変換する逆拡散過程と見なすことができる。
特に、MotionDiffは、多種多様な可塑性運動を生成する空間時間変換器ベースの拡散ネットワークと、出力をさらに洗練するためのグラフ畳み込みネットワークの2つの部分から構成される。
2つのデータセットの実験結果から,モデルの精度と多様性の両面での競合性能が示された。 Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity. | 翻訳日:2022-10-13 14:48:26 公開日:2022-10-12 |
# GGViT:Face2顔顔再現検出におけるマルチストリームビジョントランスネットワーク GGViT:Multistream Vision Transformer Network in Face2Face Facial Reenactment Detection ( http://arxiv.org/abs/2210.05990v1 ) ライセンス: Link先を確認 | Haotian Wu, Peipei Wang, Xin Wang, Ji Xiang, Rui Gong | (参考訳) ソーシャルネットワーク上で操作された顔画像やビデオの検出は、緊急に解決すべき課題である。
ソーシャルメディア上の動画の圧縮は、偽造を検知するのに使えるピクセルの細部を破壊した。
したがって、異なる品質の動画で操作された顔を検出することが重要である。
本稿では,グローバル情報を利用してモデルの一般化を改善する,ggvitと呼ばれる新しいマルチストリームネットワークアーキテクチャを提案する。
ViTによって抽出された顔全体の埋め込みは、各ストリームネットワークをガイドする。
多くの実験を通して,提案手法がFF++データセットの最先端の分類精度を実現し,異なる圧縮率のシナリオで大幅に改善されていることを実証した。
raw/c23, raw/c40, c23/c40はそれぞれ24.34%, 15.08%, 10.14%増加した。 Detecting manipulated facial images and videos on social networks has been an urgent problem to be solved. The compression of videos on social media has destroyed some pixel details that could be used to detect forgeries. Hence, it is crucial to detect manipulated faces in videos of different quality. We propose a new multi-stream network architecture named GGViT, which utilizes global information to improve the generalization of the model. The embedding of the whole face extracted by ViT will guide each stream network. Through a large number of experiments, we have proved that our proposed model achieves state-of-the-art classification accuracy on FF++ dataset, and has been greatly improved on scenarios of different compression rates. The accuracy of Raw/C23, Raw/C40 and C23/C40 was increased by 24.34%, 15.08% and 10.14% respectively. | 翻訳日:2022-10-13 14:48:01 公開日:2022-10-12 |
# 直線探索に基づくフォトリアリスティックスタイル転送における高速・安定・可変コンテンツスタイル制御のための特徴変換 Line Search-Based Feature Transformation for Fast, Stable, and Tunable Content-Style Control in Photorealistic Style Transfer ( http://arxiv.org/abs/2210.05996v1 ) ライセンス: Link先を確認 | Tai-Yin Chiu, Danna Gurari | (参考訳) フォトリアリスティックなスタイル転送は、ある画像からのコンテンツが他の画像のスタイルに現れるように適応する際に、現実的なイメージを合成するタスクである。
現代のモデルは一般的に、コンテンツイメージとスタイルイメージを記述する機能を融合した変換を組み込み、その結果の機能をスタイリングされたイメージにデコードする。
我々は,コンテンツの保存量と流儀の強さのバランスを制御できる汎用変換を導入する。
我々は、異なるスタイルの転送モデルにおける既存の変換のパフォーマンスを実証する最初の実験を行い、その変換が高速に動作し、一貫した合理的な結果を生み出し、異なるモデルにおけるコンテンツとスタイルのバランスを制御できることを実証する。
メソッドとモデルの再現をサポートするため、コードをhttps://github.com/chiutaiyin/ls-ftで共有します。 Photorealistic style transfer is the task of synthesizing a realistic-looking image when adapting the content from one image to appear in the style of another image. Modern models commonly embed a transformation that fuses features describing the content image and style image and then decodes the resulting feature into a stylized image. We introduce a general-purpose transformation that enables controlling the balance between how much content is preserved and the strength of the infused style. We offer the first experiments that demonstrate the performance of existing transformations across different style transfer models and demonstrate how our transformation performs better in its ability to simultaneously run fast, produce consistently reasonable results, and control the balance between content and style in different models. To support reproducing our method and models, we share the code at https://github.com/chiutaiyin/LS-FT. | 翻訳日:2022-10-13 14:47:48 公開日:2022-10-12 |
# マルチスケール顔のプログレッシブ埋め込みによる顔超解像 Face Super-Resolution with Progressive Embedding of Multi-scale Face Priors ( http://arxiv.org/abs/2210.06002v1 ) ライセンス: Link先を確認 | Chenggong Zhang and Zhilei Liu | (参考訳) FSRタスクは、高解像度の顔画像を低解像度の入力から再構成することである。
最近の研究は、顔のランドマークのような顔の先行技術を利用することで、この課題を成功に導いている。
既存の手法のほとんどは、グローバルな形状や構造情報に注意を払っているが、ローカルなテクスチャ情報には注意を払っていないため、ローカルな詳細を回復できない。
本稿では,グローバル形状情報と局所テクスチャ情報の両方を漸進的に導入する,顔の超解像のための再帰的畳み込みネットワークベースフレームワークを提案する。
我々は、リカレントネットワークの中間出力を最大限に活用し、低解像度入力よりも第1ステップと第2ステップの出力でランドマーク情報と顔動作単位(aus)情報を抽出する。
さらに,顔情報復元のための新しい定量的指標としてAU分類を導入した。
広汎な実験により,提案手法は画像品質と顔の細部復元の点で最先端のFSR法よりも優れていた。 The face super-resolution (FSR) task is to reconstruct high-resolution face images from low-resolution inputs. Recent works have achieved success on this task by utilizing facial priors such as facial landmarks. Most existing methods pay more attention to global shape and structure information, but less to local texture information, which makes them cannot recover local details well. In this paper, we propose a novel recurrent convolutional network based framework for face super-resolution, which progressively introduces both global shape and local texture information. We take full advantage of the intermediate outputs of the recurrent network, and landmarks information and facial action units (AUs) information are extracted in the output of the first and second steps respectively, rather than low-resolution input. Moreover, we introduced AU classification results as a novel quantitative metric for facial details restoration. Extensive experiments show that our proposed method significantly outperforms state-of-the-art FSR methods in terms of image quality and facial details restoration. | 翻訳日:2022-10-13 14:47:30 公開日:2022-10-12 |
# BEVレーンデット:BEV地上での高速レーン検出 BEV Lane Det: Fast Lane Detection on BEV Ground ( http://arxiv.org/abs/2210.06006v1 ) ライセンス: Link先を確認 | Ruihao Wang, Jian Qin, Kaiying Li, Dong Cao | (参考訳) 近年、3Dレーン検出は、車両をルーティングする鍵となる自動運転の活発な発展領域となっている。
本研究は,naive cnnとfc層のみを有する展開指向単眼3次元レーン検出器を提案する。
この検出器は、apollo 3d lane synthetic datasetとopenlane real-world datasetで96 fpsのランタイム速度で最先端の結果を得た。
1)仮想カメラは、異なる車両に搭載されたカメラのポーズの違いを排除します。
2) 空間的特徴ピラミッド変換を鳥眼トランスフォーマーに軽量な画像ビューとして用いることで,画像ビューフェートマップのスケールを活用できる。
(3)ヨロスタイルレーン表現は,鳥眼視の解像度と実行速度のバランスが良好である。
一方、訓練中の車線検出タスクのスパース性に起因するクラス不均衡による非効率を低減できる。
これら3つの技術を組み合わせることで、openlaneデータセット上で58.4%のf1-scoreを得た。
Apolloデータセットでは、96.9%のF1スコアを獲得しました。
ソースコードはまもなくリリースされる。 Recently, 3D lane detection has been an actively developing area in autonomous driving which is the key to routing the vehicle. This work proposes a deployment-oriented monocular 3D lane detector with only naive CNN and FC layers. This detector achieved state-of-the-art results on the Apollo 3D Lane Synthetic dataset and OpenLane real-world dataset with 96 FPS runtime speed. We conduct three techniques in our detector: (1) Virtual Camera eliminates the difference in poses of cameras mounted on different vehicles. (2) Spatial Feature Pyramid Transform as a light-weighed image-view to bird-eye view transformer can utilize scales of image-view featmaps. (3) Yolo Style Lane Representation makes a good balance between bird-eye view resolution and runtime speed. Meanwhile, it can reduce the inefficiency caused by the class imbalance due to the sparsity of the lane detection task during training. Combining these three techniques, we obtained a 58.4% F1-score on the OpenLane dataset, which is a 10.6% improvement over the baseline. On the Apollo dataset, we achieved an F1-score of 96.9%, which is 4% points of supremacy over the best on the leaderboard. The source code will release soon. | 翻訳日:2022-10-13 14:47:13 公開日:2022-10-12 |
# BoxMask:ビデオオブジェクト検出のためのバウンディングボックススーパービジョンを再考 BoxMask: Revisiting Bounding Box Supervision for Video Object Detection ( http://arxiv.org/abs/2210.06008v1 ) ライセンス: Link先を確認 | Khurram Azeem Hashmi, Alain Pagani, Didier Stricker, Muhammamd Zeshan Afzal | (参考訳) 本稿では,ビデオオブジェクト検出のための新しい,シンプルかつ効果的なアプローチを提案する。
先行研究は,改良された画素レベルの表現を瞬時に無視し,類似した外観や動作特性を共有するオブジェクト間で混乱が生じている。
そこで我々は,この制限に対処するために,クラス認識された画素レベル情報を取り込むことで識別表現を効果的に学習するboxmaskを提案する。
ボックスレベルのアノテーションを各オブジェクトがメソッドを監督する粗いマスクとして単純に考える。
提案するモジュールは、検出を促進するために、任意の領域ベースの検出器に無力に統合することができる。
ImageNet VIDとEPIC KITCHENSデータセットの大規模な実験は、BoxMaskモジュールを最新の最先端の多くのメソッドにプラグインする際に、一貫性と大幅な改善を示す。 We present a new, simple yet effective approach to uplift video object detection. We observe that prior works operate on instance-level feature aggregation that imminently neglects the refined pixel-level representation, resulting in confusion among objects sharing similar appearance or motion characteristics. To address this limitation, we propose BoxMask, which effectively learns discriminative representations by incorporating class-aware pixel-level information. We simply consider bounding box-level annotations as a coarse mask for each object to supervise our method. The proposed module can be effortlessly integrated into any region-based detector to boost detection. Extensive experiments on ImageNet VID and EPIC KITCHENS datasets demonstrate consistent and significant improvement when we plug our BoxMask module into numerous recent state-of-the-art methods. | 翻訳日:2022-10-13 14:46:54 公開日:2022-10-12 |
# VL4Pose: ポーズ推定のための外部分布検出によるアクティブラーニング VL4Pose: Active Learning Through Out-Of-Distribution Detection For Pose Estimation ( http://arxiv.org/abs/2210.06028v1 ) ライセンス: Link先を確認 | Megh Shukla, Roshan Roy, Pankaj Singh, Shuaib Ahmed, Alexandre Alahi | (参考訳) コンピューティングの進歩により、ポーズ推定への広範囲なアクセスが可能となり、新しいデータストリーム源が生み出された。
データ収集のためのモックセットアップとは異なり、オンデバイスでのアクティブラーニングを通じてこれらのデータストリームをタップすることで、トレーニング分布の拡散を改善するために現実世界から直接サンプルすることが可能になります。
しかし、オンデバイスコンピューティングのパワーは限られており、あらゆる候補アクティブラーニングアルゴリズムは、信頼性を保ちながら、計算フットプリントを低くすべきである。
複数のアルゴリズムが推定のポーズを取るが、彼らは膨大な計算を使って最先端の結果を出力するか、低リソース環境では競合しない。
VL4Pose(Visual Likelihood For Pose Estimation)は、分布外検出によるアクティブな学習のための第一原理である。
ポーズ推定者は、しばしば分散サンプルの一貫性のないポーズを予測します。
したがって、モデルがトレーニングされたポーズの分布を特定でき、モデルが不確実なポーズを特定することができるのか?
我々の解は、最大推定により訓練された単純なパラメトリックベイズネットワークを介してポーズをモデル化する。
したがって、我々のフレームワーク内で低い確率で現れるポーズは、アノテーションの候補となるような分布外のサンプルである。
vl4pose in-principleはジョイントとポーズレベルのあいまいさを統一することでより良い不確実性推定を導き、限定的なシナリオでポーズ調整を行うvl4poseの意図しないが歓迎される能力をもたらす。
我々はMPII, LSP, ICVLの3つのデータセットについて定性的かつ定量的な実験を行った。
最後に、VL4Poseはシンプルで、安価で、競争力があり、デバイス上でのアクティブな学習のような困難なタスクに適していることに留意する。 Advances in computing have enabled widespread access to pose estimation, creating new sources of data streams. Unlike mock set-ups for data collection, tapping into these data streams through on-device active learning allows us to directly sample from the real world to improve the spread of the training distribution. However, on-device computing power is limited, implying that any candidate active learning algorithm should have a low compute footprint while also being reliable. Although multiple algorithms cater to pose estimation, they either use extensive compute to power state-of-the-art results or are not competitive in low-resource settings. We address this limitation with VL4Pose (Visual Likelihood For Pose Estimation), a first principles approach for active learning through out-of-distribution detection. We begin with a simple premise: pose estimators often predict incoherent poses for out-of-distribution samples. Hence, can we identify a distribution of poses the model has been trained on, to identify incoherent poses the model is unsure of? Our solution involves modelling the pose through a simple parametric Bayesian network trained via maximum likelihood estimation. Therefore, poses incurring a low likelihood within our framework are out-of-distribution samples making them suitable candidates for annotation. We also observe two useful side-outcomes: VL4Pose in-principle yields better uncertainty estimates by unifying joint and pose level ambiguity, as well as the unintentional but welcome ability of VL4Pose to perform pose refinement in limited scenarios. We perform qualitative and quantitative experiments on three datasets: MPII, LSP and ICVL, spanning human and hand pose estimation. Finally, we note that VL4Pose is simple, computationally inexpensive and competitive, making it suitable for challenging tasks such as on-device active learning. | 翻訳日:2022-10-13 14:46:40 公開日:2022-10-12 |
# マルチモーダル時間コントラスト学習を用いた長文映像言語事前学習 Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning ( http://arxiv.org/abs/2210.06031v1 ) ライセンス: Link先を確認 | Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu | (参考訳) 大規模ビデオ言語事前学習では,映像言語理解タスクが大幅に改善されている。
ビデオ言語事前訓練のこれまでの研究は、主にショートフォームビデオ(すなわち30秒以内)と文に焦点を当てており、長い形式のビデオ言語事前訓練はめったに行われない。
長文ビデオや言語から直接表現を学ぶことは、長文ビデオ言語理解の多くのタスクに役立つかもしれない。
しかし, 長期関係のモデル化が困難であり, フレーム数の増加による計算負荷が大きいため, 課題となっている。
本稿では,Long-Form VIdeo-LAnguage Pre-Training Model (LF-VILA)を導入し,既存の公開データセットから構築した大規模長大ビデオおよび段落データセット上で学習する。
そこで我々は,このLF-VILAモデルにおいて,リッチな時間的ダイナミクスを効果的に捉え,映像と言語をより効率的なエンドツーエンドで整列させるために,新しい2つの設計手法を提案する。
まず,複数モーダルビデオと段落間の微粒なアライメントを促進することで,異なるモーダル間の時間的関係を学習するためのMTC損失を提案する。
第2に、Transformerの計算コストを削減しつつ、長距離依存を効果的に捉える階層型時間窓注意(HTWA)機構を提案する。
学習済みlf-vilaモデルを,段落間検索と長文ビデオ質問応答の7つの下流長文ビデオ言語理解タスクで微調整し,新たな最先端性能を実現する。
具体的には,アクティビティネットの段落間検索タスクで16.1%,how2qaタスクで2.4%改善した。
コード、データセット、事前トレーニングされたモデルをhttps://github.com/microsoft/xpretrainでリリースします。 Large-scale video-language pre-training has shown significant improvement in video-language understanding tasks. Previous studies of video-language pretraining mainly focus on short-form videos (i.e., within 30 seconds) and sentences, leaving long-form video-language pre-training rarely explored. Directly learning representation from long-form videos and language may benefit many long-form video-language understanding tasks. However, it is challenging due to the difficulty of modeling long-range relationships and the heavy computational burden caused by more frames. In this paper, we introduce a Long-Form VIdeo-LAnguage pre-training model (LF-VILA) and train it on a large-scale long-form video and paragraph dataset constructed from an existing public dataset. To effectively capture the rich temporal dynamics and to better align video and language in an efficient end-to-end manner, we introduce two novel designs in our LF-VILA model. We first propose a Multimodal Temporal Contrastive (MTC) loss to learn the temporal relation across different modalities by encouraging fine-grained alignment between long-form videos and paragraphs. Second, we propose a Hierarchical Temporal Window Attention (HTWA) mechanism to effectively capture long-range dependency while reducing computational cost in Transformer. We fine-tune the pre-trained LF-VILA model on seven downstream long-form video-language understanding tasks of paragraph-to-video retrieval and long-form video question-answering, and achieve new state-of-the-art performances. Specifically, our model achieves 16.1% relative improvement on ActivityNet paragraph-to-video retrieval task and 2.4% on How2QA task, respectively. We release our code, dataset, and pre-trained models at https://github.com/microsoft/XPretrain. | 翻訳日:2022-10-13 14:46:09 公開日:2022-10-12 |
# SegViT: プレーンビジョントランスを用いたセマンティックセグメンテーション SegViT: Semantic Segmentation with Plain Vision Transformers ( http://arxiv.org/abs/2210.05844v1 ) ライセンス: Link先を確認 | Bowen Zhang and Zhi Tian and Quan Tang and Xiangxiang Chu and Xiaolin Wei and Chunhua Shen and Yifan Liu | (参考訳) セマンティックセグメンテーションのためのプレーンビジョントランスフォーマー(ViT)の機能について検討し,SegVitを提案する。
従来のViTベースのセグメンテーションネットワークは通常、ViTの出力からピクセルレベルの表現を学ぶ。
別の方法では、基本的なコンポーネント -- 注意メカニズムを使用して、セマンティックセグメンテーションのためのマスクを生成します。
具体的には,学習可能なクラストークンの集合と空間特徴マップとの類似度マップをセグメンテーションマスクに転送するattention-to-mask(atm)モジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitはADE20Kデータセット上の平易なViTバックボーンよりも優れており,COCO-Stuff-10KおよびPASCAL-Contextデータセット上で新たな最先端性能を実現することがわかった。
さらに,vitバックボーンの計算コストを低減するために,クエリベースのダウンサンプリング(qd)とクエリベースのアップサンプリング(qu)を提案する。
提案する縮小構造により、このモデルは競合性能を維持しながら最大$40\%$の計算を節約できる。 We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation and propose the SegVit. Previous ViT-based segmentation networks usually learn a pixel-level representation from the output of the ViT. Differently, we make use of the fundamental component -- attention mechanism, to generate masks for semantic segmentation. Specifically, we propose the Attention-to-Mask (ATM) module, in which the similarity maps between a set of learnable class tokens and the spatial feature maps are transferred to the segmentation masks. Experiments show that our proposed SegVit using the ATM module outperforms its counterparts using the plain ViT backbone on the ADE20K dataset and achieves new state-of-the-art performance on COCO-Stuff-10K and PASCAL-Context datasets. Furthermore, to reduce the computational cost of the ViT backbone, we propose query-based down-sampling (QD) and query-based up-sampling (QU) to build a Shrunk structure. With the proposed Shrunk structure, the model can save up to $40\%$ computations while maintaining competitive performance. | 翻訳日:2022-10-13 14:40:24 公開日:2022-10-12 |
# LACV-Net:局所適応VLADによる大規模クラウドシーンのセマンティックセグメンテーション LACV-Net: Semantic Segmentation of Large-Scale Point Cloud Scene via Local Adaptive and Comprehensive VLAD ( http://arxiv.org/abs/2210.05870v1 ) ライセンス: Link先を確認 | Ziyin Zeng, Yongyang Xu, Zhong Xie, Wei Tang, Jie Wan and Weichao Wu | (参考訳) 大規模なポイントクラウドセマンティクスセグメンテーションは、3dコンピュータビジョンにおいて重要なタスクであり、自動運転、ロボティクス、バーチャルリアリティーに広く適用されている。
現在の大規模ポイントクラウドセマンティクスセグメンテーション手法は通常、ダウンサンプリング操作を使用して計算効率を改善し、マルチレゾリューションでポイントクラウドを取得する。
しかし、これはローカル情報の欠落を引き起こす可能性がある。
一方,大規模分散環境において,ネットワークがグローバル情報を捉えることは困難である。
ローカルおよびグローバル情報を効果的に捉えるために,大規模ポイントクラウドセマンティクスセグメンテーションのためのlacv-netと呼ばれるエンドツーエンドのディープニューラルネットワークを提案する。
提案するネットワークには3つの主要コンポーネントがある。
1) 局所適応的特徴増強モジュール(LAFA)は、遠心点と隣接点の類似性を適応的に学習し、局所的文脈を増強する。
2) 包括的グローバル記述ベクトルを表すために,局所的特徴を多層,マルチスケール,マルチ解像度で融合する包括的VLADモジュール(C-VLAD)
3) LAFAモジュールからの適応重みを制約することにより, セグメンテーション境界を効果的に最適化するアグリゲーション損失関数。
S3DIS, Toronto3D, SensatUrbanなど, 大規模ベンチマークデータセットの最先端ネットワークと比較して, 提案ネットワークの有効性を実証した。 Large-scale point cloud semantic segmentation is an important task in 3D computer vision, which is widely applied in autonomous driving, robotics, and virtual reality. Current large-scale point cloud semantic segmentation methods usually use down-sampling operations to improve computation efficiency and acquire point clouds with multi-resolution. However, this may cause the problem of missing local information. Meanwhile, it is difficult for networks to capture global information in large-scale distributed contexts. To capture local and global information effectively, we propose an end-to-end deep neural network called LACV-Net for large-scale point cloud semantic segmentation. The proposed network contains three main components: 1) a local adaptive feature augmentation module (LAFA) to adaptively learn the similarity of centroids and neighboring points to augment the local context; 2) a comprehensive VLAD module (C-VLAD) that fuses local features with multi-layer, multi-scale, and multi-resolution to represent a comprehensive global description vector; and 3) an aggregation loss function to effectively optimize the segmentation boundaries by constraining the adaptive weight from the LAFA module. Compared to state-of-the-art networks on several large-scale benchmark datasets, including S3DIS, Toronto3D, and SensatUrban, we demonstrated the effectiveness of the proposed network. | 翻訳日:2022-10-13 14:39:50 公開日:2022-10-12 |
# オフ・ザ・シェルフ拡散モデルを用いた多属性ファッション画像操作 Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion Image Manipulation ( http://arxiv.org/abs/2210.05872v1 ) ライセンス: Link先を確認 | Chaerin Kong, DongHyeon Jeon, Ohjoon Kwon, Nojun Kwak | (参考訳) ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
従来は条件付きganを使用しており、ジェネレータはターゲット属性を明示的に学習し、直接変換を実行する。
しかし、これらのアプローチは拡張性も汎用性もないため、限られた属性だけで動作し、データセットや属性セットごとに別々のジェネレータが必要である。
近年の拡散モデルの発展に触発されて,imagenet のような一般視覚意味論に基づく既成の拡散モデルを利用した分類器誘導拡散について検討した。
汎用的な編集パイプラインを実現するために、属性はアイテムカテゴリ、ファブリック、パターンからカラー、ネックラインまで多属性画像操作タスクとして機能する。
従来の手法では難易度が低く,近年導入したマルチ属性分類器指導のためのアテンションプール方式を含む効率的な適応手法について検討した。
これに基づいて,分類器のロジットとクロスアテンションマップを利用したマスフリーなファッション属性編集フレームワークを提案する。
当社のフレームワークがサンプル品質と属性アライメントを説得できることを実証的に実証する。 Fashion attribute editing is a task that aims to convert the semantic attributes of a given fashion image while preserving the irrelevant regions. Previous works typically employ conditional GANs where the generator explicitly learns the target attributes and directly execute the conversion. These approaches, however, are neither scalable nor generic as they operate only with few limited attributes and a separate generator is required for each dataset or attribute set. Inspired by the recent advancement of diffusion models, we explore the classifier-guided diffusion that leverages the off-the-shelf diffusion model pretrained on general visual semantics such as Imagenet. In order to achieve a generic editing pipeline, we pose this as multi-attribute image manipulation task, where the attribute ranges from item category, fabric, pattern to collar and neckline. We empirically show that conventional methods fail in our challenging setting, and study efficient adaptation scheme that involves recently introduced attention-pooling technique to obtain a multi-attribute classifier guidance. Based on this, we present a mask-free fashion attribute editing framework that leverages the classifier logits and the cross-attention map for manipulation. We empirically demonstrate that our framework achieves convincing sample quality and attribute alignments. | 翻訳日:2022-10-13 14:39:25 公開日:2022-10-12 |
# 知識に基づく新しい物体認識のための質問による学習 Learning by Asking Questions for Knowledge-based Novel Object Recognition ( http://arxiv.org/abs/2210.05879v1 ) ライセンス: Link先を確認 | Kohei Uehara, Tatsuya Harada | (参考訳) 実世界のオブジェクト認識では、認識すべきオブジェクトクラスが数多く存在する。
教師付き学習に基づく従来の画像認識は、トレーニングデータに存在するオブジェクトクラスのみを認識でき、現実世界では適用性に制限がある。
一方、人間は質問をして知識を得ることで、新しい物体を認識することができる。
そこで本研究では,モデルが新たなオブジェクトを瞬時に認識するのに役立つ質問生成による外部知識獲得フレームワークについて検討する。
我々のパイプラインは、知識に基づくオブジェクト認識を行うオブジェクト分類器と、知識を意識した質問を生成する質問生成器の2つのコンポーネントから構成される。
また,対象分類器の知識認識予測の信頼度に基づく質問生成戦略を提案する。
質問生成器をトレーニングするために、画像内のオブジェクトに関する知識を意識した質問を含むデータセットを構築する。
提案するパイプラインは,複数のベースラインと比較して,新規なオブジェクトに関する知識を効果的に獲得することを示す。 In real-world object recognition, there are numerous object classes to be recognized. Conventional image recognition based on supervised learning can only recognize object classes that exist in the training data, and thus has limited applicability in the real world. On the other hand, humans can recognize novel objects by asking questions and acquiring knowledge about them. Inspired by this, we study a framework for acquiring external knowledge through question generation that would help the model instantly recognize novel objects. Our pipeline consists of two components: the Object Classifier, which performs knowledge-based object recognition, and the Question Generator, which generates knowledge-aware questions to acquire novel knowledge. We also propose a question generation strategy based on the confidence of the knowledge-aware prediction of the Object Classifier. To train the Question Generator, we construct a dataset that contains knowledge-aware questions about objects in the images. Our experiments show that the proposed pipeline effectively acquires knowledge about novel objects compared to several baselines. | 翻訳日:2022-10-13 14:39:03 公開日:2022-10-12 |
# 単一RGB-D画像からの共同色と意味推定による点雲シーンの補完 Point Cloud Scene Completion with Joint Color and Semantic Estimation from Single RGB-D Image ( http://arxiv.org/abs/2210.05891v1 ) ライセンス: Link先を確認 | Zhaoxuan Zhang, Xiaoguang Han, Bo Dong, Tong Li, Baocai Yin, Xin Yang | (参考訳) 本稿では,1枚のRGB-D画像のみを重畳した高画質なシーン再構成を実現するため,色付きセマンティックポイント雲シーン完成のためのプログレッシブ・ビュー・インペインティングの深部強化学習法を提案する。
提案手法は,3次元シーンボリューム再構成,2次元RGB-Dとセグメンテーション画像のインペインティング,複数ビュー選択の3つのモジュールからなる。
1つのRGB-D画像が与えられた場合、まずそのセマンティックセグメンテーションマップを予測し、3Dボリュームブランチを通過して次のビューの描画ステップのガイドとしてボリュームシーン再構築を行ない、3番目のステップでは、入力の同じビューの下でボリュームを投影し、現在のビューRGB-Dとセグメンテーションマップを完成させ、すべてのRGB-Dとセグメンテーションマップをポイントクラウドに統合する。
閉鎖されたエリアは利用できないため、我々はA3Cネットワークを利用して、有効性を確保しつつシーンを適切に再構築するまで、大規模ホール完成のための次のベストビューを段階的に選択する。
すべてのステップは、堅牢で一貫した結果を得るために、共同で学習されます。
3d-futureデータを用いて質的・定量的評価を行い,最新データよりも良好な結果を得た。 We present a deep reinforcement learning method of progressive view inpainting for colored semantic point cloud scene completion under volume guidance, achieving high-quality scene reconstruction from only a single RGB-D image with severe occlusion. Our approach is end-to-end, consisting of three modules: 3D scene volume reconstruction, 2D RGB-D and segmentation image inpainting, and multi-view selection for completion. Given a single RGB-D image, our method first predicts its semantic segmentation map and goes through the 3D volume branch to obtain a volumetric scene reconstruction as a guide to the next view inpainting step, which attempts to make up the missing information; the third step involves projecting the volume under the same view of the input, concatenating them to complete the current view RGB-D and segmentation map, and integrating all RGB-D and segmentation maps into the point cloud. Since the occluded areas are unavailable, we resort to a A3C network to glance around and pick the next best view for large hole completion progressively until a scene is adequately reconstructed while guaranteeing validity. All steps are learned jointly to achieve robust and consistent results. We perform qualitative and quantitative evaluations with extensive experiments on the 3D-FUTURE data, obtaining better results than state-of-the-arts. | 翻訳日:2022-10-13 14:38:48 公開日:2022-10-12 |
# DG-STGCN:骨格に基づく行動認識のための動的空間時間モデリング DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action Recognition ( http://arxiv.org/abs/2210.05895v1 ) ライセンス: Link先を確認 | Haodong Duan, Jiaqi Wang, Kai Chen, Dahua Lin | (参考訳) グラフ畳み込みネットワーク(gcn)はスケルトンに基づく行動認識に広く使われている。
既存のgcnベースのアプローチは、主に所定のグラフィカルな構造(つまり骨格関節の手動で定義されたトポロジー)に依存しており、関節間の複雑な相関を捉える柔軟性を制限している。
この制限を超えて、スケルトンに基づく行動認識のための新しいフレームワークであるDynamic Group Spatio-Temporal GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
特に、DG-GCNは学習親和性行列を用いて、所定のものに頼るのではなく、動的なグラフィカル構造をキャプチャし、一方DG-TCNは、様々な受容場を持つグループワイドの時間的畳み込みを行い、適応的な多段階の時間的モデリングのための動的ジョイント・スケルトン融合モジュールを組み込む。
NTURGB+D、Kinetics-Skeleton、BABEL、Toyota SmartHomeなど幅広いベンチマークでは、DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。 Graph convolution networks (GCN) have been widely used in skeleton-based action recognition. We note that existing GCN-based approaches primarily rely on prescribed graphical structures (ie., a manually defined topology of skeleton joints), which limits their flexibility to capture complicated correlations between joints. To move beyond this limitation, we propose a new framework for skeleton-based action recognition, namely Dynamic Group Spatio-Temporal GCN (DG-STGCN). It consists of two modules, DG-GCN and DG-TCN, respectively, for spatial and temporal modeling. In particular, DG-GCN uses learned affinity matrices to capture dynamic graphical structures instead of relying on a prescribed one, while DG-TCN performs group-wise temporal convolutions with varying receptive fields and incorporates a dynamic joint-skeleton fusion module for adaptive multi-level temporal modeling. On a wide range of benchmarks, including NTURGB+D, Kinetics-Skeleton, BABEL, and Toyota SmartHome, DG-STGCN consistently outperforms state-of-the-art methods, often by a notable margin. | 翻訳日:2022-10-13 14:38:19 公開日:2022-10-12 |
# ハッシュコードのパフォーマンスの低い境界 A Lower Bound of Hash Codes' Performance ( http://arxiv.org/abs/2210.05899v1 ) ライセンス: Link先を確認 | Xiaosu Zhu, Jingkuan Song, Yu Lei, Lianli Gao and Heng Tao Shen | (参考訳) コンパクト表現学習における重要なアプローチとして、ハッシュは効率と効率において大きな成功を収めた。
多くのヒューリスティックなハミング空間計量学習目的は、高品質なハッシュコードを得るために設計されている。
それでも、良質なハッシュコードの学習基準に関する理論的分析はほとんど明らかにされていない。
本稿では,ハッシュコード間のクラス間識別性とクラス内コンパクト性が,ハッシュコードの性能の下限を決定することを実証する。
これら2つの特性の促進は、境界を引き上げ、ハッシュ学習を改善する。
次に,ハッシュ符号の後方を推定し,それを制御することによって,上記の目的を完全に活用するサロゲートモデルを提案し,低バイアス最適化を実現する。
実験の結果,提案手法の有効性が明らかになった。
一連のハッシュモデルでテストすることで、平均精度を最大$6.5\%、精度を最大$0.5\%向上させ、すべてのハッシュモデルのパフォーマンス改善が得られます。
我々のコードは \url{https://github.com/VL-Group/LBHash} で公開されている。 As a crucial approach for compact representation learning, hashing has achieved great success in effectiveness and efficiency. Numerous heuristic Hamming space metric learning objectives are designed to obtain high-quality hash codes. Nevertheless, a theoretical analysis of criteria for learning good hash codes remains largely unexploited. In this paper, we prove that inter-class distinctiveness and intra-class compactness among hash codes determine the lower bound of hash codes' performance. Promoting these two characteristics could lift the bound and improve hash learning. We then propose a surrogate model to fully exploit the above objective by estimating the posterior of hash codes and controlling it, which results in a low-bias optimization. Extensive experiments reveal the effectiveness of the proposed method. By testing on a series of hash-models, we obtain performance improvements among all of them, with an up to $26.5\%$ increase in mean Average Precision and an up to $20.5\%$ increase in accuracy. Our code is publicly available at \url{https://github.com/VL-Group/LBHash}. | 翻訳日:2022-10-13 14:37:56 公開日:2022-10-12 |
# psnet:ビデオサリエント物体検出のための並列対称ネットワーク PSNet: Parallel Symmetric Network for Video Salient Object Detection ( http://arxiv.org/abs/2210.05912v1 ) ライセンス: Link先を確認 | Runmin Cong, Weiyu Song, Jianjun Lei, Guanghui Yue, Yao Zhao, and Sam Kwong | (参考訳) ビデオサルエントオブジェクト検出(VSOD)タスクでは、外見のモダリティと運動のモダリティからどのように情報を抽出するかが常に大きな関心事となっている。
RGBの外観ストリームと光フローモーションストリームを含む2つのストリーム構造は、VSODタスクの典型的なパイプラインとして広く使われているが、既存の手法では、動作特徴を一方向で導くか、適応的にも盲目的に2つのモード特徴を融合させるだけである。
しかし,これらの手法は,非包括的かつ非特異な学習手法により,多様なシナリオで性能が低下する。
本稿では,よりセキュアなモデリング哲学に従い,より包括的に外観モダリティと動きモダリティの重要性を深く調査し,psnetと呼ばれる上下平行対称性を持つvsodネットワークを提案する。
支配的モダリティの異なる2つの並列ブランチを設定し、greken diffusion reinforcement(gdr)モジュールとcross-modalityfine and complement(crc)モジュールの協調により、完全なビデオサリエンシー復号を実現する。
最後に、Importance Perception Fusion (IPF)モジュールを使用して、異なるシナリオにおける異なる重要性に応じて、2つの並列ブランチから機能を融合します。
4つのベンチマーク実験により,本手法が望ましい,競争力のある性能を達成することを示す。 For the video salient object detection (VSOD) task, how to excavate the information from the appearance modality and the motion modality has always been a topic of great concern. The two-stream structure, including an RGB appearance stream and an optical flow motion stream, has been widely used as a typical pipeline for VSOD tasks, but the existing methods usually only use motion features to unidirectionally guide appearance features or adaptively but blindly fuse two modality features. However, these methods underperform in diverse scenarios due to the uncomprehensive and unspecific learning schemes. In this paper, following a more secure modeling philosophy, we deeply investigate the importance of appearance modality and motion modality in a more comprehensive way and propose a VSOD network with up and down parallel symmetry, named PSNet. Two parallel branches with different dominant modalities are set to achieve complete video saliency decoding with the cooperation of the Gather Diffusion Reinforcement (GDR) module and Cross-modality Refinement and Complement (CRC) module. Finally, we use the Importance Perception Fusion (IPF) module to fuse the features from two parallel branches according to their different importance in different scenarios. Experiments on four dataset benchmarks demonstrate that our method achieves desirable and competitive performance. | 翻訳日:2022-10-13 14:37:43 公開日:2022-10-12 |
# ロバストモデルは信頼性が低い Robust Models are less Over-Confident ( http://arxiv.org/abs/2210.05938v1 ) ライセンス: Link先を確認 | Julia Grabinski, Paul Gavrikov, Janis Keuper, Margret Keuper | (参考訳) コンピュータビジョンタスクのための多くの学術ベンチマークで畳み込みニューラルネットワーク(CNN)の成功にもかかわらず、現実世界での彼らの応用は依然として根本的な課題に直面している。
これらのオープンな問題の1つは、本質的に強固さの欠如であり、敵対的攻撃の驚くべき効果によって明らかにされる。
現在の攻撃方法は、入力に特定のが少量のノイズを加えることで、ネットワークの予測を操作することができる。
逆に、敵の訓練(AT)は、そのような攻撃に対する堅牢性を達成し、訓練セットに敵のサンプルを含めることで、理想的にはモデル一般化能力を向上することを目的としている。
しかし、敵の強靭性を超えた結果のロバストモデルに関する詳細な分析はまだ保留中である。
本稿では, 最先端攻撃に直面する場合の強靭な精度を達成するための, 様々な敵意的訓練モデルを実証的に分析し, 興味深い副作用があることを示し, 非破壊モデルよりもクリーンなデータであっても, 決定にかなり自信が持たないモデルに導かれることを示した。
さらに,ロバストモデルの解析により,モデルのビルディングブロック(アクティベーション関数やプールなど)だけでなく,モデルの予測信頼度にも強い影響があることが示された。
Data & ProjectのWebサイト: https://github.com/GeJulia/robustness_confidences_evaluation Despite the success of convolutional neural networks (CNNs) in many academic benchmarks for computer vision tasks, their application in the real-world is still facing fundamental challenges. One of these open problems is the inherent lack of robustness, unveiled by the striking effectiveness of adversarial attacks. Current attack methods are able to manipulate the network's prediction by adding specific but small amounts of noise to the input. In turn, adversarial training (AT) aims to achieve robustness against such attacks and ideally a better model generalization ability by including adversarial samples in the trainingset. However, an in-depth analysis of the resulting robust models beyond adversarial robustness is still pending. In this paper, we empirically analyze a variety of adversarially trained models that achieve high robust accuracies when facing state-of-the-art attacks and we show that AT has an interesting side-effect: it leads to models that are significantly less overconfident with their decisions, even on clean data than non-robust models. Further, our analysis of robust models shows that not only AT but also the model's building blocks (like activation functions and pooling) have a strong influence on the models' prediction confidences. Data & Project website: https://github.com/GeJulia/robustness_confidences_evaluation | 翻訳日:2022-10-13 14:37:19 公開日:2022-10-12 |
# クラスインクリメンタルセグメンテーションのための分解知識蒸留 Decomposed Knowledge Distillation for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2210.05941v1 ) ライセンス: Link先を確認 | Donghyeon Baek, Youngmin Oh, Sanghoon Lee, Junghyup Lee, Bumsub Ham | (参考訳) クラスインクリメンタルセマンティックセグメンテーション(CISS)は、画像の各ピクセルに対応するオブジェクト/スタッフクラスを連続的にラベル付けする。
この目的のためには、それまでの知識を忘れずに、新しい授業を段階的に学習することが不可欠である。
現在のciss法は、通常、分類子ロジットの保存や特徴抽出器の凍結に知識蒸留(kd)技術を使用して、忘れられる問題を避ける。
しかし、強い制約は、新しいクラスにおける差別的特徴の学習を妨げる。
我々は,忘れる問題を軽減し,新しい授業を効果的に学習するためのCISSフレームワークを導入する。
我々はロジットを2つの項に分解できることを発見した。
入力が特定のクラスに属するかどうかを定量化し、モデルの推論プロセスの手がかりを提供する。
この文脈において、KD技法は2つの項の和(すなわちクラスロジット)を保存し、各項が変更可能であることを示唆し、したがってKDは推論過程を模倣しない。
それぞれの用語に制約を課すために,新しい分解型知識蒸留(dkd)手法を提案し,モデルの剛性を改善し,より効果的に忘れる問題に対処する。
また,新しいクラスに対する新しい分類器を訓練するための新しい初期化手法を提案する。
CISSでは、新しいクラスの負のトレーニングサンプルの数は、古いクラスの識別には不十分である。
そこで本研究では,否定の知識を補助分類器を用いて順次分類器に移し,性能を著しく向上させる手法を提案する。
標準CISSベンチマークによる実験結果から,本フレームワークの有効性が示された。 Class-incremental semantic segmentation (CISS) labels each pixel of an image with a corresponding object/stuff class continually. To this end, it is crucial to learn novel classes incrementally without forgetting previously learned knowledge. Current CISS methods typically use a knowledge distillation (KD) technique for preserving classifier logits, or freeze a feature extractor, to avoid the forgetting problem. The strong constraints, however, prevent learning discriminative features for novel classes. We introduce a CISS framework that alleviates the forgetting problem and facilitates learning novel classes effectively. We have found that a logit can be decomposed into two terms. They quantify how likely an input belongs to a particular class or not, providing a clue for a reasoning process of a model. The KD technique, in this context, preserves the sum of two terms (i.e., a class logit), suggesting that each could be changed and thus the KD does not imitate the reasoning process. To impose constraints on each term explicitly, we propose a new decomposed knowledge distillation (DKD) technique, improving the rigidity of a model and addressing the forgetting problem more effectively. We also introduce a novel initialization method to train new classifiers for novel classes. In CISS, the number of negative training samples for novel classes is not sufficient to discriminate old classes. To mitigate this, we propose to transfer knowledge of negatives to the classifiers successively using an auxiliary classifier, boosting the performance significantly. Experimental results on standard CISS benchmarks demonstrate the effectiveness of our framework. | 翻訳日:2022-10-13 14:36:56 公開日:2022-10-12 |
# 教師なし騒音の評価 Evaluating Unsupervised Denoising Requires Unsupervised Metrics ( http://arxiv.org/abs/2210.05553v2 ) ライセンス: Link先を確認 | Adria Marcos-Morales, Matan Leibovich, Sreyas Mohan, Joshua Lawrence Vincent, Piyush Haluai, Mai Tan, Peter Crozier, Carlos Fernandez-Granda | (参考訳) 教師なしのデノイジングは、実世界のイメージングアプリケーションにおいて重要な課題である。
教師なしのディープラーニング手法は、合成ノイズに基づくベンチマークで印象的な性能を示した。
しかし、これらの手法を教師なしで評価する指標は存在しない。
これは、地上のクリーンなイメージが利用できない多くの実用的なアプリケーションにとって、非常に問題となる。
本研究では,教師なし平均二乗誤差 (unsupervised mean squared error, mse) と教師なしピーク信号対雑音比 (unsupervised peak signal-to-noise ratio, psnr) の2つの新しい指標を提案する。
我々はこれらの指標の理論的解析を行い、それらが教師付きMSEとPSNRの漸近的に一貫した推定値であることを示す。
合成雑音による制御された数値実験は、実際に正確な近似を与えることを確認した。
生のフォーマットによるビデオと透過型電子顕微鏡の2つの画像モダリティから実世界のデータに対するアプローチを検証する。
その結果,提案手法は雑音データのみに基づいて非教師なし評価が可能となった。 Unsupervised denoising is a crucial challenge in real-world imaging applications. Unsupervised deep-learning methods have demonstrated impressive performance on benchmarks based on synthetic noise. However, no metrics are available to evaluate these methods in an unsupervised fashion. This is highly problematic for the many practical applications where ground-truth clean images are not available. In this work, we propose two novel metrics: the unsupervised mean squared error (MSE) and the unsupervised peak signal-to-noise ratio (PSNR), which are computed using only noisy data. We provide a theoretical analysis of these metrics, showing that they are asymptotically consistent estimators of the supervised MSE and PSNR. Controlled numerical experiments with synthetic noise confirm that they provide accurate approximations in practice. We validate our approach on real-world data from two imaging modalities: videos in raw format and transmission electron microscopy. Our results demonstrate that the proposed metrics enable unsupervised evaluation of denoising methods based exclusively on noisy data. | 翻訳日:2022-10-13 14:30:39 公開日:2022-10-12 |
# 点変換器v2:群ベクトル注意と分割型プーリング Point Transformer V2: Grouped Vector Attention and Partition-based Pooling ( http://arxiv.org/abs/2210.05666v2 ) ライセンス: Link先を確認 | Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao | (参考訳) 3Dポイントクラウド理解のためのトランスフォーマーアーキテクチャの先駆的な研究として、Point Transformerは、複数の高い競争力のあるベンチマークで印象的な結果を得た。
本稿では,ポイント変換器の限界を解析し,従来の作業の限界を克服する新しい設計による,パワフルで効率的なポイント変換器V2モデルを提案する。
特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。
学習可能なウェイトエンコーディングとマルチヘッドアテンションの両方の利点を継承し,新しいグループドウェイトエンコード層を用いて,グループドベクターアテンションを高度に効果的に実装する。
また、追加の位置符号化乗算器により注意のための位置情報を強化する。
さらに,空間的アライメントとより効率的なサンプリングを可能にする新規で軽量なパーティショニングベースのプーリング手法を設計した。
広範な実験により,前モデルよりも優れた性能を実現し,scannet v2 と s3dis の 3d point cloud segmentation や modelnet40 の 3d point cloud classification など,いくつかの挑戦的な 3d point cloud understanding ベンチマークで最先端の成果が得られた。
私たちのコードはhttps://github.com/gofinge/pointtransformerv2で利用できます。 As a pioneering work exploring transformer architecture for 3D point cloud understanding, Point Transformer achieves impressive results on multiple highly competitive benchmarks. In this work, we analyze the limitations of the Point Transformer and propose our powerful and efficient Point Transformer V2 model with novel designs that overcome the limitations of previous work. In particular, we first propose group vector attention, which is more effective than the previous version of vector attention. Inheriting the advantages of both learnable weight encoding and multi-head attention, we present a highly effective implementation of grouped vector attention with a novel grouped weight encoding layer. We also strengthen the position information for attention by an additional position encoding multiplier. Furthermore, we design novel and lightweight partition-based pooling methods which enable better spatial alignment and more efficient sampling. Extensive experiments show that our model achieves better performance than its predecessor and achieves state-of-the-art on several challenging 3D point cloud understanding benchmarks, including 3D point cloud segmentation on ScanNet v2 and S3DIS and 3D point cloud classification on ModelNet40. Our code will be available at https://github.com/Gofinge/PointTransformerV2. | 翻訳日:2022-10-13 14:30:24 公開日:2022-10-12 |
# LiveSeg: 長期ライブストリームビデオのマルチモーダル・テンポラル・セグメンテーション LiveSeg: Unsupervised Multimodal Temporal Segmentation of Long Livestream Videos ( http://arxiv.org/abs/2210.05840v1 ) ライセンス: Link先を確認 | Jielin Qiu, Franck Dernoncourt, Trung Bui, Zhaowen Wang, Ding Zhao, Hailin Jin | (参考訳) ライブストリーミングビデオは、デザイン、デジタルマーケティング、クリエイティブ・ペインティング、その他のスキルが経験豊富な専門家によってセッションで教えられ、貴重な材料となるオンライン学習の重要な部分となっている。
しかし、ライブストリームのチュートリアルビデオは通常数時間で録画され、ライブセッション後に直接インターネットにアップロードされるため、他の人がすぐに追いつくのが難しくなる。
アウトラインは有益なソリューションであり、トピックに応じてビデオが時間的にセグメント化される必要がある。
本研究では,MultiLiveという大規模なLivestreamビデオデータセットを導入し,TSLLVタスクの時間的セグメンテーションを定式化した。
異なる領域のマルチモーダル機能を活用した,教師なしのライブストリームビデオテンポラリセグメンテーションソリューションである liveseg を提案する。
本手法は最新手法と比較して16.8 %のf1-score性能向上を達成した。 Livestream videos have become a significant part of online learning, where design, digital marketing, creative painting, and other skills are taught by experienced experts in the sessions, making them valuable materials. However, Livestream tutorial videos are usually hours long, recorded, and uploaded to the Internet directly after the live sessions, making it hard for other people to catch up quickly. An outline will be a beneficial solution, which requires the video to be temporally segmented according to topics. In this work, we introduced a large Livestream video dataset named MultiLive, and formulated the temporal segmentation of the long Livestream videos (TSLLV) task. We propose LiveSeg, an unsupervised Livestream video temporal Segmentation solution, which takes advantage of multimodal features from different domains. Our method achieved a $16.8\%$ F1-score performance improvement compared with the state-of-the-art method. | 翻訳日:2022-10-13 14:27:51 公開日:2022-10-12 |
# 統一バングラ多クラス感情コーパスのトランスフォーマーによるテキスト分類 Transformer-based Text Classification on Unified Bangla Multi-class Emotion Corpus ( http://arxiv.org/abs/2210.06405v1 ) ライセンス: Link先を確認 | Md Sakib Ullah Sourav, Huidong Wang | (参考訳) 様々なWeb 2.0サービスにおける人々の思考を研究することの重要性から、感情分類(EC)は重要な業務である。
一方、既存の研究は主に英語に重点を置いており、低リソース言語にはほとんど取り組んでいない。
感情分析、特に英語のecは近年多くの注目を集めているが、世界で最も広く話されている言語の1つであるバングラの文脈ではほとんど研究されていない。
本研究では,バングラ語テキストから感情を識別し抽出する手法の完全セットを提案する。
バングラ語からの6つのクラス(怒り,嫌悪感,恐怖,喜び,悲しみ,驚き)に対して,近年,特に高資源言語において顕著な結果を示すトランスフォーマーベースモデルを用いて感情分類を行う。
本モデルの性能評価には,Unified Bangla Multi-class Emotion Corpus (UBMEC) が用いられている。
UBMECは、6-emotionクラスでBanglaコメントをラベル付けした2つのデータセットと、私たちが開発した新しい手動タグ付きBanglaコメントを組み合わせたものだ。
この作業で使用したコーパスデータセットとコードは、公開されています。 Because of its importance in studying people's thoughts on various Web 2.0 services, emotion classification (EC) is an important undertaking. Existing research, on the other hand, is mostly focused on the English language, with little work on low-resource languages. Though sentiment analysis, particularly the EC in English, has received a lot of attention in recent years, little study has been done in the context of Bangla, one of the world's most widely spoken languages. We propose a complete set of approaches for identifying and extracting emotions from Bangla texts in this research. We provide a Bangla emotion classifier for six classes (anger, disgust, fear, joy, sadness, and surprise) from Bangla words, using transformer-based models which exhibit phenomenal results in recent days, especially for high resource languages. The "Unified Bangla Multi-class Emotion Corpus (UBMEC)" is used to assess the performance of our models. UBMEC was created by combining two previously released manually labeled datasets of Bangla comments on 6-emotion classes with fresh manually tagged Bangla comments created by us. The corpus dataset and code we used in this work is publicly available. | 翻訳日:2022-10-13 14:21:53 公開日:2022-10-12 |
# EleutherAI: "Open Science"から"Science in the Open"へ EleutherAI: Going Beyond "Open Science" to "Science in the Open" ( http://arxiv.org/abs/2210.06413v1 ) ライセンス: Link先を確認 | Jason Phang, Herbie Bradley, Leo Gao, Louis Castricato, Stella Biderman | (参考訳) 過去2年間、eleutheraiは、オープンソース研究の促進と、透明でオープンでアクセス可能で協力的な方法での研究の実施を目的とした、画期的なイニシアティブとしての地位を確立してきた。
EleutherAIの研究のアプローチは透明性を超越している: 完全に公の場で研究を行うことで、世界中の誰もがあらゆる段階で観察し貢献することができる。
我々の研究は肯定的な評価を受けており、自然言語処理や他の分野におけるいくつかのハイインパクトなプロジェクトをもたらしています。
本稿では,公開型機械学習研究の経験,このアプローチがもたらしたメリット,そして我々が遭遇した落とし穴について述べる。 Over the past two years, EleutherAI has established itself as a radically novel initiative aimed at both promoting open-source research and conducting research in a transparent, openly accessible and collaborative manner. EleutherAI's approach to research goes beyond transparency: by doing research entirely in public, anyone in the world can observe and contribute at every stage. Our work has been received positively and has resulted in several high-impact projects in Natural Language Processing and other fields. In this paper, we describe our experience doing public-facing machine learning research, the benefits we believe this approach brings, and the pitfalls we have encountered. | 翻訳日:2022-10-13 14:21:33 公開日:2022-10-12 |
# The Devil is in the details: On Models and Training Regimes for Few-Shot Intent Classification The Devil is in the Details: On Models and Training Regimes for Few-Shot Intent Classification ( http://arxiv.org/abs/2210.06440v1 ) ライセンス: Link先を確認 | Mohsen Mesgar, Thy Thy Tran, Goran Glavas, Iryna Gurevych | (参考訳) Few-shot Intent Classification (FSIC)は、モジュール型タスク指向対話システムにおいて重要な課題の1つである。
高度なFSIC手法は、事前訓練された言語モデルを用いてテキストをエンコードするのと類似しているが、これらの手法は詳細によって異なる。
それらは、異なる事前訓練されたテキストエンコーダから始まり、異なる類似機能を持つ異なるエンコーディングアーキテクチャを使用し、異なるトレーニング規則を採用する。
これらのほとんど独立した設計決定と付随するアブレーション研究の欠如は、報告されたFSICのパフォーマンスを駆動する要因を特定する上で大きな障害となる。
1)アーキテクチャ:クロスエンコーダ対バイエンコーダ;(2)類似関数:パラメータ化(訓練可能)関数対非パラメータ化関数;(3)訓練体制:エピソディックなメタラーニングと単純(非エピソディック)トレーニング。
7つのFSICベンチマーク実験の結果, 3つの重要な結果が得られた。
第一に、クロスエンコーダアーキテクチャ(パラメータ化類似度スコアリング関数)とエピソードメタラーニングの組み合わせは、常に最高のFSIC性能が得られる。
第二に、エピソディックトレーニングは非エピソディックトレーニングよりも堅牢なFSIC分類器をもたらす。
第3に、メタラーニングメソッドでは、サポートとクエリセットのためにエピソードを分割することは必須ではない。
本研究は,FSICにおける最先端研究の実施方法を明らかにするとともに,FSIC手法の詳細に対するコミュニティの注意を喚起するものである。
コードとデータを公開しています。 Few-shot Intent Classification (FSIC) is one of the key challenges in modular task-oriented dialog systems. While advanced FSIC methods are similar in using pretrained language models to encode texts and nearest neighbour-based inference for classification, these methods differ in details. They start from different pretrained text encoders, use different encoding architectures with varying similarity functions, and adopt different training regimes. Coupling these mostly independent design decisions and the lack of accompanying ablation studies are big obstacle to identify the factors that drive the reported FSIC performance. We study these details across three key dimensions: (1) Encoding architectures: Cross-Encoder vs Bi-Encoders; (2) Similarity function: Parameterized (i.e., trainable) functions vs non-parameterized function; (3) Training regimes: Episodic meta-learning vs the straightforward (i.e., non-episodic) training. Our experimental results on seven FSIC benchmarks reveal three important findings. First, the unexplored combination of the cross-encoder architecture (with parameterized similarity scoring function) and episodic meta-learning consistently yields the best FSIC performance. Second, Episodic training yields a more robust FSIC classifier than non-episodic one. Third, in meta-learning methods, splitting an episode to support and query sets is not a must. Our findings paves the way for conducting state-of-the-art research in FSIC and more importantly raise the community's attention to details of FSIC methods. We release our code and data publicly. | 翻訳日:2022-10-13 14:20:57 公開日:2022-10-12 |
# 事前訓練された言語モデル(Yet)は推論可能か? Can Pretrained Language Models (Yet) Reason Deductively? ( http://arxiv.org/abs/2210.06442v1 ) ライセンス: Link先を確認 | Zhangdie Yuan, Songbo Hu, Ivan Vuli\'c, Anna Korhonen and Zaiqiao Meng | (参考訳) 事前学習言語モデル(PLM)による事実知識獲得は,多くの知識集約タスクにおいて有望なパフォーマンスを示すものとして注目されている。
彼らの優れたパフォーマンスは、モデルが単に知識を記憶するだけでなく、推論能力のモディカムを持っていると信じさせてきた。
本稿では, PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。
一連の制御実験により, 2つの主な知見が得られた。
i) PLMは学習論理規則を不十分に一般化し、単純な対向曲面の編集と矛盾しない。
2) PLMの微調整は, 未知の知識事実を推論することで, 性能を向上するが, これまでに学んだ知識を破滅的に忘れてしまう。
本研究の主目的は, PLM が信頼性の高い推論を行うことができないこと, 制御試験の重要性, PLM の推論能力の実証, タスク性能の(誤解を招いた)超過, PLM が人間レベルの推論能力からかけ離れていること, たとえ単純な推論タスクであっても, 依然として PLM は人間レベルの推論能力に程遠いこと, などである。 Acquiring factual knowledge with Pretrained Language Models (PLMs) has attracted increasing attention, showing promising performance in many knowledge-intensive tasks. Their good performance has led the community to believe that the models do possess a modicum of reasoning competence rather than merely memorising the knowledge. In this paper, we conduct a comprehensive evaluation of the learnable deductive (also known as explicit) reasoning capability of PLMs. Through a series of controlled experiments, we posit two main findings. (i) PLMs inadequately generalise learned logic rules and perform inconsistently against simple adversarial surface form edits. (ii) While the deductive reasoning fine-tuning of PLMs does improve their performance on reasoning over unseen knowledge facts, it results in catastrophically forgetting the previously learnt knowledge. Our main results suggest that PLMs cannot yet perform reliable deductive reasoning, demonstrating the importance of controlled examinations and probing of PLMs' reasoning abilities; we reach beyond (misleading) task performance, revealing that PLMs are still far from human-level reasoning capabilities, even for simple deductive tasks. | 翻訳日:2022-10-13 14:20:26 公開日:2022-10-12 |
# マルチタスク学習モデルの有効利用によるイライラし易いエンティティトラッキング Frustratingly Simple Entity Tracking with Effective Use of Multi-Task Learning Models ( http://arxiv.org/abs/2210.06444v1 ) ライセンス: Link先を確認 | Janvijay Singh, Fan Bai, Zhen Wang | (参考訳) SETは、手続きテキストにおけるエンティティ追跡に対して、フラストレーション的に単純かつ効果的なアプローチである。
ドメイン固有の事前トレーニングを必要とする最先端のエンティティトラッキングモデルと比較すると、カスタマイズされたフォーマットで既製のt5を微調整するだけで、複数のデータセットで同等あるいはさらに優れたパフォーマンスが得られる。
具体的には、SETは、エンティティトラッキングにおける状態と位置の予測に独立に取り組み、それらをそれぞれ多重選択および抽出QA問題として定式化する。
本稿では,T5の教師付きマルチタスク学習が,SETの成功に重要な役割を担っていることを示す。
さらに,SETには暗黙的な実体変換を理解する強力な能力があることが明らかとなり,将来的な実体追跡研究においてマルチタスク変換学習がさらに検討されるべきであることが示唆された。 We present SET, a frustratingly Simple-yet-effective approach for Entity Tracking in procedural text. Compared with state-of-the-art entity tracking models that require domain-specific pre-training, SET simply fine-tunes off-the-shelf T5 with customized formats and gets comparable or even better performance on multiple datasets. Concretely, SET tackles the state and location prediction in entity tracking independently and formulates them as multi-choice and extractive QA problems, respectively. Through a series of careful analyses, we show that T5's supervised multi-task learning plays an important role in the success of SET. In addition, we reveal that SET has a strong capability of understanding implicit entity transformations, suggesting that multi-task transfer learning should be further explored in future entity tracking research. | 翻訳日:2022-10-13 14:20:01 公開日:2022-10-12 |
# 遺伝的アルゴリズムによるNISQコンピュータの近似状態準備回路の生成 Generating approximate state preparation circuits for NISQ computers with a genetic algorithm ( http://arxiv.org/abs/2210.06411v1 ) ライセンス: Link先を確認 | Tom Rindell, Berat Yenilen, Niklas Halonen, Arttu P\"onni, Ilkka Tittonen, Matti Raasakka | (参考訳) 本研究では, 量子回路生成のための遺伝的アルゴリズムを適用し, 雑音中規模量子(nisq)コンピュータの近似状態生成問題を検討する。
このアルゴリズムは、ネイティブゲートセットやキュービット接続などの回路の評価において、物理マシンの特定の特性を説明することができる。
我々は遺伝的アルゴリズムを用いて、Araujoらによって導入された低ランク状態準備アルゴリズム(arXiv:2111.03132)によって提供される回路を最適化し、限られた数のCNOTゲートでハール状態を作成する際の忠実度を大幅に改善する。
さらに、量子ビット接続が限られ、ノイズレベルが大きい5量子ビット量子プロセッサ(IBM Falcon 5T)では、ハールランダム状態の最大忠実度は、正確な準備回路ではなく、短い近似状態準備回路によって達成される。
また, 近似状態準備回路の複雑度を理論的に解析し, 結果の動機付けを行う。
量子回路探索のための遺伝的アルゴリズムはhttps://github.com/beratyenilen/qc-gaで自由に入手できる。 We study the approximate state preparation problem on noisy intermediate-scale quantum (NISQ) computers by applying a genetic algorithm to generate quantum circuits for state preparation. The algorithm can account for the specific characteristics of the physical machine in the evaluation of circuits, such as the native gate set and qubit connectivity. We use our genetic algorithm to optimize the circuits provided by the low-rank state preparation algorithm introduced by Araujo et al. (arXiv:2111.03132), and find substantial improvements to the fidelity in preparing Haar random states with a limited number of CNOT gates. Moreover, we observe that already for a 5-qubit quantum processor with limited qubit connectivity and significant noise levels (IBM Falcon 5T), the maximal fidelity for Haar random states is achieved by a short approximate state preparation circuit instead of the exact preparation circuit. We also present a theoretical analysis of approximate state preparation circuit complexity to motivate our findings. Our genetic algorithm for quantum circuit discovery is freely available at https://github.com/beratyenilen/qc-ga . | 翻訳日:2022-10-13 14:19:47 公開日:2022-10-12 |
# 自己評価型物理エンベディングネットワーク : 逆モデリングのための汎用フレームワーク Self-Validated Physics-Embedding Network: A General Framework for Inverse Modelling ( http://arxiv.org/abs/2210.06071v1 ) ライセンス: Link先を確認 | Ruiyuan Kang, Dimitrios C. Kyritsis, Panos Liatsis | (参考訳) 物理ベースの逆モデリング技術は通常、特定の研究分野に限られるが、一般的な機械学習ベースの手法は、ソリューションの物理的互換性を保証するには、データに依存しすぎる。
本稿では,逆モデリングのためのニューラルネットワークフレームワークであるSVPEN(Self-Validated Physics-Embedding Network)を提案する。
その名前が示すように、組み込み物理フォワードモデルは、検証にうまく合格したソリューションが物理的に合理的であることを保証する。
SVPENは2つのモードで動作します。
(a)逆関数モードは、従来の教師付き学習として高速な状態推定を提供し、
b) 最適化モードは、検証プロセスに失敗する推定を反復的に補正する方法を提供する。
さらに、最適化モードは、SVPENに再構成可能性、すなわちニューラルネットワーク、物理モデル、エラー計算などのコンポーネントを置き換えることで、事前トレーニングなしで一連の異なる逆問題を解決する。
分子吸収分光法とターボファンサイクル解析という非常に非線形で完全に異なる2つの応用における10以上のケーススタディは、SVPENの一般性、物理的信頼性、再構成可能性を示している。
さらに重要なのは、SVPENは、AIのコンテキスト内で既存の物理モデルを使用するための確固たる基盤を提供し、データ駆動モデルと物理駆動モデルとのバランスを崩すことだ。 Physics-based inverse modeling techniques are typically restricted to particular research fields, whereas popular machine-learning-based ones are too data-dependent to guarantee the physical compatibility of the solution. In this paper, Self-Validated Physics-Embedding Network (SVPEN), a general neural network framework for inverse modeling is proposed. As its name suggests, the embedded physical forward model ensures that any solution that successfully passes its validation is physically reasonable. SVPEN operates in two modes: (a) the inverse function mode offers rapid state estimation as conventional supervised learning, and (b) the optimization mode offers a way to iteratively correct estimations that fail the validation process. Furthermore, the optimization mode provides SVPEN with reconfigurability i.e., replacing components like neural networks, physical models, and error calculations at will to solve a series of distinct inverse problems without pretraining. More than ten case studies in two highly nonlinear and entirely distinct applications: molecular absorption spectroscopy and Turbofan cycle analysis, demonstrate the generality, physical reliability, and reconfigurability of SVPEN. More importantly, SVPEN offers a solid foundation to use existing physical models within the context of AI, so as to striking a balance between data-driven and physics-driven models. | 翻訳日:2022-10-13 14:18:59 公開日:2022-10-12 |
# ノルウェー語でTwitterに注釈をつける Annotating Norwegian Language Varieties on Twitter for Part-of-Speech ( http://arxiv.org/abs/2210.06150v1 ) ライセンス: Link先を確認 | Petter M{\ae}hlum, Andre K{\aa}sen, Samia Touileb, Jeremy Barnes | (参考訳) ノルウェーのTwitterデータは自然言語処理(NLP)タスクに興味深い課題をもたらしている。
これらのテキストは、2つのノルウェー文字形式(Bokm{\aa}lとNynorsk)のうちの1つで標準化されたテキストで訓練されたモデルにとって困難である。
本稿では,POSタグを付加したノルウェーのTwitterデータセットを提案する。
我々は,このデータセットに対して評価された場合,ユニバーサル・依存性(ud)データに基づいてトレーニングされたモデルがより良く動作し,bokm{\aa}lでトレーニングされたモデルがnynorskでトレーニングされたモデルよりも一般的に優れていることを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵する。
最後に、モデルがこのデータで一般的に行うエラーの詳細な分析を行う。 Norwegian Twitter data poses an interesting challenge for Natural Language Processing (NLP) tasks. These texts are difficult for models trained on standardized text in one of the two Norwegian written forms (Bokm{\aa}l and Nynorsk), as they contain both the typical variation of social media text, as well as a large amount of dialectal variety. In this paper we present a novel Norwegian Twitter dataset annotated with POS-tags. We show that models trained on Universal Dependency (UD) data perform worse when evaluated against this dataset, and that models trained on Bokm{\aa}l generally perform better than those trained on Nynorsk. We also see that performance on dialectal tweets is comparable to the written standards for some models. Finally we perform a detailed analysis of the errors that models commonly make on this data. | 翻訳日:2022-10-13 14:12:55 公開日:2022-10-12 |
# SilverAlign: MTベースの単語アライメント評価のためのシルバーデータアルゴリズム SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment ( http://arxiv.org/abs/2210.06207v1 ) ライセンス: Link先を確認 | Abdullatif K\"oksal, Silvia Severini, Hinrich Sch\"utze | (参考訳) 単語アライメントは様々なNLPタスクに必須である。
したがって、彼らの創造に最適なアプローチを選択することは重要です。
しかし、金の評価データが入手できないため、選択は困難である。
機械翻訳と最小ペアを利用した単語整合性評価のための銀データの自動生成手法であるSilverAlignを提案する。
シルバーデータの性能は9つの言語ペアのゴールドベンチマークとよく相関しており、ゴールドデータが利用できない場合の異なるドメインや言語の評価に有効なリソースとなっている。
これは低リソース言語におけるゴールドデータアライメントの欠如という重要なシナリオに対処する。 Word alignments are essential for a variety of NLP tasks. Therefore, choosing the best approaches for their creation is crucial. However, the scarce availability of gold evaluation data makes the choice difficult. We propose SilverAlign, a new method to automatically create silver data for the evaluation of word aligners by exploiting machine translation and minimal pairs. We show that performance on our silver data correlates well with gold benchmarks for 9 language pairs, making our approach a valid resource for evaluation of different domains and languages when gold data are not available. This addresses the important scenario of missing gold data alignments for low-resource languages. | 翻訳日:2022-10-13 14:12:36 公開日:2022-10-12 |
# 微調整のない事前学習型言語モデルの作成 Pruning Pre-trained Language Models Without Fine-Tuning ( http://arxiv.org/abs/2210.06210v1 ) ライセンス: Link先を確認 | Ting Jiang, Deqing Wang, Fuzhen Zhuang | (参考訳) プレトレーニング言語モデル(PLM)の過度パラメータ化問題を克服するため、プルーニングは重要でない重みを直接取り除き、単純で簡単な圧縮法として広く利用されている。
従来の一階法は性能低下の少ない非常に高い空間にPLMを圧縮することに成功した。
これらの方法、例えば運動プルーニングは、残りの重量を微調整しながらPLMをプルークするために一階情報を使用する。
本研究では,1次プルーニングはplmを下流タスクに収束させるのに十分であるため,1次プルーニングには微調整が冗長であると主張する。
そこで本研究では,plmを下流タスクに適応させるために1次pruningのみを使用する静的モデルpruning(smp)を提案する。
また,SMPをさらに改善するために,新しいマスキング機能とトレーニング目標を設計する。
様々な空間レベルの実験により、SMPは1次法と0次法よりも大幅に改善された。
従来の一階法とは異なり、SMPは低空間に適用でき、ゼロ階法より優れている。
一方、SMPは微調整を必要としないため、他の手法よりもパラメータ効率が高い。 To overcome the overparameterized problem in Pre-trained Language Models (PLMs), pruning is widely used as a simple and straightforward compression method by directly removing unimportant weights. Previous first-order methods successfully compress PLMs to extremely high sparsity with little performance drop. These methods, such as movement pruning, use first-order information to prune PLMs while fine-tuning the remaining weights. In this work, we argue fine-tuning is redundant for first-order pruning, since first-order pruning is sufficient to converge PLMs to downstream tasks without fine-tuning. Under this motivation, we propose Static Model Pruning (SMP), which only uses first-order pruning to adapt PLMs to downstream tasks while achieving the target sparsity level. In addition, we also design a new masking function and training objective to further improve SMP. Extensive experiments at various sparsity levels show SMP has significant improvements over first-order and zero-order methods. Unlike previous first-order methods, SMP is also applicable to low sparsity and outperforms zero-order methods. Meanwhile, SMP is more parameter efficient than other methods due to it does not require fine-tuning. | 翻訳日:2022-10-13 14:12:27 公開日:2022-10-12 |
# バック・トゥ・ザ・フューチャー:NLPの潜在的な歴史について Back to the Future: On Potential Histories in NLP ( http://arxiv.org/abs/2210.06245v1 ) ライセンス: Link先を確認 | Zeerak Talat and Anne Lauscher | (参考訳) 機械学習とNLPは、トレーニングと微調整モデルのためのデータセットの構築を必要とする。
この文脈で、以前の研究はこれらのデータセットの感度を実証した。
例えば、このデータの潜在的な社会的バイアスは、コード化され、デプロイするモデルに増幅される可能性が高い。
本研究では,歴史学の分野の発展から,歴史小説のレンズを通してデータセットやモデルを考えると,その政治的性質を反映し,限界化された談話が表面化されるような過去観の再設定を行う。
このような知見に基づいて、現代の機械学習の手法は支配的かつ覇権的な歴史に偏っていると論じる。
ネオプロ名詞の例を用いて,現代における辺縁化史を探索することにより,伝統的に辺縁化・排除された共同体の生きた現実をよりよく表現するモデルが作成できることを示す。 Machine learning and NLP require the construction of datasets to train and fine-tune models. In this context, previous work has demonstrated the sensitivity of these data sets. For instance, potential societal biases in this data are likely to be encoded and to be amplified in the models we deploy. In this work, we draw from developments in the field of history and take a novel perspective on these problems: considering datasets and models through the lens of historical fiction surfaces their political nature, and affords re-configuring how we view the past, such that marginalized discourses are surfaced. Building on such insights, we argue that contemporary methods for machine learning are prejudiced towards dominant and hegemonic histories. Employing the example of neopronouns, we show that by surfacing marginalized histories within contemporary conditions, we can create models that better represent the lived realities of traditionally marginalized and excluded communities. | 翻訳日:2022-10-13 14:12:04 公開日:2022-10-12 |
# CIKQA: 統一知識とループQAパラダイムによるコモンセンス推論の学習 CIKQA: Learning Commonsense Inference with a Unified Knowledge-in-the-loop QA Paradigm ( http://arxiv.org/abs/2210.06246v1 ) ライセンス: Link先を確認 | Hongming Zhang, Yintong Huo, Yanai Elazar, Yangqiu Song, Yoav Goldberg, Dan Roth | (参考訳) 近年、コミュニティは多くのコモンセンス推論ベンチマークでかなりの進歩を遂げている。
しかしながら、トレーニングプロセスから学んだこと、すなわち知識、推論能力、あるいはその両方についてはまだ不明である。
我々は,コモンセンス知識の大規模化により,すべてのコモンセンスをカバーできるような,各タスクに十分なトレーニングセットをアノテートすることは不可能である,と論じる。
そこで我々は,コモンセンス知識の獲得と,コモンセンス知識に対する推測を2つのタスクとして分離すべきである。
本研究は,(1)モデルが持つ知識がタスクを解決できるかどうか,(2)モデルがコモンセンスタスクを一般化するコモンセンス推論機能を開発できるか,という2つの観点から,モデルのコモンセンス推論能力を調査することに焦点を当てる。
まず、コモンセンスのタスクをコモンセンスの知識ベースから関連する知識と整合させ、その知識が十分かどうかを人間に注釈を付ける。
そして,異なるコモンセンスタスクを統一された質問応答形式に変換し,モデルの一般化能力を評価する。
このベンチマークを、CIKQA (Commonsense Inference with Knowledge-in-the-loop Question Answering) と呼ぶ。 Recently, the community has achieved substantial progress on many commonsense reasoning benchmarks. However, it is still unclear what is learned from the training process: the knowledge, inference capability, or both? We argue that due to the large scale of commonsense knowledge, it is infeasible to annotate a large enough training set for each task to cover all commonsense for learning. Thus we should separate the commonsense knowledge acquisition and inference over commonsense knowledge as two separate tasks. In this work, we focus on investigating models' commonsense inference capabilities from two perspectives: (1) Whether models can know if the knowledge they have is enough to solve the task; (2) Whether models can develop commonsense inference capabilities that generalize across commonsense tasks. We first align commonsense tasks with relevant knowledge from commonsense knowledge bases and ask humans to annotate whether the knowledge is enough or not. Then, we convert different commonsense tasks into a unified question answering format to evaluate models' generalization capabilities. We name the benchmark as Commonsense Inference with Knowledge-in-the-loop Question Answering (CIKQA). | 翻訳日:2022-10-13 14:11:48 公開日:2022-10-12 |
# zero-shot on-the-flyイベントスキーマインダクション Zero-Shot On-the-Fly Event Schema Induction ( http://arxiv.org/abs/2210.06254v1 ) ライセンス: Link先を確認 | Rotem Dror, Haoyu Wang, and Dan Roth | (参考訳) パンデミックの流行にかかわる出来事は何ですか。
結婚式の計画にはどんなステップを踏むべきか?
これらの質問に対する回答は、複雑な関心事に関する多くの文書を収集し、関連する情報を抽出し、分析することで得られる。
本稿では,大規模言語モデルを用いて高レベルのイベント定義,特定のイベント,引数,それらの関係を予測し,複雑なイベント全体を記述したスキーマを構築することのできる,ソースドキュメントを生成する手法を提案する。
当社のモデルでは,任意のトピックに関する完全なスキーマを,手作業によるデータ収集を必要とせずに,オンザフライで生成することが可能です。
さらに,テキストから関連する情報を抽出するための効率的な手法を開発し,検証されたシナリオの大部分において,これらのスキーマが人間が作成したものよりも完全であることを示す一連の実験を行った。
最後に、このフレームワークは、事前定義されたオントロジーを必要とせずに、より汎用的で柔軟な実際のテキストの収集に依存する、以前の教師付きスキーマインダクションメソッドと同等の性能を示す。 What are the events involved in a pandemic outbreak? What steps should be taken when planning a wedding? The answers to these questions can be found by collecting many documents on the complex event of interest, extracting relevant information, and analyzing it. We present a new approach in which large language models are utilized to generate source documents that allow predicting, given a high-level event definition, the specific events, arguments, and relations between them to construct a schema that describes the complex event in its entirety. Using our model, complete schemas on any topic can be generated on-the-fly without any manual data collection, i.e., in a zero-shot manner. Moreover, we develop efficient methods to extract pertinent information from texts and demonstrate in a series of experiments that these schemas are considered to be more complete than human-curated ones in the majority of examined scenarios. Finally, we show that this framework is comparable in performance with previous supervised schema induction methods that rely on collecting real texts while being more general and flexible without the need for a predefined ontology. | 翻訳日:2022-10-13 14:11:27 公開日:2022-10-12 |
# 対話システムのための一般化・説明可能なロングランジコンテキスト表現に向けて Towards Generalized and Explainable Long-Range Context Representation for Dialogue Systems ( http://arxiv.org/abs/2210.06282v1 ) ライセンス: Link先を確認 | Suvodip Dey, Maunendra Sankar Desarkar, P. K. Srijith | (参考訳) 文脈表現は対話理解と生成の両方に不可欠である。
最近、ダイアログコンテキスト表現の最も一般的な方法は、前回の$k$の発話をコンテキストとして結合し、大きなトランスフォーマーベースのモデルを使用して次の応答を生成することである。
しかし、この方法は長距離依存関係を含む会話には適していない。
本研究では,対話型応答生成のための新しいエンコーダデコーダベースのフレームワークであるDialoGXを提案する。
したがって、この手法は長距離依存による会話に適応する。
提案するソリューションは2つの重要なアイデアに基づいています。
a) 文脈全体の動的な表現を計算すること,及び
b) 次の応答の生成に関連する前の発話を見つけること。
最後の$kの発話の代わりに、ダイアロGXは動的文脈ベクトルの連結と最も関連する発話の符号化を入力として使用し、コンパクトで一般化された方法で任意の長さの会話を表現する。
オープンドメインのChit-chatデータセットであるDailyDialogで実験を行った。
DialoGXは、自動メトリクスの最先端モデルと同等のパフォーマンスを達成する。
また、精神言語学のレンズを通して文脈表現を正当化し、過去の発話の関連スコアが人間の認知とよく一致していることを示し、DialoGXも説明できることを示した。 Context representation is crucial to both dialogue understanding and generation. Recently, the most popular method for dialog context representation is to concatenate the last-$k$ previous utterances as context and use a large transformer-based model to generate the next response. However, this method may not be ideal for conversations containing long-range dependencies. In this work, we propose DialoGX, a novel encoder-decoder based framework for conversational response generation with a generalized and explainable context representation that can look beyond the last-$k$ utterances. Hence the method is adaptive to conversations with long-range dependencies. Our proposed solution is based on two key ideas: a) computing a dynamic representation of the entire context, and b) finding the previous utterances that are relevant for generating the next response. Instead of last-$k$ utterances, DialoGX uses the concatenation of the dynamic context vector and encoding of the most relevant utterances as input which enables it to represent conversations of any length in a compact and generalized fashion. We conduct our experiments on DailyDialog, a popular open-domain chit-chat dataset. DialoGX achieves comparable performance with the state-of-the-art models on the automated metrics. We also justify our context representation through the lens of psycholinguistics and show that the relevance score of previous utterances agrees well with human cognition which makes DialoGX explainable as well. | 翻訳日:2022-10-13 14:11:08 公開日:2022-10-12 |
# redhot: ソーシャルメディア上での、注釈付き医療質問、経験、クレームのコーパス RedHOT: A Corpus of Annotated Medical Questions, Experiences, and Claims on Social Media ( http://arxiv.org/abs/2210.06331v1 ) ライセンス: Link先を確認 | Somin Wadhwa, Vivek Khetan, Silvio Amir, Byron Wallace | (参考訳) reddit health online talk (redhot)は、24の健康状態にまたがるredditのリッチな注釈付きソーシャルメディア投稿のコーパスだ。
アノテーションには、医療クレーム、個人的な経験、質問に対応するスパンの区切りが含まれる。
特定されたクレームに対して追加の細かなアノテーションを収集します。
具体的には,患者集団,インターベンション,アウトカム(PIO)を記述したスニペットをマークする。
このコーパスを用いて,ソーシャルメディア上の主張に関係のある信頼できる証拠を検索する作業を紹介する。
本稿では,高密度検索モデルの学習に使用するタスクの(ノイズの多い)監視を自動的に導出する手法を提案する。
医師による検索結果の手動評価から,システム性能は期待できるものの,改善の余地は十分にあることが示唆された。
収集されたアノテーション(とデータセットを組み立てるスクリプト)はhttps://github.com/sominw/redhot.comで入手できる。 We present Reddit Health Online Talk (RedHOT), a corpus of 22,000 richly annotated social media posts from Reddit spanning 24 health conditions. Annotations include demarcations of spans corresponding to medical claims, personal experiences, and questions. We collect additional granular annotations on identified claims. Specifically, we mark snippets that describe patient Populations, Interventions, and Outcomes (PIO elements) within these. Using this corpus, we introduce the task of retrieving trustworthy evidence relevant to a given claim made on social media. We propose a new method to automatically derive (noisy) supervision for this task which we use to train a dense retrieval model; this outperforms baseline models. Manual evaluation of retrieval results performed by medical doctors indicate that while our system performance is promising, there is considerable room for improvement. Collected annotations (and scripts to assemble the dataset), are available at https://github.com/sominw/redhot. | 翻訳日:2022-10-13 14:10:47 公開日:2022-10-12 |
# GMP*: 高度に調整されたグローバルマグニチュードプルーニングは、ほとんどのBERTプルーニング方法より優れている GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods ( http://arxiv.org/abs/2210.06384v1 ) ライセンス: Link先を確認 | Eldar Kurtic and Dan Alistarh | (参考訳) 大規模言語モデルのための古典的段階的プルーニング(GMP)ベースラインの性能を再検討し,様々なタスクに対する古典的BERTベンチマークに焦点を当てた。
GMPは性能が劣るという文献上の既存の証拠にもかかわらず、GMP*と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端法よりも優れていることを示す。
提案手法は,将来の作業において単純かつ強力なベースラインを提供し,ベースラインに対するパラメータチューニングの重要性を強調し,また,この設定における最先端の2次プルーニング法の性能も向上させる。 We revisit the performance of the classic gradual magnitude pruning (GMP) baseline for large language models, focusing on the classic BERT benchmark on various popular tasks. Despite existing evidence in the literature that GMP performs poorly, we show that a simple and general variant, which we call GMP*, can match and sometimes outperform more complex state-of-the-art methods. Our results provide a simple yet strong baseline for future work, highlight the importance of parameter tuning for baselines, and even improve the performance of the state-of-the-art second-order pruning method in this setting. | 翻訳日:2022-10-13 14:10:31 公開日:2022-10-12 |
# スタイルマスキング言語モデルによるテキストスタイル転送について On Text Style Transfer via Style Masked Language Models ( http://arxiv.org/abs/2210.06394v1 ) ライセンス: Link先を確認 | Sharan Narasimhan, Pooja Shekar, Suvodip Dey, Maunendra Sankar Desarkar | (参考訳) テキストスタイル転送(TST)は、潜在空間のゆがみ、サイクル一貫性損失、プロトタイプ編集などのアプローチで実行可能である。
tstでかなり成功したと知られているプロトタイプ編集アプローチには、2つの重要なフェーズがある
a)ソーススタイル関連トークンのマスキング及び
b) 対象文を条件としたソース型マスキング文の再構成
我々は、TSTタスクをターゲットとするより難しいソースを、より単純なスタイルマインド言語モデル(SMLM)タスクに変換する、同様のトランスダクション手法に従い、BERT \cite{bert}と同様に、我々のモデルの目的は、そのスタイルマインドされたバージョンからソース文を再構築することである。
我々は、確率的フレームワークでプロトタイプの編集/翻訳方法を定式化することによって、SMLMメカニズムに自然に到達し、TSTは部分的に観察された並列データセットから仮説の並列データセットを推定し、各ドメインが共通の潜時型マスクを持つと仮定する。
このスタイルマストを事前に生成するために,より正確なスタイルマストステップに対するアトリビューションの選択として「説明可能な注意」を用い,o(1)時間内の任意のアトリビューションモデルからマスクの位置を決定するコスト効率が高く正確な「アトリビューション・サープラス」手法を導入する。
我々は、この非世代的アプローチが、TSTのようなタスクの"コンテンツ保存"基準を、Discourse Manipulationのような複雑なスタイルでもうまく組み合っていることを実証的に示す。
我々のモデルであるStyle MLMは、強力なTSTベースラインより優れており、複雑なアーキテクチャとより多くのパラメータの順序を使用する最先端のTSTモデルと同等である。 Text Style Transfer (TST) is performable through approaches such as latent space disentanglement, cycle-consistency losses, prototype editing etc. The prototype editing approach, which is known to be quite successful in TST, involves two key phases a) Masking of source style-associated tokens and b) Reconstruction of this source-style masked sentence conditioned with the target style. We follow a similar transduction method, in which we transpose the more difficult direct source to target TST task to a simpler Style-Masked Language Model (SMLM) Task, wherein, similar to BERT \cite{bert}, the goal of our model is now to reconstruct the source sentence from its style-masked version. We arrive at the SMLM mechanism naturally by formulating prototype editing/ transduction methods in a probabilistic framework, where TST resolves into estimating a hypothetical parallel dataset from a partially observed parallel dataset, wherein each domain is assumed to have a common latent style-masked prior. To generate this style-masked prior, we use "Explainable Attention" as our choice of attribution for a more precise style-masking step and also introduce a cost-effective and accurate "Attribution-Surplus" method of determining the position of masks from any arbitrary attribution model in O(1) time. We empirically show that this non-generational approach well suites the "content preserving" criteria for a task like TST, even for a complex style like Discourse Manipulation. Our model, the Style MLM, outperforms strong TST baselines and is on par with state-of-the-art TST models, which use complex architectures and orders of more parameters. | 翻訳日:2022-10-13 14:10:18 公開日:2022-10-12 |
# MedJEx:Wikiのハイパーリンクスパンと文脈化マスケッド言語スコアを用いた医療用ジャーゴン抽出モデル MedJEx: A Medical Jargon Extraction Model with Wiki's Hyperlink Span and Contextualized Masked Language Model Score ( http://arxiv.org/abs/2210.05875v1 ) ライセンス: Link先を確認 | Sunjae Kwon, Zonghai Yao, Harmon S. Jordan, David A. Levy, Brian Corner, Hong Yu | (参考訳) 本稿では,電子健康記録(EHR)ノートから,患者が理解し難い医療用語を識別するための新しい自然言語処理(NLP)アプリケーションを提案する。
最初に18k以上のノート文(medj$)から専門家が注釈付き医療用語を使った、新規で公開可能なデータセットを提示した。
そこで本研究では,既存のNLPモデルよりも優れた医療ジャーゴン抽出(MedJEx$)モデルを提案する。
まずmedjexは、補助的なwikipediaハイパーリンクスパンデータセットでトレーニングされた時の全体的なパフォーマンスを改善し、ハイパーリンクスパンがスパン(あるいは用語)を説明するためにwikipediaの記事を追加し、注釈付きmedjデータに微調整した。
第2に,文脈化されたマスキング言語モデルスコアは,ドメイン固有の不慣れな用語を検出するのに有用であることがわかった。
さらに,wikipediaハイパーリンクスパンデータセットのトレーニングにより,生体医学的名前付きエンティティ認識ベンチマークデータセット8点中6点が改善された。
MedJとMedJExはどちらも公開されている。 This paper proposes a new natural language processing (NLP) application for identifying medical jargon terms potentially difficult for patients to comprehend from electronic health record (EHR) notes. We first present a novel and publicly available dataset with expert-annotated medical jargon terms from 18K+ EHR note sentences ($MedJ$). Then, we introduce a novel medical jargon extraction ($MedJEx$) model which has been shown to outperform existing state-of-the-art NLP models. First, MedJEx improved the overall performance when it was trained on an auxiliary Wikipedia hyperlink span dataset, where hyperlink spans provide additional Wikipedia articles to explain the spans (or terms), and then fine-tuned on the annotated MedJ data. Secondly, we found that a contextualized masked language model score was beneficial for detecting domain-specific unfamiliar jargon terms. Moreover, our results show that training on the auxiliary Wikipedia hyperlink span datasets improved six out of eight biomedical named entity recognition benchmark datasets. Both MedJ and MedJEx are publicly available. | 翻訳日:2022-10-13 14:03:11 公開日:2022-10-12 |
# AD-DROP:ロバスト言語モデルファインチューニングのための属性駆動型ドロップアウト AD-DROP: Attribution-Driven Dropout for Robust Language Model Fine-Tuning ( http://arxiv.org/abs/2210.05883v1 ) ライセンス: Link先を確認 | Tao Yang, Jinghao Deng, Xiaojun Quan, Qifan Wang, Shaoliang Nie | (参考訳) 下流タスクでトレーニング済みの大規模な言語モデルを微調整することは、限られたトレーニングデータが利用できる場合、過度に適合する傾向がある。
ドロップアウトは、ランダムに単位の比率を下げることによって効果的な解毒剤であることが証明されているが、既存の研究は自己保持機構に対する効果を検証していない。
本稿では, 自己帰属的帰属を通じてこの問題を調査し, 低帰属スコアの注意位置の低下がトレーニングを加速し, オーバーフィッティングのリスクを高めることを見出した。
そこで本研究では,高属性位置をランダムに破棄し,低属性位置に依存して過度な適合を抑えることによって予測を促進できるAttribution-Driven Dropout (AD-DROP)を提案する。
また,AD-DROPと微調整を交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
様々なベンチマーク実験により、AD-DROPはベースラインよりも一貫した改善をもたらすことが示された。
分析により、AD-DROPは微調整中の過適合を防ぐための戦略正則化器として機能することを確認する。 Fine-tuning large pre-trained language models on downstream tasks is apt to suffer from overfitting when limited training data is available. While dropout proves to be an effective antidote by randomly dropping a proportion of units, existing research has not examined its effect on the self-attention mechanism. In this paper, we investigate this problem through self-attention attribution and find that dropping attention positions with low attribution scores can accelerate training and increase the risk of overfitting. Motivated by this observation, we propose Attribution-Driven Dropout (AD-DROP), which randomly discards some high-attribution positions to encourage the model to make predictions by relying more on low-attribution positions to reduce overfitting. We also develop a cross-tuning strategy to alternate fine-tuning and AD-DROP to avoid dropping high-attribution positions excessively. Extensive experiments on various benchmarks show that AD-DROP yields consistent improvements over baselines. Analysis further confirms that AD-DROP serves as a strategic regularizer to prevent overfitting during fine-tuning. | 翻訳日:2022-10-13 14:02:49 公開日:2022-10-12 |
# インシシデント予測のためのゼロショットプロンプトとコモンセンス推論による勧告 Zero-Shot Prompting for Implicit Intent Prediction and Recommendation with Commonsense Reasoning ( http://arxiv.org/abs/2210.05901v1 ) ライセンス: Link先を確認 | Hui-Chi Kuo, Yun-Nung Chen | (参考訳) インテリジェントな仮想アシスタントは、現在ユーザーが明示的に述べたタスクやサービスを実行するように設計されているため、複数の関連するドメインやタスクは、多くの明示的な意図と長い会話を通じてひとつずつ実行する必要がある。
その代わり、人間のアシスタントは、常識的知識を通じてユーザー発話に基づいて暗黙の意図を推論し、複雑な相互作用を減らし、実用性を向上させることができる。
そこで本稿では,ユーザ発話に基づいて暗黙の意図を自動的に推論し,学習済みの大規模言語モデルを用いてゼロショットプロンプトを行い,適切なタスク指向のボットを起動する多ドメイン対話システムを提案する。
提案フレームワークは暗黙の意図の実現に有効であり,0ショット方式でボットを推奨する。 Intelligent virtual assistants are currently designed to perform tasks or services explicitly mentioned by users, so multiple related domains or tasks need to be performed one by one through a long conversation with many explicit intents. Instead, human assistants are capable of reasoning (multiple) implicit intents based on user utterances via commonsense knowledge, reducing complex interactions and improving practicality. Therefore, this paper proposes a framework of multi-domain dialogue systems, which can automatically infer implicit intents based on user utterances and then perform zero-shot prompting using a large pre-trained language model to trigger suitable single task-oriented bots. The proposed framework is demonstrated effective to realize implicit intents and recommend associated bots in a zero-shot manner. | 翻訳日:2022-10-13 14:02:27 公開日:2022-10-12 |
# 質問と回答による談話分析:議論中の質問の係り受け構造の解析 Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion ( http://arxiv.org/abs/2210.05905v1 ) ライセンス: Link先を確認 | Wei-Jen Ko, Yating Wu, Cutter Dalton, Dananjay Srinivas, Greg Durrett, Junyi Jessy Li | (参考訳) 現在の談話形式は、談話関係の大きな分類法を含む非常に要求の厳しいアノテーションタスクを生じさせ、注釈を付けることができない。
この研究は、談話分析の言語的枠組みであるQUDを採用し、QUD構造を自動的に導き出そうとしている。
QUDは、各文を、先行文脈で引き起こされた質問に対する答えとみなし、文間の関係を、徹底的なきめ細かい分類学とは対照的に、自由形式の質問として特徴づける。
本研究では,QUD フレームワークと一致した方法で注釈付けされた質問応答データセット DCQA を用いて,完全文書上の質問の依存関係構造を導出するQUD パーサを開発した。
重要なのは、データ収集はDCQAのパラダイムを使って簡単にクラウドソースされることだ。
その結果,人間の評価により,パーサの性能が向上することが示された。
本稿では,我々のQUD構造がRTT木とどのように異なるかを説明し,文書単純化の文脈におけるQUD解析の有用性を示す。
以上の結果から,QUD解析は自動談話処理の魅力的な代替手段であることがわかった。 Automatic discourse processing, which can help understand how sentences connect to each other, is bottlenecked by data: current discourse formalisms pose highly demanding annotation tasks involving large taxonomies of discourse relations, making them inaccessible to lay annotators. This work instead adopts the linguistic framework of Questions Under Discussion (QUD) for discourse analysis and seeks to derive QUD structures automatically. QUD views each sentence as an answer to a question triggered in prior context; thus, we characterize relationships between sentences as free-form questions, in contrast to exhaustive fine-grained taxonomies. We develop the first-of-its-kind QUD parser that derives a dependency structure of questions over full documents, trained using a large question-answering dataset DCQA annotated in a manner consistent with the QUD framework. Importantly, data collection is easily crowdsourced using DCQA's paradigm. We show that this leads to a parser attaining strong performance according to human evaluation. We illustrate how our QUD structure is distinct from RST trees, and demonstrate the utility of QUD analysis in the context of document simplification. Our findings show that QUD parsing is an appealing alternative for automatic discourse processing. | 翻訳日:2022-10-13 14:02:12 公開日:2022-10-12 |
# kgからのステップアウト:知識に富む検索と読み解きによる知識グラフの完成 Step out of KG: Knowledge Graph Completion via Knowledgeable Retrieval and Reading Comprehension ( http://arxiv.org/abs/2210.05921v1 ) ライセンス: Link先を確認 | Xin Lv, Yankai Lin, Zijun Yao, Kaisheng Zeng, Jiajie Zhang, Lei Hou and Juanzi Li | (参考訳) 多くのAIアプリケーションの基盤となる知識グラフは通常、深刻な不完全性問題に直面している。
近年,自動知識グラフ補完(KGC)の研究が盛んに行われており,そのほとんどが既存の知識を用いて新たな知識を推測している。
しかし,本実験では,既存のモデルの性能を制約する推論によって,すべての関係が得られないことがわかった。
この問題を軽減するため,情報検索と読解理解に基づく新しいモデル,IR4KGCを提案する。
具体的には,トリプルに関連する文書を検索可能な知識ベース情報検索モジュールを事前学習する。
そして、検索した文書を読解モジュールに渡して予測された回答を生成する。
実験では,既存の知識から推測できない関係を十分に解決し,kgcデータセット上で良好な結果が得られることを示す。 Knowledge graphs, as the cornerstone of many AI applications, usually face serious incompleteness problems. In recent years, there have been many efforts to study automatic knowledge graph completion (KGC), most of which use existing knowledge to infer new knowledge. However, in our experiments, we find that not all relations can be obtained by inference, which constrains the performance of existing models. To alleviate this problem, we propose a new model based on information retrieval and reading comprehension, namely IR4KGC. Specifically, we pre-train a knowledge-based information retrieval module that can retrieve documents related to the triples to be completed. Then, the retrieved documents are handed over to the reading comprehension module to generate the predicted answers. In experiments, we find that our model can well solve relations that cannot be inferred from existing knowledge, and achieve good results on KGC datasets. | 翻訳日:2022-10-13 14:01:50 公開日:2022-10-12 |
# 文字と単語レベルN-gramによるグラフベーステキスト表現の改善 Improving Graph-Based Text Representations with Character and Word Level N-grams ( http://arxiv.org/abs/2210.05999v1 ) ライセンス: Link先を確認 | Wenzhe Li and Nikolaos Aletras | (参考訳) グラフベースのテキスト表現は、コーパス内のトークンとドキュメント間の依存性情報を利用するグラフとしてテキストドキュメントをどのように表現するかに焦点を当てる。
グラフ表現学習への関心は高まっているが、下流の自然言語処理タスクで重要なグラフベースのテキスト表現の新しい方法を検討する研究は限られている。
本稿では、まず、単語と文字のn-gramノードと文書ノードを結合し、それらのエンティティ間の依存関係をよりよく学習する新しい不均質な単語-文字間テキストグラフを提案する。
さらに,提案したテキストグラフをモデル化するためのグラフベースニューラルモデルWCTextGCNとWCTextGATを提案する。
テキスト分類と自動要約ベンチマークによる広範囲な実験により,提案手法は競争ベースラインと最先端グラフベースモデルとを一貫して上回っていることが示された。 Graph-based text representation focuses on how text documents are represented as graphs for exploiting dependency information between tokens and documents within a corpus. Despite the increasing interest in graph representation learning, there is limited research in exploring new ways for graph-based text representation, which is important in downstream natural language processing tasks. In this paper, we first propose a new heterogeneous word-character text graph that combines word and character n-gram nodes together with document nodes, allowing us to better learn dependencies among these entities. Additionally, we propose two new graph-based neural models, WCTextGCN and WCTextGAT, for modeling our proposed text graph. Extensive experiments in text classification and automatic text summarization benchmarks demonstrate that our proposed models consistently outperform competitive baselines and state-of-the-art graph-based models. | 翻訳日:2022-10-13 14:01:36 公開日:2022-10-12 |
# 翻訳記憶を用いた非自己回帰機械翻訳 Non-Autoregressive Machine Translation with Translation Memories ( http://arxiv.org/abs/2210.06020v1 ) ライセンス: Link先を確認 | Jitao Xu, Josep Crego, Fran\c{c}ois Yvon | (参考訳) 非自己回帰機械翻訳(NAT)は近年大きな進歩を遂げている。
しかし、レヴェンシュテイン変換器(LevT)のような編集ベースのNATモデルは翻訳メモリ(TM)で翻訳するのに適しているように見える。
これはここで考慮されたシナリオです。
まずvanilla levtモデルを分析し、なぜこの設定でうまくいかないのかを説明します。
次に、新しい変種TM-LevTを提案し、このモデルを効果的に訓練する方法を示す。
データ表示を変更して余分な削除操作を導入することにより、復号化負荷を低減しつつ、自己回帰的アプローチと同等の性能を得る。
また, 訓練中にTMを組み込むことで, 知識の蒸留を行なわず, マルチモーダリティの問題を軽減できることを示す。 Non-autoregressive machine translation (NAT) has recently made great progress. However, most works to date have focused on standard translation tasks, even though some edit-based NAT models, such as the Levenshtein Transformer (LevT), seem well suited to translate with a Translation Memory (TM). This is the scenario considered here. We first analyze the vanilla LevT model and explain why it does not do well in this setting. We then propose a new variant, TM-LevT, and show how to effectively train this model. By modifying the data presentation and introducing an extra deletion operation, we obtain performance that are on par with an autoregressive approach, while reducing the decoding load. We also show that incorporating TMs during training dispenses to use knowledge distillation, a well-known trick used to mitigate the multimodality issue. | 翻訳日:2022-10-13 14:01:21 公開日:2022-10-12 |
# EduQG:教育領域のためのマルチフォーマット複数選択データセット EduQG: A Multi-format Multiple Choice Dataset for the Educational Domain ( http://arxiv.org/abs/2210.06104v1 ) ライセンス: Link先を確認 | Amir Hadifar, Semere Kiros Bitew, Johannes Deleu, Chris Develder, Thomas Demeester | (参考訳) 3,397個のサンプルを含む高品質なデータセットを導入する。
(i)複数の選択質問。
(ii)回答(邪魔者を含む)、及び
(iii)教育分野の資料。
各質問は正常とクローズの2つの形式で表現される。
正しい回答は文レベルのアノテーションでソースドキュメントにリンクされる。
したがって、汎用的なデータセットは、質問生成と邪魔者生成の両方に使用でき、質問形式変換のような新しい課題を探求できます。
さらに、903の質問には、ブルームの分類法に従って認知的複雑性レベルが伴う。
すべての質問は、教育と学習の標準を維持するために、クラウドワーカーではなく、教育専門家によって作成された。
分析と実験は,教育目的の質問生成において,データセットと一般的なデータセットの区別可能な差異を示唆する。
この新しいデータセットは、教育領域における研究と評価のための貴重なリソースになると考えている。
データセットとベースラインがリリースされ、質問生成に関するさらなる研究をサポートする。 We introduce a high-quality dataset that contains 3,397 samples comprising (i) multiple choice questions, (ii) answers (including distractors), and (iii) their source documents, from the educational domain. Each question is phrased in two forms, normal and close. Correct answers are linked to source documents with sentence-level annotations. Thus, our versatile dataset can be used for both question and distractor generation, as well as to explore new challenges such as question format conversion. Furthermore, 903 questions are accompanied by their cognitive complexity level as per Bloom's taxonomy. All questions have been generated by educational experts rather than crowd workers to ensure they are maintaining educational and learning standards. Our analysis and experiments suggest distinguishable differences between our dataset and commonly used ones for question generation for educational purposes. We believe this new dataset can serve as a valuable resource for research and evaluation in the educational domain. The dataset and baselines will be released to support further research in question generation. | 翻訳日:2022-10-13 14:01:06 公開日:2022-10-12 |
# 翻訳提案のための改良されたデータ拡張 Improved Data Augmentation for Translation Suggestion ( http://arxiv.org/abs/2210.06138v1 ) ライセンス: Link先を確認 | Hongxiao Zhang, Siyu Lai, Songming Zhang, Hui Huang, Yufeng Chen, Jinan Xu, Jian Liu | (参考訳) 翻訳提案(TS)モデルは、機械翻訳によって生成された文の誤りスパンを自動的に提案するために使用される。
本稿では,WMT'22翻訳提案共有タスクに使用するシステムを紹介する。
本システムは,Transformer,SA-Transformer,DynamicConvなど,さまざまな翻訳アーキテクチャのアンサンブルに基づいている。
我々は3つの戦略を用いて並列コーパスから合成データを構築し、教師付きデータの欠如を補う。
さらに,マルチフェーズ事前学習戦略を導入し,ドメイン内データによる事前学習を付加する。
私たちはそれぞれ、英語とドイツ語と英語と中国語の双方向タスクで2位と3位にランク付けします。 Translation suggestion (TS) models are used to automatically provide alternative suggestions for incorrect spans in sentences generated by machine translation. This paper introduces the system used in our submission to the WMT'22 Translation Suggestion shared task. Our system is based on the ensemble of different translation architectures, including Transformer, SA-Transformer, and DynamicConv. We use three strategies to construct synthetic data from parallel corpora to compensate for the lack of supervised data. In addition, we introduce a multi-phase pre-training strategy, adding an additional pre-training phase with in-domain data. We rank second and third on the English-German and English-Chinese bidirectional tasks, respectively. | 翻訳日:2022-10-13 14:00:54 公開日:2022-10-12 |
# ディープニューラルネットワークモデルによる1.5T-3T MRI変換の比較検討 A Comparative Study on 1.5T-3T MRI Conversion through Deep Neural Network Models ( http://arxiv.org/abs/2210.06362v1 ) ライセンス: Link先を確認 | Binhua Liao, Yani Chen, Zhewei Wang, Charles D. Smith, Jundong Liu | (参考訳) 本稿では,臨床用1.5T MRIから脳内3T様MR画像を生成するためのディープニューラルネットワークモデルについて検討する。
モデルには、完全畳み込みネットワーク(FCN)法と3つの最先端超解、ESPCN [26]、SRGAN [17]、PRSR [7]が含まれる。
FCNソリューションであるU-Convert-Netは、U-Netのようなアーキテクチャを通じて1.5T-to-3Tスライスをマッピングし、マルチビューアンサンブルを通じて3D近傍情報を統合する。
モデルの長所と短所、および関連する評価指標は実験によって測定され、深く議論される。
本研究は,脳内MRI変換のための複数のディープラーニングソリューションを評価する最初の試みであり,この目的のためにFCN/U-Netライクな構造を利用する最初の試みである。 In this paper, we explore the capabilities of a number of deep neural network models in generating whole-brain 3T-like MR images from clinical 1.5T MRIs. The models include a fully convolutional network (FCN) method and three state-of-the-art super-resolution solutions, ESPCN [26], SRGAN [17] and PRSR [7]. The FCN solution, U-Convert-Net, carries out mapping of 1.5T-to-3T slices through a U-Net-like architecture, with 3D neighborhood information integrated through a multi-view ensemble. The pros and cons of the models, as well the associated evaluation metrics, are measured with experiments and discussed in depth. To the best of our knowledge, this study is the first work to evaluate multiple deep learning solutions for whole-brain MRI conversion, as well as the first attempt to utilize FCN/U-Net-like structure for this purpose. | 翻訳日:2022-10-13 13:55:01 公開日:2022-10-12 |
# trap and replace: 簡単にリプレースできるサブネットワークにトラップしてバックドア攻撃を防御する Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork ( http://arxiv.org/abs/2210.06428v1 ) ライセンス: Link先を確認 | Haotao Wang, Junyuan Hong, Aston Zhang, Jiayu Zhou, Zhangyang Wang | (参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
これまでの研究では、ネットワーク全体がバックドアのサンプルの影響を受けやすいため、望ましくないバックドアの動作をネットワークから解放することは極めて困難であった。
本稿では,新たなバックドア防衛戦略を提案し,モデルからバックドアサンプルの有害な影響を除去することを容易にする。
我々の防衛戦略である \emph{trap and replace} は2段階からなる。
最初の段階では、バックドアを小さくて簡単に交換できるサブネットワークで焼いてトラップします。
具体的には,主幹ネットワーク上に,重み付き分類ヘッドで共有された補助画像再構成ヘッドを付加する。
直感的には、補助的な画像再構成タスクは、学習が難しいが意味的に正しい十分な低レベルの視覚的特徴をstemネットワークに保持することを奨励している。
その結果、バックドア付きデータセットでトレーニングされた場合、共有stemよりも脆弱であるため、バックドアは保護されていない分類ヘッドに簡単に投入され、stemネットワークはほとんど毒を飲まない。
第2段階では, 幹細胞ネットワークを固定しながら, 小さなホールトアウトデータセットでのみスクラッチから再学習することで, 有毒な軽度分類ヘッドを固定されていないものに置き換える。
その結果、最終ネットワークのstemと分類ヘッドの両方がバックドアトレーニングサンプルの影響をほとんど受けない。
10種類のバックドア攻撃に対して本手法の評価を行った。
本手法は,cifar10,gtsrb,imagenet-12において,従来手法よりも最大20.57\%$,9.80\%$,13.72\%$$攻撃成功率,平均3.14\%$,1.80\%$,1.21\%$クリーン分類精度をそれぞれ上回る。
コードはオンラインで入手できる。 Deep neural networks (DNNs) are vulnerable to backdoor attacks. Previous works have shown it extremely challenging to unlearn the undesired backdoor behavior from the network, since the entire network can be affected by the backdoor samples. In this paper, we propose a brand-new backdoor defense strategy, which makes it much easier to remove the harmful influence of backdoor samples from the model. Our defense strategy, \emph{Trap and Replace}, consists of two stages. In the first stage, we bait and trap the backdoors in a small and easy-to-replace subnetwork. Specifically, we add an auxiliary image reconstruction head on top of the stem network shared with a light-weighted classification head. The intuition is that the auxiliary image reconstruction task encourages the stem network to keep sufficient low-level visual features that are hard to learn but semantically correct, instead of overfitting to the easy-to-learn but semantically incorrect backdoor correlations. As a result, when trained on backdoored datasets, the backdoors are easily baited towards the unprotected classification head, since it is much more vulnerable than the shared stem, leaving the stem network hardly poisoned. In the second stage, we replace the poisoned light-weighted classification head with an untainted one, by re-training it from scratch only on a small holdout dataset with clean samples, while fixing the stem network. As a result, both the stem and the classification head in the final network are hardly affected by backdoor training samples. We evaluate our method against ten different backdoor attacks. Our method outperforms previous state-of-the-art methods by up to $20.57\%$, $9.80\%$, and $13.72\%$ attack success rate and on-average $3.14\%$, $1.80\%$, and $1.21\%$ clean classification accuracy on CIFAR10, GTSRB, and ImageNet-12, respectively. Code is available online. | 翻訳日:2022-10-13 13:54:44 公開日:2022-10-12 |
# 安全カバレッジ制御のための近最適マルチエージェント学習 Near-Optimal Multi-Agent Learning for Safe Coverage Control ( http://arxiv.org/abs/2210.06380v1 ) ライセンス: Link先を確認 | Manish Prajapat, Matteo Turchetta, Melanie N. Zeilinger, Andreas Krause | (参考訳) マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
実際には、密度が $\textit{a priori}$ であることは稀であり、元のNPハード問題をさらに複雑にしている。
さらに、多くのアプリケーションでは、$\textit{a priori}$未知の安全性制約のため、エージェントは任意の場所を訪問できない。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず,理論解析を容易にする条件線形部分モジュラー被覆関数を提案する。
この構造を利用して,部分観測可能性により探索・探索ジレンマを効率よく除去する新しいアルゴリズムであるMacOptを開発し,サブ線形後悔を実現することを示す。
次に,単一エージェントセーフエクスプロレーションの結果をマルチエージェント設定に拡張し,安全カバレッジと探索のためのsafemacを提案する。
SafeMacを解析し、安全性を確実に保証しながら、有限時間で最適範囲に近づきます。
我々は,安全制約下での生物多様性モニタリングタスクを含む,合成および実問題に関するアルゴリズムを広範囲に評価した。 In multi-agent coverage control problems, agents navigate their environment to reach locations that maximize the coverage of some density. In practice, the density is rarely known $\textit{a priori}$, further complicating the original NP-hard problem. Moreover, in many applications, agents cannot visit arbitrary locations due to $\textit{a priori}$ unknown safety constraints. In this paper, we aim to efficiently learn the density to approximately solve the coverage problem while preserving the agents' safety. We first propose a conditionally linear submodular coverage function that facilitates theoretical analysis. Utilizing this structure, we develop MacOpt, a novel algorithm that efficiently trades off the exploration-exploitation dilemma due to partial observability, and show that it achieves sublinear regret. Next, we extend results on single-agent safe exploration to our multi-agent setting and propose SafeMac for safe coverage and exploration. We analyze SafeMac and give first of its kind results: near optimal coverage in finite time while provably guaranteeing safety. We extensively evaluate our algorithms on synthetic and real problems, including a bio-diversity monitoring task under safety constraints, where SafeMac outperforms competing methods. | 翻訳日:2022-10-13 13:54:07 公開日:2022-10-12 |
# Poisson Sub-Samplingを用いた教師学生のアンサンブル学習 : 音声認識のための差分プライバシー保護 An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling to Differential Privacy Preserving Speech Recognition ( http://arxiv.org/abs/2210.06382v1 ) ライセンス: Link先を確認 | Chao-Han Huck Yang, Jun Qi, Sabato Marco Siniscalchi, Chin-Hui Lee | (参考訳) 本稿では,教師モデルの集合を効果的に訓練し,データに対する差分プライバシー(dp)保証を発行するための,poissonサブサンプリングを用いたアンサンブル学習フレームワークを提案する。
dp下での強化により、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を味わわない。
提案手法は,2つのメカニズムを利用する。
(i)poissonサブサンプリングによるプライバシー予算増幅により、同じレベルのプライバシー予算を達成するのにノイズが少ないターゲット予測モデルを訓練すること。
(II)サブサンプリング手法と,教師モデルの出力にDP保存ノイズを導入し,ノイズラベルを介してDP保存特性を伝達するアンサンブル教師学生学習フレームワークを組み合わせる。
プライバシー保護の学生モデルは、教師モデルアンサンブルからDP保護の知識を学ぶためにノイズラベルで訓練される。
マンダリン音声の音声コマンド認識と連続音声認識に関する実験的証拠から,提案手法は両方の音声処理タスクにおいて既存のDP保存アルゴリズムを大幅に上回ることを示す。 We propose an ensemble learning framework with Poisson sub-sampling to effectively train a collection of teacher models to issue some differential privacy (DP) guarantee for training data. Through boosting under DP, a student model derived from the training data suffers little model degradation from the models trained with no privacy protection. Our proposed solution leverages upon two mechanisms, namely: (i) a privacy budget amplification via Poisson sub-sampling to train a target prediction model that requires less noise to achieve a same level of privacy budget, and (ii) a combination of the sub-sampling technique and an ensemble teacher-student learning framework that introduces DP-preserving noise at the output of the teacher models and transfers DP-preserving properties via noisy labels. Privacy-preserving student models are then trained with the noisy labels to learn the knowledge with DP-protection from the teacher model ensemble. Experimental evidences on spoken command recognition and continuous speech recognition of Mandarin speech show that our proposed framework greatly outperforms existing DP-preserving algorithms in both speech processing tasks. | 翻訳日:2022-10-13 13:53:46 公開日:2022-10-12 |
# 指数的機構の濃度と微分プライベートな多変量中央値 Concentration of the exponential mechanism and differentially private multivariate medians ( http://arxiv.org/abs/2210.06459v1 ) ライセンス: Link先を確認 | Kelly Ramsay, Aukosh Jagannath, Shoja'eddin Chenouri | (参考訳) 人口目標関数の最大値に関する指数的メカニズムの出力に対する濃度不等式を証明した。
この境界は、軽度正規性条件を満たす客観的関数に適用される。
この結果を説明するために、微分プライベートな多変量中央値推定の問題について検討する。
本質的にシャープな多変量深度中央値に対する新しい有限サンプル性能保証法を提案する。
この結果は、半空間(またはタキー)深度、空間深度、統合二重深度など、よく使われる深度関数をカバーする。
Cauchyの限界の下では、重み付けされた位置推定のコストがプライバシーのコストよりも高いことを示している。
本研究では, ガウス汚染モデルを用いて, 最大次元が$d=100$までの数値計算を行い, 最先端のプライベート平均推定アルゴリズムと比較した。 We prove concentration inequalities for the output of the exponential mechanism about the maximizer of the population objective function. This bound applies to objective functions that satisfy a mild regularity condition. To illustrate our result, we study the problem of differentially private multivariate median estimation. We present novel finite-sample performance guarantees for differentially private multivariate depth-based medians which are essentially sharp. Our results cover commonly used depth functions, such as the halfspace (or Tukey) depth, spatial depth, and the integrated dual depth. We show that under Cauchy marginals, the cost of heavy-tailed location estimation outweighs the cost of privacy. We demonstrate our results numerically using a Gaussian contamination model in dimensions up to $d = 100$, and compare them to a state-of-the-art private mean estimation algorithm. | 翻訳日:2022-10-13 13:53:28 公開日:2022-10-12 |
# Differentially Private Bootstrap: 新たなプライバシ分析と推論戦略 Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies ( http://arxiv.org/abs/2210.06140v1 ) ライセンス: Link先を確認 | Zhanyu Wang, Guang Cheng, Jordan Awan | (参考訳) 微分プライベート(DP)メカニズムは、統計解析手法にランダム性を導入することにより、個人レベルの情報を保護する。
現在,様々な統計問題に対するDPツールが多数存在するが,統計的推測の不確かさの定量化に不可欠であるDP推定器のサンプリング分布を理解するための一般的な手法が不足している。
本研究では,複数のプライベートブートストラップ推定値をリリースするdpブートストラップ手順を分析し,サンプリング分布を推定し,信頼区間を構築する。
我々のプライバシー分析には、任意のDP機構を組み込むために適用される単一のDPブートストラップ推定のプライバシコストに関する新たな結果が含まれており、既存の文献におけるブートストラップの誤用を識別する。
我々は,$B$ DPブートストラップのリリースが,$(\mu/\sqrt{(2-2/\mathrm{e})B})$-Gaussian DPが漸近的に$\mu$-Gaussian DPを満たすメカニズムから推定されることを示す。
また,dpのブートストラップ推定に基づく統計的手法を開発し,確率測度のデコンボリューションに関連する手法を用いてサンプリング分布を正確に推定する。
密度推定から,信頼区間を構築し,2016年カナダ国勢調査公用マイクロデータを用いたシミュレーションと実世界実験により,既存の手法と比較する。
プライベートな信頼区間のカバレッジは名目上の信頼レベルに達しますが、他のメソッドはこの保証を満たしていません。 Differential private (DP) mechanisms protect individual-level information by introducing randomness into the statistical analysis procedure. While there are now many DP tools for various statistical problems, there is still a lack of general techniques to understand the sampling distribution of a DP estimator, which is crucial for uncertainty quantification in statistical inference. We analyze a DP bootstrap procedure that releases multiple private bootstrap estimates to infer the sampling distribution and construct confidence intervals. Our privacy analysis includes new results on the privacy cost of a single DP bootstrap estimate applicable to incorporate arbitrary DP mechanisms and identifies some misuses of the bootstrap in the existing literature. We show that the release of $B$ DP bootstrap estimates from mechanisms satisfying $(\mu/\sqrt{(2-2/\mathrm{e})B})$-Gaussian DP asymptotically satisfies $\mu$-Gaussian DP as $B$ goes to infinity. We also develop a statistical procedure based on the DP bootstrap estimates to correctly infer the sampling distribution using techniques related to the deconvolution of probability measures, an approach which is novel in analyzing DP procedures. From our density estimate, we construct confidence intervals and compare them to existing methods through simulations and real-world experiments using the 2016 Canada Census Public Use Microdata. The coverage of our private confidence intervals achieves the nominal confidence level, while other methods fail to meet this guarantee. | 翻訳日:2022-10-13 13:46:05 公開日:2022-10-12 |
# サンプル評価CMIを用いた一般化境界の新家系 A New Family of Generalization Bounds Using Samplewise Evaluated CMI ( http://arxiv.org/abs/2210.06422v1 ) ライセンス: Link先を確認 | Fredrik Hellstr\"om and Giuseppe Durisi | (参考訳) 本稿では,共同凸関数を用いて学習損失と人口減少を比較する,情報理論一般化境界の新たなファミリーを提案する。
この関数は、おそらくほぼ正しい(PAC)-ベイズ的な結果に共通する仮説そのものよりも、選択された仮説によって引き起こされる損失に依存する情報測度である、分解された、標本的に評価された条件付き相互情報(CMI)の点において上界にある。
我々は,従来知られていた情報理論境界を回復し拡張することにより,このフレームワークの汎用性を示す。
さらに,評価されたcmiを用いて,シーガーのpac-ベイズ境界のサンプルワイズ平均バージョンを導出し,凸関数は二元 kl 分岐である。
いくつかのシナリオでは、この新しい境界は、以前の境界よりも深いニューラルネットワークの人口減少を強く評価する。
最後に、これらの平均境界のいくつかの高確率バージョンを導出する。
有限なナタラジャン次元を持つ多クラス分類における平均および高確率一般化境界を復元するために,評価されたcmi境界の統一性を示す。 We present a new family of information-theoretic generalization bounds, in which the training loss and the population loss are compared through a jointly convex function. This function is upper-bounded in terms of the disintegrated, samplewise, evaluated conditional mutual information (CMI), an information measure that depends on the losses incurred by the selected hypothesis, rather than on the hypothesis itself, as is common in probably approximately correct (PAC)-Bayesian results. We demonstrate the generality of this framework by recovering and extending previously known information-theoretic bounds. Furthermore, using the evaluated CMI, we derive a samplewise, average version of Seeger's PAC-Bayesian bound, where the convex function is the binary KL divergence. In some scenarios, this novel bound results in a tighter characterization of the population loss of deep neural networks than previous bounds. Finally, we derive high-probability versions of some of these average bounds. We demonstrate the unifying nature of the evaluated CMI bounds by using them to recover average and high-probability generalization bounds for multiclass classification with finite Natarajan dimension. | 翻訳日:2022-10-13 13:45:20 公開日:2022-10-12 |
# ポイントクラウド検出器の共通破壊ロバスト性:ベンチマークと拡張 Common Corruption Robustness of Point Cloud Detectors: Benchmark and Enhancement ( http://arxiv.org/abs/2210.05896v1 ) ライセンス: Link先を確認 | Shuangzhi Li, Zhijie Wang, Felix Juefei-Xu, Qing Guo, Xingyu Li and Lei Ma | (参考訳) LiDARベースのポイントクラウドによるオブジェクト検出は、最近自動運転において重要になった。
一般のベンチマークで高い精度を達成しているが、最先端の検出器はいまだに失敗し、雨や雪、センサーノイズといった現実世界の汚職によって大きな損失をもたらす可能性がある。
それにもかかわらず、現実的なクラウド検出器を開発するために、さまざまなシーンとさまざまな重大さを持つ現実的な汚職タイプをカバーする大規模なデータセットが欠如している。
この課題を緩和し,ロバスト・ポイント・クラウド検出のための第一歩を踏み出すため,実世界の異なる共通の汚職の下で劣化点雲を生成する物理認識シミュレーション手法を提案する。
次に,最初の試みとして,7,481場面をカバーする1,122,150例,25の共通腐敗タイプ,6つの冗長性を含む,ポイントクラウド検出器の物理的に認識される共通腐敗に基づくベンチマークを構築した。
このような新しいベンチマークにより、6つの異なる検出フレームワークを含む8つの最先端検出器に関する広範な実証研究を行う。
したがって、検出器の脆弱性を明らかにし、拡張方向を示すいくつかの洞察的な観察が得られる。
さらに,データ拡張とデータ復調に基づく既存のロバストネス向上手法の有効性について検討した。
このベンチマークは、ポイントクラウド検出器を評価するための新しいプラットフォームになり、新しい堅牢性向上手法を開発するための扉を開く可能性がある。 Object detection through LiDAR-based point cloud has recently been important in autonomous driving. Although achieving high accuracy on public benchmarks, the state-of-the-art detectors may still go wrong and cause a heavy loss due to the widespread corruptions in the real world like rain, snow, sensor noise, etc. Nevertheless, there is a lack of a large-scale dataset covering diverse scenes and realistic corruption types with different severities to develop practical and robust point cloud detectors, which is challenging due to the heavy collection costs. To alleviate the challenge and start the first step for robust point cloud detection, we propose the physical-aware simulation methods to generate degraded point clouds under different real-world common corruptions. Then, for the first attempt, we construct a benchmark based on the physical-aware common corruptions for point cloud detectors, which contains a total of 1,122,150 examples covering 7,481 scenes, 25 common corruption types, and 6 severities. With such a novel benchmark, we conduct extensive empirical studies on 8 state-of-the-art detectors that contain 6 different detection frameworks. Thus we get several insight observations revealing the vulnerabilities of the detectors and indicating the enhancement directions. Moreover, we further study the effectiveness of existing robustness enhancement methods based on data augmentation and data denoising. The benchmark can potentially be a new platform for evaluating point cloud detectors, opening a door for developing novel robustness enhancement methods. | 翻訳日:2022-10-13 13:44:34 公開日:2022-10-12 |
# 逆逆向摂動による逆攻撃の伝達性の向上 Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation ( http://arxiv.org/abs/2210.05968v1 ) ライセンス: Link先を確認 | Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu | (参考訳) ディープニューラルネットワーク(dnn)は、非知覚的な摂動を注入することで誤った予測を生じ得る敵の例に対して脆弱であることが示されている。
本研究では,モデルアーキテクチャやパラメータが通常不明な実世界のアプリケーションに対する脅威として,逆例の転送可能性について検討する。
既存の多くの研究は、敵が生成したサロゲートモデルに適合し、異なるターゲットモデルに対する転送攻撃性能を制限していることを示している。
代理モデルの過度な適合を緩和するため, 逆対向摂動(RAP)と呼ばれる新たな攻撃法を提案する。
具体的には、単一対向点の損失を最小限に抑える代わりに、最適化手順の各ステップに対して最悪のケース摂動(逆対向摂動)を注入することにより、統一された低損失値の領域に位置する対向例を求める。
RAPによる逆攻撃は、min-maxバイレベル最適化問題として定式化される。
攻撃の反復的プロセスにRAPを組み込むことで,決定境界の変化に敏感でないより安定した敵例を見つけ,サロゲートモデルの過度な適合を軽減できる。
総合的な比較実験により、RAPは対向転写可能性を大幅に向上させることが示された。
さらにrapは、転送性をさらに高めるために、既存のブラックボックス攻撃技術と自然に組み合わせることができる。
実世界の画像認識システムであるGoogle Cloud Vision APIを攻撃した場合、比較手法よりもターゲット攻撃の性能が22%向上する。
私たちのコードはhttps://github.com/sclbd/transfer_attack_rapで利用可能です。 Deep neural networks (DNNs) have been shown to be vulnerable to adversarial examples, which can produce erroneous predictions by injecting imperceptible perturbations. In this work, we study the transferability of adversarial examples, which is significant due to its threat to real-world applications where model architecture or parameters are usually unknown. Many existing works reveal that the adversarial examples are likely to overfit the surrogate model that they are generated from, limiting its transfer attack performance against different target models. To mitigate the overfitting of the surrogate model, we propose a novel attack method, dubbed reverse adversarial perturbation (RAP). Specifically, instead of minimizing the loss of a single adversarial point, we advocate seeking adversarial example located at a region with unified low loss value, by injecting the worst-case perturbation (the reverse adversarial perturbation) for each step of the optimization procedure. The adversarial attack with RAP is formulated as a min-max bi-level optimization problem. By integrating RAP into the iterative process for attacks, our method can find more stable adversarial examples which are less sensitive to the changes of decision boundary, mitigating the overfitting of the surrogate model. Comprehensive experimental comparisons demonstrate that RAP can significantly boost adversarial transferability. Furthermore, RAP can be naturally combined with many existing black-box attack techniques, to further boost the transferability. When attacking a real-world image recognition system, Google Cloud Vision API, we obtain 22% performance improvement of targeted attacks over the compared method. Our codes are available at https://github.com/SCLBD/Transfer_attack_RAP. | 翻訳日:2022-10-13 13:44:11 公開日:2022-10-12 |
# 生成した画像がその潜在表現を損なうことについて何を学ぶことができるのか? What can we learn about a generated image corrupting its latent representation? ( http://arxiv.org/abs/2210.06257v1 ) ライセンス: Link先を確認 | Agnieszka Tomczak, Aarushi Gupta, Slobodan Ilic, Nassir Navab, Shadi Albarqouni | (参考訳) GAN(Generative Adversarial Network)は、画像間翻訳問題に対する効果的な解決策を提供し、医用画像の新しい可能性を実現する。
ある画像モードから別の画像に、低コストで変換できる。
障害のないデータセットの場合、ほとんどサイクル損失に依存します。
基礎となるデータ分布を学習する効果があるにもかかわらず、入力データと出力データの相違につながる可能性がある。
本研究の目的は,GANsボトルネックの潜在表現に基づいて画像品質を予測できるという仮説を検討することである。
我々は、潜在表現をノイズで破壊し、複数の出力を生成することでこれを達成する。
両者の違いの度合いは表現の強さとして解釈される: 潜在表現が頑丈になればなるほど、腐敗の原因となる出力画像の変化が少なくなる。
以上より,提案手法が有効であることを示す。
一 合成画像の不確かさ部分の予測、及び
二 下流タスク、例えば肝分節タスクに信頼性がない可能性のあるサンプルを特定すること。 Generative adversarial networks (GANs) offer an effective solution to the image-to-image translation problem, thereby allowing for new possibilities in medical imaging. They can translate images from one imaging modality to another at a low cost. For unpaired datasets, they rely mostly on cycle loss. Despite its effectiveness in learning the underlying data distribution, it can lead to a discrepancy between input and output data. The purpose of this work is to investigate the hypothesis that we can predict image quality based on its latent representation in the GANs bottleneck. We achieve this by corrupting the latent representation with noise and generating multiple outputs. The degree of differences between them is interpreted as the strength of the representation: the more robust the latent representation, the fewer changes in the output image the corruption causes. Our results demonstrate that our proposed method has the ability to i) predict uncertain parts of synthesized images, and ii) identify samples that may not be reliable for downstream tasks, e.g., liver segmentation task. | 翻訳日:2022-10-13 13:43:44 公開日:2022-10-12 |
# 対人ロバストネスのための視覚プロンプト Visual Prompting for Adversarial Robustness ( http://arxiv.org/abs/2210.06284v1 ) ライセンス: Link先を確認 | Aochuan Chen, Peter Lorenz, Yuguang Yao, Pin-Yu Chen, Sijia Liu | (参考訳) 本研究では,視覚プロンプト(vp)を利用して,テスト時の固定された事前学習モデルの敵対的ロバスト性を改善する。
従来の敵対的防御と比べて、vpは、多くの計算オーバーヘッドを導入することなく、望ましいモデルパフォーマンスを達成するためにテスト時にプラグアンドプレイ機能を持つユニバーサル(データ非依存)入力プロンプトテンプレートを設計することができます。
VPはモデル一般化の改善に成功しているが、それが敵の攻撃に対する防御にどのように使用できるかは解明されていない。
本稿では,バニラVPアプローチが,サンプル特異的な対向的摂動に対する頑健な学習能力に欠けるため,対向防御に有効でないことを示す。
これを回避するために,クラスワイド・アドバイザリ・ビジュアル・プロンプト(C-AVP)と呼ばれる新しいVP手法を提案し,アンサンブル・プロンプトの強みを利用するだけでなく,それらの相互関係を最適化してモデルロバスト性を向上させる。
実験の結果,C-AVPは標準精度2.1倍,頑健さ2倍の精度で従来のVP法より優れていた。
古典的なテストタイムディフェンスと比較すると、C-AVPは42倍の推論タイムスピードアップをもたらす。 In this work, we leverage visual prompting (VP) to improve adversarial robustness of a fixed, pre-trained model at testing time. Compared to conventional adversarial defenses, VP allows us to design universal (i.e., data-agnostic) input prompting templates, which have plug-and-play capabilities at testing time to achieve desired model performance without introducing much computation overhead. Although VP has been successfully applied to improving model generalization, it remains elusive whether and how it can be used to defend against adversarial attacks. We investigate this problem and show that the vanilla VP approach is not effective in adversarial defense since a universal input prompt lacks the capacity for robust learning against sample-specific adversarial perturbations. To circumvent it, we propose a new VP method, termed Class-wise Adversarial Visual Prompting (C-AVP), to generate class-wise visual prompts so as to not only leverage the strengths of ensemble prompts but also optimize their interrelations to improve model robustness. Our experiments show that C-AVP outperforms the conventional VP method, with 2.1X standard accuracy gain and 2X robust accuracy gain. Compared to classical test-time defenses, C-AVP also yields a 42X inference time speedup. | 翻訳日:2022-10-13 13:43:29 公開日:2022-10-12 |
# CoRRECT: 動き補正量R2*マッピングのための深層展開フレームワーク CoRRECT: A Deep Unfolding Framework for Motion-Corrected Quantitative R2* Mapping ( http://arxiv.org/abs/2210.06330v1 ) ライセンス: Link先を確認 | Xiaojian Xu, Weijie Gan, Satya V.V.N. Kothapalli, Dmitriy A. Yablonskiy, Ulugbek S. Kamilov | (参考訳) 定量的MRI(QMRI)とは、生体組織パラメータの空間分布を定量化するMRI法の一種である。
従来のqMRI法は通常、加速されたデータ取得、不随意運動、磁場の不均一性から生じるアーティファクトを別々に扱う。
本稿では,モデルに基づくエンドツーエンドニューラルネットワークからなるqMRI用統合深部展開(DU)フレームワークであるCoRRECTと,モーション・アーティファクト・リダクション法,自己教師型学習方式を提案する。
ネットワークは、k空間データが実データと一致するr2*マップを生成するように訓練され、動きと場不均一性も考慮される。
デプロイされると、CoRRECTは動きや不均一性補正のための事前計算されたパラメータなしでk空間のデータのみを使用する。
実験で収集したmGRE(Multi-Gradient-Recalled Echo) MRIデータから,CoRRECTは高速な取得設定で動きと不均一なR2*マップを復元することを示した。
この研究は、物理測定モデル、生体物理信号モデルを統合し、高品質なqMRIの事前モデルを学習できるDU法への扉を開く。 Quantitative MRI (qMRI) refers to a class of MRI methods for quantifying the spatial distribution of biological tissue parameters. Traditional qMRI methods usually deal separately with artifacts arising from accelerated data acquisition, involuntary physical motion, and magnetic-field inhomogeneities, leading to suboptimal end-to-end performance. This paper presents CoRRECT, a unified deep unfolding (DU) framework for qMRI consisting of a model-based end-to-end neural network, a method for motion-artifact reduction, and a self-supervised learning scheme. The network is trained to produce R2* maps whose k-space data matches the real data by also accounting for motion and field inhomogeneities. When deployed, CoRRECT only uses the k-space data without any pre-computed parameters for motion or inhomogeneity correction. Our results on experimentally collected multi-Gradient-Recalled Echo (mGRE) MRI data show that CoRRECT recovers motion and inhomogeneity artifact-free R2* maps in highly accelerated acquisition settings. This work opens the door to DU methods that can integrate physical measurement models, biophysical signal models, and learned prior models for high-quality qMRI. | 翻訳日:2022-10-13 13:43:04 公開日:2022-10-12 |
# JuryGCN: グラフ畳み込みネットワークにおけるJackknifeの不確かさの定量化 JuryGCN: Quantifying Jackknife Uncertainty on Graph Convolutional Networks ( http://arxiv.org/abs/2210.05959v1 ) ライセンス: Link先を確認 | Jian Kang, Qinghai Zhou, Hanghang Tong | (参考訳) グラフ畳み込みネットワーク(GCN)は多くの実世界のアプリケーションで強力な経験的性能を示した。
GCNに関する既存の研究の大部分は、GCNの予測に対する信頼性や不確実性を無視しながら、その正確性に重点を置いている。
信頼できるグラフマイニングの基盤であるにもかかわらず、GCNに関する不確実な定量化は十分に研究されておらず、決定論的定量化の提供に失敗したり、追加のパラメータやアーキテクチャを導入してGCNのトレーニング手順を変更する必要があった。
本稿では,gcnの不確かさを定量化する最初の手法であるjuicegcnを提案する。ここでは,jackknife推定器による信頼区間の幅としてノードの不確かさを定量化する。
さらに,GCNパラメータの変化を計算のスケールアップのために再学習することなく推定するために,影響関数を利用する。
提案したJuryGCNは、GCNアーキテクチャを変更したり追加パラメータを導入することなく、不確実性を決定的に定量化することができる。
提案手法の有効性を示すアクティブラーニングと半教師付きノード分類の両方のタスクにおいて,実世界のデータセットを広範囲に実験的に評価する。 Graph Convolutional Network (GCN) has exhibited strong empirical performance in many real-world applications. The vast majority of existing works on GCN primarily focus on the accuracy while ignoring how confident or uncertain a GCN is with respect to its predictions. Despite being a cornerstone of trustworthy graph mining, uncertainty quantification on GCN has not been well studied and the scarce existing efforts either fail to provide deterministic quantification or have to change the training procedure of GCN by introducing additional parameters or architectures. In this paper, we propose the first frequentist-based approach named JuryGCN in quantifying the uncertainty of GCN, where the key idea is to quantify the uncertainty of a node as the width of confidence interval by a jackknife estimator. Moreover, we leverage the influence functions to estimate the change in GCN parameters without re-training to scale up the computation. The proposed JuryGCN is capable of quantifying uncertainty deterministically without modifying the GCN architecture or introducing additional parameters. We perform extensive experimental evaluation on real-world datasets in the tasks of both active learning and semi-supervised node classification, which demonstrate the efficacy of the proposed method. | 翻訳日:2022-10-13 13:37:22 公開日:2022-10-12 |
# BORA:資源配分のためのベイズ最適化 BORA: Bayesian Optimization for Resource Allocation ( http://arxiv.org/abs/2210.05977v1 ) ライセンス: Link先を確認 | Antonio Candelieri, Andrea Ponti, Francesco Archetti | (参考訳) 最適なリソース割り当ては、時間とともにクラウドおよび高性能コンピューティング設備を管理する上での核となる問題として、新たな関心を集めている。
半帯域フィードバック(SBF)はこの問題を効率的に解くための基準手法である。
本稿では,提案する。
(i)より一般的な問題、特に時間とともに資源の可利用性が変化する問題への最適な資源割り当ての拡張
(II)ベイズ最適化はSBFのより効率的な代替手段である。
ベイズ最適化のための3つのアルゴリズム、すなわちBORAが示され、数値ベクトルあるいは分布として表される割り当て決定に取り組んでいる。
第2の選択肢は、ワッサースタイン距離をボラアルゴリズムの1つに使用するのにより適した計量と考えることであった。
結果
(i)文献で提案されたSBFのケーススタディと
(II)実生活アプリケーション(すなわちマルチチャネルマーケティングの最適化)は、BORAがSBFよりも効率的で効果的な学習最適化フレームワークであることを実証的に証明する。 Optimal resource allocation is gaining a renewed interest due its relevance as a core problem in managing, over time, cloud and high-performance computing facilities. Semi-Bandit Feedback (SBF) is the reference method for efficiently solving this problem. In this paper we propose (i) an extension of the optimal resource allocation to a more general class of problems, specifically with resources availability changing over time, and (ii) Bayesian Optimization as a more efficient alternative to SBF. Three algorithms for Bayesian Optimization for Resource Allocation, namely BORA, are presented, working on allocation decisions represented as numerical vectors or distributions. The second option required to consider the Wasserstein distance as a more suitable metric to use into one of the BORA algorithms. Results on (i) the original SBF case study proposed in the literature, and (ii) a real-life application (i.e., the optimization of multi-channel marketing) empirically prove that BORA is a more efficient and effective learning-and-optimization framework than SBF. | 翻訳日:2022-10-13 13:37:00 公開日:2022-10-12 |
# JukeDrummer: Transformer VQ-VAによる条件付きビート対応オーディオドメインドラム伴奏 JukeDrummer: Conditional Beat-aware Audio-domain Drum Accompaniment Generation via Transformer VQ-VA ( http://arxiv.org/abs/2210.06007v1 ) ライセンス: Link先を確認 | Yueh-Kao Wu, Ching-Yu Chiu, Yi-Hsuan Yang | (参考訳) 本稿では,ユーザが提供したドラムフリー録音と共に演奏するために,オーディオ領域でドラムトラックを生成するモデルを提案する。
具体的には、ドラムレストラックとそれに対応する人造ドラムトラックのペアデータを用いて、トランスフォーマーモデルを訓練して、目に見えないドラムレスレコードのドラム部分の即興化を行う。
入力音声を符号化する2つの手法を組み合わせる。
まず、ベクトル量子化変分オートエンコーダ(VQ-VAE)を訓練し、入力された音声を離散コードで表現し、変換器で容易に使用できるようにする。
次に,音声領域のビート追跡モデルを用いて入力音声のビート関連特徴を計算し,それらをトランスフォーマーへの埋め込みとして利用する。
波形として直接ドラムトラックを生成する代わりに、別のvq-vaeを使用してドラムトラックのメルスペクトログラムを別の離散符号に符号化し、トランスフォーマを訓練してドラム関連離散符号のシーケンスを予測する。
その後、出力符号はデコーダでメルスペクトログラムに変換され、ボコーダで波形に変換される。
本研究は,提案手法の変種に対する客観評価と主観評価の両方を報告し,ビート情報を持つモデルが入力音声とリズム的,スタイリスティックに整合したドラム伴奏を生成することを示す。 This paper proposes a model that generates a drum track in the audio domain to play along to a user-provided drum-free recording. Specifically, using paired data of drumless tracks and the corresponding human-made drum tracks, we train a Transformer model to improvise the drum part of an unseen drumless recording. We combine two approaches to encode the input audio. First, we train a vector-quantized variational autoencoder (VQ-VAE) to represent the input audio with discrete codes, which can then be readily used in a Transformer. Second, using an audio-domain beat tracking model, we compute beat-related features of the input audio and use them as embeddings in the Transformer. Instead of generating the drum track directly as waveforms, we use a separate VQ-VAE to encode the mel-spectrogram of a drum track into another set of discrete codes, and train the Transformer to predict the sequence of drum-related discrete codes. The output codes are then converted to a mel-spectrogram with a decoder, and then to the waveform with a vocoder. We report both objective and subjective evaluations of variants of the proposed model, demonstrating that the model with beat information generates drum accompaniment that is rhythmically and stylistically consistent with the input audio. | 翻訳日:2022-10-13 13:36:43 公開日:2022-10-12 |
# 対話型言語: ロボットとリアルタイムで会話する Interactive Language: Talking to Robots in Real Time ( http://arxiv.org/abs/2210.06407v1 ) ライセンス: Link先を確認 | Corey Lynch, Ayzaan Wahid, Jonathan Tompson, Tianli Ding, James Betker, Robert Baruch, Travis Armstrong, Pete Florence | (参考訳) 我々は,対話型,リアルタイム,自然言語で構築可能なロボットを現実世界で構築するためのフレームワークを提案し,関連する資産(データセット,環境,ベンチマーク,ポリシー)をオープンソース化する。
数十万の言語に注釈付けされた軌跡のデータセットで行動的クローンを訓練することにより、生成されたポリシーは、以前の作品よりも桁違いに多くのコマンドを実行することができる。具体的に、現実世界の生のエンドツーエンドのヴィスオリンガモトラースキルを規定する87,000のユニークな自然言語文字列のセットに対して、93.5%の成功率を推定する。
同じ方針が人間によってリアルタイム言語を介してガイドされ、例えば「ブロックから笑顔の顔を作る」など、広範囲の正確なロングホライゾン再構成目標に対処できることがわかった。
私たちがリリースしたデータセットは、60万近い言語ラベル付きトラジェクトリで構成されています。
実証された結果と関連する資産により、有益で有能な自然言語対話型ロボットのさらなる進歩が期待できる。
ビデオはhttps://interactive-language.github.ioを参照。 We present a framework for building interactive, real-time, natural language-instructable robots in the real world, and we open source related assets (dataset, environment, benchmark, and policies). Trained with behavioral cloning on a dataset of hundreds of thousands of language-annotated trajectories, a produced policy can proficiently execute an order of magnitude more commands than previous works: specifically we estimate a 93.5% success rate on a set of 87,000 unique natural language strings specifying raw end-to-end visuo-linguo-motor skills in the real world. We find that the same policy is capable of being guided by a human via real-time language to address a wide range of precise long-horizon rearrangement goals, e.g. "make a smiley face out of blocks". The dataset we release comprises nearly 600,000 language-labeled trajectories, an order of magnitude larger than prior available datasets. We hope the demonstrated results and associated assets enable further advancement of helpful, capable, natural-language-interactable robots. See videos at https://interactive-language.github.io. | 翻訳日:2022-10-13 13:36:00 公開日:2022-10-12 |
# 無線センシングにおける確率的機械学習モデルによる不確かさの定量化 Quantifying Uncertainty with Probabilistic Machine Learning Modeling in Wireless Sensing ( http://arxiv.org/abs/2210.06416v1 ) ライセンス: Link先を確認 | Amit Kachroo, Sai Prashanth Chinnapalli | (参考訳) 無線通信領域における機械学習(ML)技術の応用は、特に無線センシング領域において、長年にわたって大きな成長を遂げてきた。
しかしながら、mlモデルの推論の信頼性やその予測に関連する不確実性に関する疑問は、正しく答えられていない。
これにより、これらのMLシステムの透明性に関する多くの疑問が提起される。
確率的モデリングによるMLシステムの開発は、データから生じる不確実性(認識不可能な誤りまたはアレオトリックな不確実性)、あるいはモデル自体から生じる不確実性(再生可能またはエピステマティックな不確実性)を定量化することができる。
本稿では、これらの不確実性定量化の背景にある考え方を詳述し、動作/非動作ケースに対するWiFiチャネル状態情報(CSI)の実例を用いて不確実性モデリングを実証する。
この研究は、WiFiセンシングだけでなく、AI/MLモデルを利用したWiFiからミリ波レーダーベースのセンシングまで、ほとんどの無線センシングアプリケーションにおいて、予測の不確実性をモデル化するテンプレートとして機能する。 The application of machine learning (ML) techniques in wireless communication domain has seen a tremendous growth over the years especially in the wireless sensing domain. However, the questions surrounding the ML model's inference reliability, and uncertainty associated with its predictions are never answered or communicated properly. This itself raises a lot of questions on the transparency of these ML systems. Developing ML systems with probabilistic modeling can solve this problem easily, where one can quantify uncertainty whether it is arising from the data (irreducible error or aleotoric uncertainty) or from the model itself (reducible or epistemic uncertainty). This paper describes the idea behind these types of uncertainty quantification in detail and uses a real example of WiFi channel state information (CSI) based sensing for motion/no-motion cases to demonstrate the uncertainty modeling. This work will serve as a template to model uncertainty in predictions not only for WiFi sensing but for most wireless sensing applications ranging from WiFi to millimeter wave radar based sensing that utilizes AI/ML models. | 翻訳日:2022-10-13 13:35:41 公開日:2022-10-12 |
# レコメンダシステムにおける平等な経験 Equal Experience in Recommender Systems ( http://arxiv.org/abs/2210.05936v1 ) ライセンス: Link先を確認 | Jaewoong Cho, Moonseok Choi, Changho Suh | (参考訳) 推薦システムで発生する公平性の問題について検討する。
特定のグループの固有のステレオタイプによる偏りのあるデータ(例えば、男子学生の数学に対する評価は、しばしば人文科学のそれよりも高く、女子の場合はその逆である)は、特定のグループに対して推奨される項目の範囲を限定する可能性がある。
私たちの主な貢献は、バイアスデータの存在下でこのような不公平を規制する、新しい公正の概念(平等な経験と呼ぶ)の導入にあります。
この概念は、異なるグループ間でアイテムレコメンデーションの平等な経験の程度を捉えている。
本稿では,正則化項としてフェアネス概念を組み込んだ最適化フレームワークを提案し,最適化を解く計算効率の高いアルゴリズムを提案する。
合成およびベンチマークの実データセットに関する実験は、提案手法が推薦精度の小さな低下を示す一方で、そのような不公平さを実際に軽減できることを示している。 We explore the fairness issue that arises in recommender systems. Biased data due to inherent stereotypes of particular groups (e.g., male students' average rating on mathematics is often higher than that on humanities, and vice versa for females) may yield a limited scope of suggested items to a certain group of users. Our main contribution lies in the introduction of a novel fairness notion (that we call equal experience), which can serve to regulate such unfairness in the presence of biased data. The notion captures the degree of the equal experience of item recommendations across distinct groups. We propose an optimization framework that incorporates the fairness notion as a regularization term, as well as introduce computationally-efficient algorithms that solve the optimization. Experiments on synthetic and benchmark real datasets demonstrate that the proposed framework can indeed mitigate such unfairness while exhibiting a minor degradation of recommendation accuracy. | 翻訳日:2022-10-13 13:34:47 公開日:2022-10-12 |
# モジュールフロー:差分分子生成 Modular Flows: Differential Molecular Generation ( http://arxiv.org/abs/2210.06032v1 ) ライセンス: Link先を確認 | Yogesh Verma, Samuel Kaski, Markus Heinonen and Vikas Garg | (参考訳) 新規分子の生成は、薬物発見や物質合成といった重要な応用を進めるための基礎となる。
フローはエンコーディング過程を反転させることで分子を効果的に生成することができるが、既存のフローモデルでは人工的な復号化や特定のノード/エッジの順序付けが必要であり、置換不変性のようなデシラタが欠如している。
我々はこれらの問題を,グラフPDEとして結合されたノードODEのシステムに基づく,新しい連続正規化E(3)-同変フローで回避し,局所的にグローバルに整合した密度に向かって繰り返し調整する。
我々のモデルはメッセージ・パス・テンポラリ・ネットワークとしてキャストでき、密度推定と分子生成のタスクで最高の性能が得られる。
特に,我々の生成したサンプルは,標準QM9とZINC250Kベンチマークの両方で最先端を達成している。 Generating new molecules is fundamental to advancing critical applications such as drug discovery and material synthesis. Flows can generate molecules effectively by inverting the encoding process, however, existing flow models either require artifactual dequantization or specific node/edge orderings, lack desiderata such as permutation invariance or induce discrepancy between the encoding and the decoding steps that necessitates {\em post hoc} validity correction. We circumvent these issues with novel continuous normalizing E(3)-equivariant flows, based on a system of node ODEs coupled as a graph PDE, that repeatedly reconcile locally toward globally aligned densities. Our models can be cast as message-passing temporal networks, and result in superlative performance on the tasks of density estimation and molecular generation. In particular, our generated samples achieve state-of-the-art on both the standard QM9 and ZINC250K benchmarks. | 翻訳日:2022-10-13 13:34:31 公開日:2022-10-12 |
# NUVプリミティブを用いた外部感度カルマンフィルタ Outlier-Insensitive Kalman Filtering Using NUV Priors ( http://arxiv.org/abs/2210.06083v1 ) ライセンス: Link先を確認 | Shunit Truzman, Guy Revach, Nir Shlezinger, and Itzik Klein | (参考訳) カルマンフィルタ(kalman filter, kf)は、静かな観測から力学系の潜在状態を追跡するアルゴリズムである。
線型ガウス状態空間モデルでよく記述されている系では、KFは平均二乗誤差(MSE)を最小化する。
しかし実際には、観測は異常値によって破損し、KFの性能を著しく損なう。
本研究では、各電位外乱を未知の分散確率変数(NUV)としてモデル化し、ロバスト性を実現する外乱非感性KFを提案する。
予測最大化(EM)と交互最大化(AM)の両方を用いて、NUVの分散をオンラインで推定する。
前者は以前、外れ値のスムーズ化のために提案され、ここではフィルタリングに適応し、EMとAMは同じ性能を取得し、他のアルゴリズムよりも優れているが、AMアプローチはより複雑で、実行時間も40パーセント削減される。
我々の実証的研究は、提案した不感度なKFのMSEが以前提案したアルゴリズムよりも優れており、データクリーニングのためには古典的なKF、すなわちMSE最適性が保存されることを示した。 The Kalman filter (KF) is a widely-used algorithm for tracking the latent state of a dynamical system from noisy observations. For systems that are well-described by linear Gaussian state space models, the KF minimizes the mean-squared error (MSE). However, in practice, observations are corrupted by outliers, severely impairing the KFs performance. In this work, an outlier-insensitive KF is proposed, where robustness is achieved by modeling each potential outlier as a normally distributed random variable with unknown variance (NUV). The NUVs variances are estimated online, using both expectation-maximization (EM) and alternating maximization (AM). The former was previously proposed for the task of smoothing with outliers and was adapted here to filtering, while both EM and AM obtained the same performance and outperformed the other algorithms, the AM approach is less complex and thus requires 40 percentage less run-time. Our empirical study demonstrates that the MSE of our proposed outlier-insensitive KF outperforms previously proposed algorithms, and that for data clean of outliers, it reverts to the classic KF, i.e., MSE optimality is preserved | 翻訳日:2022-10-13 13:34:12 公開日:2022-10-12 |
# Gotcha:リアルタイムディープフェイク検出のためのチャレンジ応答システム Gotcha: A Challenge-Response System for Real-Time Deepfake Detection ( http://arxiv.org/abs/2210.06186v1 ) ライセンス: Link先を確認 | Govind Mittal, Jiraphon Yenphraphai, Chinmay Hegde, Nasir Memon | (参考訳) オンラインビデオインタラクションの整合性は、現在リアルタイムにデプロイ可能なAI対応の高品質なディープフェイクの普及によって脅かされている。
本稿では,ライブビデオ対話のためのリアルタイムディープフェイク検出システムであるgotchaを提案する。
Gotchaの中核となる原則は、ビデオ会議参加者に対して、アクティブとパッシブの両方の課題を特別に選択したカスケードのプレゼンテーションである。
アクティブな課題には、顔の隠蔽、表情、視野角、環境の変化の誘発、ウェブカメラフィードのデジタル操作などが含まれる。
この課題は、現代のディープフェイクジェネレータの構造における脆弱性を標的にし、MLベースの自動ディープフェイク検出器のための堅牢なシグナルを誘導しながら、人間の目に知覚可能なアーティファクトを作成するように設計されている。
本稿では,様々な課題の中で自然な階層構造を明らかにする課題タスクの包括的分類法を提案する。
当社のシステムは,この階層を,疑わしいディープフェイクに対して,段階的に要求の厳しい課題をカスケードすることで活用する。
本システムでは,ディープフェイクをエミュレートするライブユーザの新たなデータセット上で評価を行い,本システムによるディープフェイク品質の一貫性,測定可能な劣化性を示し,ワイルドにデプロイした場合のリアルタイムディープフェイク検出への期待を示す。 The integrity of online video interactions is threatened by the widespread rise of AI-enabled high-quality deepfakes that are now deployable in real-time. This paper presents Gotcha, a real-time deepfake detection system for live video interactions. The core principle underlying Gotcha is the presentation of a specially chosen cascade of both active and passive challenges to video conference participants. Active challenges include inducing changes in face occlusion, face expression, view angle, and ambiance; passive challenges include digital manipulation of the webcam feed. The challenges are designed to target vulnerabilities in the structure of modern deepfake generators and create perceptible artifacts for the human eye while inducing robust signals for ML-based automatic deepfake detectors. We present a comprehensive taxonomy of a large set of challenge tasks, which reveals a natural hierarchy among different challenges. Our system leverages this hierarchy by cascading progressively more demanding challenges to a suspected deepfake. We evaluate our system on a novel dataset of live users emulating deepfakes and show that our system provides consistent, measurable degradation of deepfake quality, showcasing its promise for robust real-time deepfake detection when deployed in the wild. | 翻訳日:2022-10-13 13:27:59 公開日:2022-10-12 |
# 自己改善等変正則化による複数症例の学習:関節反射性糖尿病網膜症分類と病変分割 Self-Supervised Equivariant Regularization Reconciles Multiple Instance Learning: Joint Referable Diabetic Retinopathy Classification and Lesion Segmentation ( http://arxiv.org/abs/2210.05946v1 ) ライセンス: Link先を確認 | Wenhui Zhu, Peijie Qiu, Natasha Lepore, Oana M. Dumitrascu and Yalin Wang | (参考訳) 病変の出現は、参照可能な糖尿病網膜症(rdr)と、参照不能なdrデータセットとを区別する上で、医療機関にとって重要な手がかりである。
これにより、画像レベルのラベルを用いてrDRとセグメント病変を分類するアルゴリズムを開発することができる。
本稿では,自己教師付き同変学習と注目型マルチインスタンス学習(MIL)を活用し,この問題に対処する。
MILは、負のインスタンスと正のインスタンスを区別する効果的な戦略であり、病変領域(正のインスタンス)をローカライズしながら、背景領域(負のインスタンス)を破棄するのに役立つ。
しかし、MILは粗い病変の局在のみを提供し、隣接したパッチにまたがる病変を区別できない。
逆に、自己監督同変注意機構(SEAM)は、より正確に病変のパッチ抽出をガイドできるセグメンテーションレベルクラスアクティベーションマップ(CAM)を生成する。
本研究の目的は,rDR分類精度を向上させるために両方の手法を統合することである。
我々はeyepacsデータセットの広範囲な検証実験を行い、0.958の受信者動作特性曲線(au roc)の下の領域を達成する。 Lesion appearance is a crucial clue for medical providers to distinguish referable diabetic retinopathy (rDR) from non-referable DR. Most existing large-scale DR datasets contain only image-level labels rather than pixel-based annotations. This motivates us to develop algorithms to classify rDR and segment lesions via image-level labels. This paper leverages self-supervised equivariant learning and attention-based multi-instance learning (MIL) to tackle this problem. MIL is an effective strategy to differentiate positive and negative instances, helping us discard background regions (negative instances) while localizing lesion regions (positive ones). However, MIL only provides coarse lesion localization and cannot distinguish lesions located across adjacent patches. Conversely, a self-supervised equivariant attention mechanism (SEAM) generates a segmentation-level class activation map (CAM) that can guide patch extraction of lesions more accurately. Our work aims at integrating both methods to improve rDR classification accuracy. We conduct extensive validation experiments on the Eyepacs dataset, achieving an area under the receiver operating characteristic curve (AU ROC) of 0.958, outperforming current state-of-the-art algorithms. | 翻訳日:2022-10-13 13:27:37 公開日:2022-10-12 |
# 新しい多目的速度自由ブール粒子群最適化 A Novel Multi-Objective Velocity-Free Boolean Particle Swarm Optimization ( http://arxiv.org/abs/2210.05882v1 ) ライセンス: Link先を確認 | Wei Quan and Denise Gorse | (参考訳) 本稿では, ブール粒子群最適化を多目的設定に拡張し, 文献ではじめて知見を得た。
提案する新しいブールアルゴリズムであるmbonvpsoは,速度更新規則の省略により顕著に単純化され,局所光学系に粒子が閉じ込められるのを防ぐ位置更新規則に「ノイズ」項が含まれていることにより探索能力が向上した。
このアルゴリズムは非支配的なソリューションを格納するために外部アーカイブを使用し、ソリューションの多様性を促進するためにクラウド化距離を実装します。
ベンチマークテストでは、MBOnvPSOは、ベンチマークされた代替品と比較して、最大600個の離散次元の検索空間で競合する性能で、考慮された全ての多目的テスト関数に対して、高品質なパレートフロントを生成した。 This paper extends boolean particle swarm optimization to a multi-objective setting, to our knowledge for the first time in the literature. Our proposed new boolean algorithm, MBOnvPSO, is notably simplified by the omission of a velocity update rule and has enhanced exploration ability due to the inclusion of a 'noise' term in the position update rule that prevents particles being trapped in local optima. Our algorithm additionally makes use of an external archive to store non-dominated solutions and implements crowding distance to encourage solution diversity. In benchmark tests, MBOnvPSO produced high quality Pareto fronts, when compared to benchmarked alternatives, for all of the multi-objective test functions considered, with competitive performance in search spaces with up to 600 discrete dimensions. | 翻訳日:2022-10-13 13:27:15 公開日:2022-10-12 |
# ネストセルオートマトンにおける情報処理のシステム理論的アプローチ System theoretic approach of information processing in nested cellular automata ( http://arxiv.org/abs/2210.06052v1 ) ライセンス: Link先を確認 | Jerzy Szynka | (参考訳) 本稿では,ネストセルオートマトンにおけるマルチレベル処理に基づく正規構造における情報処理の概念の進化について述べる。
提案モデルの本質は、その点におけるネスト直交時空を含む離散時空である。
システムのグローバルな振る舞いを記述する関数の分解は、数学的記述の鍵となる要素である。
因子化は、物理接続、信号伝搬時間、信号処理とグローバルな行動の関係を記述している。
モデルでは、特殊相対性理論で使われる表現に似た表現が現れる。 The subject of this paper is the evolution of the concept of information processing in regular structures based on multi-level processing in nested cellular automata. The essence of the proposed model is a discrete space-time containing nested orthogonal space-times at its points. The factorization of the function describing the global behavior of a system is the key element of the mathematical description. Factorization describes the relations of physical connections, signal propagation times and signal processing to global behavior. In the model appear expressions similar to expressions used in the Special Relativity Theory. | 翻訳日:2022-10-13 13:26:59 公開日:2022-10-12 |
# 同じ道を旅する: 新しいTSP解決戦略 Travel the Same Path: A Novel TSP Solving Strategy ( http://arxiv.org/abs/2210.05906v1 ) ライセンス: Link先を確認 | Pingbang Hu | (参考訳) 本稿では,TCS コミュニティで盛んに研究されている組合せ最適化問題であるトラベリングセールスマン問題を解決するための新しい戦略を提案する。
特に,予測不可能性や潜在的な大きな偏差に悩まされることなく,解の正確性を維持しながら,決定論的アルゴリズムが適切な選択を行うのに役立つ模倣学習フレームワークについて考察する。
さらに、模倣学習フレームワークの下で訓練されたグラフニューラルネットワークの強力な一般化能力を示す。
具体的には、トレーニング時に小さなTSPインスタンスしか見られないが、ベースラインよりも高速にTSPの大規模なインスタンスを解決することができる。 In this paper, we provide a novel strategy for solving Traveling Salesman Problem, which is a famous combinatorial optimization problem studied intensely in the TCS community. In particular, we consider the imitation learning framework, which helps a deterministic algorithm making good choices whenever it needs to, resulting in a speed up while maintaining the exactness of the solution without suffering from the unpredictability and a potential large deviation. Furthermore, we demonstrate a strong generalization ability of a graph neural network trained under the imitation learning framework. Specifically, the model is capable of solving a large instance of TSP faster than the baseline while has only seen small TSP instances when training. | 翻訳日:2022-10-13 13:26:04 公開日:2022-10-12 |
# 攻撃を伴わない効果的な対人訓練:ロバスト強化学習の最悪の事例 Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning ( http://arxiv.org/abs/2210.05927v1 ) ライセンス: Link先を確認 | Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Furong Huang | (参考訳) 近年の研究では、よく訓練された深層強化学習(rl)ポリシーは、特に入力観測における敵対的摂動に対して脆弱であることが示されている。
したがって、予算制限のある攻撃に対して堅牢なrlエージェントを訓練することが重要である。
ディープRLの既存の堅牢なトレーニング手法は、関連するステップを別々に扱い、長期的な報酬の堅牢さを無視したり、エージェントとRLベースの攻撃者を訓練したり、トレーニングプロセスの計算負担とサンプルの複雑さを2倍にする。
本研究では,攻撃者の学習に余分なサンプルを必要とせずに,境界付きl_p攻撃下でのポリシーの最悪の報酬を直接見積り,最適化する,Worst-case-aware Robust RL(WocaR-RL)という,RLのための堅牢で効率的なロバストなトレーニングフレームワークを提案する。
複数の環境での実験により、WocaR-RLは様々な強力な攻撃の下で最先端の性能を達成し、従来の最先端の堅牢な訓練方法よりもはるかに高い訓練効率が得られることが示された。
この作業のコードはhttps://github.com/umd-huang-lab/WocaR-RLで公開されている。 Recent studies reveal that a well-trained deep reinforcement learning (RL) policy can be particularly vulnerable to adversarial perturbations on input observations. Therefore, it is crucial to train RL agents that are robust against any attacks with a bounded budget. Existing robust training methods in deep RL either treat correlated steps separately, ignoring the robustness of long-term rewards, or train the agents and RL-based attacker together, doubling the computational burden and sample complexity of the training process. In this work, we propose a strong and efficient robust training framework for RL, named Worst-case-aware Robust RL (WocaR-RL) that directly estimates and optimizes the worst-case reward of a policy under bounded l_p attacks without requiring extra samples for learning an attacker. Experiments on multiple environments show that WocaR-RL achieves state-of-the-art performance under various strong attacks, and obtains significantly higher training efficiency than prior state-of-the-art robust training methods. The code of this work is available at https://github.com/umd-huang-lab/WocaR-RL. | 翻訳日:2022-10-13 13:25:53 公開日:2022-10-12 |
# 自己適応システムのオンライン強化学習決定の説明 Explaining Online Reinforcement Learning Decisions of Self-Adaptive Systems ( http://arxiv.org/abs/2210.05931v1 ) ライセンス: Link先を確認 | Felix Feit and Andreas Metzger and Klaus Pohl | (参考訳) 設計時間の不確実性は、自己適応システムを開発する際に重要な課題となる。
例えば、新しい環境状態に直面した時にシステムがどのように適応すべきかを定義するには、設計時に知られていない適応の正確な効果を理解する必要がある。
オンライン強化学習、すなわち、実行時に強化学習(RL)を採用することは、設計時間の不確実性の存在下で自己適応システムを実現するための新しいアプローチである。
Online RLを使用することで、自己適応システムは実際の運用データから学び、実行時にのみ利用可能なフィードバックを活用することができる。
近年、Deep RLが注目されている。
Deep RLは学習知識をニューラルネットワークとして表現し、目に見えない入力を一般化し、継続的な環境状態や適応アクションを処理する。
deep rlの根本的な問題は、学習知識が明示的に表現されていないことである。
人間にとって、ニューラルネットワークのパラメータ化と具体的なRLの決定を関連付けることは事実上不可能であり、したがってDeep RLは本質的にブラックボックスとして現れる。
しかし,Deep RLが行う決定を理解することは,(1)信頼の向上,(2)デバッグを容易にするための鍵となる。
このようなデバッグは、rlアルゴリズムへのフィードバックを定量化する報酬関数を開発者が定義しなければならないため、自己適応システムにとって特に意味がある。
報酬関数は開発者が明示的に定義しなければならないため、ヒューマンエラーの可能性がある。
自己適応システムのためのDeep RLを説明するために,機械学習の文献から既存の2つの説明可能なRL技術を拡張し,組み合わせる。
組み合わせたテクニックであるXRL-DINEは個々のテクニックの制限を克服する。
本稿では、XRL-DINEの概念実証と、XRL-DINEを自己適応システムに応用する質的かつ定量的な結果を提案する。 Design time uncertainty poses an important challenge when developing a self-adaptive system. As an example, defining how the system should adapt when facing a new environment state, requires understanding the precise effect of an adaptation, which may not be known at design time. Online reinforcement learning, i.e., employing reinforcement learning (RL) at runtime, is an emerging approach to realizing self-adaptive systems in the presence of design time uncertainty. By using Online RL, the self-adaptive system can learn from actual operational data and leverage feedback only available at runtime. Recently, Deep RL is gaining interest. Deep RL represents learned knowledge as a neural network whereby it can generalize over unseen inputs, as well as handle continuous environment states and adaptation actions. A fundamental problem of Deep RL is that learned knowledge is not explicitly represented. For a human, it is practically impossible to relate the parametrization of the neural network to concrete RL decisions and thus Deep RL essentially appears as a black box. Yet, understanding the decisions made by Deep RL is key to (1) increasing trust, and (2) facilitating debugging. Such debugging is especially relevant for self-adaptive systems, because the reward function, which quantifies the feedback to the RL algorithm, must be defined by developers. The reward function must be explicitly defined by developers, thus introducing a potential for human error. To explain Deep RL for self-adaptive systems, we enhance and combine two existing explainable RL techniques from the machine learning literature. The combined technique, XRL-DINE, overcomes the respective limitations of the individual techniques. We present a proof-of-concept implementation of XRL-DINE, as well as qualitative and quantitative results of applying XRL-DINE to a self-adaptive system exemplar. | 翻訳日:2022-10-13 13:25:26 公開日:2022-10-12 |
# 理論的に着想を得たニューラル初期化最適化に向けて Towards Theoretically Inspired Neural Initialization Optimization ( http://arxiv.org/abs/2210.05956v1 ) ライセンス: Link先を確認 | Yibo Yang, Hong Wang, Haobo Yuan, Zhouchen Lin | (参考訳) 自動機械学習は、ニューラルネットワークの設計と適切なハイパーパラメータを求める人間の努力を減らすために広く研究されてきた。
しかし、神経初期化の領域では、同様の自動化技術が研究されることはほとんどない。
既存の初期化手法の多くは手作りであり、特定のアーキテクチャに依存している。
本稿では,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
特に、GradCosine は初期化パラメータに対するサンプルワイズ勾配のコサイン類似性である。
サンプル毎最適化のランドスケープを分析することにより,勾配ノルム制約下でのgradcosineの最大化により,ネットワークのトレーニングとテスト性能が向上することを示す。
そこで本研究では,ニューラル初期化最適化(NIO)アルゴリズムを提案する。
サンプル分析から実際のバッチ設定に一般化されたNIOは、トレーニング時間と比較して無視できないコストで、より優れた初期化を自動で探すことができる。
NIOにより、CIFAR-10、CIFAR-100、ImageNet上の様々なニューラルネットワークの分類性能が向上する。
さらに,本手法は,ウォームアップを伴わない大規模視覚トランスフォーマーアーキテクチャのトレーニングにも有効であることがわかった。 Automated machine learning has been widely explored to reduce human efforts in designing neural architectures and looking for proper hyperparameters. In the domain of neural initialization, however, similar automated techniques have rarely been studied. Most existing initialization methods are handcrafted and highly dependent on specific architectures. In this paper, we propose a differentiable quantity, named GradCosine, with theoretical insights to evaluate the initial state of a neural network. Specifically, GradCosine is the cosine similarity of sample-wise gradients with respect to the initialized parameters. By analyzing the sample-wise optimization landscape, we show that both the training and test performance of a network can be improved by maximizing GradCosine under gradient norm constraint. Based on this observation, we further propose the neural initialization optimization (NIO) algorithm. Generalized from the sample-wise analysis into the real batch setting, NIO is able to automatically look for a better initialization with negligible cost compared with the training time. With NIO, we improve the classification performance of a variety of neural architectures on CIFAR-10, CIFAR-100, and ImageNet. Moreover, we find that our method can even help to train large vision Transformer architecture without warmup. | 翻訳日:2022-10-13 13:18:58 公開日:2022-10-12 |
# 小さなデータセット上で視覚トランスフォーマーと畳み込みニューラルネットワークのギャップを埋める Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets ( http://arxiv.org/abs/2210.05958v1 ) ライセンス: Link先を確認 | Zhiying Lu, Hongtao Xie, Chuanbin Liu, Yongdong Zhang | (参考訳) 小規模なデータセットでスクラッチからトレーニングを行う場合、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では,この問題をさらに考慮し,帰納的バイアス,すなわち空間的妥当性と多様なチャネル表現におけるvitsの2つの弱点を指摘する。
まず、空間的な側面では、オブジェクトは局所的にコンパクトで関連するので、トークンとその近傍から細かな特徴を抽出する必要があります。
データ不足は、ViTが空間的関連性に到達するのを妨げます。
第2に、チャネルの側面において、表現は異なるチャネルに多様性を示す。
しかし、データが少ないため、ViTは正確な認識のための十分な表現を学べない。
そこで本稿では,2つの帰納バイアスを改善するための解として,動的ハイブリッドビジョン変換器(DHVT)を提案する。
空間的側面では、畳み込みをパッチ埋め込みと多層パーセプトロンモジュールに統合するハイブリッド構造を採用し、そのモデルがトークンの特徴と隣接する特徴をキャプチャすることを強制する。
チャネルの側面では、MLPの動的機能集約モジュールと、チャネル表現を再校正し、異なるチャネル群表現を相互に相互作用させるマルチヘッド自己アテンションモジュールに新しい"ヘッドトークン"設計を導入する。
弱いチャネル表現の融合は分類に十分強い表現を形成する。
この設計により、CNNとViTのパフォーマンスギャップを解消し、DHVTは、CIFAR-100で85.68%、22.8Mパラメータで82.3%、24.0MパラメータでImageNet-1Kで82.3%の軽量モデルで、一連の最先端性能を実現する。
コードはhttps://github.com/ArieSeirack/DHVT.comで入手できる。 There still remains an extreme performance gap between Vision Transformers (ViTs) and Convolutional Neural Networks (CNNs) when training from scratch on small datasets, which is concluded to the lack of inductive bias. In this paper, we further consider this problem and point out two weaknesses of ViTs in inductive biases, that is, the spatial relevance and diverse channel representation. First, on spatial aspect, objects are locally compact and relevant, thus fine-grained feature needs to be extracted from a token and its neighbors. While the lack of data hinders ViTs to attend the spatial relevance. Second, on channel aspect, representation exhibits diversity on different channels. But the scarce data can not enable ViTs to learn strong enough representation for accurate recognition. To this end, we propose Dynamic Hybrid Vision Transformer (DHVT) as the solution to enhance the two inductive biases. On spatial aspect, we adopt a hybrid structure, in which convolution is integrated into patch embedding and multi-layer perceptron module, forcing the model to capture the token features as well as their neighboring features. On channel aspect, we introduce a dynamic feature aggregation module in MLP and a brand new "head token" design in multi-head self-attention module to help re-calibrate channel representation and make different channel group representation interacts with each other. The fusion of weak channel representation forms a strong enough representation for classification. With this design, we successfully eliminate the performance gap between CNNs and ViTs, and our DHVT achieves a series of state-of-the-art performance with a lightweight model, 85.68% on CIFAR-100 with 22.8M parameters, 82.3% on ImageNet-1K with 24.0M parameters. Code is available at https://github.com/ArieSeirack/DHVT. | 翻訳日:2022-10-13 13:18:40 公開日:2022-10-12 |
# 多変量時系列予測のための意味知識を用いた正規化グラフ構造学習 Regularized Graph Structure Learning with Semantic Knowledge for Multi-variates Time-Series Forecasting ( http://arxiv.org/abs/2210.06126v1 ) ライセンス: Link先を確認 | Hongyuan Yu, Ting Li, Weichen Yu, Jianguo Li, Yan Huang, Liang Wang, Alex Liu | (参考訳) 多変量時系列予測は,多くのアプリケーションにとって重要な課題であり,空間的時間的相関を同時に捉える能力から,グラフ時系列ネットワークが広く研究されている。
しかし、既存のほとんどの作品は、暗黙のグラフ構造から潜在的な情報を無視しながら、明示的な事前のグラフ構造で学習することに集中し、不完全な構造モデリングをもたらす。
いくつかの最近の研究は、明示的な事前構造と暗黙的な構造を組み合わせながら、内在的あるいは暗黙的なグラフ構造を直接学ぼうとしている。
本稿では、明示的な事前構造と暗黙的な構造の両方を組み込んだ正規化グラフ構造学習(RGSL)モデルを提案し、グラフ構造とともに深層ネットワークの予測を学習する。
RGSLは2つの革新的なモジュールから構成される。
まず,ノード埋め込みによる暗黙的な密接な類似性行列を導出し,Gumbel Softmax のトリックに基づいて正規化グラフ生成(RGG)を用いてスパースグラフ構造を学習する。
第二に、明示グラフと暗黙グラフを融合させるラプラシア行列混合モジュール(LM3)を提案する。
実単語のデータセットを3つ実験する。
提案したRGSLモデルは,有意なグラフ構造を同時に学習しながら,既存のグラフ予測アルゴリズムを顕著なマージンで上回ることを示す。
私たちのコードとモデルはhttps://github.com/alipay/rgsl.gitで公開されています。 Multivariate time-series forecasting is a critical task for many applications, and graph time-series network is widely studied due to its capability to capture the spatial-temporal correlation simultaneously. However, most existing works focus more on learning with the explicit prior graph structure, while ignoring potential information from the implicit graph structure, yielding incomplete structure modeling. Some recent works attempt to learn the intrinsic or implicit graph structure directly while lacking a way to combine explicit prior structure with implicit structure together. In this paper, we propose Regularized Graph Structure Learning (RGSL) model to incorporate both explicit prior structure and implicit structure together, and learn the forecasting deep networks along with the graph structure. RGSL consists of two innovative modules. First, we derive an implicit dense similarity matrix through node embedding, and learn the sparse graph structure using the Regularized Graph Generation (RGG) based on the Gumbel Softmax trick. Second, we propose a Laplacian Matrix Mixed-up Module (LM3) to fuse the explicit graph and implicit graph together. We conduct experiments on three real-word datasets. Results show that the proposed RGSL model outperforms existing graph forecasting algorithms with a notable margin, while learning meaningful graph structure simultaneously. Our code and models are made publicly available at https://github.com/alipay/RGSL.git. | 翻訳日:2022-10-13 13:18:07 公開日:2022-10-12 |
# マンモグラフィースキャンにおける生成モデルとSum-Product Networkを用いた異常検出 Anomaly Detection using Generative Models and Sum-Product Networks in Mammography Scans ( http://arxiv.org/abs/2210.06188v1 ) ライセンス: Link先を確認 | Marc Dietrichstein, David Major, Maria Wimmer, Dimitrios Lenis, Philip Winter, Astrid Berg, Theresa Neubauer, Katja B\"uhler | (参考訳) 近年,医療データのアノテーションが面倒な作業であるため,健康データのみによって訓練された教師なし異常検出モデルの重要性が高まっている。
自動エンコーダと生成逆数ネットワークは、データ分布の学習に使用される標準的な異常検出手法である。
しかし、それらは推論やテストサンプルの可能性の評価に関して不足している。
本稿では,生成モデルと確率的グラフィカルモデルの組み合わせを提案する。
自動エンコーダによる画像サンプルの符号化後、データの分布はRandomとTensorized Sum-Product Networksによってモデル化され、テスト時の正確な効率的な推論が保証される。
乳房画像におけるランダムおよびテンソル化サムプロダクトネットワークと組み合わされた異なるオートエンコーダアーキテクチャをパッチワイズ処理を用いて評価し,医療データの異常検出におけるスタンドアロンおよび最先端のモデルの利用よりも優れた性能を観察する。 Unsupervised anomaly detection models which are trained solely by healthy data, have gained importance in the recent years, as the annotation of medical data is a tedious task. Autoencoders and generative adversarial networks are the standard anomaly detection methods that are utilized to learn the data distribution. However, they fall short when it comes to inference and evaluation of the likelihood of test samples. We propose a novel combination of generative models and a probabilistic graphical model. After encoding image samples by autoencoders, the distribution of data is modeled by Random and Tensorized Sum-Product Networks ensuring exact and efficient inference at test time. We evaluate different autoencoder architectures in combination with Random and Tensorized Sum-Product Networks on mammography images using patch-wise processing and observe superior performance over utilizing the models standalone and state-of-the-art in anomaly detection for medical data. | 翻訳日:2022-10-13 13:17:44 公開日:2022-10-12 |
# ファウショット学習のための意味的クロスアテンション Semantic Cross Attention for Few-shot Learning ( http://arxiv.org/abs/2210.06311v1 ) ライセンス: Link先を確認 | Bin Xiao, Chien-Liang Liu, Wen-Hoar Hsaio | (参考訳) 近年,FSL (Few-shot Learning) が注目されている。
従来の手法では, 類似のサンプルを可能な限り近づき, 有望な結果が得られるよう, 組込みネットワークを訓練することを目的としていた。
FSLは、画像分類問題における新しいクラスに一般化できるモデルを訓練するために、少数の画像のみを使用することで特徴付けられるが、この設定は、画像の外観のバリエーションを識別できる視覚的特徴を学習することを困難にしている。
モデルトレーニングは、同一のセマンティッククラスの画像が異なる外観を持つのに対して、異なるセマンティッククラスの画像は同様の外観を持つため、間違った方向に移動する可能性が高い。
FSLは、識別的特徴表現を学習するための追加的な意味的特徴の恩恵を受けることができる。
そこで本研究では,FSLタスクの性能向上を支援するために,ラベルテキストのセマンティックな特徴を補助タスクとみなすマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
提案手法は単純だが,優れた結果が得られる。
提案手法は,従来の2つのメトリックベースfsl法に適用し,いずれも性能を著しく向上させる。
私たちのモデルのソースコードはgithubからアクセスできます。 Few-shot learning (FSL) has attracted considerable attention recently. Among existing approaches, the metric-based method aims to train an embedding network that can make similar samples close while dissimilar samples as far as possible and achieves promising results. FSL is characterized by using only a few images to train a model that can generalize to novel classes in image classification problems, but this setting makes it difficult to learn the visual features that can identify the images' appearance variations. The model training is likely to move in the wrong direction, as the images in an identical semantic class may have dissimilar appearances, whereas the images in different semantic classes may share a similar appearance. We argue that FSL can benefit from additional semantic features to learn discriminative feature representations. Thus, this study proposes a multi-task learning approach to view semantic features of label text as an auxiliary task to help boost the performance of the FSL task. Our proposed model uses word-embedding representations as semantic features to help train the embedding network and a semantic cross-attention module to bridge the semantic features into the typical visual modal. The proposed approach is simple, but produces excellent results. We apply our proposed approach to two previous metric-based FSL methods, all of which can substantially improve performance. The source code for our model is accessible from github. | 翻訳日:2022-10-13 13:17:28 公開日:2022-10-12 |
# Augmentationsの価値はどれくらいか?
スケーリング則、不変性、暗黙の正規化に関する研究 How Much Data Are Augmentations Worth? An Investigation into Scaling Laws, Invariance, and Implicit Regularization ( http://arxiv.org/abs/2210.06441v1 ) ライセンス: Link先を確認 | Jonas Geiping, Micah Goldblum, Gowthami Somepalli, Ravid Shwartz-Ziv, Tom Goldstein, Andrew Gordon Wilson | (参考訳) データ拡張による明らかなパフォーマンス上のメリットにもかかわらず、なぜそのような効果があるのかは分かっていない。
本稿では、データ拡張が動作するいくつかの重要なメカニズムを解消する。
付加的な実データと付加的な実データとの交換率を確立することで、分散テストのシナリオでは、多種多様なサンプルを生成するが、データ分布と矛盾する増分は、追加のトレーニングデータよりもさらに価値が高いことが分かる。
さらに,不変性を促進するデータ拡張は,特に中小規模のトレーニングセットにおいて,非分散のみよりも有用であることがわかった。
この観察結果から,トレーニング中に増強がさらなる確率性をもたらし,損失景観を効果的に平坦化させることを示した。 Despite the clear performance benefits of data augmentations, little is known about why they are so effective. In this paper, we disentangle several key mechanisms through which data augmentations operate. Establishing an exchange rate between augmented and additional real data, we find that in out-of-distribution testing scenarios, augmentations which yield samples that are diverse, but inconsistent with the data distribution can be even more valuable than additional training data. Moreover, we find that data augmentations which encourage invariances can be more valuable than invariance alone, especially on small and medium sized training sets. Following this observation, we show that augmentations induce additional stochasticity during training, effectively flattening the loss landscape. | 翻訳日:2022-10-13 13:17:03 公開日:2022-10-12 |
# SQuId: 多くの言語における音声の自然度の測定 SQuId: Measuring Speech Naturalness in Many Languages ( http://arxiv.org/abs/2210.06324v1 ) ライセンス: Link先を確認 | Thibault Sellam, Ankur Bapna, Joshua Camp, Diana Mackinnon, Ankur P. Parikh, Jason Riesa | (参考訳) テキストから音声への研究の多くは、人的評価に依存しているため、コストがかかり、開発プロセスが遅くなる。
特に多言語アプリケーションでは、採用とポーリングの審査員が数週間かかることがある。
我々は,100万人以上のレーティングで訓練され,65箇所でテストされた多言語自然性予測モデルであるsquid(speech quality identification)を紹介する。
主な洞察は、多くのローカルでの1つのモデルのトレーニングが、単ローカルベースラインを一貫して上回ることである。
本稿では,W2v-BERTとVoiceMOSに基づく競争ベースラインを50.0%上回る性能を示した。
次に, 微調整時のクロスロケール転送の有効性を実証し, その効果をゼロショットロケール, すなわち微調整データがないロケールに強調する。
クロスローカリー転送における音響アーチファクトなどの非言語的効果の役割を,一連の分析を通じて強調する。
最後に,いくつかのアブレーション実験を用いて,モデルサイズ,事前学習の多様性,言語リバランスなど,設計決定の効果について述べる。 Much of text-to-speech research relies on human evaluation, which incurs heavy costs and slows down the development process. The problem is particularly acute in heavily multilingual applications, where recruiting and polling judges can take weeks. We introduce SQuId (Speech Quality Identification), a multilingual naturalness prediction model trained on over a million ratings and tested in 65 locales-the largest effort of this type to date. The main insight is that training one model on many locales consistently outperforms mono-locale baselines. We present our task, the model, and show that it outperforms a competitive baseline based on w2v-BERT and VoiceMOS by 50.0%. We then demonstrate the effectiveness of cross-locale transfer during fine-tuning and highlight its effect on zero-shot locales, i.e., locales for which there is no fine-tuning data. Through a series of analyses, we highlight the role of non-linguistic effects such as sound artifacts in cross-locale transfer. Finally, we present the effect of our design decision, e.g., model size, pre-training diversity, and language rebalancing with several ablation experiments. | 翻訳日:2022-10-13 13:16:28 公開日:2022-10-12 |
# 離散観測による等質線形ODE学習における認識可能性と漸近性 Identifiability and Asymptotics in Learning Homogeneous Linear ODE Systems from Discrete Observations ( http://arxiv.org/abs/2210.05955v1 ) ライセンス: Link先を確認 | Yuanyuan Wang, Wei Huang, Mingming Gong, Xi Geng, Tongliang Liu, Kun Zhang, Dacheng Tao | (参考訳) 通常の微分方程式(ode)は最近、機械学習で多くの注目を集めている。
しかし、統計的推定の識別可能性や漸近的性質などの理論的側面はいまだ不明である。
本稿では,単一軌道からサンプリングされた等間隔の誤差のない観測結果から,均質な線形odeシステムの同定性について十分な条件を導出する。
測定ノイズによって観測が乱される場合, 軽度条件下では, 非線形最小二乗法(nls)に基づくパラメータ推定器は, $n^{-1/2}$収束率の漸近正規値である。
漸近正規性特性に基づき、未知のシステムパラメータに対する信頼度集合を構築し、odeシステムの因果構造、すなわちシステム変数間に因果関係が存在するかどうかを推測する新しい手法を提案する。
さらに,解析結果を集約や時間スケールを含む劣化観測に拡張する。
我々の知る限り、我々の研究は線形ODEシステムの学習における識別性と漸近性に関する最初の体系的研究である。
また, 確立された理論結果を説明するために, 様々なシステム次元のシミュレーションを構築した。 Ordinary Differential Equations (ODEs) have recently gained a lot of attention in machine learning. However, the theoretical aspects, e.g., identifiability and asymptotic properties of statistical estimation are still obscure. This paper derives a sufficient condition for the identifiability of homogeneous linear ODE systems from a sequence of equally-spaced error-free observations sampled from a single trajectory. When observations are disturbed by measurement noise, we prove that under mild conditions, the parameter estimator based on the Nonlinear Least Squares (NLS) method is consistent and asymptotic normal with $n^{-1/2}$ convergence rate. Based on the asymptotic normality property, we construct confidence sets for the unknown system parameters and propose a new method to infer the causal structure of the ODE system, i.e., inferring whether there is a causal link between system variables. Furthermore, we extend the results to degraded observations, including aggregated and time-scaled ones. To the best of our knowledge, our work is the first systematic study of the identifiability and asymptotic properties in learning linear ODE systems. We also construct simulations with various system dimensions to illustrate the established theoretical results. | 翻訳日:2022-10-13 13:09:52 公開日:2022-10-12 |
# 配列からの同変構造の教師なし学習 Unsupervised Learning of Equivariant Structure from Sequences ( http://arxiv.org/abs/2210.05972v1 ) ライセンス: Link先を確認 | Takeru Miyato, Masanori Koyama, Kenji Fukumizu | (参考訳) 本研究では,少なくとも3つの長さの時系列から対称性を学習するための教師なしフレームワークであるメタシーケンス予測(MSP)を提案する。
本手法は, エンコーダ・デコーダモデルのトレーニングにより, 時系列の定常特性(例えば, 定速度, 定加速度)を活用して, 将来の観測を予測できることで, データセットの基本的同変構造を学習する。
本稿では,本フレームワークを用いて,グループ動作に対する応答のタイプに基づいて特徴空間を分解する表現理論において一般的に用いられる手法である遷移演算子に同時ブロック対角化を適用することにより,データセットの隠蔽不整合構造が副産物として自然に現れることを示す。
実証的・理論的両面から,我々の方法を紹介する。
その結果,単純な構造的関係の発見と外挿能力を持つモデル学習は,同じコインの2つの側面であることが示唆された。
コードはhttps://github.com/takerum/meta_sequential_predictionで入手できる。 In this study, we present meta-sequential prediction (MSP), an unsupervised framework to learn the symmetry from the time sequence of length at least three. Our method leverages the stationary property (e.g. constant velocity, constant acceleration) of the time sequence to learn the underlying equivariant structure of the dataset by simply training the encoder-decoder model to be able to predict the future observations. We will demonstrate that, with our framework, the hidden disentangled structure of the dataset naturally emerges as a by-product by applying simultaneous block-diagonalization to the transition operators in the latent space, the procedure which is commonly used in representation theory to decompose the feature-space based on the type of response to group actions. We will showcase our method from both empirical and theoretical perspectives. Our result suggests that finding a simple structured relation and learning a model with extrapolation capability are two sides of the same coin. The code is available at https://github.com/takerum/meta_sequential_prediction. | 翻訳日:2022-10-13 13:09:35 公開日:2022-10-12 |
# エネルギー消費を考慮したニューラルアーキテクチャ探索のためのタブラルベンチマーク Energy Consumption-Aware Tabular Benchmarks for Neural Architecture Search ( http://arxiv.org/abs/2210.06015v1 ) ライセンス: Link先を確認 | Pedram Bakhtiarifard, Christian Igel, Raghavendra Selvan | (参考訳) ニューラルネットワーク探索(NAS)のための大規模計算リソースの需要は、NASの表型ベンチマークによって減少している。
NAS戦略の評価は、広い検索空間と適度な計算コストで可能である。
しかしこれまでNASは、いくつかのホールドアウト検証/テストセットのパフォーマンスを最大化することに重点を置いてきた。
しかし、エネルギー消費は無視すべきでない部分的に矛盾する目的である。
我々はnasをモデルトレーニングのエネルギー消費に制限することで、カーボンフットプリントを小さくすることで計算効率が向上する未発見のアーキテクチャのサブスペースを明らかにすることができると仮定する。
この仮説を支持するために、NASの既存の表式ベンチマークを各アーキテクチャのエネルギー消費に応じて拡張する。
次に,エネルギー消費を付加目的とする多目的最適化を行う。
性能とエネルギー消費のトレードオフを明らかにするための多目的NASの有用性と、よりエネルギー効率の良いアーキテクチャの発見について述べる。
更新されたタブラベンチマークEC-NAS-Benchは、エネルギー消費を意識したNASのさらなる探索を促進するためにオープンソース化されている。 The demand for large-scale computational resources for Neural Architecture Search (NAS) has been lessened by tabular benchmarks for NAS. Evaluating NAS strategies is now possible on extensive search spaces and at a moderate computational cost. But so far, NAS has mainly focused on maximising performance on some hold-out validation/test set. However, energy consumption is a partially conflicting objective that should not be neglected. We hypothesise that constraining NAS to include the energy consumption of training the models could reveal a sub-space of undiscovered architectures that are more computationally efficient with a smaller carbon footprint. To support the hypothesis, an existing tabular benchmark for NAS is augmented with the energy consumption of each architecture. We then perform multi-objective optimisation that includes energy consumption as an additional objective. We demonstrate the usefulness of multi-objective NAS for uncovering the trade-off between performance and energy consumption as well as for finding more energy-efficient architectures. The updated tabular benchmark, EC-NAS-Bench, is open-sourced to encourage the further exploration of energy consumption-aware NAS. | 翻訳日:2022-10-13 13:09:17 公開日:2022-10-12 |
# PAC-ベイズ境界における勾配ノルムの重要性について On the Importance of Gradient Norm in PAC-Bayesian Bounds ( http://arxiv.org/abs/2210.06143v1 ) ライセンス: Link先を確認 | Itai Gat, Yossi Adi, Alexander Schwing, Tamir Hazan | (参考訳) 真のリスクと経験的リスクの違いを評価する一般化境界は、広く研究されている。
しかし、境界を得るためには、現在の手法では一様有界あるいはリプシッツ損失関数のような厳密な仮定を用いる。
このような仮定を避けるために,本論文では,平均値の有界損失と平均値の有界勾配ノルム仮定を用いることで,一様境界仮定を緩和する手法を提案する。
この緩和に続いて、対数ソボレフの不等式の縮約性を利用する新しい一般化境界を提案する。
これらの不等式は一般化境界にさらなる損失次数ノルム項を加え、直感的にはモデルの複雑性の代用である。
提案する境界をベイズ深層網に適用し,この新しい損失勾配ノルムが異なるニューラルアーキテクチャに与える影響を実験的に解析する。 Generalization bounds which assess the difference between the true risk and the empirical risk, have been studied extensively. However, to obtain bounds, current techniques use strict assumptions such as a uniformly bounded or a Lipschitz loss function. To avoid these assumptions, in this paper, we follow an alternative approach: we relax uniform bounds assumptions by using on-average bounded loss and on-average bounded gradient norm assumptions. Following this relaxation, we propose a new generalization bound that exploits the contractivity of the log-Sobolev inequalities. These inequalities add an additional loss-gradient norm term to the generalization bound, which is intuitively a surrogate of the model complexity. We apply the proposed bound on Bayesian deep nets and empirically analyze the effect of this new loss-gradient norm term on different neural architectures. | 翻訳日:2022-10-13 13:09:00 公開日:2022-10-12 |
# 確率的逆モデリング:水文学への応用 Probabilistic Inverse Modeling: An Application in Hydrology ( http://arxiv.org/abs/2210.06213v1 ) ライセンス: Link先を確認 | Somya Sharma, Rahul Ghosh, Arvind Renganathan, Xiang Li, Snigdhansu Chatterjee, John Nieber, Christopher Duffy, Vipin Kumar | (参考訳) これらの手法の驚くべき成功は、これらのモデルからより説明可能で信頼できる見積もりを得ることを必須にした。
水理学では、流域特性はノイズや欠落があり、流路予測に影響を及ぼす。
このようなアプリケーションにおける逆問題を解くためには、データのバイアスと大きな検索空間に関する問題に取り組む上で、説明可能性の確保が重要である。
本研究では,動的入力気象ドライバとストリームフロー応答データからロバストな流域特性を再構築する確率的逆モデルフレームワークを提案する。
より説明可能な逆モデルの構築,不確実性推定,堅牢性という2つの側面に対処する。
これは、水管理者の信頼向上、騒がしいデータの処理、コスト削減に役立つ。
本研究では,逆モデル推定された流域特性推定値から,r^2$の流速予測(フォワードモデリング)に6\%改善できる不確実性に基づく学習法を提案する。 The astounding success of these methods has made it imperative to obtain more explainable and trustworthy estimates from these models. In hydrology, basin characteristics can be noisy or missing, impacting streamflow prediction. For solving inverse problems in such applications, ensuring explainability is pivotal for tackling issues relating to data bias and large search space. We propose a probabilistic inverse model framework that can reconstruct robust hydrology basin characteristics from dynamic input weather driver and streamflow response data. We address two aspects of building more explainable inverse models, uncertainty estimation and robustness. This can help improve the trust of water managers, handling of noisy data and reduce costs. We propose uncertainty based learning method that offers 6\% improvement in $R^2$ for streamflow prediction (forward modeling) from inverse model inferred basin characteristic estimates, 17\% reduction in uncertainty (40\% in presence of noise) and 4\% higher coverage rate for basin characteristics. | 翻訳日:2022-10-13 13:08:46 公開日:2022-10-12 |
# alpha-divergence variational inferenceは重み付きオートエンコーダの重要性を満たしている:方法論と漸近論 Alpha-divergence Variational Inference Meets Importance Weighted Auto-Encoders: Methodology and Asymptotics ( http://arxiv.org/abs/2210.06226v1 ) ライセンス: Link先を確認 | Kam\'elia Daudel, Joe Benton, Yuyang Shi, Arnaud Doucet | (参考訳) 変分R'enyi(VR)バウンダリを含むいくつかのアルゴリズムが提案され、ターゲット後部分布と変分分布の間のアルファ偏差を最小化する。
有望な実証結果にもかかわらず、これらのアルゴリズムは偏りのある確率勾配降下手順に頼り、理論的保証を欠いている。
本稿では,IWAE(Importance Weighted Auto-Encoder)バウンダリの一般化であるVR-IWAEバウンダリを形式化し,研究する。
本稿は,VR-IWAE境界がいくつかの望ましい特性を享受し,特に再パラメータ化ケースにおけるVR境界と同じ確率勾配降下手順を導出することを示した。
次に,VR-IWAE境界と標準IWAE境界の相補的理論的解析を行う。
これらの分析は、これらの限界の利点や欠如に光を当てた。
最後に、おもちゃや実データに関する理論的な主張を説明します。 Several algorithms involving the Variational R\'enyi (VR) bound have been proposed to minimize an alpha-divergence between a target posterior distribution and a variational distribution. Despite promising empirical results, those algorithms resort to biased stochastic gradient descent procedures and thus lack theoretical guarantees. In this paper, we formalize and study the VR-IWAE bound, a generalization of the Importance Weighted Auto-Encoder (IWAE) bound. We show that the VR-IWAE bound enjoys several desirable properties and notably leads to the same stochastic gradient descent procedure as the VR bound in the reparameterized case, but this time by relying on unbiased gradient estimators. We then provide two complementary theoretical analyses of the VR-IWAE bound and thus of the standard IWAE bound. Those analyses shed light on the benefits or lack thereof of these bounds. Lastly, we illustrate our theoretical claims over toy and real-data examples. | 翻訳日:2022-10-13 13:08:30 公開日:2022-10-12 |
# ニューラルネットワークとエネルギーモデルを用いたコンテキスト帯域における最大エントロピー探索 Maximum entropy exploration in contextual bandits with neural networks and energy based models ( http://arxiv.org/abs/2210.06302v1 ) ライセンス: Link先を確認 | Adam Elwood, Marco Leonardi, Ashraf Mohamed, Alessandro Rozza | (参考訳) コンテキストバンディットは、現実世界のさまざまな問題を解決することができる。
しかし、それらを解決するための現在の一般的なアルゴリズムは、線形モデルに依存するか、非線型モデルにおける信頼できない不確実性推定に依存する。
人間の認知理論に着想を得て,ニューラルネットワークを利用した最大エントロピー探索手法を導入する。
本研究では,ニューラルネットワークを報酬推定器とするモデルと,アクションに与えられた最適報酬を得る確率をモデル化するエネルギーベースモデルという2種類のモデルを提案する。
静的および動的コンテキストバンディットシミュレーション環境におけるモデルの性能評価を行った。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。 Contextual bandits can solve a huge range of real-world problems. However, current popular algorithms to solve them either rely on linear models, or unreliable uncertainty estimation in non-linear models, which are required to deal with the exploration-exploitation trade-off. Inspired by theories of human cognition, we introduce novel techniques that use maximum entropy exploration, relying on neural networks to find optimal policies in settings with both continuous and discrete action spaces. We present two classes of models, one with neural networks as reward estimators, and the other with energy based models, which model the probability of obtaining an optimal reward given an action. We evaluate the performance of these models in static and dynamic contextual bandit simulation environments. We show that both techniques outperform well-known standard algorithms, where energy based models have the best overall performance. This provides practitioners with new techniques that perform well in static and dynamic settings, and are particularly well suited to non-linear scenarios with continuous action spaces. | 翻訳日:2022-10-13 13:07:58 公開日:2022-10-12 |
# 直交空間変動勾配勾配をもつ拘束領域におけるサンプリング Sampling in Constrained Domains with Orthogonal-Space Variational Gradient Descent ( http://arxiv.org/abs/2210.06447v1 ) ライセンス: Link先を確認 | Ruqi Zhang, Qiang Liu, Xin T. Tong | (参考訳) 重要な推論と学習技術としてサンプリング方法は、通常、制約のないドメインのために設計される。
しかし、安全性、公正性、ロバスト性などの機械学習問題や、実際のアプリケーションにサンプリング結果を適用するために満たさなければならない多くの特性に制約がある。
これらの制約を強制することはしばしば暗黙的に定義された多様体につながり、制約のある効率的なサンプリングを非常に困難にする。
本稿では,一般等式制約により定義される多様体$\mathcal{G}_0$上でのサンプリングのための直交空間勾配流(O-Gradient)を設計した新しい変分フレームワークを提案する。
O-グラディエントは勾配を2つの部分に分解する: 1つは距離を$\mathcal{G}_0$に減らし、もう1つは直交空間におけるKLの発散を減少させる。
ほとんどの既存の多様体サンプリング法は $\mathcal{G}_0$ で初期化を必要とするが、O-Gradient はそのような事前知識を必要としない。
我々は、O-グラディエントが目標の制約分布に収束し、弱条件下で$$\widetilde{O}(1/\text{the number of iterations})$とすることを示す。
我々の証明は、独立興味を持つ条件付測度の新しいスタイン特徴づけに依存している。
我々は,LangevinのダイナミクスとStein変分勾配勾配によるO-Gradientを実装し,ベイジアンディープニューラルネットワークを含む様々な実験でその効果を実証した。 Sampling methods, as important inference and learning techniques, are typically designed for unconstrained domains. However, constraints are ubiquitous in machine learning problems, such as those on safety, fairness, robustness, and many other properties that must be satisfied to apply sampling results in real-life applications. Enforcing these constraints often leads to implicitly-defined manifolds, making efficient sampling with constraints very challenging. In this paper, we propose a new variational framework with a designed orthogonal-space gradient flow (O-Gradient) for sampling on a manifold $\mathcal{G}_0$ defined by general equality constraints. O-Gradient decomposes the gradient into two parts: one decreases the distance to $\mathcal{G}_0$ and the other decreases the KL divergence in the orthogonal space. While most existing manifold sampling methods require initialization on $\mathcal{G}_0$, O-Gradient does not require such prior knowledge. We prove that O-Gradient converges to the target constrained distribution with rate $\widetilde{O}(1/\text{the number of iterations})$ under mild conditions. Our proof relies on a new Stein characterization of conditional measure which could be of independent interest. We implement O-Gradient through both Langevin dynamics and Stein variational gradient descent and demonstrate its effectiveness in various experiments, including Bayesian deep neural networks. | 翻訳日:2022-10-13 13:07:43 公開日:2022-10-12 |
# 位相秩序による因果発見のための拡散モデル Diffusion Models for Causal Discovery via Topological Ordering ( http://arxiv.org/abs/2210.06201v1 ) ライセンス: Link先を確認 | Pedro Sanchez, Xiao Liu, Alison Q O'Neil, Sotirios A. Tsaftaris | (参考訳) 観測データから因果関係の発見は、付加雑音を伴う非線形として制約される機能関係を考えるといった追加の仮定によって可能となる。
この場合、データログのようなHessianは、因果グラフ内の葉ノードを見つけるのに使うことができる。
因果探索のためのトポロジ的順序付けアプローチは、2つのステップでグラフ探索を行い、まず、逆順のノードを逐次同定し(トポロジ的順序付け)、第2に潜在的な関係を解明する。
探索はグラフ空間ではなく置換によって行われるため、これはより効率的である。
しかし、Hessianを得るための既存の計算方法は、変数の数が増えてサンプル数が増加するにつれて、まだスケールしない。
そこで,拡散確率モデル(DPM)の最近の進歩に触発されて,DPMを利用したトポロジカル順序付けアルゴリズムであるDiffANを提案する。
さらに,ニューラルネットワークを再トレーニングすることなく学習したヘッシアンを更新する理論を導入し,サンプルのサブセットによる計算が順序の正確な近似を与え,より多くのサンプルと変数を持つデータセットへのスケーリングを可能にすることを示す。
我々は,提案手法が500ドルのノードと最大10^5ドルのサンプルを持つデータセットに対して,なおも最先端の因果探索手法を持つ小さなデータセットと同等に動作していることを実証的に示す。
実装はhttps://github.com/vios-s/DiffANで公開されている。 Discovering causal relations from observational data becomes possible with additional assumptions such as considering the functional relations to be constrained as nonlinear with additive noise. In this case, the Hessian of the data log-likelihood can be used for finding leaf nodes in a causal graph. Topological ordering approaches for causal discovery exploit this by performing graph discovery in two steps, first sequentially identifying nodes in reverse order of depth (topological ordering), and secondly pruning the potential relations. This is more efficient since the search is performed over a permutation rather than a graph space. However, existing computational methods for obtaining the Hessian still do not scale as the number of variables and the number of samples are increased. Therefore, inspired by recent innovations in diffusion probabilistic models (DPMs), we propose DiffAN, a topological ordering algorithm that leverages DPMs. Further, we introduce theory for updating the learned Hessian without re-training the neural network, and we show that computing with a subset of samples gives an accurate approximation of the ordering, which allows scaling to datasets with more samples and variables. We show empirically that our method scales exceptionally well to datasets with up to $500$ nodes and up to $10^5$ samples while still performing on par over small datasets with state-of-the-art causal discovery methods. Implementation is available at https://github.com/vios-s/DiffAN . | 翻訳日:2022-10-13 13:01:43 公開日:2022-10-12 |
# 知識グラフ埋め込みのための偽負予測の補助損失を伴うエンティティ認識負サンプリング Entity Aware Negative Sampling with Auxiliary Loss of False Negative Prediction for Knowledge Graph Embedding ( http://arxiv.org/abs/2210.06242v1 ) ライセンス: Link先を確認 | Sang-Hyun Je | (参考訳) 知識グラフ(KG)埋め込みは、KGを用いた多くの下流アプリケーションで広く使われている。
一般に、KGsは三重項のみを含むため、KGsの表現学習のための任意の負のサンプルを構築する必要がある。
近年, 負三重項の品質がKGの埋め込みに大きく影響するため, 高品質な負のサンプリング法が研究されている。
本稿では, 正に類似する負のエンティティを, 整列したエンティティインデックス空間にガウス分布を適用してサンプリングできる Entity Aware Negative Smpling (EANS) という新しい手法を提案する。
さらに,サンプルされた偽陰性三重項の影響を緩和できる偽陰性予測のための補助損失を導入する。
提案手法は, 負の試料サイズに関わらず高品質な負の試料を生成でき, 偽の負の試料の影響を効果的に軽減できる。
標準ベンチマークにおける実験結果から,我々のeanは,いくつかの知識グラフ埋め込みモデルにおいて,既存の負サンプリングの最先端手法よりも優れていることが示された。
さらに, 負のサンプル数が1つに制限された場合でも, 提案手法は競合性能を得る。 Knowledge graph (KG) embedding is widely used in many downstream applications using KGs. Generally, since KGs contain only ground truth triples, it is necessary to construct arbitrary negative samples for representation learning of KGs. Recently, various methods for sampling high-quality negatives have been studied because the quality of negative triples has great effect on KG embedding. In this paper, we propose a novel method called Entity Aware Negative Sampling (EANS), which is able to sample negative entities resemble to positive one by adopting Gaussian distribution to the aligned entity index space. Additionally, we introduce auxiliary loss for false negative prediction that can alleviate the impact of the sampled false negative triples. The proposed method can generate high-quality negative samples regardless of negative sample size and effectively mitigate the influence of false negative samples. The experimental results on standard benchmarks show that our EANS outperforms existing the state-of-the-art methods of negative sampling on several knowledge graph embedding models. Moreover, the proposed method achieves competitive performance even when the number of negative samples is limited to only one. | 翻訳日:2022-10-13 13:01:15 公開日:2022-10-12 |
# グラフニューラルネットワークのミススカラとは? What Makes Graph Neural Networks Miscalibrated? ( http://arxiv.org/abs/2210.06391v1 ) ライセンス: Link先を確認 | Hans Hao-Hsun Hsu and Yuesong Shen and Christian Tomani and Daniel Cremers | (参考訳) 予測の校正と信頼性の高い不確実性推定の重要性から、標準マルチクラス分類タスクにおけるニューラルネットワークのための様々なポストホックキャリブレーション手法が開発されている。
しかし,これらの手法はグラフニューラルネットワーク(GNN)の校正には適していない。
本研究では,GNNノード予測のキャリブレーション特性に関する系統的研究を行う。
特に, GNNのキャリブレーションに影響を与える5つの要因を同定する: 一般信頼度傾向, ノード単位の予測分布の多様性, 訓練ノード間距離, 相対信頼度, 近傍類似度。
さらに,本研究から得られた知見をもとに,グラフニューラルネットワークのキャリブレーションに適した新しいキャリブレーション手法であるグラフ注意温度スケーリング(GATS)を設計した。
GATSは、識別されたすべての影響要因に対処し、注意に基づくアーキテクチャを用いてノード単位の温度スケーリングを生成する設計を取り入れている。
GATSは正確で、データ効率が高く、同時に表現力がある。
我々の実験はGATSの有効性を実証的に検証し、GNNバックボーンの様々なグラフデータセットに対して、常に最先端のキャリブレーション結果が得られることを示した。 Given the importance of getting calibrated predictions and reliable uncertainty estimations, various post-hoc calibration methods have been developed for neural networks on standard multi-class classification tasks. However, these methods are not well suited for calibrating graph neural networks (GNNs), which presents unique challenges such as accounting for the graph structure and the graph-induced correlations between the nodes. In this work, we conduct a systematic study on the calibration qualities of GNN node predictions. In particular, we identify five factors which influence the calibration of GNNs: general under-confident tendency, diversity of nodewise predictive distributions, distance to training nodes, relative confidence level, and neighborhood similarity. Furthermore, based on the insights from this study, we design a novel calibration method named Graph Attention Temperature Scaling (GATS), which is tailored for calibrating graph neural networks. GATS incorporates designs that address all the identified influential factors and produces nodewise temperature scaling using an attention-based architecture. GATS is accuracy-preserving, data-efficient, and expressive at the same time. Our experiments empirically verify the effectiveness of GATS, demonstrating that it can consistently achieve state-of-the-art calibration results on various graph datasets for different GNN backbones. | 翻訳日:2022-10-13 13:00:55 公開日:2022-10-12 |
# 連続学習におけるリプシッツ駆動リハーサルの効果について On the Effectiveness of Lipschitz-Driven Rehearsal in Continual Learning ( http://arxiv.org/abs/2210.06443v1 ) ライセンス: Link先を確認 | Lorenzo Bonicelli and Matteo Boschini and Angelo Porrello and Concetto Spampinato and Simone Calderara | (参考訳) リハーサルアプローチは、継続的学習(CL)実践者には非常に人気がある。
これらの方法は、前に遭遇したデータ分布のサンプルを小さなメモリバッファで収集し、その後、破滅的な忘れを防止するために、後者を何度も最適化する。
この研究は、この広範にわたるプラクティスの隠れた落とし穴に注意を向けている: データの小さなプールに対する繰り返し最適化は、必然的に、厳密で不安定な決定境界をもたらす。
この問題に対処するため,我々はリプシッツ定数 w.r.t.\ リプレイ例を制限してバックボーンネットワークの滑らかさを誘導するサロゲート目標であるリプシッツ駆動リハーサル(lider)を提案する。
広範にわたる実験により,LiDERの適用は,事前学習の有無に関わらず,複数のデータセットにわたる最先端のリハーサルCL手法に安定した性能向上をもたらすことが示された。
さらなるアブレーション実験を通じて、CLにおけるバッファオーバーフィッティングの特異な側面を強調し、LiDERが生み出す効果をよりよく特徴づける。
コードはhttps://github.com/aimagelab/LiDERで入手できる。 Rehearsal approaches enjoy immense popularity with Continual Learning (CL) practitioners. These methods collect samples from previously encountered data distributions in a small memory buffer; subsequently, they repeatedly optimize on the latter to prevent catastrophic forgetting. This work draws attention to a hidden pitfall of this widespread practice: repeated optimization on a small pool of data inevitably leads to tight and unstable decision boundaries, which are a major hindrance to generalization. To address this issue, we propose Lipschitz-DrivEn Rehearsal (LiDER), a surrogate objective that induces smoothness in the backbone network by constraining its layer-wise Lipschitz constants w.r.t.\ replay examples. By means of extensive experiments, we show that applying LiDER delivers a stable performance gain to several state-of-the-art rehearsal CL methods across multiple datasets, both in the presence and absence of pre-training. Through additional ablative experiments, we highlight peculiar aspects of buffer overfitting in CL and better characterize the effect produced by LiDER. Code is available at https://github.com/aimagelab/LiDER | 翻訳日:2022-10-13 13:00:36 公開日:2022-10-12 |
# モデルチェックポイントからの効率的な知識蒸留 Efficient Knowledge Distillation from Model Checkpoints ( http://arxiv.org/abs/2210.06458v1 ) ライセンス: Link先を確認 | Chaofei Wang, Qisen Yang, Rui Huang, Shiji Song, Gao Huang | (参考訳) 知識蒸留は、大規模で強力なモデル(教師)の監督でコンパクトモデル(学生)を学ぶための効果的なアプローチである。
経験的に、教師と生徒モデルのパフォーマンスには強い相関関係があるため、ハイパフォーマンスな教師が好まれていると一般的に信じられている。
その結果、実践者はよく訓練されたネットワークやそれらのアンサンブルを教師として使う傾向にある。
本稿では,中間モデル,すなわち訓練手順の途中のチェックポイントが,前者よりもはるかに精度が低いにもかかわらず,完全に収束したモデルよりも優れた教師として機能する,という興味深い観察を行う。
さらに驚くべきことに、同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、教師として使用される際、独立して訓練された完全に収束したモデルの強いアンサンブルより優れている。
この現象は情報ボトルネックの原理によって部分的に説明できる:中間モデルの特徴表現は入力に関する高い相互情報を持ち、従って効果的な蒸留のためのより「暗黒の知識」を含むことができる。
さらに,タスク関連情報全体の最大化に基づく最適中間教師選択アルゴリズムを提案する。
実験は有効性と適用性を検証する。 Knowledge distillation is an effective approach to learn compact models (students) with the supervision of large and strong models (teachers). As empirically there exists a strong correlation between the performance of teacher and student models, it is commonly believed that a high performing teacher is preferred. Consequently, practitioners tend to use a well trained network or an ensemble of them as the teacher. In this paper, we make an intriguing observation that an intermediate model, i.e., a checkpoint in the middle of the training procedure, often serves as a better teacher compared to the fully converged model, although the former has much lower accuracy. More surprisingly, a weak snapshot ensemble of several intermediate models from a same training trajectory can outperform a strong ensemble of independently trained and fully converged models, when they are used as teachers. We show that this phenomenon can be partially explained by the information bottleneck principle: the feature representations of intermediate models can have higher mutual information regarding the input, and thus contain more "dark knowledge" for effective distillation. We further propose an optimal intermediate teacher selection algorithm based on maximizing the total task-related mutual information. Experiments verify its effectiveness and applicability. | 翻訳日:2022-10-13 13:00:13 公開日:2022-10-12 |
# 自己回帰型ニューラルシーケンスモデルの予測クエリ Predictive Querying for Autoregressive Neural Sequence Models ( http://arxiv.org/abs/2210.06464v1 ) ライセンス: Link先を確認 | Alex Boyd, Sam Showalter, Stephan Mandt, Padhraic Smyth | (参考訳) シーケンシャルなイベントの推論では、ユーザモデリング、医療、金融といった分野で応用される"いつAが起こるか"や"Bの前にAが起こる確率"といった確率論的クエリを、自然に表現する。
しかしながら、機械学習がRNNやトランスフォーマーなどの神経自己回帰モデルにシフトするにつれ、確率的クエリは、次のイベント予測のような単純なケースに大きく制限されている。
これは、将来的なクエリが、そのようなモデルで効率的に行うことが簡単ではない、大きなパス空間上の余分化を伴うためである。
本稿では,ニューラルオートレグレッシブシーケンスモデルにおける予測クエリの一般型について紹介し,そのようなクエリを基本構造ブロックの集合で体系的に表現できることを示す。
本研究では,ビーム探索,重要サンプリング,ハイブリッドに基づく新しいクエリ推定手法を開発する。
GPT-2言語モデルと同様に、異なるアプリケーションドメインからの大規模シーケンスデータセット4つにまたがって、指数関数的に大きい予測パス空間における任意のクエリに対してクエリ応答を抽出できることを示し、探索とサンプリングの手法間のコスト-精度のトレードオフを明確にする。 In reasoning about sequential events it is natural to pose probabilistic queries such as "when will event A occur next" or "what is the probability of A occurring before B", with applications in areas such as user modeling, medicine, and finance. However, with machine learning shifting towards neural autoregressive models such as RNNs and transformers, probabilistic querying has been largely restricted to simple cases such as next-event prediction. This is in part due to the fact that future querying involves marginalization over large path spaces, which is not straightforward to do efficiently in such models. In this paper we introduce a general typology for predictive queries in neural autoregressive sequence models and show that such queries can be systematically represented by sets of elementary building blocks. We leverage this typology to develop new query estimation methods based on beam search, importance sampling, and hybrids. Across four large-scale sequence datasets from different application domains, as well as for the GPT-2 language model, we demonstrate the ability to make query answering tractable for arbitrary queries in exponentially-large predictive path-spaces, and find clear differences in cost-accuracy tradeoffs between search and sampling methods. | 翻訳日:2022-10-13 12:59:54 公開日:2022-10-12 |
# ファウショット学習のためのメタドロップアウト統合フレームワーク A Unified Framework with Meta-dropout for Few-shot Learning ( http://arxiv.org/abs/2210.06409v1 ) ライセンス: Link先を確認 | Shaobo Lin, Xingyu Zeng, Rui Zhao | (参考訳) ディープニューラルネットワークの従来のトレーニングは通常、高価な人間のアノテーションで大量のデータを必要とする。
本稿では,このメタラーニングの考え方を生かして,2つの異なるマイノショット学習の流れ,すなわちエピソディックメタラーニングベースとプレトレーニングマイノショット学習の2つを説明し,統一メタラーニングフレームワークを構築する。
フレームワークの一般化能力を向上させるため,メタドロップアウトというシンプルな手法を提案し,基本カテゴリから新しいカテゴリへ一般化された伝達可能な知識に適用した。
提案手法は、神経ユニットがメタトレーニング段階で過度に適応することを効果的に防止することができる。
本手法の有効性を検証すべく,数発の物体検出と数発の画像分類データセット(Pascal VOC, MS COCO, CUB, mini-ImageNet)の大規模な実験を行った。 Conventional training of deep neural networks usually requires a substantial amount of data with expensive human annotations. In this paper, we utilize the idea of meta-learning to explain two very different streams of few-shot learning, i.e., the episodic meta-learning-based and pre-train finetune-based few-shot learning, and form a unified meta-learning framework. In order to improve the generalization power of our framework, we propose a simple yet effective strategy named meta-dropout, which is applied to the transferable knowledge generalized from base categories to novel categories. The proposed strategy can effectively prevent neural units from co-adapting excessively in the meta-training stage. Extensive experiments on the few-shot object detection and few-shot image classification datasets, i.e., Pascal VOC, MS COCO, CUB, and mini-ImageNet, validate the effectiveness of our method. | 翻訳日:2022-10-13 12:52:28 公開日:2022-10-12 |
# Contrastive Introspection (ConSpec) : 成功のための不変ステップの迅速同定 Contrastive introspection (ConSpec) to rapidly identify invariant steps for success ( http://arxiv.org/abs/2210.05845v1 ) ライセンス: Link先を確認 | Chen Sun, Wannan Yang, Benjamin Alsbury-Nealy, Yoshua Bengio, Blake Richards | (参考訳) 強化学習(RL)アルゴリズムは近年顕著な成功を収めているが、長期クレジット割り当てにおける根本的な問題に苦戦している。
成功が互いに時間と疎い報酬から遠ざかる複数の重要なステップに連続している状況で学ぶことは依然として困難であり、現実の生活ではよくあることだ。
さらに、これらの困難な状況においてRLアルゴリズムがクレジットを割り当てる方法は通常、新しい状況に迅速に一般化できる方法ではコーディングされない。
本稿では,既存のRLアルゴリズムに追加可能なコントラストイントロスペクション(ConSpec)という,オフラインのコントラスト学習を用いたアプローチを提案する。
ConSpecでは、オフライン再生中にコントラスト損失を使用して、成功したエピソード間の不変性を識別する。
これは、成功が付随する小さなステップのセットを振り返り的に識別することが、環境で行われるすべてのステップで報奨を前向きに予測することよりも容易であるという事実を生かしている。
ConSpecはこの知識を、成功に必要な中間状態を要約したプロトタイプのコレクションに格納する。
トレーニング中、これらのプロトタイプにマッチした状態に到達すると、外部の報酬に追加される固有の報酬が生成される。
また、ConSpecによって提供される報酬形成は、基礎となるRLエージェントの最適ポリシーを維持するために行われる。
ConSpecのプロトタイプは、クレジット割り当てに2つの重要な利点を提供している。
2) 感覚的特徴が変化したときの分布の一般化を可能とし, 容易に解釈可能な方法で行う。
要約すると、ConSpecは、その長期クレジット割り当てを改善するために、既存のRLアルゴリズムに追加できるモジュールシステムである。 Reinforcement learning (RL) algorithms have achieved notable success in recent years, but still struggle with fundamental issues in long-term credit assignment. It remains difficult to learn in situations where success is contingent upon multiple critical steps that are distant in time from each other and from a sparse reward; as is often the case in real life. Moreover, how RL algorithms assign credit in these difficult situations is typically not coded in a way that can rapidly generalize to new situations. Here, we present an approach using offline contrastive learning, which we call contrastive introspection (ConSpec), that can be added to any existing RL algorithm and addresses both issues. In ConSpec, a contrastive loss is used during offline replay to identify invariances among successful episodes. This takes advantage of the fact that it is easier to retrospectively identify the small set of steps that success is contingent upon than it is to prospectively predict reward at every step taken in the environment. ConSpec stores this knowledge in a collection of prototypes summarizing the intermediate states required for success. During training, arrival at any state that matches these prototypes generates an intrinsic reward that is added to any external rewards. As well, the reward shaping provided by ConSpec can be made to preserve the optimal policy of the underlying RL agent. The prototypes in ConSpec provide two key benefits for credit assignment: (1) They enable rapid identification of all the critical states. (2) They do so in a readily interpretable manner, enabling out of distribution generalization when sensory features are altered. In summary, ConSpec is a modular system that can be added to any existing RL algorithm to improve its long-term credit assignment. | 翻訳日:2022-10-13 12:50:03 公開日:2022-10-12 |
# オフラインモデルトレーニングと政策学習の交換のための統一フレームワーク A Unified Framework for Alternating Offline Model Training and Policy Learning ( http://arxiv.org/abs/2210.05922v1 ) ライセンス: Link先を確認 | Shentao Yang, Shujian Zhang, Yihao Feng, Mingyuan Zhou | (参考訳) オフラインモデルに基づく強化学習(オフラインMBRL)では、歴史的に収集されたデータから動的モデルを学習し、その後、学習モデルと固定データセットを環境と相互作用することなくポリシー学習に活用する。
オフラインMBRLアルゴリズムは、モデルフリーアルゴリズムよりもポリシー学習の効率と安定性を向上させることができる。
しかし、既存のオフラインMBRLアルゴリズムの多くでは、動的モデルとポリシーの学習目的は互いに分離されている。
このような客観的なミスマッチは、学習したエージェントのパフォーマンスを低下させる可能性がある。
本稿では,動的モデルトレーニングと政策学習を交互に組み合わせることで,本手法が期待するリターンの低限界を最大化する,反復的オフラインMBRLフレームワークを開発することでこの問題に対処する。
提案する統一型モデル政治学習フレームワークにより, 広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
ソースコードは公開されている。 In offline model-based reinforcement learning (offline MBRL), we learn a dynamic model from historically collected data, and subsequently utilize the learned model and fixed datasets for policy learning, without further interacting with the environment. Offline MBRL algorithms can improve the efficiency and stability of policy learning over the model-free algorithms. However, in most of the existing offline MBRL algorithms, the learning objectives for the dynamic models and the policies are isolated from each other. Such an objective mismatch may lead to inferior performance of the learned agents. In this paper, we address this issue by developing an iterative offline MBRL framework, where we maximize a lower bound of the true expected return, by alternating between dynamic-model training and policy learning. With the proposed unified model-policy learning framework, we achieve competitive performance on a wide range of continuous-control offline reinforcement learning datasets. Source code is publicly released. | 翻訳日:2022-10-13 12:49:38 公開日:2022-10-12 |
# すべてに合いません!
視覚および言語課題のための視覚エンコーダの相補性について One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks ( http://arxiv.org/abs/2210.06379v1 ) ライセンス: Link先を確認 | Gregor Geigle, Chen Liu, Jonas Pfeiffer and Iryna Gurevych | (参考訳) ビジョン・アンド・ランゲージ(V+L)タスクの解決を目的とした現在のマルチモーダルモデルは、主に特徴抽出器として視覚エンコーダ(VE)を再利用している。
さまざまなアーキテクチャを持つ多くのveは、さまざまなデータと目的に基づいてトレーニングされているが、下流のv+lタスク用に設計されていない。
それでも、現在のほとんどの作品は、事前学習された ve が汎用エンコーダとして使えると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるか否か,すなわち,複数のVEの機能を備えたモデルを提供することで,目標タスクの性能を向上できるかどうかを評価する。
6つのV+Lタスクで3つの人気VEを徹底的に実験し,注目パターンとVEドロップアウトパターンを解析した。
提案する結果と解析結果から,多様なveが相互補完し,結果として下流のv+lタスク性能が向上し,単純なアンサンブル効果による改善が得られない(エンコーダ数の増加による性能の向上が必ずしも改善されない)。
我々は, v+l タスクに対して明示的に \textit{designed} であるような将来の ve は,ターゲットとする v+l タスクのパフォーマンスを向上させる可能性を秘めている。 Current multimodal models, aimed at solving Vision and Language (V+L) tasks, predominantly repurpose Vision Encoders (VE) as feature extractors. While many VEs -- of different architectures, trained on different data and objectives -- are publicly available, they are not designed for the downstream V+L tasks. Nonetheless, most current work assumes that a \textit{single} pre-trained VE can serve as a general-purpose encoder. In this work, we evaluate whether the information stored within different VEs is complementary, i.e. if providing the model with features from multiple VEs can improve the performance on a target task. We exhaustively experiment with three popular VEs on six downstream V+L tasks and analyze the attention and VE-dropout patterns. Our results and analyses suggest that diverse VEs complement each other, resulting in improved downstream V+L task performance, where the improvements are not due to simple ensemble effects (i.e. the performance does not always improve when increasing the number of encoders). We demonstrate that future VEs, which are not \textit{repurposed}, but explicitly \textit{designed} for V+L tasks, have the potential of improving performance on the target V+L tasks. | 翻訳日:2022-10-13 12:44:12 公開日:2022-10-12 |
# ニューラルネットワークに対するソフトエラーの影響の統計的モデル化 Statistical Modeling of Soft Error Influence on Neural Networks ( http://arxiv.org/abs/2210.05876v1 ) ライセンス: Link先を確認 | Haitong Huang, Xinghua Xue, Cheng Liu, Ying Wang, Tao Luo, Long Cheng, Huawei Li, Xiaowei Li | (参考訳) 大きなVLSI回路のソフトエラーは、コンピュータとメモリ集約ニューラルネットワーク(NN)処理に劇的な影響を及ぼす。
NNに対するソフトエラーの影響を理解することは、信頼できるNN処理のためにソフトエラーから保護することが重要である。
先行研究は主に、ソフトエラーがnn処理に与える影響を分析するために、故障シミュレーションに依存している。
これらは正確であるが、特に大規模なnnモデルやデータセットのシミュレーション速度が極めて遅いため、エラーやnnモデルの限られた構成に特有である。
ソフトエラーの影響が多数のニューロンにまたがって伝播し蓄積するのを観察し、中央極限定理に基づく正規分布モデルを用いて各ニューロンのソフトエラー誘発データ乱れを特徴付けるとともに、一般のソフトエラー下でのNNモデルの挙動を解析する一連の統計モデルを開発することを提案する。
統計モデルは、ソフトエラーとNNモデルの精度の相関だけでなく、量子化やアーキテクチャといったNNパラメータがNNの信頼性に与える影響も明らかにしている。
提案モデルと断層シミュレーションを比較し,総合的に検証した。
また,ソフトエラーの影響を特徴付ける統計モデルを用いて,多くの事例において故障シミュレーション結果の予測が可能であり,提案手法を用いてNNの故障シミュレーションを高速化する。
実験結果から,本実験では,ベースライン故障シミュレーションよりも2桁近い速度向上率を示し,シミュレーション精度の損失を無視できることを示した。 Soft errors in large VLSI circuits pose dramatic influence on computing- and memory-intensive neural network (NN) processing. Understanding the influence of soft errors on NNs is critical to protect against soft errors for reliable NN processing. Prior work mainly rely on fault simulation to analyze the influence of soft errors on NN processing. They are accurate but usually specific to limited configurations of errors and NN models due to the prohibitively slow simulation speed especially for large NN models and datasets. With the observation that the influence of soft errors propagates across a large number of neurons and accumulates as well, we propose to characterize the soft error induced data disturbance on each neuron with normal distribution model according to central limit theorem and develop a series of statistical models to analyze the behavior of NN models under soft errors in general. The statistical models reveal not only the correlation between soft errors and NN model accuracy, but also how NN parameters such as quantization and architecture affect the reliability of NNs. The proposed models are compared with fault simulation and verified comprehensively. In addition, we observe that the statistical models that characterize the soft error influence can also be utilized to predict fault simulation results in many cases and we explore the use of the proposed statistical models to accelerate fault simulations of NNs. According to our experiments, the accelerated fault simulation shows almost two orders of magnitude speedup with negligible simulation accuracy loss over the baseline fault simulations. | 翻訳日:2022-10-13 12:43:48 公開日:2022-10-12 |
# MiniALBERT:パラメータ効率の良い再帰変換器によるモデル蒸留 MiniALBERT: Model Distillation via Parameter-Efficient Recursive Transformers ( http://arxiv.org/abs/2210.06425v1 ) ライセンス: Link先を確認 | Mohammadmahdi Nouriborji, Omid Rohanian, Samaneh Kouchaki, David A. Clifton | (参考訳) 学習済み言語モデル(lms)は、下流アプリケーションの性能が優れているため、近年では自然言語処理(nlp)の不可欠な部分となっている。
この再帰的な成功にもかかわらず、LMのユーザビリティは計算量と時間的複雑さ、そしてそのサイズの増加によって制限されている;これは'オーバーパラメトリゼーション'と呼ばれる問題である。
これらの問題を緩和するための異なる戦略が文献で提案されており、肥大化したコンペティタのパフォーマンスにほぼマッチする効果的なコンパクトモデルを作成することを目的としている。
この分野で最も人気のある技術は、モデル蒸留である。
もう1つの強力だが未使用のテクニックは、層間パラメータ共有である。
本研究では,これら2つの戦略と,完全パラメータ化されたlms(bertなど)の知識をコンパクトな再帰的学生に変換する手法であるminialbertを組み合わせる。
さらに, 学生の層順適応に対するボトルネックアダプタの適用について検討し, コンパクトモデルの微調整におけるアダプタチューニングの有効性について検討した。
提案するモデルについて,生物医学的nlpタスクで検証し,その実現可能性を示し,最新モデルや既存のコンパクトモデルと比較した。
実験で使用されたコードは、https://github.com/nlpie-research/MiniALBERT.comで公開されている。
トレーニング済みのコンパクトモデルは、https://huggingface.co/nlpieからアクセスできます。 Pre-trained Language Models (LMs) have become an integral part of Natural Language Processing (NLP) in recent years, due to their superior performance in downstream applications. In spite of this resounding success, the usability of LMs is constrained by computational and time complexity, along with their increasing size; an issue that has been referred to as `overparameterisation'. Different strategies have been proposed in the literature to alleviate these problems, with the aim to create effective compact models that nearly match the performance of their bloated counterparts with negligible performance losses. One of the most popular techniques in this area of research is model distillation. Another potent but underutilised technique is cross-layer parameter sharing. In this work, we combine these two strategies and present MiniALBERT, a technique for converting the knowledge of fully parameterised LMs (such as BERT) into a compact recursive student. In addition, we investigate the application of bottleneck adapters for layer-wise adaptation of our recursive student, and also explore the efficacy of adapter tuning for fine-tuning of compact models. We test our proposed models on a number of general and biomedical NLP tasks to demonstrate their viability and compare them with the state-of-the-art and other existing compact models. All the codes used in the experiments are available at https://github.com/nlpie-research/MiniALBERT. Our pre-trained compact models can be accessed from https://huggingface.co/nlpie. | 翻訳日:2022-10-13 12:42:50 公開日:2022-10-12 |
# サンプル効率の良いNLPモデルはよりロバストか? Are Sample-Efficient NLP Models More Robust? ( http://arxiv.org/abs/2210.06456v1 ) ライセンス: Link先を確認 | Nelson F. Liu and Ananya Kumar and Percy Liang and Robin Jia | (参考訳) 近年の研究では、事前学習したモデルは、より分散度(ID)の低いトレーニングデータに晒される場合、OOD(out-of-distriion)の堅牢性が高いことが観察されている(Radford et al., 2021)。
特に、ゼロショットモデル(例えば、GPT-3やCLIP)は従来の微調整モデルよりも堅牢性が高いが、ゼロショットモデルはより多くのIDデータに基づいて微調整されるため、これらの堅牢性は低下する。
2つのモデルが同一のID性能を持つ場合、より少ないサンプル(より高いサンプル効率)でトレーニングされたモデルは、より優れたOOD(より高い堅牢性)を実現するか?
驚くべきことに、3つのタスク、23のID-OOD設定、14のモデルにわたる実験では、サンプル効率と堅牢性の間に一貫性のある関係は示されていない。
ケース・バイ・ケース・バイ・ケース(ケース・バイ・ケース・ケース・バイ・ケース)によって異なる結果が得られたため、より優れたサンプル効率がより高いロバスト性をもたらすかどうかをよりよく理解するために、2つの特定のID-OODペア(SST-2 -> IMDb 感情とSNLI -> HANS)の詳細なケーススタディを行い、そのような理解を得るには、なぜモデルが特定のID-OOD設定で堅牢でないのか、モデル技術がモデル能力に与える影響をケース・バイ・ケース分析する必要がある。 Recent work has observed that pre-trained models have higher out-of-distribution (OOD) robustness when they are exposed to less in-distribution (ID) training data (Radford et al., 2021). In particular, zero-shot models (e.g., GPT-3 and CLIP) have higher robustness than conventionally fine-tuned models, but these robustness gains fade as zero-shot models are fine-tuned on more ID data. We study this relationship between sample efficiency and robustness -- if two models have the same ID performance, does the model trained on fewer examples (higher sample efficiency) perform better OOD (higher robustness)? Surprisingly, experiments across three tasks, 23 total ID-OOD settings, and 14 models do not reveal a consistent relationship between sample efficiency and robustness -- while models with higher sample efficiency are sometimes more robust, most often there is no change in robustness, with some cases even showing decreased robustness. Since results vary on a case-by-case basis, we conduct detailed case studies of two particular ID-OOD pairs (SST-2 -> IMDb sentiment and SNLI -> HANS) to better understand why better sample efficiency may or may not yield higher robustness; attaining such an understanding requires case-by-case analysis of why models are not robust on a particular ID-OOD setting and how modeling techniques affect model capabilities. | 翻訳日:2022-10-13 12:42:27 公開日:2022-10-12 |
# 虹彩認識のためのディープラーニング:調査 Deep Learning for Iris Recognition: A Survey ( http://arxiv.org/abs/2210.05866v1 ) ライセンス: Link先を確認 | Kien Nguyen, Hugo Proen\c{c}a, Fernando Alonso-Fernandez | (参考訳) この調査では、過去10年間に発行された200以上の論文、技術レポート、GitHubリポジトリの包括的なレビューとして、虹彩認識のためのディープラーニング技術の開発について、アルゴリズム設計、オープンソースツール、オープンチャレンジ、新興研究に関する広範なトピックを取り上げている。
まず,アイリスバイオメトリックスにおける2つの主サブタスク,セグメンテーションと認識のために開発された深層学習技術の包括的解析を行う。
第2に,提示攻撃に対する虹彩認識システムの堅牢性および人間と機械のペアリングによる深層学習技術に着目した。
第3に,特に死後虹彩認識において,法医学的応用のための深層学習手法を深く研究した。
第4に,アイリス認識のためのディープラーニング技術におけるオープンソースリソースとツールについて検討する。
最後に,虹彩認識における深層学習の将来に向けた技術的課題,新たな研究動向,展望について述べる。 In this survey, we provide a comprehensive review of more than 200 papers, technical reports, and GitHub repositories published over the last 10 years on the recent developments of deep learning techniques for iris recognition, covering broad topics on algorithm designs, open-source tools, open challenges, and emerging research. First, we conduct a comprehensive analysis of deep learning techniques developed for two main sub-tasks in iris biometrics: segmentation and recognition. Second, we focus on deep learning techniques for the robustness of iris recognition systems against presentation attacks and via human-machine pairing. Third, we delve deep into deep learning techniques for forensic application, especially in post-mortem iris recognition. Fourth, we review open-source resources and tools in deep learning techniques for iris recognition. Finally, we highlight the technical challenges, emerging research trends, and outlook for the future of deep learning in iris recognition. | 翻訳日:2022-10-13 12:40:52 公開日:2022-10-12 |
# Lbl2Vec: 事前定義されたトピックに関する教師なし文書検索のための埋め込み型アプローチ Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval on Predefined Topics ( http://arxiv.org/abs/2210.06023v1 ) ライセンス: Link先を確認 | Tim Schopf, Daniel Braun, Florian Matthes | (参考訳) 本稿では、教師なしアプローチを用いて、ラベルのない文書データセットから予め定義されたトピックで文書を検索する作業について考察する。
提案された教師なしのアプローチでは,各トピックを記述したキーワードはごく少数で,ラベル付きドキュメントは不要である。
既存のアプローチは、追加で符号化された世界の知識や、文書の頻度に大きく依存している。
対照的に、キーワードで記述されたトピックにセマンティックに類似した文書を見つけるために、ラベルなし文書データセットからのみに埋め込み文書と単語ベクトルを学習する手法を導入する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
公開および一般的に使用されるデータセットから,事前定義されたトピックに関する文書を連続して検索すると,受信者の特性曲線値が0.95,他のデータセットが0.92という平均領域が達成される。
さらに,本手法は,事前にラベルをデータセットに割り当てることなく,マルチクラス文書分類に利用できる。
教師なしの分類基準と比較して、各データセットのf1スコアを76.6から82.7に、それぞれ61.0から75.1に増やした。
当社のアプローチの複製を容易にするため,開発したLbl2Vecコードを3Clause BSDライセンスの下で使用可能ツールとして公開しています。 In this paper, we consider the task of retrieving documents with predefined topics from an unlabeled document dataset using an unsupervised approach. The proposed unsupervised approach requires only a small number of keywords describing the respective topics and no labeled document. Existing approaches either heavily relied on a large amount of additionally encoded world knowledge or on term-document frequencies. Contrariwise, we introduce a method that learns jointly embedded document and word vectors solely from the unlabeled document dataset in order to find documents that are semantically similar to the topics described by the keywords. The proposed method requires almost no text preprocessing but is simultaneously effective at retrieving relevant documents with high probability. When successively retrieving documents on different predefined topics from publicly available and commonly used datasets, we achieved an average area under the receiver operating characteristic curve value of 0.95 on one dataset and 0.92 on another. Further, our method can be used for multiclass document classification, without the need to assign labels to the dataset in advance. Compared with an unsupervised classification baseline, we increased F1 scores from 76.6 to 82.7 and from 61.0 to 75.1 on the respective datasets. For easy replication of our approach, we make the developed Lbl2Vec code publicly available as a ready-to-use tool under the 3-Clause BSD license. | 翻訳日:2022-10-13 12:35:18 公開日:2022-10-12 |
# 臨床領域における実ゼロショットニューラルマシン翻訳のための大規模多言語事前学習言語モデル Using Massive Multilingual Pre-Trained Language Models Towards Real Zero-Shot Neural Machine Translation in Clinical Domain ( http://arxiv.org/abs/2210.06068v1 ) ライセンス: Link先を確認 | Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran Nenadic | (参考訳) 近年、多言語事前学習言語モデル (MMPLM) が開発され、下流タスクのために獲得した超能力と事前知識が実証されている。
本研究では,MMPLMがゼロショット機械翻訳(MT)に適用可能かどうかを,全く新しい言語対と新しいドメインに対して検討する。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の7つの言語対と14の翻訳方向で事前訓練されたメタAIのMMPLM「wmt21-dense-24wide-en-X and X-en」(WMT21fb)を用いて実験を行った。
我々は、これらのMPLMを英語とスペイン語のペアに微調整するが、それらは、暗黙的にも明示的にも、元の訓練済みコーパスには全く存在しなかった。
この微調整のための臨床領域データを慎重に調整するが、これは元々の混合ドメインの知識と異なる。
実験の結果, 臨床, 臨床用語, オントロジー概念の3つのサブタスク翻訳テストにおいて, ドメイン内EN-ESペアと文の整合性は250kに過ぎなかった。
Meta-AIの別のMMPLM NLLBに非常に近い評価スコアを達成している。
我々の知る限りでは、MMPLMを実際のゼロショットNMTに活用する最初の研究であり、また、そのような研究分野における最初の臨床研究である。 Massively multilingual pre-trained language models (MMPLMs) are developed in recent years demonstrating superpowers and the pre-knowledge they acquire for downstream tasks. In this work, we investigate whether MMPLMs can be applied to zero-shot machine translation (MT) toward entirely new language pairs and new domains. We carry out an experimental investigation using Meta-AI's MMPLMs "wmt21-dense-24-wide-en-X and X-en (WMT21fb)" which were pre-trained on 7 language pairs and 14 translation directions including English to Czech, German, Hausa, Icelandic, Japanese, Russian, and Chinese, and opposite direction. We fine-tune these MMPLMs towards English-Spanish language pair which did not exist at all in their original pre-trained corpora both implicitly and explicitly. We prepare carefully aligned clinical domain data for this fine-tuning, which is different from their original mixed domain knowledge as well. Our experimental result shows that the fine-tuning is very successful using just 250k well-aligned in-domain EN-ES pairs/sentences for three sub-task translation tests: clinical cases, clinical terms, and ontology concepts. It achieves very close evaluation scores to another MMPLM NLLB from Meta-AI, which included Spanish as a high-resource setting in the pre-training. To the best of our knowledge, this is the first work on using MMPLMs towards real zero-shot NMT successfully for totally unseen languages during pre-training, and also the first in clinical domain for such a study. | 翻訳日:2022-10-13 12:34:53 公開日:2022-10-12 |
# 選択的クライアント間転送によるテキスト分類のための連続学習 Federated Continual Learning for Text Classification via Selective Inter-client Transfer ( http://arxiv.org/abs/2210.06101v1 ) ライセンス: Link先を確認 | Yatin Chaudhary, Pranav Rai, Matthias Schubert, Hinrich Sch\"utze, Pankaj Gupta | (参考訳) 本研究では,クラウドエッジ連続体におけるテキスト分類タスクのためのフェデレーション学習(fl)と連続学習(cl)の2つのパラダイムを組み合わせた。
連合型連続学習(federated continual learning, fcl)の目的は、データを共有することなく(関連する、効率的な)知識伝達によって、各クライアントの生涯にわたってディープラーニングモデルを改善することである。
本稿では、fcl設定におけるクライアント間の異種タスクによる知識共有によるクライアント間干渉を最小限に抑えるための課題に対処する。
そこで本稿では,外部クライアントのモデルパラメータを選択的に組み合わせたFedSeIT(Federated Selective Inter-client Transfer)を提案する。
知識伝達をさらに最大化するため,プライバシを保ちつつ,各外国クライアントの履歴タスクのシーケンスから,ドメイン重複を評価し,情報的タスクを選択する。
ベースラインに対して評価すると、さまざまなドメインの5つのデータセットを使用して、テキスト分類における平均12.4\%の性能向上を示す。
私たちの知る限りでは、これがFCLをNLPに適用した最初の作品です。 In this work, we combine the two paradigms: Federated Learning (FL) and Continual Learning (CL) for text classification task in cloud-edge continuum. The objective of Federated Continual Learning (FCL) is to improve deep learning models over life time at each client by (relevant and efficient) knowledge transfer without sharing data. Here, we address challenges in minimizing inter-client interference while knowledge sharing due to heterogeneous tasks across clients in FCL setup. In doing so, we propose a novel framework, Federated Selective Inter-client Transfer (FedSeIT) which selectively combines model parameters of foreign clients. To further maximize knowledge transfer, we assess domain overlap and select informative tasks from the sequence of historical tasks at each foreign client while preserving privacy. Evaluating against the baselines, we show improved performance, a gain of (average) 12.4\% in text classification over a sequence of tasks using five datasets from diverse domains. To the best of our knowledge, this is the first work that applies FCL to NLP. | 翻訳日:2022-10-13 12:34:24 公開日:2022-10-12 |
# ERNIE-Layout: 視覚的にリッチな文書理解のための事前トレーニングを強化したレイアウト知識 ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding ( http://arxiv.org/abs/2210.06155v1 ) ライセンス: Link先を確認 | Qiming Peng, Yinxu Pan, Wenjin Wang, Bin Luo, Zhenyu Zhang, Zhengjie Huang, Teng Hu, Weichong Yin, Yongfeng Chen, Yin Zhang, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang | (参考訳) 近年、視覚に富んだ文書理解における事前学習技術の台頭と成功を目撃している。
しかし、既存の手法のほとんどは、レイアウト中心の知識の体系的なマイニングと利用を欠いているため、準最適性能をもたらす。
本稿では,テキスト,レイアウト,画像といった特徴を組み合わせた表現を学習するために,ワークフロー全体におけるレイアウト知識の強化を伴う新しい文書事前学習ソリューションであるERNIE-Layoutを提案する。
具体的には、まず、シリアライズ段階で入力シーケンスを並べ替え、次に相関した事前学習タスク、読み出し順序予測を示し、文書の適切な読み出し順序を学習する。
モデルのレイアウト認識を改善するため,マルチモーダル変圧器に空間認識不連続な注意を配置し,事前学習フェーズに置き換えた領域予測タスクを統合する。
実験結果から、ERNIE-Layoutは、キー情報抽出、文書画像分類、文書質問応答データセットに新たな最先端設定を施し、様々な下流タスクにおいて優れた性能を発揮することが示された。
コードとモデルはhttp://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layoutで公開されている。 Recent years have witnessed the rise and success of pre-training techniques in visually-rich document understanding. However, most existing methods lack the systematic mining and utilization of layout-centered knowledge, leading to sub-optimal performances. In this paper, we propose ERNIE-Layout, a novel document pre-training solution with layout knowledge enhancement in the whole workflow, to learn better representations that combine the features from text, layout, and image. Specifically, we first rearrange input sequences in the serialization stage, and then present a correlative pre-training task, reading order prediction, to learn the proper reading order of documents. To improve the layout awareness of the model, we integrate a spatial-aware disentangled attention into the multi-modal transformer and a replaced regions prediction task into the pre-training phase. Experimental results show that ERNIE-Layout achieves superior performance on various downstream tasks, setting new state-of-the-art on key information extraction, document image classification, and document question answering datasets. The code and models are publicly available at http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout. | 翻訳日:2022-10-13 12:34:07 公開日:2022-10-12 |
# 絡み合いによる準シンボリック説明nli:幾何学的考察 Quasi-symbolic explanatory NLI via disentanglement: A geometrical examination ( http://arxiv.org/abs/2210.06230v1 ) ライセンス: Link先を確認 | Yingji Zhang, Danilo S. Carvalho, Ian Pratt-Hartmann, Andr\'e Freitas | (参考訳) ニューラルモデルのエンコーディングの解消は、自然言語処理における解釈可能性、意味制御、下流タスクの理解を改善するための基本的な側面である。
しかし、ディエンタングルメントと下流タスクの接続点は、説明的な観点からは未検討のままである。
本研究は,vaeに基づく教師付き枠組みに基づく,ベクトル演算および量的・質的用語における意味的不等角性の幾何学的性質を評価するための方法論を提案する。
実験結果から, 説明のロール・コンテント, 例えば, 潜在空間に絡み合っていることが示され, 潜在空間上のベクトルのトラバーサルを操作することで説明生成を制御することができる。 Disentangling the encodings of neural models is a fundamental aspect for improving interpretability, semantic control, and understanding downstream task performance in Natural Language Processing. The connection points between disentanglement and downstream tasks, however, remains underexplored from a explanatory standpoint. This work presents a methodology for assessment of geometrical properties of the resulting latent space w.r.t. vector operations and semantic disentanglement in quantitative and qualitative terms, based on a VAE-based supervised framework. Empirical results indicate that the role-contents of explanations, such as \textit{ARG0-animal}, are disentangled in the latent space, which provides us a chance for controlling the explanation generation by manipulating the traversal of vector over latent space. | 翻訳日:2022-10-13 12:33:46 公開日:2022-10-12 |
# TwiRGCN: 時間的知識グラフに対する質問応答のための時間的重み付きグラフ畳み込み TwiRGCN: Temporally Weighted Graph Convolution for Question Answering over Temporal Knowledge Graphs ( http://arxiv.org/abs/2210.06281v1 ) ライセンス: Link先を確認 | Aditya Sharma, Apoorv Saxena, Chitrank Gupta, Seyed Mehran Kazemi, Partha Talukdar, Soumen Chakrabarti | (参考訳) 近年、複雑な質問応答(QA)のための知識グラフ(KG)に対する時間的推論への関心が高まっているが、人間の能力には大きなギャップがある。
時間的KGQAのためのリレーショナルグラフ畳み込みネットワーク(RGCN)の一般化について検討する。
具体的には、コンボリューション中のKGエッジを通過するメッセージを、関連する時間と質問との関連性に基づいて、新しい、直感的で解釈可能な方式を提案する。
また,複雑な時間的質問に対する回答が kg の実体か時間かを予測するゲーティングデバイスを導入し,この予測を用いてスコアリング機構を導出する。
最近リリースされたマルチホップ複合時間QAのための挑戦的データセットであるTimeQuestionsで、TwiRGCNと呼ぶ結果のシステムを評価する。
TwiRGCNは,様々な質問タイプにまたがって,このデータセットの最先端システムを大幅に上回ることを示す。
特にTwiRGCNは、最も困難で暗黙的な質問タイプに対して、9~10ポイントの精度を向上させる。 Recent years have witnessed much interest in temporal reasoning over knowledge graphs (KG) for complex question answering (QA), but there remains a substantial gap in human capabilities. We explore how to generalize relational graph convolutional networks (RGCN) for temporal KGQA. Specifically, we propose a novel, intuitive and interpretable scheme to modulate the messages passed through a KG edge during convolution, based on the relevance of its associated time period to the question. We also introduce a gating device to predict if the answer to a complex temporal question is likely to be a KG entity or time and use this prediction to guide our scoring mechanism. We evaluate the resulting system, which we call TwiRGCN, on TimeQuestions, a recently released, challenging dataset for multi-hop complex temporal QA. We show that TwiRGCN significantly outperforms state-of-the-art systems on this dataset across diverse question types. Notably, TwiRGCN improves accuracy by 9--10 percentage points for the most difficult ordinal and implicit question types. | 翻訳日:2022-10-13 12:33:30 公開日:2022-10-12 |
# オープンドメインの質問応答を改善するコンテキスト生成 Context Generation Improves Open Domain Question Answering ( http://arxiv.org/abs/2210.06349v1 ) ライセンス: Link先を確認 | Dan Su, Mostofa Patwary, Shrimai Prabhumoye, Peng Xu, Ryan Prenger, Mohammad Shoeybi, Pascale Fung, Anima Anandkumar, Bryan Catanzaro | (参考訳) クローズドブック質問応答(QA)は、外部知識にアクセスせずに、オープンドメインの質問に答えるモデルを必要とする。
クローズドブックQAの以前の作業は、直接微調整するか、事前訓練された言語モデル(LM)に保存された知識を活用するよう促す。
しかし、パラメータ化された知識を十分に活用していない。
この問題に対処するため,我々は2段階のクローズドブックqaフレームワークを提案する。
提案手法はまず,事前学習したLMを誘導することにより,与えられた質問に対する関連するコンテキストを生成する。
次に、生成した文脈と質問を用いて、同じLMに回答予測を指示する。
さらに、コンテキストの不確実性に起因する障害を取り除くために、生成されたコンテキストを疎外する。
3つのQAベンチマーク実験の結果、我々の手法は従来のクローズドブックQA手法(68.6%対55.3%)を著しく上回り、外部知識源を利用するオープンブック手法(68.6%対68.0%)と同等であることがわかった。
本手法は,学習可能なパラメータの追加や微調整を必要とせずに,事前学習されたlmsの知識をより活用し,事前学習されたlmsと外部知識を統合するハイブリッドモデルへの道を開く。 Closed-book question answering (QA) requires a model to directly answer an open-domain question without access to any external knowledge. Prior work on closed-book QA either directly finetunes or prompts a pretrained language model (LM) to leverage the stored knowledge. However, they do not fully exploit the parameterized knowledge. To address this issue, we propose a two-stage, closed-book QA framework which employs a coarse-to-fine approach to extract relevant knowledge and answer a question. Our approach first generates a related context for a given question by prompting a pretrained LM. We then prompt the same LM for answer prediction using the generated context and the question. Additionally, to eliminate failure caused by context uncertainty, we marginalize over generated contexts. Experimental results on three QA benchmarks show that our method significantly outperforms previous closed-book QA methods (e.g. exact matching 68.6% vs. 55.3%), and is on par with open-book methods that exploit external knowledge sources (e.g. 68.6% vs. 68.0%). Our method is able to better exploit the stored knowledge in pretrained LMs without adding extra learnable parameters or needing finetuning, and paves the way for hybrid models that integrate pretrained LMs with external knowledge. | 翻訳日:2022-10-13 12:33:13 公開日:2022-10-12 |
# 意味レベルの精度と拡張語彙を有する事前学習言語モデルにおける常識知識の探索 Probing Commonsense Knowledge in Pre-trained Language Models with Sense-level Precision and Expanded Vocabulary ( http://arxiv.org/abs/2210.06376v1 ) ライセンス: Link先を確認 | Daniel Loureiro, Al\'ipio M\'ario Jorge | (参考訳) コモンセンス推論の進歩は通常、コモンセンスの知識を必要とするように設計された質問応答タスクのパフォーマンス改善から測定される。
しかし、これらの特定のタスクに対する微調整された大きな言語モデル(LM)は、事前学習中に学んだ常識を直接評価するものではない。
事前訓練されたlmmにおけるコモンセンス知識の最も直接的な評価は、コモンセンスアサーション(例えば[マスク]にペンが使用される)をターゲットとしたクロゼスタイルのタスクである。
しかしながら、このアプローチはマスキング予測に使用可能なlmの語彙によって制限され、その精度はアサーションによって与えられる文脈に従属する。
本稿では,語彙レベルで利用可能な接地感覚インベントリ(すなわちwordnet)を,さらなる学習なしにlmsを充実させる手法を提案する。
この修正は、クローゼスタイルのプロンプトの予測空間を大きなオントロジーのサイズに拡張し、よりきめ細かい(センスレベルの)クエリと予測を可能にする。
高い精度でLMを評価するために,WordNet,WikiData,ConceptNetから派生した曖昧な三重項から言語化された関係を特徴付ける閉鎖型タスクであるSenseLAMAを提案する。
この手法をBERTに適用し、SynBERTというWordNetに富んだバージョンを生成することで、LMは自己スーパービジョンから非自明なコモンセンス知識を学習し、多くの関係をカバーし、同等の類似性に基づくアプローチよりも効果的であることが分かる。 Progress on commonsense reasoning is usually measured from performance improvements on Question Answering tasks designed to require commonsense knowledge. However, fine-tuning large Language Models (LMs) on these specific tasks does not directly evaluate commonsense learned during pre-training. The most direct assessments of commonsense knowledge in pre-trained LMs are arguably cloze-style tasks targeting commonsense assertions (e.g., A pen is used for [MASK].). However, this approach is restricted by the LM's vocabulary available for masked predictions, and its precision is subject to the context provided by the assertion. In this work, we present a method for enriching LMs with a grounded sense inventory (i.e., WordNet) available at the vocabulary level, without further training. This modification augments the prediction space of cloze-style prompts to the size of a large ontology while enabling finer-grained (sense-level) queries and predictions. In order to evaluate LMs with higher precision, we propose SenseLAMA, a cloze-style task featuring verbalized relations from disambiguated triples sourced from WordNet, WikiData, and ConceptNet. Applying our method to BERT, producing a WordNet-enriched version named SynBERT, we find that LMs can learn non-trivial commonsense knowledge from self-supervision, covering numerous relations, and more effectively than comparable similarity-based approaches. | 翻訳日:2022-10-13 12:32:48 公開日:2022-10-12 |
# PriMeSRL-Eval:セマンティックロールラベルシステム評価のための実践的品質指標 PriMeSRL-Eval: A Practical Quality Metric for Semantic Role Labeling Systems Evaluation ( http://arxiv.org/abs/2210.06408v1 ) ライセンス: Link先を確認 | Ishan Jindal, Alexandre Rademaker, Khoi-Nguyen Tran, Huaiyu Zhu, Hiroshi Kanayama, Marina Danilevsky, Yunyao Li | (参考訳) 意味的役割ラベリング(srl)は、文中の述語-節構造を識別する。
このタスクは通常、述語識別、述語感覚の曖昧さ、引数識別、引数分類の4つのステップで達成される。
あるステップで導入されたエラーは、後段に伝播する。
残念ながら、既存のSRL評価スクリプトは、このエラー伝搬の側面の完全な効果を考慮していない。
彼らは、述語感覚とは無関係な議論(CoNLL09)を評価するか、全く述語感覚を評価しない(CoNLL05)か、引数分類タスクにおいて不正確なSRLモデル性能をもたらす。
本稿では,既存の評価スクリプトにおける重要な実践的問題に対処し,より厳密なSRL評価指標PriMeSRLを提案する。
また、PriMeSRLを用いることで、全てのSoTA SRLモデルの品質評価が大幅に低下し、相対的なランキングも変化することが観察された。
また、PriMeSRLは、SoTA SRLモデルにおける実際の故障を必然的にペナルティ化することを示す。 Semantic role labeling (SRL) identifies the predicate-argument structure in a sentence. This task is usually accomplished in four steps: predicate identification, predicate sense disambiguation, argument identification, and argument classification. Errors introduced at one step propagate to later steps. Unfortunately, the existing SRL evaluation scripts do not consider the full effect of this error propagation aspect. They either evaluate arguments independent of predicate sense (CoNLL09) or do not evaluate predicate sense at all (CoNLL05), yielding an inaccurate SRL model performance on the argument classification task. In this paper, we address key practical issues with existing evaluation scripts and propose a more strict SRL evaluation metric PriMeSRL. We observe that by employing PriMeSRL, the quality evaluation of all SoTA SRL models drops significantly, and their relative rankings also change. We also show that PriMeSRLsuccessfully penalizes actual failures in SoTA SRL models. | 翻訳日:2022-10-13 12:32:20 公開日:2022-10-12 |
# より良いスマッチ = より良いパーサー?
AMR評価はもはや簡単ではない Better Smatch = Better Parser? AMR evaluation is not so simple anymore ( http://arxiv.org/abs/2210.06461v1 ) ライセンス: Link先を確認 | Juri Opitz and Anette Frank | (参考訳) 近年,構造的スマッチ法によるAMR解析では驚くべき進展が観察されている。
実際、今日のシステムは、人間間アノテータ合意(IAA)の見積を超越しているように見えるパフォーマンスレベルを達成する。
したがって、Smatch(いまだ)が人間のパース品質の推定とどの程度の相関があるかは不明であり、この状況下では、類似の重みの微粒な誤差がAMRの意味に異なる程度に影響を及ぼす可能性がある。
我々は,人間のiaaと同等の品質レベルに達する2つのポピュラーで強力なamrパーサーの分析を行い,人間の品質評価がsmatchや他のamr指標とどのように関連しているかを評価する。
私たちの主な発見は
i) 高いsmatchスコアは別な点を示すが,amr構文解析は解決に至らず,構造的に小さいが,意味的に許容できない誤りが文の意味を著しく歪めていることが多い。
二 ハイパフォーマンスなパーサーを考えると、より優れたスマッチスコアは、必ずしも一貫したパース品質を示すとは限らない。
parse(r)の品質差を有意義かつ包括的に評価するために、マクロ統計による評価の強化、追加のメトリクスの使用、より人的分析を推奨する。 Recently, astonishing advances have been observed in AMR parsing, as measured by the structural Smatch metric. In fact, today's systems achieve performance levels that seem to surpass estimates of human inter annotator agreement (IAA). Therefore, it is unclear how well Smatch (still) relates to human estimates of parse quality, as in this situation potentially fine-grained errors of similar weight may impact the AMR's meaning to different degrees. We conduct an analysis of two popular and strong AMR parsers that -- according to Smatch -- reach quality levels on par with human IAA, and assess how human quality ratings relate to Smatch and other AMR metrics. Our main findings are: i) While high Smatch scores indicate otherwise, we find that AMR parsing is far from being solved: we frequently find structurally small, but semantically unacceptable errors that substantially distort sentence meaning. ii) Considering high-performance parsers, better Smatch scores may not necessarily indicate consistently better parsing quality. To obtain a meaningful and comprehensive assessment of quality differences of parse(r)s, we recommend augmenting evaluations with macro statistics, use of additional metrics, and more human analysis. | 翻訳日:2022-10-13 12:32:03 公開日:2022-10-12 |
# 自己教師付きビデオプリトレーニングは強い画像表現をもたらす Self-supervised video pretraining yields strong image representations ( http://arxiv.org/abs/2210.06433v1 ) ライセンス: Link先を確認 | Nikhil Parthasarathy, S. M. Ali Eslami, Jo\~ao Carreira, Olivier J. H\'enaff | (参考訳) ビデオには静止画よりもはるかに多くの情報が含まれており、視覚世界の豊かな表現を学ぶ可能性を秘めている。
しかし、画像データセットの事前トレーニングは、空間情報をキャプチャする表現を学習するための主要なパラダイムであり続けており、以前のビデオ事前トレーニングの試みは、画像理解タスクに不足している。
本研究では,映像フレームの動的進化から映像表現の自己教師あり学習を再考する。
そこで本研究では,映像と画像データセットのドメインミスマッチに対処するデータセットキュレーション手法を提案し,自然映像に存在する複雑な変換を扱うコントラスト学習フレームワークを開発した。
ビデオから画像表現へ知識を抽出する、VTOと呼ばれるこのシンプルなパラダイムは、さまざまな画像ベースの転写学習タスクで驚くほどうまく機能する。
ビデオ事前学習モデルは,PASCALとADE20KのセマンティックセグメンテーションとCOCOとLVISのオブジェクト検出によるImageNet事前学習とギャップを埋めることで,ビデオ事前学習が画像表現の新たなデフォルトとなる可能性が示唆された。 Videos contain far more information than still images and hold the potential for learning rich representations of the visual world. Yet, pretraining on image datasets has remained the dominant paradigm for learning representations that capture spatial information, and previous attempts at video pretraining have fallen short on image understanding tasks. In this work we revisit self-supervised learning of image representations from the dynamic evolution of video frames. To that end, we propose a dataset curation procedure that addresses the domain mismatch between video and image datasets, and develop a contrastive learning framework which handles the complex transformations present in natural videos. This simple paradigm for distilling knowledge from videos to image representations, called VITO, performs surprisingly well on a variety of image-based transfer learning tasks. For the first time, our video-pretrained model closes the gap with ImageNet pretraining on semantic segmentation on PASCAL and ADE20K and object detection on COCO and LVIS, suggesting that video-pretraining could become the new default for learning image representations. | 翻訳日:2022-10-13 12:25:38 公開日:2022-10-12 |
# 視覚トランスフォーマーのためのトークンラベルアライメント Token-Label Alignment for Vision Transformers ( http://arxiv.org/abs/2210.06455v1 ) ライセンス: Link先を確認 | Han Xiao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu | (参考訳) データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
トレーニング用の入力として2つのイメージを混合し、同じ比率の混合ラベルを割り当てる。
視覚変換器(ViT)に有効であることを示す一方で,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
我々は,入力トークンの寄与が前方伝播として変動し,出力トークンの混合比が異なる可能性があることを実証的に観察する。
これにより、元のデータ混合戦略によって計算されたトレーニングターゲットが不正確になり、効率の悪いトレーニングとなる。
これを解決するために,変換トークンと元のトークンとの対応をトレースし,各トークンのラベルを維持するためのトークンラベルアライメント(TL-Align)手法を提案する。
各層で計算された注意を再利用し,効率的なトークンラベルアライメントを可能にした。
広範な実験により,画像分類,意味セグメンテーション,客観的検出,転送学習タスクにおけるvitの性能が向上した。
コードは、https://github.com/Euphoria16/TL-Align.comで入手できる。 Data mixing strategies (e.g., CutMix) have shown the ability to greatly improve the performance of convolutional neural networks (CNNs). They mix two images as inputs for training and assign them with a mixed label with the same ratio. While they are shown effective for vision transformers (ViTs), we identify a token fluctuation phenomenon that has suppressed the potential of data mixing strategies. We empirically observe that the contributions of input tokens fluctuate as forward propagating, which might induce a different mixing ratio in the output tokens. The training target computed by the original data mixing strategy can thus be inaccurate, resulting in less effective training. To address this, we propose a token-label alignment (TL-Align) method to trace the correspondence between transformed tokens and the original tokens to maintain a label for each token. We reuse the computed attention at each layer for efficient token-label alignment, introducing only negligible additional training costs. Extensive experiments demonstrate that our method improves the performance of ViTs on image classification, semantic segmentation, objective detection, and transfer learning tasks. Code is available at: https://github.com/Euphoria16/TL-Align. | 翻訳日:2022-10-13 12:25:21 公開日:2022-10-12 |
# 自己誘導拡散モデル Self-Guided Diffusion Models ( http://arxiv.org/abs/2210.06462v1 ) ライセンス: Link先を確認 | Vincent Tao Hu, David W Zhang, Yuki M. Asano, Gertjan J. Burghouts, Cees G. M. Snoek | (参考訳) 拡散モデルは、特に生成過程を制御するためのガイダンスを使用する場合、画像生成品質の顕著な進歩を示した。
しかし、指導にはトレーニングのために大量の画像注釈ペアが必要であり、その可用性、正確性、偏りに依存する。
本稿では,自己誘導拡散モデルのためのフレームワークの設計に自己超越信号の柔軟性を活用することで,このようなアノテーションの必要性を解消する。
特徴抽出関数と自己アノテーション関数を活用することで,全体像のレベルからオブジェクトボックス,さらにはセグメンテーションマスクまで,さまざまな画像粒度のガイダンス信号を提供する。
シングルラベルおよびマルチラベル画像データセットを用いた実験により,自己ラベル誘導は,常にガイダンス無しの拡散モデルよりも優れており,特に不均衡データにおいて,接地ラベルに基づくガイダンスを超越する可能性も示された。
自己教師付きボックスやマスクプロポーザルを備える場合、クラス、ボックス、セグメントラベルアノテーションを必要とせず、視覚的に多様で意味的に一貫性のある画像を生成する。
自己誘導拡散はシンプルで柔軟性があり、大規模展開で利益を期待できる。 Diffusion models have demonstrated remarkable progress in image generation quality, especially when guidance is used to control the generative process. However, guidance requires a large amount of image-annotation pairs for training and is thus dependent on their availability, correctness and unbiasedness. In this paper, we eliminate the need for such annotation by instead leveraging the flexibility of self-supervision signals to design a framework for self-guided diffusion models. By leveraging a feature extraction function and a self-annotation function, our method provides guidance signals at various image granularities: from the level of holistic images to object boxes and even segmentation masks. Our experiments on single-label and multi-label image datasets demonstrate that self-labeled guidance always outperforms diffusion models without guidance and may even surpass guidance based on ground-truth labels, especially on unbalanced data. When equipped with self-supervised box or mask proposals, our method further generates visually diverse yet semantically consistent images, without the need for any class, box, or segment label annotation. Self-guided diffusion is simple, flexible and expected to profit from deployment at scale. | 翻訳日:2022-10-13 12:25:01 公開日:2022-10-12 |
# 線形関数近似による時間差学習の有限時間解析:末尾平均化と正規化 Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation ( http://arxiv.org/abs/2210.05918v1 ) ライセンス: Link先を確認 | Gandharv Patil, Prashanth L.A., Dheeraj Nagaraj, Doina Precup | (参考訳) 一般時間差学習アルゴリズム(popular temporal difference:td)の有限時間挙動をテール平均化と組み合わせて検討した。
予測された td の不動点の下にある行列の固有値に関する情報を必要としないステップサイズの選択の下で、テール平均 td のパラメータ誤差の有限時間境界を求める。
我々の分析は、テール平均TDは期待値と高い確率の両方で最適な$O\left(1/t\right)$レートで収束することを示している。
加えて、我々の境界は初期誤差(bias)に対してより鋭い減衰率を示し、全てのイテレートの平均よりも改善されている。
また,正規化を組み込んだtdの変種を提案し,解析する。
分析の結果,TDの正規化バージョンは不条件特徴の問題に有用であることがわかった。 We study the finite-time behaviour of the popular temporal difference (TD) learning algorithm when combined with tail-averaging. We derive finite time bounds on the parameter error of the tail-averaged TD iterate under a step-size choice that does not require information about the eigenvalues of the matrix underlying the projected TD fixed point. Our analysis shows that tail-averaged TD converges at the optimal $O\left(1/t\right)$ rate, both in expectation and with high probability. In addition, our bounds exhibit a sharper rate of decay for the initial error (bias), which is an improvement over averaging all iterates. We also propose and analyse a variant of TD that incorporates regularisation. From analysis, we conclude that the regularised version of TD is useful for problems with ill-conditioned features. | 翻訳日:2022-10-13 12:24:42 公開日:2022-10-12 |
# スパイキングDS-ResNetによるマルチレベルファイリング:より良く、より深く直接訓練されたスパイキングニューラルネットワーク Multi-Level Firing with Spiking DS-ResNet: Enabling Better and Deeper Directly-Trained Spiking Neural Networks ( http://arxiv.org/abs/2210.06386v1 ) ライセンス: Link先を確認 | Lang Feng, Qianhui Liu, Huajin Tang, De Ma, Gang Pan | (参考訳) スパイキングニューラルネットワーク(SNN)は、非同期な離散性とスパース特性を持つバイオインスパイアされたニューラルネットワークであり、低エネルギー消費においてその優位性を示している。
最近の研究は、時空間情報を利用して、バックプロパゲーションによってSNNを直接訓練することに集中している。
しかし、スパイクアクティビティのバイナリおよび非微分可能特性は、直接訓練されたSNNが深刻な勾配の消失とネットワーク劣化に悩まされ、直接訓練されたSNNの性能が大幅に低下し、より深くなることを防ぐ。
本稿では,既存の時空間バック伝搬(STBP)法に基づくマルチレベルファイアリング(MLF)法と,停止抑制残差ネットワーク(DS-ResNetをスパイクする)を提案する。
MLFは神経細胞のより効率的な勾配伝播と漸進的な発現を可能にする。
DS-ResNetは離散スパイクのIDマッピングを効率的に行うことができ、深部SNNの勾配伝播により適した接続を提供する。
提案手法により,非ニューロモルフィックデータセットと2つのニューロモルフィックデータセットにおいて,トレーニング可能なパラメータがはるかに少ない性能を達成し,深部SNNにおける勾配消滅・劣化問題に対処する優れた能力を示す。 Spiking neural networks (SNNs) are bio-inspired neural networks with asynchronous discrete and sparse characteristics, which have increasingly manifested their superiority in low energy consumption. Recent research is devoted to utilizing spatio-temporal information to directly train SNNs by backpropagation. However, the binary and non-differentiable properties of spike activities force directly trained SNNs to suffer from serious gradient vanishing and network degradation, which greatly limits the performance of directly trained SNNs and prevents them from going deeper. In this paper, we propose a multi-level firing (MLF) method based on the existing spatio-temporal back propagation (STBP) method, and spiking dormant-suppressed residual network (spiking DS-ResNet). MLF enables more efficient gradient propagation and the incremental expression ability of the neurons. Spiking DS-ResNet can efficiently perform identity mapping of discrete spikes, as well as provide a more suitable connection for gradient propagation in deep SNNs. With the proposed method, our model achieves superior performances on a non-neuromorphic dataset and two neuromorphic datasets with much fewer trainable parameters and demonstrates the great ability to combat the gradient vanishing and degradation problem in deep SNNs. | 翻訳日:2022-10-13 12:24:27 公開日:2022-10-12 |
# Holo-Dex:Immersive Mixed Realityによるディクスタリティの教育 Holo-Dex: Teaching Dexterity with Immersive Mixed Reality ( http://arxiv.org/abs/2210.06463v1 ) ライセンス: Link先を確認 | Sridhar Pandian Arunachalam, Irmak G\"uzey, Soumith Chintala, Lerrel Pinto | (参考訳) ロボットを教える上での基本的な課題は、人間の教師がロボットに有用なスキルを示す効果的なインターフェースを提供することである。
この課題は、高次元で接触に富んだ振る舞いを教える際には、密接な遠隔操作ツールを必要とすることが多い。
そこで本研究では,教師を没入型混合現実空間に配置し,vrヘッドセットで操作するフレームワークであるholo-dexを提案する。
ヘッドセットに搭載された高忠実な手ポーズ推定器は、ロボットを遠隔操作し、様々な汎用的なデキスタスタスクのデモを集めるために使用される。
これらの実演を踏まえ、我々は非パラメトリックな模倣と強力な特徴学習を併用して、器用なスキルを訓練する。
回転や回転、ボトルの開口など6つの一般的なタスクに関する実験から、holo-dexは高品質のデモデータとトレーニングスキルを数時間で収集できることが分かりました。
最後に、訓練されたスキルは、トレーニングで見えない物体の一般化を示すことができる。
holo-dexのビデオはhttps://holo-dex.github.ioで見ることができる。 A fundamental challenge in teaching robots is to provide an effective interface for human teachers to demonstrate useful skills to a robot. This challenge is exacerbated in dexterous manipulation, where teaching high-dimensional, contact-rich behaviors often require esoteric teleoperation tools. In this work, we present Holo-Dex, a framework for dexterous manipulation that places a teacher in an immersive mixed reality through commodity VR headsets. The high-fidelity hand pose estimator onboard the headset is used to teleoperate the robot and collect demonstrations for a variety of general-purpose dexterous tasks. Given these demonstrations, we use powerful feature learning combined with non-parametric imitation to train dexterous skills. Our experiments on six common dexterous tasks, including in-hand rotation, spinning, and bottle opening, indicate that Holo-Dex can both collect high-quality demonstration data and train skills in a matter of hours. Finally, we find that our trained skills can exhibit generalization on objects not seen in training. Videos of Holo-Dex are available at https://holo-dex.github.io. | 翻訳日:2022-10-13 12:24:02 公開日:2022-10-12 |
# 識別クラスタリングのための一般化された相互情報 Generalised Mutual Information for Discriminative Clustering ( http://arxiv.org/abs/2210.06300v1 ) ライセンス: Link先を確認 | Ohl Louis, Mattei Pierre-Alexandre, Bouveyron Charles, Harchaoui Warith, Leclercq Micka\"el, Droit Arnaud, Precioso Frederic | (参考訳) この10年で、ディープクラスタリングの成功は、ニューラルネットワークをトレーニングするための教師なしの目的として相互情報(MI)に大きく関与した。
正規化の質は改善のために主に議論されてきたが、クラスタリングの目的としてのMIの関連性にはほとんど注目されていない。
本稿ではまず,MIの最大化がクラスタ満足度に寄与しないことを示す。
この行動の主な原因として,kullback-leiblerの発散を確認した。
そこで我々は,教師なしニューラルネットワークトレーニングのための指標セットである一般化相互情報(GEMINI)を導入し,コア距離を変化させて相互情報を一般化する。
MIとは異なり、一部のGEMINIはトレーニング時に正規化を必要としない。
これらのメトリクスのいくつかは、データ空間内の距離やカーネルによって幾何学的に認識される。
最後に、GEMINIsは、クラスタの数が未知の深層クラスタリングコンテキストにおいて、ほとんど研究されていないプロパティである、関連するクラスタの数を自動で選択できる点を強調した。 In the last decade, recent successes in deep clustering majorly involved the mutual information (MI) as an unsupervised objective for training neural networks with increasing regularisations. While the quality of the regularisations have been largely discussed for improvements, little attention has been dedicated to the relevance of MI as a clustering objective. In this paper, we first highlight how the maximisation of MI does not lead to satisfying clusters. We identified the Kullback-Leibler divergence as the main reason of this behaviour. Hence, we generalise the mutual information by changing its core distance, introducing the generalised mutual information (GEMINI): a set of metrics for unsupervised neural network training. Unlike MI, some GEMINIs do not require regularisations when training. Some of these metrics are geometry-aware thanks to distances or kernels in the data space. Finally, we highlight that GEMINIs can automatically select a relevant number of clusters, a property that has been little studied in deep clustering context where the number of clusters is a priori unknown. | 翻訳日:2022-10-13 12:23:41 公開日:2022-10-12 |
# PLMの難易度はテキスト品質評価に不適である Perplexity from PLM Is Unreliable for Evaluating Text Quality ( http://arxiv.org/abs/2210.05892v1 ) ライセンス: Link先を確認 | Yequan Wang, Jiawen Deng, Aixin Sun, Xuying Meng | (参考訳) 近年,テキストの品質評価にパープレキシティ~(PPL)を利用する作品が増えている。
彼らは、PPLの値が小さい場合、評価すべきテキストの品質(すなわち、流布率)が良いと仮定する。
しかし、PPLレフェリーは不適格であり、以下の理由で生成されたテキストを公平に評価することはできない。
(i)短文のPPLは長文よりも大きく、常識に反する。
(ii)反復テキストスパンはpplの性能を損なう可能性があり、
(iii)句読点がpplの性能に大きく影響する可能性がある。
実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
最後に,言語モデルを用いたテキスト品質評価の課題について論じる。 Recently, amounts of works utilize perplexity~(PPL) to evaluate the quality of the generated text. They suppose that if the value of PPL is smaller, the quality(i.e. fluency) of the text to be evaluated is better. However, we find that the PPL referee is unqualified and it cannot evaluate the generated text fairly for the following reasons: (i) The PPL of short text is larger than long text, which goes against common sense, (ii) The repeated text span could damage the performance of PPL, and (iii) The punctuation marks could affect the performance of PPL heavily. Experiments show that the PPL is unreliable for evaluating the quality of given text. Last, we discuss the key problems with evaluating text quality using language models. | 翻訳日:2022-10-13 12:22:57 公開日:2022-10-12 |
# Hate-CLIPper:CLIP特徴の相互相互作用に基づくマルチモーダルHateful Meme分類 Hate-CLIPper: Multimodal Hateful Meme Classification based on Cross-modal Interaction of CLIP Features ( http://arxiv.org/abs/2210.05916v1 ) ライセンス: Link先を確認 | Gokul Karthik Kumar, Karthik Nanadakumar | (参考訳) 憎しみのあるミームはソーシャルメディアの脅威になりつつある。
ミーム内の画像と対応するテキストは関連があるが、個別に見る場合、必ずしも同じ意味を持つとは限らない。
したがって、嫌悪なミームを検出するには、視覚情報とテキスト情報の両方を慎重に考慮する必要がある。
画像とテキストの関係を類似した特徴空間で表現することで効果的にキャプチャするので,マルチモーダル事前学習が有用である。
さらに、中間融合によって画像とテキストの相互作用をモデル化することが不可欠である。
既存のほとんどの方法はマルチモーダル事前訓練または中間融合を用いるが、両方ではない。
本研究では,特徴間相互作用行列 (FIM) を用いて,コントラスト言語-画像事前学習 (CLIP) エンコーダを用いて得られた画像とテキストの相互相互作用を明示的にモデル化するHate-CLIPperアーキテクチャを提案する。
FIM表現に基づく単純な分類器は、Hateful Memes Challenge (HMC)データセットにおける最先端のパフォーマンスを85.8のAUROCで達成することができる。
Propaganda MemesやTamil Memesといった他のミームデータセットの実験も、提案手法の一般化可能性を示している。
最後に、FIM表現の解釈可能性を分析し、モーダル間相互作用が意味のある概念の学習を促進することを示す。
この作業のコードはhttps://github.com/gokulkarthik/hateclipperで入手できる。 Hateful memes are a growing menace on social media. While the image and its corresponding text in a meme are related, they do not necessarily convey the same meaning when viewed individually. Hence, detecting hateful memes requires careful consideration of both visual and textual information. Multimodal pre-training can be beneficial for this task because it effectively captures the relationship between the image and the text by representing them in a similar feature space. Furthermore, it is essential to model the interactions between the image and text features through intermediate fusion. Most existing methods either employ multimodal pre-training or intermediate fusion, but not both. In this work, we propose the Hate-CLIPper architecture, which explicitly models the cross-modal interactions between the image and text representations obtained using Contrastive Language-Image Pre-training (CLIP) encoders via a feature interaction matrix (FIM). A simple classifier based on the FIM representation is able to achieve state-of-the-art performance on the Hateful Memes Challenge (HMC) dataset with an AUROC of 85.8, which even surpasses the human performance of 82.65. Experiments on other meme datasets such as Propaganda Memes and TamilMemes also demonstrate the generalizability of the proposed approach. Finally, we analyze the interpretability of the FIM representation and show that cross-modal interactions can indeed facilitate the learning of meaningful concepts. The code for this work is available at https://github.com/gokulkarthik/hateclipper. | 翻訳日:2022-10-13 12:17:27 公開日:2022-10-12 |
# 映像に基づく行動予測のための言語モデルからの知識の抽出 Distilling Knowledge from Language Models for Video-based Action Anticipation ( http://arxiv.org/abs/2210.05991v1 ) ライセンス: Link先を確認 | Sayontan Ghosh, Tanvi Aggarwal, Minh Hoai, Niranjan Balasubramanian | (参考訳) ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
先行アクション予測作業は、主にこれを視覚的モダリティ問題として扱い、モデルがターゲットアクション予測データセット内のビデオ特徴からタスク情報を学習する。
本研究では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
特に,事前学習された言語モデルを利用して,入力映像から抽出した過去の行動のテキストラベルに基づいて,将来の行動を予測することができるテキストモダリティ教師を構築する。
さらに,教師を対象領域(調理)に適応させるために,レシピデータセット(レシピ1M)からテキストによる指導を事前訓練する。
次に,テキストモダリティ教師が得た知識を視覚モダリティの学生に抽出し,さらにパフォーマンスを向上させる。
EGTEA-GAZE+とEPIC-KITCHEN 55の2つのビデオデータセットに対して,この単純なクロスモーダル蒸留戦略を実証的に評価した。
このテキストモダリティの知識を強いビジョンモデル(予測ビジョントランスフォーマー)に蒸留することで、両方のデータセットに一貫した利益をもたらし、3.5%のtop1クラス平均リコール(egtea-gaze+)、7.2%のマルチショットクラス平均リコール(epic-kitchen 55)、そして新たなstate-of-results(results)を達成する。 Anticipating future actions in a video is useful for many autonomous and assistive technologies. Prior action anticipation work mostly treats this as a vision modality problem, where the models learn the task information primarily from the video features in the target action anticipation datasets. In this work, we propose a method to make use of the text-modality that is available during the training, to bring in complementary information that is not present in the target action anticipation datasets. In particular, we leverage pre-trained language models to build a text-modality teacher that is able to predict future actions based on text labels of the past actions extracted from the input video. To further adapt the teacher to the target domain (cooking), we also pretrain the teacher on textual instructions from a recipes dataset (Recipe1M). Then, we distill the knowledge gained by the text-modality teacher into a vision-modality student to further improve it's performance. We empirically evaluate this simple cross-modal distillation strategy on two video datasets EGTEA-GAZE+ and EPIC-KITCHEN 55. Distilling this text-modality knowledge into a strong vision model (Anticipative Vision Transformer) yields consistent gains across both datasets, 3.5% relative improvement on top1 class mean recall for EGTEA-GAZE+, 7.2% on top5 many-shot class mean recall for EPIC-KITCHEN 55 and achieves new state-of-the-results. | 翻訳日:2022-10-13 12:17:03 公開日:2022-10-12 |
# 基礎変圧器 Foundation Transformers ( http://arxiv.org/abs/2210.06423v1 ) ライセンス: Link先を確認 | Hongyu Wang, Shuming Ma, Shaohan Huang, Li Dong, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, Barun Patra, Zhun Liu, Vishrav Chaudhary, Xia Song, Furu Wei | (参考訳) 言語、ビジョン、音声、マルチモーダルにまたがるモデルアーキテクチャの大規模な収束が生まれている。
しかし、トランスフォーマー(Transformers)という同じ名前のこの領域では、例えばBERTのPost-LayerNorm、GPTおよびビジョントランスフォーマーのPre-LayerNormなど、より優れたパフォーマンスのために異なる実装を使用している。
我々は,訓練安定性を保証した各種タスクやモダリティのゴーツーアーキテクチャとして機能する,真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
具体的には,良好な表現性を示すサブレイヤノルムと,理論上はdeepnetから派生した初期化戦略を提案する。
大規模な実験では、言語モデリング(BERT、GPT)、機械翻訳、視覚前訓練(BEiT)、音声認識、マルチモーダル前訓練(BEiT-3)など、様々な用途向けに設計されたデファクトトランスフォーマーよりも優れた性能と安定性を示す。 A big convergence of model architectures across language, vision, speech, and multimodal is emerging. However, under the same name "Transformers", the above areas use different implementations for better performance, e.g., Post-LayerNorm for BERT, and Pre-LayerNorm for GPT and vision Transformers. We call for the development of Foundation Transformer for true general-purpose modeling, which serves as a go-to architecture for various tasks and modalities with guaranteed training stability. In this work, we introduce a Transformer variant, named Magneto, to fulfill the goal. Specifically, we propose Sub-LayerNorm for good expressivity, and the initialization strategy theoretically derived from DeepNet for stable scaling up. Extensive experiments demonstrate its superior performance and better stability than the de facto Transformer variants designed for various applications, including language modeling (i.e., BERT, and GPT), machine translation, vision pretraining (i.e., BEiT), speech recognition, and multimodal pretraining (i.e., BEiT-3). | 翻訳日:2022-10-13 12:16:37 公開日:2022-10-12 |
# slotformer:オブジェクト中心モデルによる教師なしビジュアルダイナミクスシミュレーション SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models ( http://arxiv.org/abs/2210.05861v1 ) ライセンス: Link先を確認 | Ziyi Wu, Nikita Dvornik, Klaus Greff, Thomas Kipf, Animesh Garg | (参考訳) 視覚的な観察からダイナミクスを理解することは、個々の物体をシーンから切り離し、相互作用を学ぶことを必要とする難しい問題である。
最近のオブジェクト中心のモデルはシーンをオブジェクトに分解することに成功したが、そのダイナミクスを効果的にモデル化することは依然として課題である。
我々はslotformer -- 学習対象中心表現で動作するトランスフォーマティブベースの自己回帰モデルを導入することでこの問題に対処した。
ビデオクリップが与えられた場合、オブジェクトの特徴よりも、時空間関係をモデル化し、正確な将来のオブジェクト状態を予測する。
本稿では,複雑なオブジェクトインタラクションを伴うデータセットの映像予測にslotformerを適用した。
さらに、教師なしスロットフォーマーのダイナミクスモデルは、視覚質問応答(vqa)や目標条件の計画といった教師なしダウンストリームタスクのパフォーマンスを改善するのに使うことができる。
従来の動的モデリングと比較すると,オブジェクトの動的生成を高品質に保ちながら,オブジェクトの動的生成の長期化が著しく向上する。
さらに、SlotFormerはVQAモデルに対して、オブジェクトレベルのラベルなしで未来を推論することを可能にする。
最後に、このようなタスク用に特別に設計された手法と競合するモデルベースプランニングの世界モデルとして機能する能力を示す。 Understanding dynamics from visual observations is a challenging problem that requires disentangling individual objects from the scene and learning their interactions. While recent object-centric models can successfully decompose a scene into objects, modeling their dynamics effectively still remains a challenge. We address this problem by introducing SlotFormer -- a Transformer-based autoregressive model operating on learned object-centric representations. Given a video clip, our approach reasons over object features to model spatio-temporal relationships and predicts accurate future object states. In this paper, we successfully apply SlotFormer to perform video prediction on datasets with complex object interactions. Moreover, the unsupervised SlotFormer's dynamics model can be used to improve the performance on supervised downstream tasks, such as Visual Question Answering (VQA), and goal-conditioned planning. Compared to past works on dynamics modeling, our method achieves significantly better long-term synthesis of object dynamics, while retaining high quality visual generation. Besides, SlotFormer enables VQA models to reason about the future without object-level labels, even outperforming counterparts that use ground-truth annotations. Finally, we show its ability to serve as a world model for model-based planning, which is competitive with methods designed specifically for such tasks. | 翻訳日:2022-10-13 12:15:49 公開日:2022-10-12 |
# 合成データを用いた胸部X線写真解釈のための射影変換 Projective Transformation Rectification for Camera-captured Chest X-ray Photograph Interpretation with Synthetic Data ( http://arxiv.org/abs/2210.05954v1 ) ライセンス: Link先を確認 | Chak Fong Chong, Yapeng Wang, Benjamin Ng, Xu Yang | (参考訳) スマートフォンで撮影する胸部X線写真の自動解釈は,非理想カメラ位置による幾何学的歪み(投影変換)により困難である。
本稿では,このような歪みを投影変換行列の予測により自動的に修正する,革新的な深層学習型射影変換整流ネットワーク(ptrn)を提案する。
PTRNは、高価な天然データの収集を避けるために、合成データに基づいて訓練されている。
そこで本研究では,画面,背景,照明,視覚アーティファクトなどの自然写真の視覚特性を考慮し,ptrnを訓練するための接地ラベルとして合成cxr写真および投影変換行列を生成する,革新的な合成データフレームワークを提案する。
最後に,スマートフォンで撮影したCXR画像はPTRNで自動的に修正され,高品質のデジタルCXRで訓練された分類器で解釈され,最終的な解釈結果が得られる。
スタンフォード大学機械学習グループによってリリースされたchexphoto cxr写真解釈コンペティションにおいて、我々のアプローチは大きなパフォーマンス向上を達成し、第1位を獲得した(aucでは0.850、第2位 0.762)。
より深い分析により、PTRNはデジタルCXRと同等レベルのCXR写真の性能を達成できることが示され、PTRNは解釈性能に対する射影変換のすべての負の影響を排除できることを示した。
さらに、画像分類に歪んだ写真を使わなければならない実世界のシナリオは数多くあり、PTRNは、その一般性設計による類似の問題を解決するために使用できる。 Automatic interpretation on smartphone-captured chest X-ray (CXR) photographs is challenging due to the geometric distortion (projective transformation) caused by the non-ideal camera position. In this paper, we proposed an innovative deep learning-based Projective Transformation Rectification Network (PTRN) to automatically rectify such distortions by predicting the projective transformation matrix. PTRN is trained on synthetic data to avoid the expensive collection of natural data. Therefore, we proposed an innovative synthetic data framework that accounts for the visual attributes of natural photographs including screen, background, illuminations, and visual artifacts, and generate synthetic CXR photographs and projective transformation matrices as the ground-truth labels for training PTRN. Finally, smartphone-captured CXR photographs are automatically rectified by trained PTRN and interpreted by a classifier trained on high-quality digital CXRs to produce final interpretation results. In the CheXphoto CXR photograph interpretation competition released by the Stanford University Machine Learning Group, our approach achieves a huge performance improvement and won first place (ours 0.850, second-best 0.762, in AUC). A deeper analysis demonstrates that the use of PTRN successfully achieves the performance on CXR photographs to the same level as on digital CXRs, indicating PTRN can eliminate all negative impacts of projective transformation to the interpretation performance. Additionally, there are many real-world scenarios where distorted photographs have to be used for image classification, our PTRN can be used to solve those similar problems due to its generality design. | 翻訳日:2022-10-13 12:15:26 公開日:2022-10-12 |
# ecgに基づく応力検出モデルの一般化について On the Generalizability of ECG-based Stress Detection Models ( http://arxiv.org/abs/2210.06225v1 ) ライセンス: Link先を確認 | Pooja Prajod, Elisabeth Andr\'e | (参考訳) ストレスは、仕事、医療、社会的相互作用など、日常生活の多くの側面で一般的です。
多くの作品は、ストレスの指標となる様々な生体信号から手作りの特徴を研究している。
近年,ストレス検出のためのディープラーニングモデルも提案されている。
通常、ストレスモデルはトレーニングされ、同じデータセット上で検証される。
しかし,各シナリオのストレスデータを収集することは現実的ではない。
したがって、これらのモデルの一般化可能性を研究し、他のシナリオでどの程度使用できるかを決定することが重要である。
本稿では,心電図に基づく深部学習モデルと手作り心電図の特徴に基づくモデル,すなわち心拍変動(HRV)特徴の一般化能力について検討する。
この目的のために、入力としてECG信号を使用する3つのHRVモデルと2つのディープラーニングモデルを訓練する。
WESADとSWELL-KWという2つの一般的なストレスデータセットからのECG信号は、応力計と記録装置の点で異なる。
まず、同じデータセットからのトレーニングと検証サンプルを用いて、LOSO(Left-one-subject-out)クロスバリデーションを用いてモデルを評価する。
次に、WESADデータセットでトレーニングされたLOSOモデルをSWELL-KWサンプルを用いて検証し、その逆で検証する。
ディープラーニングモデルは、同じデータセットで最高の結果を得るが、hrvに基づくモデルは、異なるデータセットのデータに対してかなり優れている。
この傾向は、両方のデータセット上のすべてのモデルで観察される。
したがって、HRVモデルは、データセットのシナリオとは異なるアプリケーションにおいて、ストレス認識のためのより良い選択である。
我々の知る限りでは、ECGベースのディープラーニングモデルとHRVモデルのデータセット間の一般化性を比較する最初の試みである。 Stress is prevalent in many aspects of everyday life including work, healthcare, and social interactions. Many works have studied handcrafted features from various bio-signals that are indicators of stress. Recently, deep learning models have also been proposed to detect stress. Typically, stress models are trained and validated on the same dataset, often involving one stressful scenario. However, it is not practical to collect stress data for every scenario. So, it is crucial to study the generalizability of these models and determine to what extent they can be used in other scenarios. In this paper, we explore the generalization capabilities of Electrocardiogram (ECG)-based deep learning models and models based on handcrafted ECG features, i.e., Heart Rate Variability (HRV) features. To this end, we train three HRV models and two deep learning models that use ECG signals as input. We use ECG signals from two popular stress datasets - WESAD and SWELL-KW - differing in terms of stressors and recording devices. First, we evaluate the models using leave-one-subject-out (LOSO) cross-validation using training and validation samples from the same dataset. Next, we perform a cross-dataset validation of the models, that is, LOSO models trained on the WESAD dataset are validated using SWELL-KW samples and vice versa. While deep learning models achieve the best results on the same dataset, models based on HRV features considerably outperform them on data from a different dataset. This trend is observed for all the models on both datasets. Therefore, HRV models are a better choice for stress recognition in applications that are different from the dataset scenario. To the best of our knowledge, this is the first work to compare the cross-dataset generalizability between ECG-based deep learning models and HRV models. | 翻訳日:2022-10-13 12:14:59 公開日:2022-10-12 |
# 画像と映像のパノプティブ・セグメンテーションのための一般フレームワーク A Generalist Framework for Panoptic Segmentation of Images and Videos ( http://arxiv.org/abs/2210.06366v1 ) ライセンス: Link先を確認 | Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet | (参考訳) panoptic segmentationはイメージの各ピクセルにセマンティックidとインスタンスidラベルを割り当てる。
インスタンスIDの置換も有効な解であるため、タスクは高次元の1対多マッピングの学習を必要とする。
その結果、最先端のアプローチはカスタマイズされたアーキテクチャとタスク固有の損失関数を使用する。
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティックセグメンテーションを定式化する。
アナログビットに基づく拡散モデルは、単純で汎用的なアーキテクチャと損失関数を持つパンオプティカルマスクのモデル化に使用される。
条件付け信号として過去の予測を加えるだけで、ビデオ(ストリーミング設定)をモデル化し、オブジェクトのインスタンスを自動的に追跡することが可能になる。
広範な実験により、我々のジェネラリスト的アプローチは、同様の設定で最先端のスペシャリスト手法と競合できることを示した。 Panoptic segmentation assigns semantic and instance ID labels to every pixel of an image. As permutations of instance IDs are also valid solutions, the task requires learning of high-dimensional one-to-many mapping. As a result, state-of-the-art approaches use customized architectures and task-specific loss functions. We formulate panoptic segmentation as a discrete data generation problem, without relying on inductive bias of the task. A diffusion model based on analog bits is used to model panoptic masks, with a simple, generic architecture and loss function. By simply adding past predictions as a conditioning signal, our method is capable of modeling video (in a streaming setting) and thereby learns to track object instances automatically. With extensive experiments, we demonstrate that our generalist approach can perform competitively to state-of-the-art specialist methods in similar settings. | 翻訳日:2022-10-13 12:14:11 公開日:2022-10-12 |
# 大規模モデルと学習者: 訓練されたトランスフォーマーの活性化スパーシティ Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers ( http://arxiv.org/abs/2210.06313v1 ) ライセンス: Link先を確認 | Zonglin Li, Chong You, Srinadh Bhojanapalli, Daliang Li, Ankit Singh Rawat, Sashank J. Reddi, Ke Ye, Felix Chern, Felix Yu, Ruiqi Guo, Sanjiv Kumar | (参考訳) 本稿では,そのアクティベーションマップがばらばらであるトランスフォーマーアーキテクチャを用いた機械学習モデルにおける奇妙な現象について検討する。
アクティベーションマップでは、ReLUアクティベーション関数の後に多層パーセプトロン(MLP)の中間出力を参照し、"スパース"では、平均的にごく少数のエントリ(T5-Baseは3.0%、ViT-B16は6.3%)がMLPへの入力毎にゼロであることを意味する。
さらに、より多くの層と広いMLP隠れ次元を持つ大きなトランスフォーマーは、非ゼロエントリの割合によって測定されるスペーサーである。
広範にわたる実験を通して、空間空間の出現は、自然言語処理と視覚タスクの両方、訓練と評価データ、様々な構成のトランスフォーマー、すべての深さレベルの層、およびMLPミキサーや2層MLPといった他のアーキテクチャにおいて起こる現象であることを示した。
また,ランダムラベルやランダム入力,無限量のデータを用いたデータセットのトレーニングによって,スパーシティが出現することを示し,スパーシティがデータセットの特定のファミリーの結果ではないことを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する方法について論じる。
さらに,k値の少ないトップkしきい値でさらにスパルサーのアクティベーションを強制することで,ノイズの少ないトレーニングデータに対する感度の低下,入力汚損に対する堅牢性の向上,予測信頼度に対するキャリブレーション向上といったトランスフォーマーの望ましいが欠落した特性のコレクションが実現できることは,おそらく驚くべきことである。 This paper studies the curious phenomenon for machine learning models with Transformer architectures that their activation maps are sparse. By activation map we refer to the intermediate output of the multi-layer perceptrons (MLPs) after a ReLU activation function, and by "sparse" we mean that on average very few entries (e.g., 3.0% for T5-Base and 6.3% for ViT-B16) are nonzero for each input to MLP. Moreover, larger Transformers with more layers and wider MLP hidden dimensions are sparser as measured by the percentage of nonzero entries. Through extensive experiments we demonstrate that the emergence of sparsity is a prevalent phenomenon that occurs for both natural language processing and vision tasks, on both training and evaluation data, for Transformers of various configurations, at layers of all depth levels, as well as for other architectures including MLP-mixers and 2-layer MLPs. We show that sparsity also emerges using training datasets with random labels, or with random inputs, or with infinite amount of data, demonstrating that sparsity is not a result of a specific family of datasets. We discuss how sparsity immediately implies a way to significantly reduce the FLOP count and improve efficiency for Transformers. Moreover, we demonstrate perhaps surprisingly that enforcing an even sparser activation via Top-k thresholding with a small value of k brings a collection of desired but missing properties for Transformers, namely less sensitivity to noisy training data, more robustness to input corruptions, and better calibration for their prediction confidence. | 翻訳日:2022-10-13 12:08:47 公開日:2022-10-12 |
# CTL++:知識関数のNever-Seen合成パターンの一般化とニューラル表現の適合性の評価 CTL++: Evaluating Generalization on Never-Seen Compositional Patterns of Known Functions, and Compatibility of Neural Representations ( http://arxiv.org/abs/2210.06350v1 ) ライセンス: Link先を確認 | R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber | (参考訳) 良く設計された診断タスクは、ニューラルネットワーク(NN)の系統的一般化の失敗を研究する上で重要な役割を担っている。
有名な例として、SCAN や compositional Table Lookup (CTL) がある。
ここでは,ユニアリシンボリック関数の合成に基づく新しい診断データセットであるctl++を紹介する。
元のCTLは長さの一般化や生産性をテストするために使用されるが、CTL++はNNの体系性をテストするように設計されている。
ctl++は関数をグループに分割し、トレーニング中に見えない方法で構成されたグループ要素のパフォーマンスをテストする。
最近のCTL解決トランスフォーマーはCTL++では動作しないことを示す。
タスク設計の単純さは、多くの洞察に富んだ分析だけでなく、タスクの難しさのきめ細かい制御を可能にする。
例えば、構築する学習のために、テストされたNNによってグループ間の重複がどの程度必要かを測定する。
また、異なるグループからの関数の出力における学習されたシンボル表現が、成功しても失敗しても相容れないことを可視化する。
これらの結果は、自然言語領域のより複雑な構成について報告された障害事例に関する洞察を与える。
私たちのコードは公開されています。 Well-designed diagnostic tasks have played a key role in studying the failure of neural nets (NNs) to generalize systematically. Famous examples include SCAN and Compositional Table Lookup (CTL). Here we introduce CTL++, a new diagnostic dataset based on compositions of unary symbolic functions. While the original CTL is used to test length generalization or productivity, CTL++ is designed to test systematicity of NNs, that is, their capability to generalize to unseen compositions of known functions. CTL++ splits functions into groups and tests performance on group elements composed in a way not seen during training. We show that recent CTL-solving Transformer variants fail on CTL++. The simplicity of the task design allows for fine-grained control of task difficulty, as well as many insightful analyses. For example, we measure how much overlap between groups is needed by tested NNs for learning to compose. We also visualize how learned symbol representations in outputs of functions from different groups are compatible in case of success but not in case of failure. These results provide insights into failure cases reported on more complex compositions in the natural language domain. Our code is public. | 翻訳日:2022-10-13 12:07:47 公開日:2022-10-12 |
# 一般医用視覚表現学習のための多面的クロスモーダルアライメント Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning ( http://arxiv.org/abs/2210.06044v1 ) ライセンス: Link先を確認 | Fuying Wang, Yuyin Zhou, Shujun Wang, Varut Vardhanabhuti, Lequan Yu | (参考訳) 医学的視覚的表現をペアラジオロジーレポートから直接学ぶことは、表現学習の新たなトピックとなっている。
しかし、既存の医用画像・テキスト共同学習法は、疾患レベルの意味的対応を無視した事例または局所的な監督分析によって制限されている。
本稿では,病的領域レベル,症例レベル,疾患レベルという3つのレベルにおいて,医用画像と放射線学レポートの自然に現れる意味的対応を利用して,汎用的な医用視覚表現学習のための新しい多角性クロスモーダルアライメント(MGCA)フレームワークを提案する。
具体的には、まず、画像-レポートペア間の一致を最大化することで、インスタンスワイドアライメントモジュールを組み込む。
さらに,トークン指向のアライメントでは,細粒度な視覚的トークンとテキストトークンのマッチングを明示的に学習し,それらアライメントのためのコントラスト学習を行う双方向クロスアテンション戦略を導入する。
さらに重要なことは、高レベルなオブジェクト間関係のセマンティックス(病気など)の対応を活用するために、クロスモーダルクラスタ割り当ての整合性を強化するために、新しいクロスモーダルな疾患レベルのアライメントパラダイムを設計することである。
画像分類,オブジェクト検出,セマンティックセグメンテーションタスクをカバーする7つの下流医用画像データセットの広範な実験結果から,このフレームワークの安定性と優れた性能が得られた。 Learning medical visual representations directly from paired radiology reports has become an emerging topic in representation learning. However, existing medical image-text joint learning methods are limited by instance or local supervision analysis, ignoring disease-level semantic correspondences. In this paper, we present a novel Multi-Granularity Cross-modal Alignment (MGCA) framework for generalized medical visual representation learning by harnessing the naturally exhibited semantic correspondences between medical image and radiology reports at three different levels, i.e., pathological region-level, instance-level, and disease-level. Specifically, we first incorporate the instance-wise alignment module by maximizing the agreement between image-report pairs. Further, for token-wise alignment, we introduce a bidirectional cross-attention strategy to explicitly learn the matching between fine-grained visual tokens and text tokens, followed by contrastive learning to align them. More important, to leverage the high-level inter-subject relationship semantic (e.g., disease) correspondences, we design a novel cross-modal disease-level alignment paradigm to enforce the cross-modal cluster assignment consistency. Extensive experimental results on seven downstream medical image datasets covering image classification, object detection, and semantic segmentation tasks demonstrate the stable and superior performance of our framework. | 翻訳日:2022-10-13 12:07:28 公開日:2022-10-12 |
# Task Compass: Task Prefixによるマルチタスク事前トレーニングのスケーリング Task Compass: Scaling Multi-task Pre-training with Task Prefix ( http://arxiv.org/abs/2210.06277v1 ) ライセンス: Link先を確認 | Zhuosheng Zhang, Shuohang Wang, Yichong Xu, Yuwei Fang, Wenhao Yu, Yang Liu, Hai Zhao, Chenguang Zhu and Michael Zeng | (参考訳) タスク対応アノテートデータを教師付き信号として活用して,大規模未ラベルデータの自己教師型学習を支援することは,事前学習言語モデルにおいて新たなトレンドとなっている。
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
そこで本研究では,タスク間の関係を探究するタスクプレフィックス誘導マルチタスク事前学習フレームワークを提案する。
我々は40のデータセットに対して広範な実験を行い、我々のモデルは幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能であることを示した。
プレフィックスが反映するタスク関係は、タスク間の転送学習性能を調整する。
また、補完的なタスクによるデータ拡張の方向性も提案しており、このモデルがコモンセンス推論のリーダーボード上での人間のパリティ結果の達成に役立ちます。
コードはhttps://github.com/cooelf/CompassMTLで入手できる。 Leveraging task-aware annotated data as supervised signals to assist with self-supervised learning on large-scale unlabeled data has become a new trend in pre-training language models. Existing studies show that multi-task learning with large-scale supervised tasks suffers from negative effects across tasks. To tackle the challenge, we propose a task prefix guided multi-task pre-training framework to explore the relationships among tasks. We conduct extensive experiments on 40 datasets, which show that our model can not only serve as the strong foundation backbone for a wide range of tasks but also be feasible as a probing tool for analyzing task relationships. The task relationships reflected by the prefixes align transfer learning performance between tasks. They also suggest directions for data augmentation with complementary tasks, which help our model achieve human-parity results on commonsense reasoning leaderboards. Code is available at https://github.com/cooelf/CompassMTL | 翻訳日:2022-10-13 12:06:11 公開日:2022-10-12 |
# マルチホップ推論のための関係グラフ畳み込みニューラルネットワーク--比較研究 Relational Graph Convolutional Neural Networks for Multihop Reasoning: A Comparative Study ( http://arxiv.org/abs/2210.06418v1 ) ライセンス: Link先を確認 | Ieva Stali\=unait\.e, Philip John Gorinski, Ignacio Iacobacci | (参考訳) マルチホップ質問応答は複雑な自然言語処理タスクであり、与えられた質問に対する正しい回答を見つけるのに複数の推論のステップを必要とする。
これまでの研究は、この課題に取り組むためにグラフニューラルネットワークに基づくモデルの利用を探求してきた。
リレーショナルグラフ畳み込みネットワーク(RGCN)など、さまざまなアーキテクチャが提案されている。
これらの多くのノードタイプとそれらの間の関係、例えば単純なエンティティの共起、モデリングのコア参照、質問から中間エンティティによる回答への"推論パス"などが導入されている。
それでも、どの関係、ノードタイプ、埋め込み、アーキテクチャがこのタスクにとって最も有益かという思慮深い分析はいまだに欠けている。
本稿では, RGCNベースのマルチホップQAモデル, グラフ関係, ノード埋め込みについて検討し, WikiHopデータセット上でのマルチホップQA性能への影響を実証的に検討する。 Multihop Question Answering is a complex Natural Language Processing task that requires multiple steps of reasoning to find the correct answer to a given question. Previous research has explored the use of models based on Graph Neural Networks for tackling this task. Various architectures have been proposed, including Relational Graph Convolutional Networks (RGCN). For these many node types and relations between them have been introduced, such as simple entity co-occurrences, modelling coreferences, or "reasoning paths" from questions to answers via intermediary entities. Nevertheless, a thoughtful analysis on which relations, node types, embeddings and architecture are the most beneficial for this task is still missing. In this paper we explore a number of RGCN-based Multihop QA models, graph relations, and node embeddings, and empirically explore the influence of each on Multihop QA performance on the WikiHop dataset. | 翻訳日:2022-10-13 12:05:56 公開日:2022-10-12 |
# ヘテロジニアス知識事前学習による中国語自然言語理解の再検討と進歩 Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training ( http://arxiv.org/abs/2210.05287v2 ) ライセンス: Link先を確認 | Taolin Zhang, Junwei Dong, Jianing Wang, Chengyu Wang, Ang Wang, Yinghui Liu, Jun Huang, Yong Li, Xiaofeng He | (参考訳) 近年,知識強化型事前学習言語モデル (KEPLM) は,知識グラフの構造的関係から学習し,構文や依存分析から言語知識を学習することで,文脈認識表現を改善する。
英語とは異なり、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが不足している。
本稿では,様々なパラメータサイズ,すなわち CKBERT (中国語知識強化BERT) で公開された新しい中国語 KEPLM を用いて,中国語の自然言語理解の展開と発展を推し進める。
具体的には、言語対応マスキング言語モデリングとコントラッシブマルチホップ関係モデリングという2つの新しい事前学習タスクに基づいて、リレーショナル知識と言語知識の両方をCKBERTに効果的に注入する。
上記の2つの事前トレーニングパラダイムと、社内で実装したTorchAcceleratorに基づいて、GPUクラスタ上で効率的にCKBERTのベース(110M)、大規模(345M)、巨大(1.3B)バージョンを事前トレーニングした。
実験により、CKBERTは様々なベンチマークNLPタスクと異なるモデルサイズで、中国語の強いベースラインを上回ります。 Recently, knowledge-enhanced pre-trained language models (KEPLMs) improve context-aware representations via learning from structured relations in knowledge graphs, and/or linguistic knowledge from syntactic or dependency analysis. Unlike English, there is a lack of high-performing open-source Chinese KEPLMs in the natural language processing (NLP) community to support various language understanding applications. In this paper, we revisit and advance the development of Chinese natural language understanding with a series of novel Chinese KEPLMs released in various parameter sizes, namely CKBERT (Chinese knowledge-enhanced BERT).Specifically, both relational and linguistic knowledge is effectively injected into CKBERT based on two novel pre-training tasks, i.e., linguistic-aware masked language modeling and contrastive multi-hop relation modeling. Based on the above two pre-training paradigms and our in-house implemented TorchAccelerator, we have pre-trained base (110M), large (345M) and huge (1.3B) versions of CKBERT efficiently on GPU clusters. Experiments demonstrate that CKBERT outperforms strong baselines for Chinese over various benchmark NLP tasks and in terms of different model sizes. | 翻訳日:2022-10-13 11:59:50 公開日:2022-10-12 |
# LMQFormer:軽量除雪用ラプラスガイド型マスククエリトランス LMQFormer: A Laplace-Prior-Guided Mask Query Transformer for Lightweight Snow Removal ( http://arxiv.org/abs/2210.04787v3 ) ライセンス: Link先を確認 | Junhong Lin, Nanfeng Jiang, Zhentao Zhang, Weiling Chen and Tiesong Zhao | (参考訳) 除雪は、雪の地域を見つけ、痕跡を修復することなくクリーンな画像を復元することを目的としている。
雨の規則性や半透明性とは異なり、様々なパターンと劣化の降雪は背景をひどく損なう。
その結果、最先端の除雪方法は、通常、大きなパラメータサイズを保持する。
本稿では,Laplace Mask Query Transformer (LMQFormer) と呼ばれる軽量だが高効率な除雪ネットワークを提案する。
まず,雪の先行知識として粗いマスクを生成するためのLaplace-VQVAEを提案する。
マスクをデータセットに使用する代わりに、雪の情報エントロピーと回復の計算コストの両方を削減することを目的としている。
第2に、粗いマスクで雪を取り除くためにMask Query Transformer(MQFormer)を設計し、2つの並列エンコーダとハイブリッドデコーダを使用して、軽量な要求下で広範な雪の特徴を学習する。
第3に、粗いマスクを特定の数のクエリに変換するDMQA(Duplicated Mask Query Attention)を開発し、パラメータを減らしたMQFormerの注意領域を制限する。
また, 提案モデルの有効性を実証し, パラメータが大幅に減少し, 走行時間が低くなることにより, 最先端の除雪性能が得られることを示した。 Snow removal aims to locate snow areas and recover clean images without repairing traces. Unlike the regularity and semitransparency of rain, snow with various patterns and degradations seriously occludes the background. As a result, the state-of-the-art snow removal methods usually retains a large parameter size. In this paper, we propose a lightweight but high-efficient snow removal network called Laplace Mask Query Transformer (LMQFormer). Firstly, we present a Laplace-VQVAE to generate a coarse mask as prior knowledge of snow. Instead of using the mask in dataset, we aim at reducing both the information entropy of snow and the computational cost of recovery. Secondly, we design a Mask Query Transformer (MQFormer) to remove snow with the coarse mask, where we use two parallel encoders and a hybrid decoder to learn extensive snow features under lightweight requirements. Thirdly, we develop a Duplicated Mask Query Attention (DMQA) that converts the coarse mask into a specific number of queries, which constraint the attention areas of MQFormer with reduced parameters. Experimental results in popular datasets have demonstrated the efficiency of our proposed model, which achieves the state-of-the-art snow removal quality with significantly reduced parameters and the lowest running time. | 翻訳日:2022-10-13 11:59:28 公開日:2022-10-12 |
# TriangleNet: クロスタスク一貫性によるセマンティックセグメンテーションのためのエッジ事前拡張ネットワーク TriangleNet: Edge Prior Augmented Network for Semantic Segmentation through Cross-Task Consistency ( http://arxiv.org/abs/2210.05152v2 ) ライセンス: Link先を確認 | Dan Zhang, Rui Zheng | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、各ピクセルに対応するカテゴリをラベル付けするための古典的なコンピュータビジョン問題である。
産業品質検査,リモートセンシング情報抽出,医療支援,自律運転といった高度なタスクの基本課題として,深層学習と組み合わせたセマンティックセグメンテーションが長年開発され,多くの作業が蓄積されている。
しかし、古典的なFCNベースの作品もトランスフォーマーベースの作品もピクセルラベルの微粒なローカライゼーションを実現していないため、この分野では依然として大きな課題となっている。
近年,自動運転の普及に伴い,道路シーンのセグメンテーションがますます注目されている。
クロスタスク整合性理論に基づき,セマンティックセグメンテーションタスクにエッジ先行を組み込んで,より良い結果を得る。
主な貢献は、道路および非道路シーンのデータセット上で検証される、余分な推論ランタイムオーバヘッドなしで、セマンティックセグメンテーションモデルの精度を向上させるモデル非依存な方法を提供することである。
実験結果から,提案手法は意味セグメンテーション精度を効果的に向上する。 Semantic segmentation is a classic computer vision problem dedicated to labeling each pixel with its corresponding category. As a basic task for advanced tasks such as industrial quality inspection, remote sensing information extraction, medical diagnostic aid, and autonomous driving, semantic segmentation has been developed for a long time in combination with deep learning, and a lot of works have been accumulated. However, neither the classic FCN-based works nor the popular Transformer-based works have attained fine-grained localization of pixel labels, which remains the main challenge in this field. Recently, with the popularity of autonomous driving, the segmentation of road scenes has received more and more attention. Based on the cross-task consistency theory, we incorporate edge priors into semantic segmentation tasks to obtain better results. The main contribution is that we provide a model-agnostic method that improves the accuracy of semantic segmentation models with zero extra inference runtime overhead, verified on the datasets of road and non-road scenes. From our experimental results, our method can effectively improve semantic segmentation accuracy. | 翻訳日:2022-10-13 11:59:07 公開日:2022-10-12 |
# ビデオオブジェクト分割のためのグローバルスペクトルフィルタメモリネットワーク Global Spectral Filter Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2210.05567v2 ) ライセンス: Link先を確認 | Yong Liu, Ran Yu, Jiahao Wang, Xinyuan Zhao, Yitong Wang, Yansong Tang, Yujiu Yang | (参考訳) 本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
最近のメモリネットワークベースの手法では、フレーム内空間依存性にほとんど注意を払わず、フレーム間時間参照の活用に焦点が当てられている。
具体的には、これらのセグメンテーションモデルは特定のフレーム内の非対象オブジェクトからの干渉に影響を受けやすい傾向にある。
本研究では,スペクトル領域における長期空間依存性を学習することでフレーム内インタラクションを改善するグローバルスペクトルフィルタメモリネットワーク(gsfm)を提案する。
GSFMの鍵となる構成要素は空間情報混合のための2次元離散フーリエ変換である。
また,デコーダ(セグメンテーションヘッド)では,低周波特性をエンコーダ(バックボーン)で拡張すべきであることを示す。
これを、エンコーダのセマンティック情報抽出ロールと、デコーダの詳細な詳細強調ロールに分類する。
したがって、この状況に適合する低(高)周波数モジュールが提案されている。
人気の高いDAVISとYouTube-VOSベンチマークの大規模な実験は、GSFMがベースライン法を著しく上回り、最先端のパフォーマンスを達成することを示した。
さらに、広範な解析により、提案された加群は妥当であり、大きな一般化能力を持つことが示されている。
ソースコードはhttps://github.com/workforai/gsfmで閲覧できます。 This paper studies semi-supervised video object segmentation through boosting intra-frame interaction. Recent memory network-based methods focus on exploiting inter-frame temporal reference while paying little attention to intra-frame spatial dependency. Specifically, these segmentation model tends to be susceptible to interference from unrelated nontarget objects in a certain frame. To this end, we propose Global Spectral Filter Memory network (GSFM), which improves intra-frame interaction through learning long-term spatial dependencies in the spectral domain. The key components of GSFM is 2D (inverse) discrete Fourier transform for spatial information mixing. Besides, we empirically find low frequency feature should be enhanced in encoder (backbone) while high frequency for decoder (segmentation head). We attribute this to semantic information extracting role for encoder and fine-grained details highlighting role for decoder. Thus, Low (High) Frequency Module is proposed to fit this circumstance. Extensive experiments on the popular DAVIS and YouTube-VOS benchmarks demonstrate that GSFM noticeably outperforms the baseline method and achieves state-of-the-art performance. Besides, extensive analysis shows that the proposed modules are reasonable and of great generalization ability. Our source code is available at https://github.com/workforai/GSFM. | 翻訳日:2022-10-13 11:58:38 公開日:2022-10-12 |
# タッチライントランスを用いたエンボディ参照の理解 Understanding Embodied Reference with Touch-Line Transformer ( http://arxiv.org/abs/2210.05668v2 ) ライセンス: Link先を確認 | Yang Li, Xiaoxue Chen, Hao Zhao, Jiangtao Gong, Guyue Zhou, Federico Rossano, Yixin Zhu | (参考訳) 本研究は,具体化言語信号と言語参照を用いて参照対象を同定する作業である,具体化参照理解について検討する。
人間の研究によって、言及されたり指されたりした物体は、共通の誤解である肘ひじ線上に存在せず、いわゆる仮想タッチ線上にあることが判明している。
しかし、既存の人間のポーズ表現は仮想タッチラインを組み込むことができない。
この問題を解決するために、タッチライントランスフォーマーを考案し、入力トークン化された視覚およびテキストの特徴として取り、参照者のバウンディングボックスとタッチラインベクトルを同時に予測する。
このタッチラインを前もって活用することで,参照線とタッチ線との共線型性を促進するような幾何学的整合性損失がさらに生まれる。
タッチラインをジェスチャー情報として使用すると、モデルの性能が大幅に向上する。
YouRefItデータセットを用いた実験では,0.75 IoU基準下での精度が+25.0%向上し,モデルと人的パフォーマンスのギャップの63.6%が閉じた。
さらに, 仮想タッチラインを用いた場合よりも, 仮想タッチラインを用いた場合の方が, より正確に参照者を特定できることを示した。 We study embodied reference understanding, the task of locating referents using embodied gestural signals and language references. Human studies have revealed that objects referred to or pointed to do not lie on the elbow-wrist line, a common misconception; instead, they lie on the so-called virtual touch line. However, existing human pose representations fail to incorporate the virtual touch line. To tackle this problem, we devise the touch-line transformer: It takes as input tokenized visual and textual features and simultaneously predicts the referent's bounding box and a touch-line vector. Leveraging this touch-line prior, we further devise a geometric consistency loss that encourages the co-linearity between referents and touch lines. Using the touch-line as gestural information improves model performances significantly. Experiments on the YouRefIt dataset show our method achieves a +25.0% accuracy improvement under the 0.75 IoU criterion, closing 63.6% of the gap between model and human performances. Furthermore, we computationally verify prior human studies by showing that computational models more accurately locate referents when using the virtual touch line than when using the elbow-wrist line. | 翻訳日:2022-10-13 11:58:18 公開日:2022-10-12 |
# YFACC:視覚的接地による言語間キーワードローカライゼーションのためのYor\`ub\'a音声画像データセット YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword localisation through visual grounding ( http://arxiv.org/abs/2210.04600v2 ) ライセンス: Link先を確認 | Kayode Olaleye, Dan Oneata, Herman Kamper | (参考訳) ヴィジュアル・グラウンドド・スピーチ(vgs)モデルは、ラベルなしの音声キャプションと組み合わせた画像で訓練される。
このようなモデルは、ラベル付きデータの取得が不可能な設定で音声システムを構築するために用いられる。
しかしながら、ほとんどのVGS研究は英語や他の高リソース言語で行われている。
本稿ではこの欠点に対処しようと試みる。
我々は、ナイジェリアで話されている真のローソース言語yor\``ub\'aで、6k flickr画像のための音声キャプションの、新しい単一話者データセットを収集してリリースします。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yor\`ub\'a 発話と組み合わせる。
これにより、言語間のキーワードのローカライゼーションが可能になり、Yor\`ub\'a 音声で書かれた英語クエリが検出され、位置される。
より小さなデータセットの効果を定量化するために、類似データに基づいて訓練された英語システムと比較する。
この新しいデータセットは、実際の低リソース言語にvgsモデルを使用する研究を促進することを期待している。 Visually grounded speech (VGS) models are trained on images paired with unlabelled spoken captions. Such models could be used to build speech systems in settings where it is impossible to get labelled data, e.g. for documenting unwritten languages. However, most VGS studies are in English or other high-resource languages. This paper attempts to address this shortcoming. We collect and release a new single-speaker dataset of audio captions for 6k Flickr images in Yor\`ub\'a -- a real low-resource language spoken in Nigeria. We train an attention-based VGS model where images are automatically tagged with English visual labels and paired with Yor\`ub\'a utterances. This enables cross-lingual keyword localisation: a written English query is detected and located in Yor\`ub\'a speech. To quantify the effect of the smaller dataset, we compare to English systems trained on similar and more data. We hope that this new dataset will stimulate research in the use of VGS models for real low-resource languages. | 翻訳日:2022-10-13 11:57:58 公開日:2022-10-12 |
# バイレベル最適化によるモデルプルーニングの進展 Advancing Model Pruning via Bi-level Optimization ( http://arxiv.org/abs/2210.04092v2 ) ライセンス: Link先を確認 | Yihua Zhang, Yuguang Yao, Parikshit Ram, Pu Zhao, Tianlong Chen, Mingyi Hong, Yanzhi Wang, Sijia Liu | (参考訳) 実用アプリケーションにおけるデプロイメントの制約は、大規模なディープラーニングモデル、すなわち重量空間の促進を必要とする。
Lottery Ticket hypothesis (LTH)で説明されているように、プルーニングもまた一般化能力を改善する可能性がある。
LTHの中核にあるイテレーティブ・マグニチュード・プルーニング(IMP)は、「勝利のチケット」を見つけるのに成功しているプルーニング法である。
しかし、ターゲットプルーニング比が増加するにつれてIMPの計算コストは著しく増大する。
計算オーバーヘッドを低減するために、様々な効率的な「ワンショット」プルーニング手法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
これは、プルーニング精度とプルーニング効率のギャップをいかに埋めるかという疑問を提起する。
そこで我々は,モデルプルーニングのアルゴリズムの進歩を追求する。
具体的には、新鮮で新しい2段階最適化(BLO)の観点からプルーニング問題を定式化する。
我々は,BLO解釈がIMPで使用されるプルーニング訓練学習パラダイムの効率的な実装のための技術的基盤となることを示す。
また,提案手法であるbi-level optimization-oriented pruning method (bip) は,双線形問題構造を持つblo問題の特殊クラスであることを示す。
このような双線型性を利用して、理論上BiPが一階最適化と同じくらい容易に解けることを示し、計算効率を継承する。
5つのモデルアーキテクチャと4つのデータセットによる構造化プルーニングと非構造化プルーニングの両方に関する広範な実験を通じて、BiPがIMPよりも優れた当選チケットを得られることを示し、同じモデルの精度と疎度でIMPよりも2-7倍のスピードアップを示した。 The deployment constraints in practical applications necessitate the pruning of large-scale deep learning models, i.e., promoting their weight sparsity. As illustrated by the Lottery Ticket Hypothesis (LTH), pruning also has the potential of improving their generalization ability. At the core of LTH, iterative magnitude pruning (IMP) is the predominant pruning method to successfully find 'winning tickets'. Yet, the computation cost of IMP grows prohibitively as the targeted pruning ratio increases. To reduce the computation overhead, various efficient 'one-shot' pruning methods have been developed, but these schemes are usually unable to find winning tickets as good as IMP. This raises the question of how to close the gap between pruning accuracy and pruning efficiency? To tackle it, we pursue the algorithmic advancement of model pruning. Specifically, we formulate the pruning problem from a fresh and novel viewpoint, bi-level optimization (BLO). We show that the BLO interpretation provides a technically-grounded optimization base for an efficient implementation of the pruning-retraining learning paradigm used in IMP. We also show that the proposed bi-level optimization-oriented pruning method (termed BiP) is a special class of BLO problems with a bi-linear problem structure. By leveraging such bi-linearity, we theoretically show that BiP can be solved as easily as first-order optimization, thus inheriting the computation efficiency. Through extensive experiments on both structured and unstructured pruning with 5 model architectures and 4 data sets, we demonstrate that BiP can find better winning tickets than IMP in most cases, and is computationally as efficient as the one-shot pruning schemes, demonstrating 2-7 times speedup over IMP for the same level of model accuracy and sparsity. | 翻訳日:2022-10-13 11:57:41 公開日:2022-10-12 |
# リアルタイム時間グラフ学習に向けて Towards Real-Time Temporal Graph Learning ( http://arxiv.org/abs/2210.04114v2 ) ライセンス: Link先を確認 | Deniz Gurevin, Mohsin Shan, Tong Geng, Weiwen Jiang, Caiwen Ding and Omer Khan | (参考訳) 近年,グラフ表現学習が盛んになり,グラフの特徴を捉えたノード埋め込みの生成が目指されている。
これを実現する方法の1つは、ランダムウォークと呼ばれるテクニックを使用して、グラフ内のノードシーケンスをキャプチャし、Word2Vecと呼ばれる自然言語処理技術を使用して各ノードの埋め込みを学習する。
これらの埋め込みは、リンク予測やノード分類といった分類タスクのためのグラフデータの深層学習に使用される。
事前の作業は、事前収集されたテンポラリグラフデータで動作し、グラフの更新をリアルタイムに処理するように設計されていない。
実世界のグラフは動的に変化し、その時間更新全体が事前に利用できない。
本稿では、時間グラフ構築を行い、低次元ノード埋め込みを生成し、オンライン環境で多層ニューラルネットワークモデルを訓練するエンドツーエンドグラフ学習パイプラインを提案する。
ニューラルネットワークモデルのトレーニングは、多くのシーケンシャルに連結された低次元カーネル上で繰り返し行列演算を行うため、主なパフォーマンスボトルネックとして認識される。
モデルトレーニングの性能を高めるために,これらの低次元カーネルの微細粒並列性を解き放つことを提案する。 In recent years, graph representation learning has gained significant popularity, which aims to generate node embeddings that capture features of graphs. One of the methods to achieve this is employing a technique called random walks that captures node sequences in a graph and then learns embeddings for each node using a natural language processing technique called Word2Vec. These embeddings are then used for deep learning on graph data for classification tasks, such as link prediction or node classification. Prior work operates on pre-collected temporal graph data and is not designed to handle updates on a graph in real-time. Real world graphs change dynamically and their entire temporal updates are not available upfront. In this paper, we propose an end-to-end graph learning pipeline that performs temporal graph construction, creates low-dimensional node embeddings, and trains multi-layer neural network models in an online setting. The training of the neural network models is identified as the main performance bottleneck as it performs repeated matrix operations on many sequentially connected low-dimensional kernels. We propose to unlock fine-grain parallelism in these low-dimensional kernels to boost performance of model training. | 翻訳日:2022-10-13 11:57:12 公開日:2022-10-12 |
# 不均衡非定常データストリーム分類に対するハイブリッドアクティブパッシブアプローチ A Hybrid Active-Passive Approach to Imbalanced Nonstationary Data Stream Classification ( http://arxiv.org/abs/2210.04949v2 ) ライセンス: Link先を確認 | Kleanthis Malialis and Manuel Roveri and Cesare Alippi and Christos G. Panayiotou and Marios M. Polycarpou | (参考訳) 実世界のアプリケーションでは、データを生成するプロセスは非定常的な影響(例えば、季節性、センサやアクチュエータに影響を及ぼす故障、ユーザの行動の変化)に悩まされる可能性がある。
これらの変化は、しばしばコンセプトドリフトと呼ばれ、時間の経過とともに時代遅れになる訓練された学習モデルに深刻な(潜在的に破滅的な)影響をもたらす可能性がある。
コンセプトドリフトの存在下での学習は、コンセプトドリフトを追跡および適応可能な機械学習モデルとディープラーニングモデルの設計を目標とする。
通常、コンセプトドリフトを扱う技術はアクティブか受動的かのいずれかであり、伝統的にこれらは相互排他的と考えられてきた。
アクティブテクニックは明示的なドリフト検出機構を使用し、概念ドリフトの検出時に学習アルゴリズムを再訓練する。
受動的手法は暗黙の手法を使ってドリフトに対処し、漸進学習を用いてモデルを継続的に更新する。
文献上に存在するものとは違って,2つのアプローチをマージするハイブリッドな代替案を提案する。
提案手法であるhybrid-adaptive rebalancing (hareba) は,学習の質と速度において,強いベースラインと最先端の手法を著しく上回っている。 In real-world applications, the process generating the data might suffer from nonstationary effects (e.g., due to seasonality, faults affecting sensors or actuators, and changes in the users' behaviour). These changes, often called concept drift, might induce severe (potentially catastrophic) impacts on trained learning models that become obsolete over time, and inadequate to solve the task at hand. Learning in presence of concept drift aims at designing machine and deep learning models that are able to track and adapt to concept drift. Typically, techniques to handle concept drift are either active or passive, and traditionally, these have been considered to be mutually exclusive. Active techniques use an explicit drift detection mechanism, and re-train the learning algorithm when concept drift is detected. Passive techniques use an implicit method to deal with drift, and continually update the model using incremental learning. Differently from what present in the literature, we propose a hybrid alternative which merges the two approaches, hence, leveraging on their advantages. The proposed method called Hybrid-Adaptive REBAlancing (HAREBA) significantly outperforms strong baselines and state-of-the-art methods in terms of learning quality and speed; we experiment how it is effective under severe class imbalance levels too. | 翻訳日:2022-10-13 11:56:55 公開日:2022-10-12 |
# 高信頼表現を用いた半監督震度同定のためのコントラスト学習手法 Contrastive Learning Approach for Semi-Supervised Seismic Facies Identification Using High-Confidence Representations ( http://arxiv.org/abs/2210.04776v2 ) ライセンス: Link先を確認 | Kewen Li, Wenlong Liu, Yimin Dou, Zhifeng Xu, Hongjie Duan, Ruilin Jing | (参考訳) 手動地震相アノテーションは地震インタプリタの経験に大きく依存しており、隣接する場所での地震相の分布は非常によく似ているため、ラベル付けの多くはコストがかかる作業である。
しかし,不均質にラベル付けされたスライスのみを用いたモデルの訓練では,厳密な分類の混乱,すなわち地震波のタイプを別のものと誤認することが判明した。
そこで本稿では,非ラベルデータの特徴を用いた半教師付き地震災害識別手法を提案する。
識別信頼性の高い領域の特徴をサンプリングし,画素レベルインスタンス識別タスクを用いてクラス間距離を狭め,クラス間距離を増加させる。
インスタンス識別は、潜在空間がより区別可能な決定境界を生成することを奨励し、同じクラスの特徴のバイアスを低減する。
我々の手法は,ネットワーク構造に大きな変更を加えることなく,コントラスト損失を計算するために1つの分岐を拡張する必要がある。
我々は,SEAM AI と Netherlands F3 の2つの公的な地震探査実験を行い,提案モデルは F3 のアノテーションの 1% しか使用せず,90 以上のIOU スコアを達成している。 The manual seismic facies annotation relies heavily on the experience of seismic interpreters, and the distribution of seismic facies in adjacent locations is very similar, which means that much of the labeling is costly repetitive work. However, we found that training the model with only a few evenly sampled labeled slices still suffers from severe classification confusion, that is, misidentifying one class of seismic facies as another. To address this issue, we propose a semi-supervised seismic facies identification method using features from unlabeled data for contrastive learning. We sample features in regions with high identification confidence, and use an pixel-level instance discrimination task to narrow the intra-class distance and increase the inter-class distance. Instance discrimination encourages the latent space to produce more distinguishable decision boundaries and reduces the bias in the features of the same class. Our method only needs to extend one branch to compute the contrastive loss without extensive changes to the network structure. We have conducted experiments on two public seismic surveys, SEAM AI and Netherlands F3, and the proposed model achieves an IOU score of more than 90 using only 1% of the annotations in the F3 survey. | 翻訳日:2022-10-13 11:56:30 公開日:2022-10-12 |
# 進化するクラスオントロジーによる学習 Learning with an Evolving Class Ontology ( http://arxiv.org/abs/2210.04993v2 ) ライセンス: Link先を確認 | Zhiqiu Lin, Deepak Pathak, Yu-Xiong Wang, Deva Ramanan, Shu Kong | (参考訳) 生涯学習者は時間とともに進化する概念語彙を認識する必要がある。
よくあるが未熟なシナリオは、古いクラスを洗練/拡張するクラスラベルを学習することだ。
例えば、人間は犬種の前に${\tt dog}$を認識することを学ぶ。
実際の設定では、データセット$\textit{versioning}$はしばしばオントロジーに洗練を導入します。例えば、以前の${\ttの車両を洗練させる自動運転車ベンチマークなどです。
本稿では,$\textit{learning with evolving class ontology}$ (leco) の問題を研究するためのプロトコルを定式化する。
LECOは異なる期間(TP)で学習する分類器を必要とし、各TPは「粗い」ラベルの古いオントロジーを洗練させる「細い」ラベルの新しいオントロジーを導入する(例えば、以前の${\tt dog}$を洗練させる犬種など)。
LECOは、新しいデータをアノテートするか、古いデータをラバー化するか、粗いラベルをどのように活用するか、以前のTPのモデルを微調整するか、スクラッチからトレーニングするか、といった質問を探索している。
これらの疑問に答えるために、クラス増分学習のような関連する問題からの洞察を活用する。
画像分類のレンズ(CIFARとiNaturalist)とセマンティックセグメンテーション(Mapillary)を用いてLECOプロトコルで検証する。
現在の状況は、新しいオントロジー(COCO-to-LVISやMapillary1.2-to-2.0など)で既存のデータセットをラベリングすることにあるが、LECOはより優れた戦略として、新しいオントロジーで$\textit{new}$データをアノテートすることを示しています。
しかし、これは古いvs-newラベルが一貫性のない集約データセットを生成し、学習を複雑にする。
この課題に対処するために,半教師付き学習と部分ラベル学習の手法を採用する。
このような戦略は驚くほど最適にでき、最新のオントロジーでラベル付けされた集合データセットから学習する"オークル"に近づきます。 Lifelong learners must recognize concept vocabularies that evolve over time. A common yet underexplored scenario is learning with class labels over time that refine/expand old classes. For example, humans learn to recognize ${\tt dog}$ before dog breeds. In practical settings, dataset $\textit{versioning}$ often introduces refinement to ontologies, such as autonomous vehicle benchmarks that refine a previous ${\tt vehicle}$ class into ${\tt school-bus}$ as autonomous operations expand to new cities. This paper formalizes a protocol for studying the problem of $\textit{Learning with Evolving Class Ontology}$ (LECO). LECO requires learning classifiers in distinct time periods (TPs); each TP introduces a new ontology of "fine" labels that refines old ontologies of "coarse" labels (e.g., dog breeds that refine the previous ${\tt dog}$). LECO explores such questions as whether to annotate new data or relabel the old, how to leverage coarse labels, and whether to finetune the previous TP's model or train from scratch. To answer these questions, we leverage insights from related problems such as class-incremental learning. We validate them under the LECO protocol through the lens of image classification (CIFAR and iNaturalist) and semantic segmentation (Mapillary). Our experiments lead to surprising conclusions; while the current status quo is to relabel existing datasets with new ontologies (such as COCO-to-LVIS or Mapillary1.2-to-2.0), LECO demonstrates that a far better strategy is to annotate $\textit{new}$ data with the new ontology. However, this produces an aggregate dataset with inconsistent old-vs-new labels, complicating learning. To address this challenge, we adopt methods from semi-supervised and partial-label learning. Such strategies can surprisingly be made near-optimal, approaching an "oracle" that learns on the aggregate dataset exhaustively labeled with the newest ontology. | 翻訳日:2022-10-13 11:50:21 公開日:2022-10-12 |
# ジェネリックイベント境界検出のための運動認識自己スーパービジョン Motion Aware Self-Supervision for Generic Event Boundary Detection ( http://arxiv.org/abs/2210.05574v2 ) ライセンス: Link先を確認 | Ayush K. Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan F. Smeaton, Noel E. O'Connor | (参考訳) ジェネリックイベント境界検出(GEBD)の課題は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類のないイベント境界として検出することである。
ビデオ中の時間的変化と空間的変化を動的にモデル化することは、GEBDの解決を難しくする。
既存のアプローチには、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインが含まれます。
本稿では,GEBDタスクにおける空間的・時間的多様性に対処するため,単純で効果的な自己監督手法を再検討し,異なる動作特徴学習モジュールで拡張することでこの問題に対処する。
我々は,提案手法の有効性を他の自己監視型手法と比較し,提案手法の有効性を実証するために,挑戦的なkinetics-gebdとtaposデータセットに関する広範な実験を行った。
また,この単純な自己教師付きアプローチは,明示的な動作固有のプリテキストタスクを伴わずに動作特徴を学習できることを示す。 The task of Generic Event Boundary Detection (GEBD) aims to detect moments in videos that are naturally perceived by humans as generic and taxonomy-free event boundaries. Modeling the dynamically evolving temporal and spatial changes in a video makes GEBD a difficult problem to solve. Existing approaches involve very complex and sophisticated pipelines in terms of architectural design choices, hence creating a need for more straightforward and simplified approaches. In this work, we address this issue by revisiting a simple and effective self-supervised method and augment it with a differentiable motion feature learning module to tackle the spatial and temporal diversities in the GEBD task. We perform extensive experiments on the challenging Kinetics-GEBD and TAPOS datasets to demonstrate the efficacy of the proposed approach compared to the other self-supervised state-of-the-art methods. We also show that this simple self-supervised approach learns motion features without any explicit motion-specific pretext task. | 翻訳日:2022-10-13 11:49:43 公開日:2022-10-12 |
# すべてのステップは平等に重要か?
イベントのベンチマーク基本性検出 Are All Steps Equally Important? Benchmarking Essentiality Detection of Events ( http://arxiv.org/abs/2210.04074v2 ) ライセンス: Link先を確認 | Hongming Zhang, Yueguan Wang, Yuqian Deng, Haoyu Wang, Muhao Chen, Dan Roth | (参考訳) 自然言語は、しばしば異なる粒度のイベントを記述し、より粗い(ゴール)イベントは、しばしば(ステップ)イベントのきめ細かいシーケンスに分解される。
イベントプロセスを理解する上で批判的だが見過ごされている課題は、ステップイベントが中央の目標に対して等しく重要ではないという事実にある。
本稿では,このギャップを,現在のモデルが目標イベントに向けての異なるステップイベントの重要性をいかに理解できるかを検討することによって埋める。
認知研究によって議論されるように、このような能力により、機械は、前提条件と日常生活のタスクに必要な努力について人間の常識を模倣することができる。
私たちの研究は、コミュニティガイドラインwebサイトwikihowから(goal, step)ペアの高品質なコーパスにコントリビュートしています。
高いIAAは、人間が出来事について一貫した理解を持っていることを示している。
様々な統計的、大規模に事前訓練されたNLUモデルを評価するにも拘わらず、既存のSOTAモデルは皆、人間に大きく遅れている。 Natural language often describes events in different granularities, such that more coarse-grained (goal) events can often be decomposed into fine-grained sequences of (step) events. A critical but overlooked challenge in understanding an event process lies in the fact that the step events are not equally important to the central goal. In this paper, we seek to fill this gap by studying how well current models can understand the essentiality of different step events towards a goal event. As discussed by cognitive studies, such an ability enables the machine to mimic human's commonsense reasoning about preconditions and necessary efforts of daily-life tasks. Our work contributes with a high-quality corpus of (goal, step) pairs from a community guideline website WikiHow, where the steps are manually annotated with their essentiality w.r.t. the goal. The high IAA indicates that humans have a consistent understanding of the events. Despite evaluating various statistical and massive pre-trained NLU models, we observe that existing SOTA models all perform drastically behind humans, indicating the need for future investigation of this crucial yet challenging task. | 翻訳日:2022-10-13 11:49:24 公開日:2022-10-12 |
# 抽出か推測か?
事象時間関係抽出の忠実度向上 Extracting or Guessing? Improving Faithfulness of Event Temporal Relation Extraction ( http://arxiv.org/abs/2210.04992v2 ) ライセンス: Link先を確認 | Haoyu Wang, Hongming Zhang, Yuqian Deng, Jacob R. Gardner, Dan Roth, Muhao Chen | (参考訳) 本稿では,TempRel抽出モデルの忠実度を2つの観点から改善する。
最初の視点は、文脈記述に基づいて真に抽出することである。
そこで本研究では,イベントトリガバイアスと頻繁なラベルバイアスという,2つの重要なトレーニングバイアスの影響を緩和する反事実分析手法を提案する。
また、コンテキスト記述に明示的に重点を置くために、イベント表現にテンス情報を追加します。
第2の視点は、適切な不確実性の推定と、テキストに関係が記述されていない場合の抽出の回避である。
モデル予測カテゴリー分布よりもディリクレ事前のパラメータ化により、正しさ確率のモデル推定を改善し、TempRel予測をより選択的にする。
また、バイアス緩和後のモデル信頼度尺度の再検討に温度スケーリングを用いる。
MATRES, MATRES-DS, TDDiscourseの実験的解析により, このモデルがTempRelと時間軸をSOTA法よりも忠実に抽出することを示した。 In this paper, we seek to improve the faithfulness of TempRel extraction models from two perspectives. The first perspective is to extract genuinely based on contextual description. To achieve this, we propose to conduct counterfactual analysis to attenuate the effects of two significant types of training biases: the event trigger bias and the frequent label bias. We also add tense information into event representations to explicitly place an emphasis on the contextual description. The second perspective is to provide proper uncertainty estimation and abstain from extraction when no relation is described in the text. By parameterization of Dirichlet Prior over the model-predicted categorical distribution, we improve the model estimates of the correctness likelihood and make TempRel predictions more selective. We also employ temperature scaling to recalibrate the model confidence measure after bias mitigation. Through experimental analysis on MATRES, MATRES-DS, and TDDiscourse, we demonstrate that our model extracts TempRel and timelines more faithfully compared to SOTA methods, especially under distribution shifts. | 翻訳日:2022-10-13 11:49:07 公開日:2022-10-12 |
# PatternRank: 事前学習言語モデルの活用と教師なしキーフレーズ抽出のための音声の一部 PatternRank: Leveraging Pretrained Language Models and Part of Speech for Unsupervised Keyphrase Extraction ( http://arxiv.org/abs/2210.05245v2 ) ライセンス: Link先を確認 | Tim Schopf, Simon Klimek, Florian Matthes | (参考訳) キーワード抽出は、与えられたテキストから最も関連性の高いフレーズの小さなセットを自動的に選択するプロセスである。
改良されたキーフレーズ抽出アプローチでは,大量のラベル付きトレーニングデータが必要であり,トレーニングデータの領域外では不十分である。
本稿では,事前学習された言語モデルと単一文書からの教師なしキーフレーズ抽出のためのpart-of-speechを用いたパターンランクを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
さらに,提案するKeyphraseVectorizersパッケージは,候補となるキーフレーズの選択のための音声パターンの変更を容易にし,任意のドメインへのアプローチの適応を可能にする。 Keyphrase extraction is the process of automatically selecting a small set of most relevant phrases from a given text. Supervised keyphrase extraction approaches need large amounts of labeled training data and perform poorly outside the domain of the training data. In this paper, we present PatternRank, which leverages pretrained language models and part-of-speech for unsupervised keyphrase extraction from single documents. Our experiments show PatternRank achieves higher precision, recall and F1-scores than previous state-of-the-art approaches. In addition, we present the KeyphraseVectorizers package, which allows easy modification of part-of-speech patterns for candidate keyphrase selection, and hence adaptation of our approach to any domain. | 翻訳日:2022-10-13 11:48:49 公開日:2022-10-12 |
# グラフトランスフォーマによる組立シーケンスの計画 Planning Assembly Sequence with Graph Transformer ( http://arxiv.org/abs/2210.05236v2 ) ライセンス: Link先を確認 | Lin Ma, Jiangtao Gong, Hao Xu, Hao Chen, Hao Zhao, Wenbing Huang and Guyue Zhou | (参考訳) アセンブリシーケンス計画(asp)は現代の製造業にとって不可欠なプロセスであり、np完全であることが証明されているため、この分野の研究者にとって効果的で効率的なソリューションが課題となっている。
本稿では,自己コンパイル型 ASP データベース上で学習,実証を行う ASP 問題のためのグラフ変換器ベースのフレームワークを提案する。
aspデータベースにはlegoモデルの自己収集セットが含まれている。
LEGOモデルは、元の構造と特徴抽出の徹底的な解析の後、異種グラフ構造に抽象化される。
ground truthアセンブリシーケンスは最初にブルートフォースサーチによって生成され、その後手動で人間の合理的な習慣に合わせて調整される。
この自己収集型aspデータセットに基づいて,集合計画における潜在ルールを学習するためのヘテロジニアスグラフ変換フレームワークを提案する。
提案したフレームワークを一連の実験で評価した。
その結果、予測真理列と基底真理列の類似性は、Kendallの$\tau$で測定された中間相関である0.44に達することを示した。
一方、ノードの特徴とエッジの特徴の異なる影響を比較し、さらなる研究のためのベンチマークとして、実現可能で合理的なアセンブリシーケンスを生成した。
私たちのデータセットとコードはhttps://github.com/AIR-DISCOVER/ICRA\_ASP.orgで公開されています。 Assembly sequence planning (ASP) is the essential process for modern manufacturing, proven to be NP-complete thus its effective and efficient solution has been a challenge for researchers in the field. In this paper, we present a graph-transformer based framework for the ASP problem which is trained and demonstrated on a self-collected ASP database. The ASP database contains a self-collected set of LEGO models. The LEGO model is abstracted to a heterogeneous graph structure after a thorough analysis of the original structure and feature extraction. The ground truth assembly sequence is first generated by brute-force search and then adjusted manually to in line with human rational habits. Based on this self-collected ASP dataset, we propose a heterogeneous graph-transformer framework to learn the latent rules for assembly planning. We evaluated the proposed framework in a series of experiment. The results show that the similarity of the predicted and ground truth sequences can reach 0.44, a medium correlation measured by Kendall's $\tau$. Meanwhile, we compared the different effects of node features and edge features and generated a feasible and reasonable assembly sequence as a benchmark for further research. Our data set and code is available on https://github.com/AIR-DISCOVER/ICRA\_ASP. | 翻訳日:2022-10-13 11:48:36 公開日:2022-10-12 |
# 可読性制御可能な生体医学文書要約 Readability Controllable Biomedical Document Summarization ( http://arxiv.org/abs/2210.04705v2 ) ライセンス: Link先を確認 | Zheheng Luo, Qianqian Xie, Sophia Ananiadou | (参考訳) 一般的な文献と異なり、生物医学的文書の高度に技術的な性質と読者のドメイン知識のばらつきから、人々が生物医学的文書を理解することの容易さが著しく異なることが認識されている。
しかし、既存のバイオメディカル文書要約システムは可読性制御にはほとんど注意を払わず、ユーザーは専門知識のレベルと相容れない要約を持つ。
そこで我々は,この緊急要求を認識し,利用者の可読性要求を認識し,ニーズに合致したサマリーを生成することを目的とした,生物医学文献の可読性制御可能なサマリ化に関する新しい課題を紹介する。
そこで本研究では,著者らが執筆した技術要約とplsを備えた生物医学論文からなるコーパスを構築し,事前学習言語モデル(plm)に基づく多元的な制御可能な抽象的・抽出的要約モデルのベンチマークを行った。
さらに,新しいマスキング言語モデル(MLM)に基づくメトリクスとその変種を提案し,レイとテクニカルの要約の可読性差を効果的に評価する。
自動および人為的評価による実験の結果,現在の制御手法では生成時にある程度の可読性調整が可能であるが,既存の制御可能な要約手法の性能は望ましいものとはほど遠いことがわかった。 Different from general documents, it is recognised that the ease with which people can understand a biomedical text is eminently varied, owing to the highly technical nature of biomedical documents and the variance of readers' domain knowledge. However, existing biomedical document summarization systems have paid little attention to readability control, leaving users with summaries that are incompatible with their levels of expertise. In recognition of this urgent demand, we introduce a new task of readability controllable summarization for biomedical documents, which aims to recognise users' readability demands and generate summaries that better suit their needs: technical summaries for experts and plain language summaries (PLS) for laymen. To establish this task, we construct a corpus consisting of biomedical papers with technical summaries and PLSs written by the authors, and benchmark multiple advanced controllable abstractive and extractive summarization models based on pre-trained language models (PLMs) with prevalent controlling and generation techniques. Moreover, we propose a novel masked language model (MLM) based metric and its variant to effectively evaluate the readability discrepancy between lay and technical summaries. Experimental results from automated and human evaluations show that though current control techniques allow for a certain degree of readability adjustment during generation, the performance of existing controllable summarization methods is far from desirable in this task. | 翻訳日:2022-10-13 11:48:05 公開日:2022-10-12 |