このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221010となっている論文です。

PDF登録状況(公開日: 20221010)

TitleAuthorsAbstract論文公表日・翻訳日
# 普遍量子コンピュータにおけるBRGC符号を用いたラプラシアンのゲートベース実装

Gate Based Implementation of the Laplacian with BRGC Code for Universal Quantum Computers ( http://arxiv.org/abs/2207.11647v2 )

ライセンス: Link先を確認
Ermal Rrapaj, Kenneth S. McElvain, Chia Cheng Chang, Yantao Wu, Andr\'e Walker-Loud(参考訳) 本研究では,周期境界条件を持つ格子上のラプラシアン離散化による二項反射グレイ符号(brgc)とユニタリ時間発展演算子の二項符号のゲートベース実装について検討した。 結果として生じるトロッター誤差は,ベイカー・カンベル・ハウスドルフ公式による固定格子間隔の系サイズに依存しないことがわかった。 次に、BRGC量子回路を構築するアルゴリズムを提案する。 この回路による断熱的進化時間$t$とスペクトルノルム誤差$\epsilon$は、回路コスト(ゲートの数)と深さが$\mc{O}(t^2 n A D /\epsilon)$と$n-3$の補助量子ビットで、1次元$D$と粒子番号$A$の2つの格子点を持つシステムに対して$$n3$である。 さらに、$[T,V]$が$\Delta t$、$T$が運動エネルギー、$V$が非自明なポテンシャルを持つという合理的な仮定の下で、ラプラシアスケールのQFT(Quantum Fourier Transform )実装のコストは、深さ$\mc{O}\left(n^2\right)$、深さ$\mc{O}\left(n\right)$、BRGCスケールは$\mc{O}\left(n\right)$である。

We study the gate-based implementation of the binary reflected Gray code (BRGC) and binary code of the unitary time evolution operator due to the Laplacian discretized on a lattice with periodic boundary conditions. We find that the resulting Trotter error is independent of system size for a fixed lattice spacing through the Baker-Campbell-Hausdorff formula. We then present our algorithm for building the BRGC quantum circuit. For an adiabatic evolution time $t$ with this circuit, and spectral norm error $\epsilon$, we find the circuit cost (number of gates) and depth required are $\mc{O}(t^2 n A D /\epsilon)$ with $n-3$ auxiliary qubits for a system with $2^n$ lattice points per dimension $D$ and particle number $A$; an improvement over binary position encoding which requires an exponential number of $n$-local operators. Further, under the reasonable assumption that $[T,V]$ bounds $\Delta t$, with $T$ the kinetic energy and $V$ a non-trivial potential, the cost of QFT (Quantum Fourier Transform ) implementation of the Laplacian scales as $\mc{O}\left(n^2\right)$ with depth $\mc{O}\left(n\right)$ while BRGC scales as $\mc{O}\left(n\right)$, giving an advantage to the BRGC implementation.
翻訳日:2023-02-03 22:14:35 公開日:2022-10-10
# Anyon condensation, Topological quantum information scrambling, and Andreev-like reflection of non-Abelian anyon in quantum Hall Interface (特集:ユビキタス)

Anyon condensation, topological quantum information scrambling, and Andreev-like reflection of non-Abelian anyons in quantum Hall interfaces ( http://arxiv.org/abs/2209.11119v2 )

ライセンス: Link先を確認
Ken K. W. Ma(参考訳) 量子情報スクランブル (quantum information scramling) は、量子多体系全体を通して局所情報の相関関係への拡散である。 この概念は様々な文脈において中心的な話題となっている。 本研究では,量子ホール界面に散在する任意の凝縮と位相量子情報の接続を再検討する。 我々はAbelian Halperin-330状態と非Abelian Read-Rezayi状態のインターフェースについて考察する。 インターフェースが完全にガッピング可能であることを明確に確認します。 これにより、アーベル・アノンによって運ばれた局所擬スピン情報の、非アーベル量子ホール液体のアノンによって完全に保存された位相情報への変換が可能となり、スクランブルされた情報はインターフェースに格納されない。 これまでの研究 (K. K. W. Ma, K. Yang, Phys. Rev. B 105, 045306 (2022)] と組み合わせて, 界面の隙間性に対する揺らぎ機構の依存性を実証した。 完全にガッピングされた界面における非アベルエノンのアンドレエフ様の反射についても論じる。

Quantum information scrambling is the spread of local information into correlation throughout the entire quantum many-body system. This concept has become a central topic in different contexts. In this work, we restate the connection between anyon condensation and topological quantum information scrambling in quantum Hall interfaces. We consider the interface between the Abelian Halperin-330 state and the non-Abelian Read-Rezayi state. We verify explicitly that the interface can be fully gapped. This allows the transmutation of local pseudospin information carried by an Abelian anyon into topological information stored entirely by the anyons in the non-Abelian quantum Hall liquid, with no scrambled information stored at the interface. In combination with our previous work [K. K. W. Ma and K. Yang, Phys. Rev. B 105, 045306 (2022)], our results demonstrate the dependence of the scrambling mechanism on the gapfulness of the interface. Possible Andreev-like reflection of non-Abelian anyons in the fully gapped interface is also discussed.
翻訳日:2023-01-25 17:59:00 公開日:2022-10-10
# 古典化ホログラフィックテンソルネットワークのユークリッド作用とローレンツ作用

Euclidean and Lorentzian Actions of the Classicalized Holographic Tensor Network ( http://arxiv.org/abs/2209.11687v2 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 3次元の時空次元において、古典化ホログラフィックテンソルネットワーク(chtn)の一般共変ローレンツ作用を、負の宇宙定数の存在下での重力のアインシュタイン・ヒルベルト作用のホログラフィック還元として提案する。 本稿では,まず,このローレンツ作用の基底状態における性質について検討する。 次に、cHTNのユークリッド作用に基づいて、cHTNの静止状態にある質量粒子によって引き起こされる重力摂動をウンルー効果として導出する。 最後に、我々のホログラフィックによる時空定式化を、一般共変性の非平衡第二法則と考える。

In three spacetime dimensions, we propose a generally covariant Lorentzian action of the classicalized holographic tensor network (cHTN) as the holographic reduction of the Einstein-Hilbert action of gravity in the presence of a negative cosmological constant. In this article, first, we investigate the properties of this Lorentzian action in the ground state. Next, based on the Euclidean action of the cHTN, we derive the gravity perturbation induced by a massive particle at rest in the cHTN as the Unruh effect. Finally, we view our holographic formulation of spacetime as a non-equilibrium second law subject to general covariance.
翻訳日:2023-01-25 17:40:49 公開日:2022-10-10
# 硬化型蓄熱器を用いた量子スターリング熱機関

Quantum Stirling heat engine with squeezed thermal reservoir ( http://arxiv.org/abs/2210.00250v2 )

ライセンス: Link先を確認
Nikolaos Papadatos(参考訳) 本研究では,2レベルシステムと高調波発振器を用いた量子スターリングヒートエンジン(QSHE)の性能解析を行った。 まず、生成した作業と効率の閉形式式を導出し、これはスクイーズパラメータ $r_h$ に大きく依存する。 次に, 加工媒体の加熱効果を高い有効温度まで押し上げることにより, 総合的な性能が向上することを示す。 特に,温冷熱貯水池の温度比が小さい場合には,標準カルノ限界を超えるスクイーズ程度で効率が向上する。 さらに, 極低温条件下での最大作業効率と最大生成作業量の解析式を導出し, 極低温条件下では, スクイーズパラメータ$r_h$がQSHEの性能に影響を与えないことを見出した。 最後に、QSHEの性能は、作業媒体の性質に依存する。

We analyze the performance of a quantum Stirling heat engine (QSHE), using a two level system and the harmonic oscillator as the working medium, that contacts with a squeezed thermal reservoir and a cold reservoir. First, we derive closed-form expressions for the produced work and efficiency which strongly depends on the squeezing parameter $r_h$. Then, we prove that the effect of squeezing heats the working medium to a higher effective temperature which leads to better overall performance. In particular, the efficiency increases with the degree of squeezing surpassing the standard Carnot limit, when the ratio of temperatures of hot and cold reservoir is small. Furthermore, we derive the analytical expressions for the efficiency at maximum work and the maximum produced work in the high and low temperature regime and we find that at extreme temperatures the squeezing parameter $r_h$ does not affect the performance of the QSHE. Finally, the performance of the QSHE depends on the nature of the working medium.
翻訳日:2023-01-24 05:12:19 公開日:2022-10-10
# 時間不均一量子力学写像

Time inhomogeneous quantum dynamical maps ( http://arxiv.org/abs/2210.02770v2 )

ライセンス: Link先を確認
Dariusz Chru\'sci\'nski(参考訳) 完全正のトレース保存マップの2パラメータ群で表される時間的不均一な量子進化について論じる。 これらの動的写像は無限のジャンプ過程として構成される。 このような動的写像は、標準畳み込みを含むマスター方程式の一般化を提供する時間的不均質なメモリカーネルマスター方程式を満たすことが示されている。 time-local (time convolution-less) アプローチも議論されている。 最後に、従来の時間均質と時間不均質のシナリオの比較分析を行う。

We discuss a wide class of time inhomogeneous quantum evolution which is represented by two-parameter family of completely positive trace-preserving maps. These dynamical maps are constructed as infinite series of jump processes. It is shown that such dynamical maps satisfy time inhomogeneous memory kernel master equation which provides a generalization of the master equation involving the standard convolution. Time-local (time convolution-less) approach is discussed as well. Finally, the comparative analysis of traditional time homogeneous vs. time inhomogeneous scenario is provided.
翻訳日:2023-01-23 15:00:11 公開日:2022-10-10
# コヒーレンスに基づく運用非古典性基準

Coherence-based operational nonclassicality criteria ( http://arxiv.org/abs/2210.04390v1 )

ライセンス: Link先を確認
Luca Innocenti, Lukas Lachman, Radim Filip(参考訳) 量子状態の非古典性は、量子技術と一般に量子情報タスクの基本的な資源である。 特に、量子状態の重要な側面はコヒーレンスの性質にあり、フォック状態のボゾン基底における密度行列の非対角的な項にエンコードされる。 実験的なシナリオで得られるデータのみを使用する量子コヒーレンスの非古典性を検出するための運用基準を提案する。 本研究では,非古典コヒーレンス状態のロバスト性について,非古典的コヒーレンス状態のロバスト性を分析し,比較する。 この基準は、光、原子、固体系、機械振動子による実験に直ちに適用することができ、実用的な実験により生成された状態の非古典性をより容易に検出できるツールボックスを提供する。

The nonclassicality of quantum states is a fundamental resource for quantum technologies and quantum information tasks in general. In particular, a pivotal aspect of quantum states lies in their coherence properties, encoded in the nondiagonal terms of their density matrix in the Fock-state bosonic basis. We present operational criteria to detect the nonclassicality of individual quantum coherences that only use data obtainable in experimentally realistic scenarios. We analyze and compare the robustness of the nonclassical coherence aspects when the states pass through lossy and noisy channels. The criteria can be immediately applied to experiments with light, atoms, solid-state systems, and mechanical oscillators, thus providing a toolbox allowing practical experiments to more easily detect the nonclassicality of generated states.
翻訳日:2023-01-23 01:11:57 公開日:2022-10-10
# 変分アルゴリズムにおける量子古典的トレードオフと多制御量子ゲート分解

Quantum-classical tradeoffs and multi-controlled quantum gate decompositions in variational algorithms ( http://arxiv.org/abs/2210.04378v1 )

ライセンス: Link先を確認
Teague Tomesh, Nicholas Allen, Zain Saleem(参考訳) 量子近似最適化アルゴリズム(qaoa)のような無拘束最適化問題に対する量子アルゴリズムは、ハイブリッド量子古典的実行モデルの下で動作する、興味深い短期的アルゴリズムとして提案されている。 近年の研究では、QAOAは可変アンサッツの設計に問題制約を組み込むことによって制約付き組合せ最適化問題にも適用可能であることが示されている。 本稿では,最大独立集合の制約付き最適化問題に適用した場合のQAOAの潜在的なリソーストレードオフについて検討する。 古典的パラメータ数,量子ゲート数,古典的最適化の繰り返しのトレードオフを行うQAOAの3つの変種を考える。 また、異なるキュービット技術とネイティブゲートセットをサポートするハードウェア上でQAOA回路を分解する量子コストについて検討し、ゲート演算の忠実度と1つのメトリックへの分解効率を組み合わせたゲート分解スコアを用いて異なるアルゴリズムを比較した。 3つのQAOA変種は全て同様の性能が得られるが、古典的および量子的資源コストはそれらの間に大きく異なる可能性がある。

Quantum algorithms for unconstrained optimization problems, such as the Quantum Approximate Optimization Algorithm (QAOA), have been proposed as interesting near-term algorithms which operate under a hybrid quantum-classical execution model. Recent work has shown that the QAOA can also be applied to constrained combinatorial optimization problems by incorporating the problem constraints within the design of the variational ansatz - often resulting in quantum circuits containing many multi-controlled gate operations. This paper investigates potential resource tradeoffs for the QAOA when applied to the particular constrained optimization problem of Maximum Independent Set. We consider three variants of the QAOA which make different tradeoffs between the number of classical parameters, quantum gates, and iterations of classical optimization. We also study the quantum cost of decomposing the QAOA circuits on hardware which may support different qubit technologies and native gate sets, and compare the different algorithms using the gate decomposition score which combines the fidelity of the gate operations with the efficiency of the decomposition into a single metric. We find that all three QAOA variants can attain similar performance but the classical and quantum resource costs may vary greatly between them.
翻訳日:2023-01-23 01:11:45 公開日:2022-10-10
# 非凸リーマン勾配勾配による量子状態トモグラフィ

Quantum state tomography via non-convex Riemannian gradient descent ( http://arxiv.org/abs/2210.04717v1 )

ライセンス: Link先を確認
Ming-Chien Hsu, En-Jui Kuo, Wei-Hsuan Yu, Jian-Feng Cai, and Min-Hsiu Hsieh(参考訳) 大きなサイズの未知の密度行列の復元には膨大な計算資源が必要である。 最近のFGD(Facted Gradient Descent)アルゴリズムとその変種は、密度行列の基盤構造を利用して次元障壁を緩和できるため、最先端の性能を達成した。 線形収束率の理論的な保証にもかかわらず、FGDアルゴリズムの収縮係数は基底真理状態の条件数$\kappa$に依存するため、実際的なシナリオでの収束は依然として遅い。 したがって、合計の反復数は$O(\sqrt{\kappa}\ln(\frac{1}{\varepsilon})$で、推定誤差を$\varepsilon$にすることができる。 本研究では, 量子状態トモグラフィー法を導出し, 対数スケールへの$\kappa$への依存度を向上させること, すなわち, 近似誤差$\varepsilon$ in $o(\ln(\frac{1}{\kappa\varepsilon})$ step を実現することができた。 この改善は、非凸リーマン勾配勾配(RGD)の適用によるものである。 したがって、我々のアプローチの収縮因子は与えられた状態とは独立な普遍定数である。 超高速収束とほぼ最適誤差境界の理論的結果は数値的な結果と相関する。

The recovery of an unknown density matrix of large size requires huge computational resources. The recent Factored Gradient Descent (FGD) algorithm and its variants achieved state-of-the-art performance since they could mitigate the dimensionality barrier by utilizing some of the underlying structures of the density matrix. Despite their theoretical guarantee of a linear convergence rate, the convergence in practical scenarios is still slow because the contracting factor of the FGD algorithms depends on the condition number $\kappa$ of the ground truth state. Consequently, the total number of iterations can be as large as $O(\sqrt{\kappa}\ln(\frac{1}{\varepsilon}))$ to achieve the estimation error $\varepsilon$. In this work, we derive a quantum state tomography scheme that improves the dependence on $\kappa$ to the logarithmic scale; namely, our algorithm could achieve the approximation error $\varepsilon$ in $O(\ln(\frac{1}{\kappa\varepsilon}))$ steps. The improvement comes from the application of the non-convex Riemannian gradient descent (RGD). The contracting factor in our approach is thus a universal constant that is independent of the given state. Our theoretical results of extremely fast convergence and nearly optimal error bounds are corroborated by numerical results.
翻訳日:2023-01-23 01:10:30 公開日:2022-10-10
# 量子ネットワークにおける近単位エミッタ-ファイバ界面用「sawfish」フォトニック結晶空洞

'Sawfish' Photonic Crystal Cavity for Near-Unity Emitter-to-Fiber Interfacing in Quantum Network Applications ( http://arxiv.org/abs/2210.04702v1 )

ライセンス: Link先を確認
Julian M. Bopp, Matthias Plock, Tim Turan, Gregor Pieplow, Sven Burger, Tim Schr\"oder(参考訳) 光子損失は、複雑なフォトニック量子応用において克服すべき重要な課題の1つである。 光子収集効率は、測定に基づく量子計算と通信ネットワークに必要なリソース量に直接影響する。 資源は固体の量子光源を含むが、単一の量子エミッタからの光を誘導モードに効率的に結合することは要求されている。 本研究では,エミッタ-ファイバ界面の結合効率を最大化することで光子損失を解消する。 導波路一体型フォトニック結晶キャビティを開発し,97.4%の効率で,ダイヤモンド中の負電荷のスズ空室中心のゼロフォノン線放出を単一モードファイバに非接触的に行うことを有限要素シミュレーションにより実証する。 機械学習によって訓練された代理モデルは、製造耐性に対する感度の定量的推定を提供する。 我々の相関に基づく設計は、最先端のナノファブリケーションパラメータの下で堅牢であり、エミッタ-ファイバ結合効率88.6%を維持している。 資源要求を減らす可能性を示すために,Sawfishキャビティを最近のワンウェイ量子リピータプロトコルに適用する。

Photon loss is one of the key challenges to overcome in complex photonic quantum applications. Photon collection efficiencies directly impact the amount of resources required for measurement-based quantum computation and communication networks. Promising resources include solid-state quantum light sources, however, efficiently coupling light from a single quantum emitter to a guided mode remains demanding. In this work, we eliminate photon losses by maximizing coupling efficiencies in an emitter-to-fiber interface. We develop a waveguide-integrated 'Sawfish' photonic crystal cavity and use finite element simulations to demonstrate that our system transfers, with 97.4% efficiency, the zero-phonon line emission of a negatively-charged tin vacancy center in diamond adiabatically to a single-mode fiber. A surrogate model trained by machine learning provides quantitative estimates of sensitivities to fabrication tolerances. Our corrugation-based design proves robust under state-of-the-art nanofabrication parameters, maintaining an emitter-to-fiber coupling efficiency of 88.6%. To demonstrate its potential in reducing resource requirements, we apply the Sawfish cavity to a recent one-way quantum repeater protocol.
翻訳日:2023-01-23 01:10:07 公開日:2022-10-10
# 量子増幅型テーブルトップ干渉計の設計

Design of a tabletop interferometer with quantum amplification ( http://arxiv.org/abs/2210.04566v1 )

ライセンス: Link先を確認
Jiri Smetana, Artemiy Dmitriev, Chunnong Zhao, Haixing Miao, Denis Martynov(参考訳) レーザー干渉計の感度は、基本的に光の量子性によって制限される。 近年の理論的研究は、アクティブパリティ時間対称および位相非感受性量子増幅を用いることで、量子制限感度を高める新しい道を開いた。 これらのシステムは、理想的な場合に余剰ノイズを発生させることなく、信号応答を向上させることができる。 しかし、このようなアクティブシステムは因果的であり、安定し、慎重に調整され、実用的で精度の計測に応用されなければならない。 本稿では,レーザ干渉計の位相非感応増幅を卓上実験で実現可能であることを示す。 このレイアウトは、2つの連結キャビティと、窒化ケイ素膜と補助ポンプフィールドとからなる活性媒質とからなる。 我々の設計は既存の膜と低温技術に依存しており、3つの特徴を示せる。 (i)光学系の自己安定化ダイナミクス (ii)増幅器の存在下での感度の量子化、及び (iii)増幅器利得の光制御。 これらの特徴は、将来の干渉重力波および軸検出器の感度を高めるために必要である。

The sensitivity of laser interferometers is fundamentally limited by the quantum nature of light. Recent theoretical studies have opened a new avenue to enhance their quantum-limited sensitivity by using active parity-time-symmetric and phase-insensitive quantum amplification. These systems can enhance the signal response without introducing excess noise in the ideal case. However, such active systems must be causal, stable, and carefully tuned to be practical and applicable to precision measurements. In this paper, we show that phase-insensitive amplification in laser interferometers can be implemented in a tabletop experiment. The layout consists of two coupled cavities and an active medium comprised of a silicon nitride membrane and an auxiliary pump field. Our design relies on existing membrane and cryogenic technology and can demonstrate three distinct features: (i) the self-stabilized dynamics of the optical system, (ii) quantum enhancement of its sensitivity in the presence of the amplifier, and (iii) optical control of the amplifier gain. These features are needed to enhance the sensitivity of future interferometric gravitational-wave and axion detectors.
翻訳日:2023-01-23 01:09:04 公開日:2022-10-10
# 量子ゲート忠実度推定のための半導体スピン量子ビットのモデル化とその電荷ノイズ環境

Modelling semiconductor spin qubits and their charge noise environment for quantum gate fidelity estimation ( http://arxiv.org/abs/2210.04539v1 )

ライセンス: Link先を確認
M. Mohamed El Kordy Shehata, George Simion, Ruoyu Li, Fahd A. Mohiyaddin, Danny Wan, Massimo Mongillo, Bogdan Govoreanu, Iuliana Radu, Kristiaan De Greve and Pol Van Dorpe(参考訳) 半導体量子ドットに閉じ込められた電子のスピンは、量子ビット(量子ビット)実装の有望な候補である。 既存のCMOS統合技術を利用して、そのようなデバイスは大規模量子計算のためのプラットフォームを提供することができる。 しかし、デバイスの物理的設計と動作パラメータを量子ビットエネルギー空間にブリッジする量子力学的フレームワークは不足している。 さらに、固有または誘導スピン軌道相互作用(soi)によって導入されたスピン対電荷結合は、量子ビットがコヒーレンス特性を妥協し量子ゲートエラーを誘発するノイズを電荷化する。 本稿では,二重量子ドット(dqd)デバイスとその帯電雑音環境のためのコモデリングフレームワークを提案する。 本研究では,静電ポテンシャル解法,フルコンフィグレーション相互作用量子力学的手法,および2レベル変動モデルを組み合わせて,現実的なデバイス設計と動作条件における量子ゲート性能の研究を行う。 我々は、量子ドットの単一電子溶液とともに開発されたモデルを用いて、電荷ノイズの存在下で1ビットと2ビットのゲートをシミュレートする。 量子ゲート誤差と量子ドット閉じ込め周波数の逆相関を求める。 シミュレーションしたSi-MOSデバイスにおいて, 典型的なTLF密度のXゲート忠実度>97%を算出する。 また,交換駆動型2量子ビットスワップゲートは,tlfの密度が同じ場合,音質が91%まで低下するほど高い感度を示すことがわかった。 さらに,TLF密度の異なる1および2ビットゲートの忠実度について検討した。 量子ドットの大きさが小さいと、ノイズ源と量子ドットの間の距離に対する量子ゲートの感度は、量子ゲートの忠実度に強いばらつきをもたらし、スケールした量子ビット技術におけるデバイス収率を損なうことができる。

The spin of an electron confined in semiconductor quantum dots is currently a promising candidate for quantum bit (qubit) implementations. Taking advantage of existing CMOS integration technologies, such devices can offer a platform for large scale quantum computation. However, a quantum mechanical framework bridging a device's physical design and operational parameters to the qubit energy space is lacking. Furthermore, the spin to charge coupling introduced by intrinsic or induced Spin-Orbit-Interaction (SOI) exposes the qubits to charge noise compromising their coherence properties and inducing quantum gate errors. We present here a co-modelling framework for double quantum dot (DQD) devices and their charge noise environment. We use a combination of an electrostatic potential solver, full configuration interaction quantum mechanical methods and two-level-fluctuator models to study the quantum gate performance in realistic device designs and operation conditions. We utilize the developed models together alongside the single electron solutions of the quantum dots to simulate one- and two- qubit gates in the presence of charge noise. We find an inverse correlation between quantum gate errors and quantum dot confinement frequencies. We calculate X-gate fidelities >97% in the simulated Si-MOS devices at a typical TLF densities. We also find that exchange driven two-qubit SWAP gates show higher sensitivity to charge noise with fidelities down to 91% in the presence of the same density of TLFs. We further investigate the one- and two- qubit gate fidelities at different TLF densities. We find that given the small size of the quantum dots, sensitivity of a quantum gate to the distance between the noise sources and the quantum dot creates a strong variability in the quantum gate fidelities which can compromise the device yields in scaled qubit technologies.
翻訳日:2023-01-23 01:08:50 公開日:2022-10-10
# 非ガウス演算によるテレポーテーションプロトコル:条件付き光子サブトラクション対立方相ゲート

Teleportation protocols with non-Gaussian operations: conditional photon subtraction versus cubic phase gate ( http://arxiv.org/abs/2210.04531v1 )

ライセンス: Link先を確認
E.R. Zinatullin, S. B. Korolev and T. Yu. Golubeva(参考訳) 私たちの研究では、最初のプロトコル、フォトン減算プロトコル、および3次位相ゲートのプロトコルという3つのテレポーテーションプロトコルを比較した。 本稿では,スクイーズ状態とschrodingerの猫状態のテレポーテーションの例を用いて,各プロトコルの忠実性を評価する。 また,同条件下では,立方相ゲートを用いたテレポーテーション方式により,他のプロトコルよりも高い忠実性が得られることを示す。

In our work, we compare three teleportation protocols: the original protocol, the photon subtraction protocol, and the protocol with a cubic phase gate. We evaluate the fidelity of each protocol using the example of teleportation of the squeezed state and the Schrodinger's cat state. We show that, under equal conditions, the teleportation scheme with a cubic phase gate achieves significantly higher fidelity than the other protocols considered.
翻訳日:2023-01-23 01:08:23 公開日:2022-10-10
# スピンボソン系における${\cal PT}$対称性と${\cal PT}$-Enhanced Quantum Sensing

${\cal PT}$ Symmetry and ${\cal PT}$-Enhanced Quantum Sensing in a Spin-Boson System ( http://arxiv.org/abs/2210.04494v1 )

ライセンス: Link先を確認
Pei-Rong Han, Fan Wu, Xin-Jie Huang, Huaizhi Wu, Zhen-Biao Yang, Chang-Ling Zou, Wei Yi, Mengzhen Zhang, Hekang Li, Kai Xu, Dongning Zheng, Heng Fan, Jianming Wen, and Shi-Biao Zheng(参考訳) 非エルミートハミルトニアンによって支配される開系は、エルミート系とは根本的に異なる進化をし、多くの特異な応用を促進する。 非エルミート的だがパリティ時間({\cal PT}$)対称力学は様々な古典的あるいは半古典的システムで実現されているが、完全な量子力学の実証はいまだに不足している。 そこで我々は,マイクロ波共振器に蓄えられたボソニックモードと相互作用する崩壊する人工原子(擬似スピン)からなる回路量子電気力学構造において,高度に制御可能な反エルミチアンスピンボソンモデルを構築した。 量子ラビ分裂におけるスピン-ボソンの絡み合いの急激な変化と分岐遷移の観察に加えて、興味の観測可能なものを観測不能な${\cal PT}$-manifested 絡み合いの進化にマッピングすることで超敏感な量子センシングを示す。 これらの結果は、非エルミート的絡み合いダイナミクスと非古典的相関によって強化された${\cal pt}$-enhanced量子センシングの探求の道を開く。

Open systems, governed by non-Hermitian Hamiltonians, evolve fundamentally differently from their Hermitian counterparts and facilitate many unusual applications. Although non-Hermitian but parity-time (${\cal PT}$) symmetric dynamics has been realized in a variety of classical or semiclassical systems, its fully quantum-mechanical demonstration is still lacking. Here we ingeniously engineer a highly controllable anti-Hermitian spin-boson model in a circuit quantum-electrodynamical structure composed of a decaying artificial atom (pseudospin) interacting with a bosonic mode stored in a microwave resonator. Besides observing abrupt changes in the spin-boson entanglement evolution and bifurcation transition in quantum Rabi splitting, we demonstrate super-sensitive quantum sensing by mapping the observable of interest to a hitherto unobserved ${\cal PT}$-manifested entanglement evolution. These results pave the way for exploring non-Hermitian entanglement dynamics and ${\cal PT}$-enhanced quantum sensing empowered by nonclassical correlations.
翻訳日:2023-01-23 01:08:15 公開日:2022-10-10
# 原子磁気測定における平衡偏光測定のためのチップスケール光学

Chip-scale optics for balanced polarimetry in atomic magnetometry ( http://arxiv.org/abs/2210.04952v1 )

ライセンス: Link先を確認
Xuting Yang, Meryem Benelajla, Jennifer T. Choy(参考訳) 原子磁気計測は、生物、地球探査、航法用途において最も敏感な磁場計測技術の一つである。 原子磁気測定における必須のプロセスは、外部磁場下での原子スピンとの相互作用による近接共鳴ビームの光偏光回転の測定である。 本研究では,ルビジウム磁気センサの動作用に調整したシリコンメタサーフェスベースの偏光ビームスプリッタの設計と解析を行う。 中間表面偏光ビームスプリッタは、795nmの波長で動作し、伝送効率が83%以上、偏光消滅率が100以上である。 これらの性能仕様は、サブピコテスラレベルの感度を有する小型蒸気セルの磁力計動作と互換性があり、ナノフォトニック成分を組み込んだ小型・高感度原子磁力計の実現の可能性について考察する。

Atomic magnetometry is one of the most sensitive field-measurement techniques for biological, geo-surveying, and navigation applications. An essential process in atomic magnetometry is measurement of optical polarization rotation of a near-resonant beam due to its interaction with atomic spins under an external magnetic field. In this work, we present the design and analysis of a silicon-metasurface-based polarization beam splitter that have been tailored for operation in a rubidium magnetometer. The metasurface polarization beam splitter operates at a wavelength of 795 nm and has a transmission efficiency > 83% and a polarization extinction ratio > 100. We show that these performance specifications are compatible with magnetometer operation in miniaturized vapor cells with subpicotesla-level sensitivity and discuss the prospect of realizing compact, high-sensitivity atomic magnetometers with nanophotonic component integration.
翻訳日:2023-01-23 00:59:59 公開日:2022-10-10
# 雑音量子コンピュータにおけるグリーン関数の超解像

Super-resolution of Green's functions on noisy quantum computers ( http://arxiv.org/abs/2210.04919v1 )

ライセンス: Link先を確認
Diogo Cruz and Duarte Magano(参考訳) 効率的なハミルトニアン進化ルーチンを用いた量子コンピュータは、グリーン関数の古典的難解な量子系をシミュレートする可能性を秘めている。 しかし、近い将来の量子プロセッサのデコヒーレンス誤差は、スペクトル分解能の限界となる大きな進化時間を妨げる。 本研究では、よく知られた超解像技術であるAtomic Norm Minimizationが、正確なスペクトル再構成のための最小回路深さを著しく低減できることを示す。 我々は,IBM量子コンピュータ上でのグリーン関数の測定から不純物モデルのスペクトル関数を復元することにより,この手法を実証する。 原子ノルム最小化による再構成誤差は、より標準的な信号処理方法よりも1桁小さい。 超解像法は、大規模で未探索の量子系のシミュレーションを容易にし、近い将来に量子優位性を確立するために有用な非偏差ツールを構成することができる。

Quantum computers, using efficient Hamiltonian evolution routines, have the potential to simulate Green's functions of classically-intractable quantum systems. However, the decoherence errors of near-term quantum processors prohibit large evolution times, posing limits to the spectrum resolution. In this work, we show that Atomic Norm Minimization, a well-known super-resolution technique, can significantly reduce the minimum circuit depth for accurate spectrum reconstruction. We demonstrate this technique by recovering the spectral function of an impurity model from measurements of its Green's function on an IBM quantum computer. The reconstruction error with the Atomic Norm Minimization is one order of magnitude smaller than with more standard signal processing methods. Super-resolution methods can facilitate the simulation of large and previously unexplored quantum systems, and may constitute a useful non-variational tool to establish a quantum advantage in a nearer future.
翻訳日:2023-01-23 00:59:46 公開日:2022-10-10
# 累積貯水池建設:連続的に緩やかで定期的に更新された貯水池

Accumulative reservoir construction: Bridging continuously relaxed and periodically refreshed extended reservoirs ( http://arxiv.org/abs/2210.04890v1 )

ライセンス: Link先を確認
Gabriela Wojtowicz, Archak Purkayastha, Michael Zwolak, Marek M. Rams(参考訳) オープンな多体量子系のシミュレーションは困難であり、指数関数的に大きなヒルベルト空間を扱い、(無限の)粒子とエネルギー貯水池の影響を表わす方法が必要である。 より大規模なモードのコレクションは、貯水池表現の忠実度を高めることができるが、数値的な多体技術に含まれる場合、かなりの計算コストがかかる。 貯水池の成長を制御するためにますます利用され、自然なアプローチとして、貯水池モードの有限セットをオープン量子系として配置することが挙げられる。 しかし、そのためには多くのルートがある。 ここでは, 拡張された貯水池の部分的なリフレッシュを利用する蓄積型貯水池 (ARC) の構築を紹介する。 この級数を通して、表現は無限貯水池の性格を蓄積する。 これは、連続的(リンドブラッド)緩和と最近導入された周期的リフレッシュアプローチ(リザーバーモードを平衡に離散的にリセットする)の両方のための統一的なフレームワークを提供する。 量子輸送の文脈において、物理行動の位相空間は、それらの境界を自然・物理的時間スケールで設定した離散的・連続的な緩和レジームに分離する。 これらの政権はどちらも「ターンオーバー」をクラマースのクロスオーバーを思い起こさせるような、過度かつ過度に損傷されたコヒーレンスな地域へ分割した。 行動の範囲がエラーや計算コストにどのように影響するかをテンソルネットワーク内で検証する。 これらの結果は、異なる拡張された貯水池のアプローチを初めて比較し、エラーとコストのスケーリングが異なることを示した。 しかし、拡張されたスケーリングを利用することは、(オペレータ空間の)絡み合いエントロピーが大幅に増加するため、難しいでしょう。

The simulation of open many-body quantum systems is challenging, requiring methods to both handle exponentially large Hilbert spaces and represent the influence of (infinite) particle and energy reservoirs. These two requirements are at odds with each other: Larger collections of modes can increase the fidelity of the reservoir representation but come at a substantial computational cost when included in numerical many-body techniques. An increasingly utilized and natural approach to control the growth of the reservoir is to cast a finite set of reservoir modes themselves as an open quantum system. There are, though, many routes to do so. Here, we introduce an accumulative reservoir construction -- an ARC -- that employs a series of partial refreshes of the extended reservoirs. Through this series, the representation accumulates the character of an infinite reservoir. This provides a unified framework for both continuous (Lindblad) relaxation and a recently introduced periodically refresh approach (i.e., discrete resets of the reservoir modes to equilibrium). In the context of quantum transport, we show that the phase space for physical behavior separates into discrete and continuous relaxation regimes with the boundary between them set by natural, physical timescales. Both of these regimes ``turnover'' into regions of over- and under-damped coherence in a way reminiscent of Kramers' crossover. We examine how the range of behavior impacts errors and the computational cost, including within tensor networks. These results provide the first comparison of distinct extended reservoir approaches, showing that they have different scaling of error versus cost (with a bridging ARC regime decaying fastest). Exploiting the enhanced scaling, though, will be challenging, as it comes with a substantial increase in (operator space) entanglement entropy.
翻訳日:2023-01-23 00:59:32 公開日:2022-10-10
# 角距離に関する量子古典的条件エントロピーのリプシッツ連続性と角距離の関連性

Lipschitz continuity of quantum-classical conditional entropies with respect to angular distance, and related properties of angular distance ( http://arxiv.org/abs/2210.04874v1 )

ライセンス: Link先を確認
Michael Liu, Florian Kanitschar, Amir Arqand, and Ernest Y.-Z. Tan(参考訳) 我々は、量子古典的条件エントロピーに対して角距離に関して有界なリプシッツ連続性を導出し、条件系の次元に依存しないリプシッツ定数を導出する。 この境界は、跡距離(リプシッツ連続性は不可能である)、あるいは角距離に基づくが条件付きシステムを含んでいないような、以前の連続性境界よりもいくつかの状況ではよりシャープである。 しかし、境界は完全な量子条件エントロピーに直接一般化しない。 そこで本研究では,ファックス・ファン・ド・グラフの不等式を飽和させ,従って角距離がトレース距離とほぼ等しい状態のキャラクタリゼーションについて検討する。 可逆の場合、そのような状態の正確な特徴づけを与える。 非可逆的なケースでは、状況ははるかに精巧に見え、不確実性保存測定の集合を特徴づける問題に強く関係していると考えられる。

We derive a Lipschitz continuity bound for quantum-classical conditional entropies with respect to angular distance, with a Lipschitz constant that is independent of the dimension of the conditioning system. This bound is sharper in some situations than previous continuity bounds, which were either based on trace distance (where Lipschitz continuity is not possible), or based on angular distance but did not include a conditioning system. However, we find that the bound does not directly generalize to fully quantum conditional entropies. To investigate possible counterexamples in that setting, we study the characterization of states which saturate the Fuchs--van de Graaf inequality and thus have angular distance approximately equal to trace distance. We give an exact characterization of such states in the invertible case. For the noninvertible case, we show that the situation appears to be significantly more elaborate, and seems to be strongly connected to the question of characterizing the set of fidelity-preserving measurements.
翻訳日:2023-01-23 00:59:03 公開日:2022-10-10
# 線形イオン結晶における角度ロバスト2量子ゲート

Angle-robust Two-Qubit Gates in a Linear Ion Crystal ( http://arxiv.org/abs/2210.04814v1 )

ライセンス: Link先を確認
Zhubing Jia, Shilin Huang, Mingyu Kang, Ke Sun, Robert F. Spivey, Jungsang Kim and Kenneth R. Brown(参考訳) 閉じ込められたイオン量子コンピュータでは、フォノンを用いてイオンの内部状態間の相互作用を仲介するスピン依存力を適用することにより、2ビットのエンタングゲートが生成される。 変動する実験パラメータの下で高忠実な2ビットゲートを維持するために, パルス設計法を適用し, 運動モード周波数ドリフトの存在下での残留スピンモーション絡みを取り除く。 本稿では、モード周波数のドリフトに対する2ビット回転角のロバスト性も保証する改良されたパルス設計法を提案する。 設計ゲートの性能を実験的に測定し、一様モード周波数オフセット下でのゲート忠実度とゲート性能の両方を改善した。

In trapped-ion quantum computers, two-qubit entangling gates are generated by applying spin-dependent force which uses phonons to mediate interaction between the internal states of the ions. To maintain high-fidelity two-qubit gates under fluctuating experimental parameters, robust pulse-design methods are applied to remove the residual spin-motion entanglement in the presence of motional mode frequency drifts. Here we propose an improved pulse-design method that also guarantees the robustness of the two-qubit rotation angle against uniform mode frequency drifts by combining pulses with opposite sensitivity of the angle to mode frequency drifts. We experimentally measure the performance of the designed gates and see an improvement on both gate fidelity and gate performance under uniform mode frequency offsets.
翻訳日:2023-01-23 00:58:32 公開日:2022-10-10
# ジョセフソン進行波パラメトリック増幅器における変調歪み

Intermodulation Distortion in a Josephson Traveling Wave Parametric Amplifier ( http://arxiv.org/abs/2210.04799v1 )

ライセンス: Link先を確認
Ants Remm, Sebastian Krinner, Nathan Lacroix, Christoph Hellings, Francois Swiadek, Graham Norris, Christopher Eichler, Andreas Wallraff(参考訳) ジョセフソン走行波パラメトリック増幅器は、量子限界に近い弱いマイクロ波信号を大きな帯域幅で増幅することが可能であり、超伝導量子コンピューティングや単光子検出器の動作に幅広い応用がある。 大きな帯域幅は周波数多重検出アーキテクチャでの使用を可能にするが、増幅器毎の読み出しトーンは飽和を避けるためにダイナミックレンジでより厳しい要件を課す。 ここでは、ジョセフソン走行波パラメトリック増幅器に適用される異なる周波数多重音間の望ましくない混合過程を特徴付ける。 この効果は、増幅器が飽和パワーに近い動作をするときに特に重要となる。 さらに, 相互変調歪みは, 超伝導量子ビットの多重読み出しにおいて, クロストークとフィリティの低減につながることを示した。 クロストークを緩和するためにポンプと信号周波数間の大きなデチューニングを使用することを提案する。 我々の研究は、現在のジョセフソン波パラメトリック増幅器の限界に関する洞察を提供し、これらのデバイスについてさらなる研究を行う重要性を強調している。

Josephson traveling wave parametric amplifiers enable the amplification of weak microwave signals close to the quantum limit with large bandwidth, which has a broad range of applications in superconducting quantum computing and in the operation of single-photon detectors. While the large bandwidth allows for their use in frequency-multiplexed detection architectures, an increased number of readout tones per amplifier puts more stringent requirements on the dynamic range to avoid saturation. Here, we characterize the undesired mixing processes between the different frequency-multiplexed tones applied to a Josephson traveling wave parametric amplifier, a phenomenon also known as intermodulation distortion. The effect becomes particularly significant when the amplifier is operated close to its saturation power. Furthermore, we demonstrate that intermodulation distortion can lead to significant crosstalk and reduction of fidelity for multiplexed readout of superconducting qubits. We suggest using large detunings between the pump and signal frequencies to mitigate crosstalk. Our work provides insights into the limitations of current Josephson traveling wave parametric amplifiers and highlights the importance of performing further research on these devices.
翻訳日:2023-01-23 00:58:19 公開日:2022-10-10
# メソスコピック系における非線形散逸偏光子のその場バイフルケーションを用いた量子ビット読み出し

Qubit readout using in-situ bifurcation of a nonlinear dissipative polariton in the mesoscopic regime ( http://arxiv.org/abs/2210.04793v1 )

ライセンス: Link先を確認
Dassonneville R. and Ramos T. and Milchakov V. and Planat L. and Foroughi F. and Naud C. and Hasch-Guichard W. and Garcia-Ripoll J. J. and Roch N. and Buisson O(参考訳) 超伝導量子ビット状態読み出しのためのポラリトニックメータの強い駆動に対する非線形応答について検討する。 2つのポーラトニックメーターは、3次元マイクロ波共振器のボソニックモードと超伝導回路のアンシラモードとの強いハイブリッド化によって生じる。 両ポラリトンはそれぞれ、自己Kerrの非線形性$U$、崩壊率$\kappa$をアンシラとキャビティから継承する。 これらは非摂動クロスカーカップリングによってトランスモンキュービットに結合され、大きなキャビティが2\chi > \kappa, ~u$となる。 マグニティックフラックスを適用することで、アンシラモード周波数はハイブリダイゼーション条件を変化させ、読み出しポラリトンモードの特性を変化させる。 これを用いて、このハイブリダイゼーションは、非線形散逸ポラリトンのメソスコピックな配置で調整され、1つのポラリトンの自己ケラと減衰速度はu\sim \kappa$に似ており、小さな光子数でのビスタビリティと分岐挙動に繋がる。 この不安定性と分岐挙動は、クビット状態に依存し、上ポラリトンの分岐により、クビット状態の読み出しをラッチ状に報告する。 外部の量子制限アンプがなければ、1ショットの忠実度は$8.6\%で$500のns統合時間で得られる。

We explore the nonlinear response to a strong drive of polaritonic meters for superconducting qubit state readout. The two polaritonic meters result from the strong hybridization between a bosonic mode of a 3D microwave cavity and an anharmonic ancilla mode of the superconducting circuit. Both polaritons inherit a self-Kerr nonlinearity $U$, and decay rate $\kappa$ from the ancilla and cavity, respectively. They are coupled to a transmon qubit via a non-perturbative cross-Kerr coupling resulting in a large cavity pull $2\chi > \kappa, ~U$. By applying magnitic flux, the ancilla mode frequency varies modifying the hybridization conditions and thus the properties of the readout polariton modes. Using this, the hybridisation is tuned in the mesoscopic regime of the non-linear dissipative polariton where the self-Kerr and decay rates of one polariton are similar $U\sim \kappa$ leading to bistability and bifurcation behavior at small photon number. This bistability and bifurcation behavior depends on the qubit state and we report qubit state readout in a latching-like manner thanks to the bifurcation of the upper polariton. Without any external quantum-limited amplifier, we obtain a single-shot fidelity of $98.6\%$ in a $500$ ns integration time.
翻訳日:2023-01-23 00:57:59 公開日:2022-10-10
# バックグラウンド電離放射線による超電導量子ビットのTLSダイナミクス

TLS Dynamics in a Superconducting Qubit Due to Background Ionizing Radiation ( http://arxiv.org/abs/2210.04780v1 )

ライセンス: Link先を確認
Ted Thorbeck, Andrew Eddins, Isaac Lauer, Douglas T. McClure, and Malcolm Carroll(参考訳) 超伝導量子ビットの寿命は、量子コンピューティングの十分な基盤を提供するには、長くて安定でなければならない。 この安定性は、現在支配的な損失メカニズムである2レベルシステム(TLS)によって実証され、時間スケールでキュービット寿命を不安定にする遅いスペクトルダイナミクスを示す。 また、数ミリ秒の時間スケールでは、電離放射線が相関するマルチ量子ビット崩壊のバーストを引き起こし、量子誤差の補正を複雑にすることが最近発見されている。 ここでは27量子ビットプロセッサ上で電離放射線とtlsダイナミクスの両方を研究し、標準のトランスモン量子ビットを放射衝撃とtlsダイナミクスの両方のセンサとして再提案する。 従来の文献とは異なり、放射の影響によって生じる過渡的準粒子に対する量子ビット寿命の回復力は観測される。 しかし、放射衝撃が複数のTLSを周波数で跳躍させる「TLSスクランブル」という2つのプロセス間の新たな相互作用も観測しており、これは放射衝撃近傍のクビットによって検出された電荷再配置が原因と考えられる。 TLSスクランブルは、クォービットと共鳴してTLSを放出するので、クォービットの寿命は増加するか減少する。 以上の結果から, 放射線はクビット寿命の変動への新たな寄与であり, デバイス安定性を特徴づけ, 改善する試みに示唆される。

Superconducting qubit lifetimes must be both long and stable to provide an adequate foundation for quantum computing. This stability is imperiled by two-level systems (TLSs), currently a dominant loss mechanism, which exhibit slow spectral dynamics that destabilize qubit lifetimes on hour timescales. Stability is also threatened at millisecond timescales, where ionizing radiation has recently been found to cause bursts of correlated multi-qubit decays, complicating quantum error correction. Here we study both ionizing radiation and TLS dynamics on a 27-qubit processor, repurposing the standard transmon qubits as sensors of both radiation impacts and TLS dynamics. Unlike prior literature, we observe resilience of the qubit lifetimes to the transient quasiparticles generated by the impact of radiation. However, we also observe a new interaction between these two processes, "TLS scrambling," in which a radiation impact causes multiple TLSs to jump in frequency, which we suggest is due to the same charge rearrangement sensed by qubits near a radiation impact. As TLS scrambling brings TLSs out of or in to resonance with the qubit, the lifetime of the qubit increases or decreases. Our findings thus identify radiation as a new contribution to fluctuations in qubit lifetimes, with implications for efforts to characterize and improve device stability
翻訳日:2023-01-23 00:57:29 公開日:2022-10-10
# ニューラルネットワークモデルにおけるモンタギュー意味論と修飾子一貫性測定

Montague semantics and modifier consistency measurement in neural language models ( http://arxiv.org/abs/2212.04310v1 )

ライセンス: Link先を確認
Danilo S. Carvalho, Edoardo Manino, Julia Rozanova, Lucas Cordeiro, Andr\'e Freitas(参考訳) 近年の分散言語表現モデルの優位性は,その能力と本質性に関する様々な疑問を提起している。その1つが自然言語における構成現象の顕在化であり,そのようなモデルの使用における説明可能性や安全性・公正性に重要な意味を持つ。 最近の構成性に関する研究は類似性課題における表現の性能向上に向けられているが、本研究は形容詞名詞句における形容詞修飾現象に関連する現代言語モデルにおける構成行動の存在を測定する手法を提案する。 以上の結果から,現在のニューラルランゲージモデルは,評価された間欠的性質に関して言語理論に従わないが,形容詞カテゴリー間の差異は単一形容詞相互作用において顕著であり,それらの差異は個々の単語表現に符号化されているが,一般的には期待される方法では合成に転送されないことが示された。 これは、現在の言語モデルが言語の真の分布特性を捉えることができないか、あるいはモンタゴビアの伝統による言語理論が分布の精査に耐えられないかという疑問を提起する。

The recent dominance of distributional language representation models has elicited a variety of questions regarding their capabilities and intrinsic properties, one of which is the manifestation of compositional phenomena in natural language, which has significant implications towards explainability and safety/fairness in the use of such models. While most current research on compositionality has been directed towards improving performance of the representations on similarity tasks, this work proposes a methodology for measuring the presence of compositional behaviour in contemporary language models related to adjectival modifier phenomena in adjective-noun phrases. Our results show that current neural language models do not behave consistently according to the linguistic theories with regard to the evaluated intersective property, but on the other hand, the differences between adjective categories are noticeable in single adjective interactions, indicating that such differences are encoded in individual word representations, but they do not transfer generally in the expected way to the compositions. This raises the question of whether current language models are not capable of capturing the true underlying distributional properties of language, or whether linguistic theories from Montagovian tradition do not hold to distributional scrutiny.
翻訳日:2023-01-23 00:50:54 公開日:2022-10-10
# RIS支援MU-MISOシステムにおける深部強化学習に基づく複合ダウンリンクビームフォーミングとRIS構成

Deep Reinforcement Learning Based Joint Downlink Beamforming and RIS Configuration in RIS-aided MU-MISO Systems Under Hardware Impairments and Imperfect CSI ( http://arxiv.org/abs/2211.09702v1 )

ライセンス: Link先を確認
Baturay Saglam, Doga Gurgunoglu, Suleyman S. Kozat(参考訳) そこで本研究では,ris支援マルチユーザ多入力単一出力(mu-miso)システムの相依存型ris振幅モデルによる不完全チャネル状態情報(csi)とハードウェア障害下での合計ダウンリンク率を最大化するために,統合伝送ビームフォーミングおよび再構成可能なインテリジェント表面(ris)構成問題を検討する。 そこで本研究では, 基礎局(BS)がチャネルと位相依存RIS振幅モデルを完全に知る黄金標準と, BSが不完全CSIを持ち, 理想RIS反射を前提とするミスマッチシナリオの2つのシナリオにおいて, 基礎局(BS)がバニラDRLエージェントと性能を比較した。 以上の結果から,導入したフレームワークは,ミスマッチ下でのバニラDRLを著しく上回り,ゴールデンスタンダードに近づいた。

We investigate the joint transmit beamforming and reconfigurable intelligent surface (RIS) configuration problem to maximize the sum downlink rate of a RIS-aided cellular multiuser multiple input single output (MU-MISO) system under imperfect channel state information (CSI) and hardware impairments by considering a practical phase-dependent RIS amplitude model. To this end, we present a novel deep reinforcement learning (DRL) framework and compare its performance against a vanilla DRL agent under two scenarios: the golden standard where the base station (BS) knows the channel and the phase-dependent RIS amplitude model perfectly, and the mismatch scenario where the BS has imperfect CSI and assumes ideal RIS reflections. Our numerical results show that the introduced framework substantially outperforms the vanilla DRL agent under mismatch and approaches the golden standard.
翻訳日:2023-01-23 00:50:32 公開日:2022-10-10
# 保険業界における量子コンピューティングの可能性

Potential Applications of Quantum Computing for the Insurance Industry ( http://arxiv.org/abs/2210.06172v1 )

ライセンス: Link先を確認
Michael Adam(参考訳) 本稿では、AXA Konzern AGがFraunhofer ITWMと共同で実施した、保険業界における量子コンピューティングの関連性を評価するための事前研究の資料である。 量子コンピューティング技術の現状の概観の他に,保険契約の評価を具体的なユースケースとして適用する可能性について検討する。 この評価は、クローズド価格公式の欠如はモンテカルロ法の使用を必要とするため、計算集約的な問題である。 そのため、現在の技術的能力により、保険会社は、経済資本計算や戦略的資産配分の最適化など、その後の多くのタスクに近似手法を適用しなければならない。 これらのタスクのビジネスクリティカル性と、モンテカルロシミュレーションの二次速度アップを約束する振幅推定と呼ばれる量子アルゴリズムの存在を組み合わせることで、このユースケースが明確になる。 本稿では、振幅推定の詳細な説明と、量子回路モデルにおける保険関連ペイオフ特徴を記述する2つの量子回路を提案する。 動的ラプスを符号化する例示回路はシミュレータと実際の量子ハードウェアの両方で評価される。

This paper is the documentation of a pre-study performed by AXA Konzern AG in collaboration with Fraunhofer ITWM to assess the relevance of quantum computing for the insurance industry. Beside a general overview of the status quo of quantum computing technologies, we investigate its applicability for the valuation of insurance contracts as a concrete use case. This valuation is a computationally intensive problem because the lack of closed pricing formulas requires the use of Monte Carlo methods. Therefore current technical capabilities force insurers to apply approximation methods for many subsequent tasks like economic capital calculation or optimization of strategic asset allocations. The business-criticality of these tasks combined with the existence of a quantum algorithm called Amplitude Estimation which promises a quadratic speed-up of Monte Carlo simulation makes this use case obvious. We provide a detailed explanation of Amplitude Estimation and present two quantum circuits which describe insurance-related payoff features in a quantum circuit model. An exemplary circuit that encodes dynamic lapse is evaluated both on a simulator and on real quantum hardware.
翻訳日:2023-01-23 00:50:09 公開日:2022-10-10
# マルチバースパンデミック

The Multiverse Pandemic ( http://arxiv.org/abs/2210.05377v1 )

ライセンス: Link先を確認
Nicolas Gisin(参考訳) 私は、量子理論の多世界解釈(MWI)に対して、すべてが他のすべてと絡み合っているとき、ある大きな怪しげな作品には創造性の余地がない、と強調しています。 MWIが発明されたので、それは間違っている(最初にフランス語で現れる)。 Gisin, L'\epid\'emie du multivers, in Le plus grand des hasards, p. 184, eds J.F. Dars et A. Papillault, Belin 2010)

I argue against the many-world interpretation (MWI) of quantum theory by emphasizing that when everything is entangled with everything else, in one big monstrous piece, there is no room left for creativity. Since the MWI was invented, it proves itself wrong (appeared first in French in [N. Gisin, L'\'epid\'emie du multivers, in Le plus grand des hasards, p. 184, eds J.F. Dars et A. Papillault, Belin 2010]).
翻訳日:2023-01-23 00:49:52 公開日:2022-10-10
# 高次例外点への近接による絡み合い発生の高速化

Speeding up entanglement generation by proximity to higher-order exceptional points ( http://arxiv.org/abs/2210.05048v1 )

ライセンス: Link先を確認
Zeng-Zhao Li, Weijian Chen, Maryam Abbasi, Kater W. Murch, and K. Birgitta Whaley(参考訳) 絡み合いは量子センシングから量子コンピューティングまで、量子情報技術の鍵となるリソースである。 従来、2つの結合量子ビット間の絡み合いは、結合強度の逆の時間スケールで確立されていた。 本研究では,二つの弱結合非エルミート量子ビットを解析し,高次例外点に近接して,非常に短い時間スケールでエンタングルメント生成を観測する。 非エルミート摂動理論は、生物直交完全基底の構築に基づいて成立し、最大絡み合う状態を得るための最適条件をさらに特定する。 非エルミート量子システムにおける絡み合い生成の高速化に関する研究は、コヒーレントな非一元的散逸を量子技術に利用するための新しい道を開く。

Entanglement is a key resource for quantum information technologies ranging from quantum sensing to quantum computing. Conventionally, the entanglement between two coupled qubits is established at the time scale of the inverse of the coupling strength. In this work, we study two weakly coupled non-Hermitian qubits and observe entanglement generation at a significantly shorter time scale by proximity to a higher-order exceptional point. We establish a non-Hermitian perturbation theory based on constructing a biorthogonal complete basis and further identify the optimal condition to obtain the maximally entangled state. Our study of speeding up entanglement generation in non-Hermitian quantum systems opens new avenues for harnessing coherent nonunitary dissipation for quantum technologies.
翻訳日:2023-01-23 00:49:14 公開日:2022-10-10
# 連続可変一方向・双方向テレポーテーションの性能定量化のための最適入力状態

Optimal input states for quantifying the performance of continuous-variable unidirectional and bidirectional teleportation ( http://arxiv.org/abs/2210.05007v1 )

ライセンス: Link先を確認
Hemant K. Mishra, Samad Khabbazi Oskouei, and Mark M. Wilde(参考訳) 連続可変(CV)テレポーテーションは量子情報科学の基本プロトコルである。 現実の条件下での理想的なテレポーテーションをシミュレートする実験が数多く行われている。 本稿では, cvの一方向および双方向テレポーテーションの性能を定量化するための最適入力状態を決定する解析的手法について述べる。 性能を定量化するために検討する指標は,理想的テレポーテーションと実験的実装との間のエネルギー制約のあるチャネル忠実度であり,これとともに,理想的なプロセスと実験的プロセスとを区別する最適な入力状態を決定することに注力する。 我々は、あるエネルギー制約の下では、一方向の最適入力状態と双方向のテレポーテーションがエネルギー制約を飽和させるツインフォック状態の有限絡み合わせ重ね合わせであることを証明する。 さらに、同じ制約の下では、最適状態が一意であること、すなわち、双対フォック状態の他の最適有限絡み合い重ね合わせは存在しないことも証明する。

Continuous-variable (CV) teleportation is a foundational protocol in quantum information science. A number of experiments have been designed to simulate ideal teleportation under realistic conditions. In this paper, we detail an analytical approach for determining optimal input states for quantifying the performance of CV unidirectional and bidirectional teleportation. The metric that we consider for quantifying performance is the energy-constrained channel fidelity between ideal teleportation and its experimental implementation, and along with this, our focus is on determining optimal input states for distinguishing the ideal process from the experimental one. We prove that, under certain energy constraints, the optimal input state in unidirectional, as well as bidirectional, teleportation is a finite entangled superposition of twin-Fock states saturating the energy constraint. Moreover, we also prove that, under the same constraints, the optimal states are unique; that is, there is no other optimal finite entangled superposition of twin-Fock states.
翻訳日:2023-01-23 00:49:03 公開日:2022-10-10
# イットリウムガリウムガーネット結晶中のトリウムイオンの4次元ゼーマンスペクトル拡散

Quadratic Zeeman Spectral Diffusion of Thulium Ion Population in a Yttrium Gallium Garnet Crystal ( http://arxiv.org/abs/2210.05005v1 )

ライセンス: Link先を確認
Jacob H. Davidson, Antariksha Das, Nir Alfasi, Rufus L. Cone, Charles W. Thiel, Wolfgang Tittel(参考訳) スペクトルホールバーニングを用いたよく知られた構造の構築は、希土類イオンドープ結晶を用いた技術の利用において重要な課題である。 我々は,tulium yttrium gallium garnet (tm:ygg) の原子レベル構造における周波数依存型人口変化のモデル化と改善に,様々な手法を適用した。 特に、ゼロ印加磁場では、周波数依存3レベルレート方程式の数値解がスペクトルホールバーニング結果とよく一致していることを示す。 これにより、特定のホールバーニングシーケンス、下向きの分光材料特性、関連するレーザーパラメータが与えられたスペクトル構造を予測することができる。 これにより,断熱性ホールバーニングパルスを用いることで,電力依存型ホール拡大をほぼ排除できる。 この速度方程式は、ゼロフィールドにおいて良好な一致を示すが、磁場を付加すると、誘導されたtmイオン磁気双極子モーメントと平均磁場強度に予期しないスペクトル拡散が比例し、二次ゼーマン効果により、長いスケールで光学スペクトルが支配される。 本研究により, 各種希土類イオンドープ材料におけるスペクトル構造作成プロセスの最適化と, 量子メモリなどの応用が可能となった。

The creation of well understood structures using spectral hole burning is an important task in the use of technologies based on rare earth ion doped crystals. We apply a series of different techniques to model and improve the frequency dependent population change in the atomic level structure of Thulium Yttrium Gallium Garnet (Tm:YGG). In particular we demonstrate that at zero applied magnetic field, numerical solutions to frequency dependent three-level rate equations show good agreement with spectral hole burning results. This allows predicting spectral structures given a specific hole burning sequence, the underpinning spectroscopic material properties, and the relevant laser parameters. This enables us to largely eliminate power dependent hole broadening through the use of adiabatic hole-burning pulses. Though this system of rate equations shows good agreement at zero field, the addition of a magnetic field results in unexpected spectral diffusion proportional to the induced Tm ion magnetic dipole moment and average magnetic field strength, which, through the quadratic Zeeman effect, dominates the optical spectrum over long time scales. Our results allow optimization of the preparation process for spectral structures in a large variety of rare earth ion doped materials for quantum memories and other applications.
翻訳日:2023-01-23 00:48:47 公開日:2022-10-10
# 2つの時間スケール俳優批判法の有限時間解析

A Finite Time Analysis of Two Time-Scale Actor Critic Methods ( http://arxiv.org/abs/2005.01350v3 )

ライセンス: Link先を確認
Yue Wu and Weitong Zhang and Pan Xu and Quanquan Gu(参考訳) アクター・クリティカル(AC)法は、他の強化学習アルゴリズムと比較して、学習方針を改善するためにアクターがポリシー勾配を用いており、批評家は時間差学習を用いて政策勾配を推定する。 2つの時間スケール学習率スケジュールの下では、交流の漸近収束が文献でよく研究されている。 しかし、非漸近収束とアクター-批判法の有限サンプル複雑性は概ねオープンである。 本研究は,2つの時間スケールのアクター・クリティカルな手法に対する非漸近解析を行う。 アクター-クリティック法は、非コンケーブ性能関数 $j(\boldsymbol{\theta})$ の第一次定常点(すなわち、$\|\nabla j(\boldsymbol{\theta})\|_2^2 \le \epsilon$) を、$\mathcal{\tilde{o}}(\epsilon^{-2.5})$ で求めることが保証されている。 我々の知る限りでは、これは2つの時間スケールアクター批判的手法に限定した有限時間解析とサンプル複雑性を提供する最初の作品である。

Actor-critic (AC) methods have exhibited great empirical success compared with other reinforcement learning algorithms, where the actor uses the policy gradient to improve the learning policy and the critic uses temporal difference learning to estimate the policy gradient. Under the two time-scale learning rate schedule, the asymptotic convergence of AC has been well studied in the literature. However, the non-asymptotic convergence and finite sample complexity of actor-critic methods are largely open. In this work, we provide a non-asymptotic analysis for two time-scale actor-critic methods under non-i.i.d. setting. We prove that the actor-critic method is guaranteed to find a first-order stationary point (i.e., $\|\nabla J(\boldsymbol{\theta})\|_2^2 \le \epsilon$) of the non-concave performance function $J(\boldsymbol{\theta})$, with $\mathcal{\tilde{O}}(\epsilon^{-2.5})$ sample complexity. To the best of our knowledge, this is the first work providing finite-time analysis and sample complexity bound for two time-scale actor-critic methods.
翻訳日:2022-12-07 00:30:50 公開日:2022-10-10
# CoinPress: 実践的なプライベート平均と共分散推定

CoinPress: Practical Private Mean and Covariance Estimation ( http://arxiv.org/abs/2006.06618v2 )

ライセンス: Link先を確認
Sourav Biswas, Yihe Dong, Gautam Kamath, Jonathan Ullman(参考訳) 小サンプルサイズで精度の高い多変量部分ガウスデータの平均と共分散に対する単純な微分プライベート推定器を提案する。 このアルゴリズムの有効性を,合成データと実世界のデータセットの両方を用いて実証し,その漸近的誤差率は理論上の限界と一致し,従来の手法よりも具体的に優れていることを示した。 具体的には、従来の推定器は、小さなサンプルサイズで経験的精度が弱いか、多変量データでは性能が悪いか、あるいはパラメータに対して強い事前推定を行う必要がある。

We present simple differentially private estimators for the mean and covariance of multivariate sub-Gaussian data that are accurate at small sample sizes. We demonstrate the effectiveness of our algorithms both theoretically and empirically using synthetic and real-world datasets -- showing that their asymptotic error rates match the state-of-the-art theoretical bounds, and that they concretely outperform all previous methods. Specifically, previous estimators either have weak empirical accuracy at small sample sizes, perform poorly for multivariate data, or require the user to provide strong a priori estimates for the parameters.
翻訳日:2022-11-22 13:48:21 公開日:2022-10-10
# ニューラルネットワークを用いた対称関数の学習に関する機能的展望

A Functional Perspective on Learning Symmetric Functions with Neural Networks ( http://arxiv.org/abs/2008.06952v4 )

ライセンス: Link先を確認
Aaron Zweig, Joan Bruna(参考訳) 非順序で固定サイズの集合を入力として取る対称関数は、置換不変性を強制するニューラルネットワークによって普遍的に表現できることが知られている。 これらのアーキテクチャは、固定された入力サイズのみを保証するが、点雲や粒子物理学を含む多くの実用的な応用では、一般化の概念は入力サイズの変化を含むべきである。 本研究では、任意の大きさの対称関数を確率測度上の関数として扱い、測度上で定義されたニューラルネットワークの学習と表現を研究する。 浅いアーキテクチャに焦点をあてることで、正規化の異なる選択(RKHSや変動ノルムなど)の下で近似と一般化のバウンダリを確立し、非線型学習の度合いを増す関数空間の階層を捉える。 結果のモデルは効率的に学習でき、実験的に検証するように、入力サイズにまたがる一般化の保証を享受できる。

Symmetric functions, which take as input an unordered, fixed-size set, are known to be universally representable by neural networks that enforce permutation invariance. These architectures only give guarantees for fixed input sizes, yet in many practical applications, including point clouds and particle physics, a relevant notion of generalization should include varying the input size. In this work we treat symmetric functions (of any size) as functions over probability measures, and study the learning and representation of neural networks defined on measures. By focusing on shallow architectures, we establish approximation and generalization bounds under different choices of regularization (such as RKHS and variation norms), that capture a hierarchy of functional spaces with increasing degree of non-linear learning. The resulting models can be learned efficiently and enjoy generalization guarantees that extend across input sizes, as we verify empirically.
翻訳日:2022-10-28 09:07:32 公開日:2022-10-10
# 動作空間の削減:インバータに基づくvolt-var制御のための参照モデル支援深層強化学習

Reducing Action Space: Reference-Model-Assisted Deep Reinforcement Learning for Inverter-based Volt-Var Control ( http://arxiv.org/abs/2210.07360v1 )

ライセンス: Link先を確認
Qiong Liu, Ye Guo, Lirong Deng, Haotian Liu, Dongyu Li, Hongbin Sun(参考訳) Inverter-based Volt-Var Control (IB-VVC) のための参照モデル支援深部強化学習(DRL)を提案する。 大規模行動空間はDRLの学習困難を増大させ,データ生成やニューラルネットワークの学習過程における最適化性能を低下させる。 DRLの動作空間を低減するために,参照モデルを用いたDRLアプローチを設計する。 本稿では,参照モデルの定義,参照モデルに基づく最適化,参照アクションを紹介する。 参照モデル支援DRLは、最適なアクションを直接学習するのではなく、参照アクションと最適アクションの間の残留アクションを学習する。 残作用は参照モデルに対する最適作用よりもかなり小さいので、参照モデル支援DRLに対してより小さなアクション空間を設計することができる。 DRLの学習困難を軽減し、参照モデル支援DRLアプローチの性能を最適化する。 参照モデル支援DRLアプローチは、連続的なアクション問題に対するポリシー勾配DRLアルゴリズムと互換性がある。 この研究は、ソフトアクター批判アルゴリズムを例として、参照モデル支援ソフトアクター批判アルゴリズムを設計する。 シミュレーションによると 1)大アクションスペースは、訓練段階全体においてDRLの性能を低下させ、 2) 参照モデル支援DRLではイテレーション時間が少なくなり、より良い最適化性能が返される。

Reference-model-assisted deep reinforcement learning (DRL) for inverter-based Volt-Var Control (IB-VVC) in active distribution networks is proposed. We investigate that a large action space increases the learning difficulties of DRL and degrades the optimization performance in the process of generating data and training neural networks. To reduce the action space of DRL, we design a reference-model-assisted DRL approach. We introduce definitions of the reference model, reference-model-based optimization, and reference actions. The reference-model-assisted DRL learns the residual actions between the reference actions and optimal actions, rather than learning the optimal actions directly. Since the residual actions are considerably smaller than the optimal actions for a reference model, we can design a smaller action space for the reference-model-assisted DRL. It reduces the learning difficulties of DRL and optimises the performance of the reference-model-assisted DRL approach. It is noteworthy that the reference-model-assisted DRL approach is compatible with any policy gradient DRL algorithms for continuous action problems. This work takes the soft actor-critic algorithm as an example and designs a reference-model-assisted soft actor-critic algorithm. Simulations show that 1) large action space degrades the performance of DRL in the whole training stage, and 2) reference-model-assisted DRL requires fewer iteration times and returns a better optimization performance.
翻訳日:2022-10-23 20:18:45 公開日:2022-10-10
# Region2Vec:ノード属性付きグラフ埋め込みと空間相互作用を用いた空間ネットワーク上のコミュニティ検出

Region2Vec: Community Detection on Spatial Networks Using Graph Embedding with Node Attributes and Spatial Interactions ( http://arxiv.org/abs/2210.08041v1 )

ライセンス: Link先を確認
Yunlei Liang, Jiawei Zhu, Wen Ye, Song Gao(参考訳) コミュニティ検出アルゴリズムは、複雑なネットワーク内の密結合したコンポーネントを検出し、コンポーネント間の基盤となる関係を明らかにするために使用される。 特別なタイプのネットワークとして、空間ネットワークは通常、地理的領域間の接続によって生成される。 空間ネットワークのコミュニティを特定すれば,空間的相互作用のパターンを明らかにし,隠れた地域構造を理解し,地域開発決定を支援することができる。 グラフ畳み込みネットワーク(GCN)の最近の発展と,マルチスケール空間相互作用の同定における強力な性能を考慮し,空間ネットワーク上でのGCNに基づくコミュニティ検出手法「rea2vec」を提案する。 まず,共通属性を共有し,空間的相互作用の激しい領域に対してノード埋め込みを生成し,その埋め込み類似性と空間隣接性に基づいてコミュニティを検出するクラスタリングアルゴリズムを適用する。 実験結果から,既存の手法は属性類似性や空間相互作用を相互に交換するが,地域2vecはコミュニティ内の属性類似性と空間相互作用の両方を最大化したい場合に,両者のバランスを保ち,最善を尽くすことを示す。

Community Detection algorithms are used to detect densely connected components in complex networks and reveal underlying relationships among components. As a special type of networks, spatial networks are usually generated by the connections among geographic regions. Identifying the spatial network communities can help reveal the spatial interaction patterns, understand the hidden regional structures and support regional development decision-making. Given the recent development of Graph Convolutional Networks (GCN) and its powerful performance in identifying multi-scale spatial interactions, we proposed an unsupervised GCN-based community detection method "region2vec" on spatial networks. Our method first generates node embeddings for regions that share common attributes and have intense spatial interactions, and then applies clustering algorithms to detect communities based on their embedding similarity and spatial adjacency. Experimental results show that while existing methods trade off either attribute similarities or spatial interactions for one another, "region2vec" maintains a great balance between both and performs the best when one wants to maximize both attribute similarities and spatial interactions within communities.
翻訳日:2022-10-23 20:17:01 公開日:2022-10-10
# コンテキスト化されたオブジェクトレイアウトリファインメントによるシーングラフと画像生成

Scene Graph to Image Generation with Contextualized Object Layout Refinement ( http://arxiv.org/abs/2009.10939v4 )

ライセンス: Link先を確認
Maor Ivgi, Yaniv Benny, Avichai Ben-David, Jonathan Berant, and Lior Wolf(参考訳) シーングラフから画像を生成することは、最近大きな関心を集めている課題である。 以前の作業では、対象画像の中間レイアウト記述を生成することで、この課題にアプローチしている。 しかし、レイアウト内の各オブジェクトの表現は独立して生成され、高いオーバーラップ、低いカバレッジ、全体的なぼやけたレイアウトとなった。 本稿では,オブジェクト間の依存性を改善するために,レイアウト記述全体を徐々に生成することにより,これらの問題を緩和する新しい手法を提案する。 我々はCOCO-STUFFデータセットに対して,中間配置と最終画像の両方の品質向上を実証的に示す。 我々のアプローチはレイアウトのカバレッジを20ポイント近く改善し、オブジェクトの重なりを無視できる量に落とします。

Generating images from scene graphs is a challenging task that attracted substantial interest recently. Prior works have approached this task by generating an intermediate layout description of the target image. However, the representation of each object in the layout was generated independently, which resulted in high overlap, low coverage, and an overall blurry layout. We propose a novel method that alleviates these issues by generating the entire layout description gradually to improve inter-object dependency. We empirically show on the COCO-STUFF dataset that our approach improves the quality of both the intermediate layout and the final image. Our approach improves the layout coverage by almost 20 points and drops object overlap to negligible amounts.
翻訳日:2022-10-15 16:21:21 公開日:2022-10-10
# パッチベース深部画像を用いた被写体特異的定量感受性マッピング

Subject-specific quantitative susceptibility mapping using patch based deep image priors ( http://arxiv.org/abs/2210.06471v1 )

ライセンス: Link先を確認
Arvind Balachandrasekaran, Davood Karimi, Camilo Jaimes and Ali Gholipour(参考訳) 定量的感受性マッピングは、MRI位相測定から生体組織の磁気感受性を推定するためのパラメトリックイメージング技術である。 感受性マップを推定するこの問題は不適切である。 正規化リカバリアプローチは、滑らかさやスパーシティといった信号特性を活用し、再構築を改善するが、過剰なスムースアーティファクトに苦しむ。 ディープラーニングアプローチは大きな可能性を示し、アーチファクトを減らしたマップを生成する。 しかし、合理的な再構築とネットワークの一般化のためには、多くのトレーニングデータセットが必要である。 この問題を解決するために,本研究では,被検者固有のパッチベースの教師なし学習アルゴリズムを提案する。 我々は,深層畳み込みニューラルネットワークを用いて,地図のパッチにまたがる冗長性を活用し,この問題をうまく解決する。 正則化最適化問題としてサセプティビリティマップの復元を定式化し,それを解決するための交互最小化戦略を採用した。 このアルゴリズムを3d invivoデータセット上でテストし,質的かつ定量的に,競合する手法に対する再構成の改善を実証した。

Quantitative Susceptibility Mapping is a parametric imaging technique to estimate the magnetic susceptibilities of biological tissues from MRI phase measurements. This problem of estimating the susceptibility map is ill posed. Regularized recovery approaches exploiting signal properties such as smoothness and sparsity improve reconstructions, but suffer from over-smoothing artifacts. Deep learning approaches have shown great potential and generate maps with reduced artifacts. However, for reasonable reconstructions and network generalization, they require numerous training datasets resulting in increased data acquisition time. To overcome this issue, we proposed a subject-specific, patch-based, unsupervised learning algorithm to estimate the susceptibility map. We make the problem well-posed by exploiting the redundancies across the patches of the map using a deep convolutional neural network. We formulated the recovery of the susceptibility map as a regularized optimization problem and adopted an alternating minimization strategy to solve it. We tested the algorithm on a 3D invivo dataset and, qualitatively and quantitatively, demonstrated improved reconstructions over competing methods.
翻訳日:2022-10-14 15:14:29 公開日:2022-10-10
# マスクオートエンコーダはロバストな視覚学習者である

Denoising Masked AutoEncoders are Certifiable Robust Vision Learners ( http://arxiv.org/abs/2210.06983v1 )

ライセンス: Link先を確認
Quanlin Wu, Hang Ye, Yuntian Gu, Huishuai Zhang, Liwei Wang, Di He(参考訳) 本稿では,画像のロバスト分類法を学習するために,denoising masked autoencoder (dmae) と呼ばれる新しい自己教師付き手法を提案する。 DMAEでは,各画素値にガウスノイズを加え,複数のパッチをランダムにマスキングすることにより,各画像の劣化を防止した。 その後、トランスフォーマーベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。 この学習パラダイムでは、エンコーダは下流タスクの関連するセマンティクスをキャプチャすることを学びます。 予備学習エンコーダはgaussian smoothed modelのベース分類器として自然に利用可能であり,任意のデータポイントに対する認証半径を解析的に計算できることを示した。 提案手法は単純であるが,下流分類タスクにおいて有意な性能改善をもたらす。 DMAE ViT-Baseモデルは,最近の研究 arXiv:2206.10550 で開発されたモデルの1/10パラメータのみを使用するだけで,様々な環境での競争力や精度向上を実現する。 DMAE ViT-Largeモデルは以前のすべての結果を大きく上回り、ImageNetデータセットに新たな最先端のデータセットを確立する。 さらに、事前学習されたモデルがCIFAR-10データセットに優れた転送性を持つことを示す。 モデルとコードはhttps://github.com/quanlin-wu/dmaeで入手できる。

In this paper, we propose a new self-supervised method, which is called Denoising Masked AutoEncoders (DMAE), for learning certified robust classifiers of images. In DMAE, we corrupt each image by adding Gaussian noises to each pixel value and randomly masking several patches. A Transformer-based encoder-decoder model is then trained to reconstruct the original image from the corrupted one. In this learning paradigm, the encoder will learn to capture relevant semantics for the downstream tasks, which is also robust to Gaussian additive noises. We show that the pre-trained encoder can naturally be used as the base classifier in Gaussian smoothed models, where we can analytically compute the certified radius for any data point. Although the proposed method is simple, it yields significant performance improvement in downstream classification tasks. We show that the DMAE ViT-Base model, which just uses 1/10 parameters of the model developed in recent work arXiv:2206.10550, achieves competitive or better certified accuracy in various settings. The DMAE ViT-Large model significantly surpasses all previous results, establishing a new state-of-the-art on ImageNet dataset. We further demonstrate that the pre-trained model has good transferability to the CIFAR-10 dataset, suggesting its wide adaptability. Models and code are available at https://github.com/quanlin-wu/dmae.
翻訳日:2022-10-14 14:59:00 公開日:2022-10-10
# 効率的なmlシステムを目指して:大規模カーシェアリングプラットフォームにおけるタスク精度とエンジニアリング効率のトレードオフを明らかにする

Towards an Efficient ML System: Unveiling a Trade-off between Task Accuracy and Engineering Efficiency in a Large-scale Car Sharing Platform ( http://arxiv.org/abs/2210.06585v1 )

ライセンス: Link先を確認
Kyung Ho Park, Hyunhee Chung, and Soonwoo Kwon(参考訳) 教師付きディープニューラルネットワークの大幅な性能向上に伴い、従来のmlシステムの開発手順は、タスク精度の最大化を目的とした \textit{task-centric} である。 しかし、この‘textit{task-centric} MLシステムは、ML実践者がドメイン内の複数のタスクを解決する際に、エンジニアリング効率に欠ける。 この問題を解決するために,実践者のドメインに存在する多数のデータセット,分類器,アウト・オブ・ディストリビューション・ディテクタ,予測テーブルを単一のMLパイプラインに結合する,‘textit{efficiency-centric} MLシステムを提案する。 実世界のカーシェアリングプラットフォームにおける様々な画像認識タスクにおいて、提案システムの構築方法と、この旅から学んだ教訓を以下に示す。 まず,提案するMLシステムは,競争力のあるタスク精度を達成しつつ,最高のエンジニアリング効率を達成する。 さらに, \textit{task-centric}パラダイムと比較して,実世界で頻繁に存在するマルチラベルサンプルに対して, \textit{efficiency-centric} mlシステムが十分な予測結果をもたらすことを見出した。 これらの利点は、連結されたデータセットからより広いラベル空間を学習した表現力に由来する。 最後に、私たちの研究は、この \textit{efficiency-centric} mlシステムが現実世界のクラウド環境にどのようにデプロイされているかを詳しく説明したものです。 提案したアナロジーに基づいて,機械学習の実践者が,その領域における工学的効率を高めるために,我々の研究を活用できることを強く期待する。

Upon the significant performance of the supervised deep neural networks, conventional procedures of developing ML system are \textit{task-centric}, which aims to maximize the task accuracy. However, we scrutinized this \textit{task-centric} ML system lacks in engineering efficiency when the ML practitioners solve multiple tasks in their domain. To resolve this problem, we propose an \textit{efficiency-centric} ML system that concatenates numerous datasets, classifiers, out-of-distribution detectors, and prediction tables existing in the practitioners' domain into a single ML pipeline. Under various image recognition tasks in the real world car-sharing platform, our study illustrates how we established the proposed system and lessons learned from this journey as follows. First, the proposed ML system accomplishes supreme engineering efficiency while achieving a competitive task accuracy. Moreover, compared to the \textit{task-centric} paradigm, we discovered that the \textit{efficiency-centric} ML system yields satisfactory prediction results on multi-labelable samples, which frequently exist in the real world. We analyze these benefits derived from the representation power, which learned broader label spaces from the concatenated dataset. Last but not least, our study elaborated how we deployed this \textit{efficiency-centric} ML system is deployed in the real world live cloud environment. Based on the proposed analogies, we highly expect that ML practitioners can utilize our study to elevate engineering efficiency in their domain.
翻訳日:2022-10-14 14:48:44 公開日:2022-10-10
# 自己教師型音声モデルにおける効率的なチューニング手法の探索

Exploring Efficient-tuning Methods in Self-supervised Speech Models ( http://arxiv.org/abs/2210.06175v1 )

ライセンス: Link先を確認
Zih-Ching Chen, Chin-Lun Fu, Chih-Ying Liu, Shang-Wen Li, Hung-yi Lee(参考訳) 本研究では,音声自己教師型学習のための効率的なチューニング手法を提案する。 近年の研究では、自己教師付き学習(SSL)が様々な音声タスクの強力な表現を学習できることが示されている。 しかし、SSLモデルは数百万のパラメータで悪名高いため、ダウンストリームタスク毎の微調整済みモデルはパラメータ非効率である。 アダプタは、この問題を解決するために一般的にNLPで使用される軽量モジュールである。 下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。 自己教師型音声タスクにおけるアダプタの有効性を概ね検討する研究の欠如を考えると、事前訓練された音声SSLモデルに様々なアダプタモジュールを追加することで、このギャップを埋めるつもりだ。 90%以上のパラメータ削減で性能の同等性を達成できることを示し、効率的なチューニング手法の長所と短所について論じる。 これは、音声タスクにまたがる様々なアダプタタイプに関する最初の包括的な調査である。

In this study, we aim to explore efficient tuning methods for speech self-supervised learning. Recent studies show that self-supervised learning (SSL) can learn powerful representations for different speech tasks. However, fine-tuning pre-trained models for each downstream task is parameter-inefficient since SSL models are notoriously large with millions of parameters. Adapters are lightweight modules commonly used in NLP to solve this problem. In downstream tasks, the parameters of SSL models are frozen, and only the adapters are trained. Given the lack of studies generally exploring the effectiveness of adapters for self-supervised speech tasks, we intend to fill this gap by adding various adapter modules in pre-trained speech SSL models. We show that the performance parity can be achieved with over 90% parameter reduction, and discussed the pros and cons of efficient tuning techniques. This is the first comprehensive investigation of various adapter types across speech tasks.
翻訳日:2022-10-13 16:14:41 公開日:2022-10-10
# ラベル有効睡眠段階分類のための自己指導型学習:総合的評価

Self-supervised Learning for Label-Efficient Sleep Stage Classification: A Comprehensive Evaluation ( http://arxiv.org/abs/2210.06286v1 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, and Xiaoli Li(参考訳) 過去数年間、脳波に基づく睡眠ステージ分類(SSC)の深層学習が目覚ましい進歩を遂げた。 しかしながら、これらのモデルの成功は、トレーニングのための大量のラベル付きデータを持ち、現実のシナリオにおける適用性を制限しているためである。 このようなシナリオでは、sleep labsは膨大なデータを生成することができますが、これらのデータのラベル付けは高価で時間がかかります。 近年,ラベル付きデータの不足を克服する手法として,自己教師付き学習(SSL)パラダイムが注目されている。 本稿では,少数レーベル体制における既存のSSCモデルの性能向上のためのSSLの有効性を評価する。 3つのsscデータセットについて徹底的な調査を行い,ラベル付きデータのわずか5%で事前学習されたsscモデルの微調整によって,教師付きトレーニングと完全ラベルでの競合性能が達成できることを見出した。 さらに、自己教師付き事前トレーニングは、SSCモデルがデータ不均衡やドメインシフト問題に対してより堅牢になるのに役立つ。 コードは \url{https://github.com/emadeldeen24/eval_ssl_ssc} で公開されている。

The past few years have witnessed a remarkable advance in deep learning for EEG-based sleep stage classification (SSC). However, the success of these models is attributed to possessing a massive amount of labeled data for training, limiting their applicability in real-world scenarios. In such scenarios, sleep labs can generate a massive amount of data, but labeling these data can be expensive and time-consuming. Recently, the self-supervised learning (SSL) paradigm has shined as one of the most successful techniques to overcome the scarcity of labeled data. In this paper, we evaluate the efficacy of SSL to boost the performance of existing SSC models in the few-labels regime. We conduct a thorough study on three SSC datasets, and we find that fine-tuning the pretrained SSC models with only 5% of labeled data can achieve competitive performance to the supervised training with full labels. Moreover, self-supervised pretraining helps SSC models to be more robust to data imbalance and domain shift problems. The code is publicly available at \url{https://github.com/emadeldeen24/eval_ssl_ssc}.
翻訳日:2022-10-13 16:07:43 公開日:2022-10-10
# 骨格に基づく行動認識のためのPose-Guided Graph Convolutional Networks

Pose-Guided Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2210.06192v1 )

ライセンス: Link先を確認
Han Chen and Yifan Jiang and Hanseok Ko(参考訳) 人体骨格を空間的および時間的グラフとしてモデル化できるグラフ畳み込みネットワーク(GCN)は、骨格に基づく行動認識において顕著な可能性を示している。 しかし、既存のGCN法では、ヒト骨格のグラフ構造表現は、特に初期において他のモダリティと融合することが困難である。 これにより、アクション認識タスクのスケーラビリティとパフォーマンスが制限される可能性がある。 また,行動認識のための情報的および識別的手がかりを自然に含むポーズ情報は,既存の手法ではスケルトンデータとともに探索されることは稀である。 本研究では,高性能な人行動認識のためのマルチモーダルフレームワークであるProto-Guided GCN (PG-GCN)を提案する。 特にマルチストリームネットワークはポーズデータとスケルトンデータの両方からロバストな機能を探索するために構築され、動的アテンションモジュールは早期の機能融合のために設計されている。 このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームからポースストリームの機能を集約することで、より堅牢な機能表現能力を備えたネットワークを実現することだ。 大規模実験により,提案したPG-GCNはNTU RGB+D 60およびNTU RGB+D 120データセット上で最先端の性能を実現することができた。

Graph convolutional networks (GCNs), which can model the human body skeletons as spatial and temporal graphs, have shown remarkable potential in skeleton-based action recognition. However, in the existing GCN-based methods, graph-structured representation of the human skeleton makes it difficult to be fused with other modalities, especially in the early stages. This may limit their scalability and performance in action recognition tasks. In addition, the pose information, which naturally contains informative and discriminative clues for action recognition, is rarely explored together with skeleton data in existing methods. In this work, we propose pose-guided GCN (PG-GCN), a multi-modal framework for high-performance human action recognition. In particular, a multi-stream network is constructed to simultaneously explore the robust features from both the pose and skeleton data, while a dynamic attention module is designed for early-stage feature fusion. The core idea of this module is to utilize a trainable graph to aggregate features from the skeleton stream with that of the pose stream, which leads to a network with more robust feature representation ability. Extensive experiments show that the proposed PG-GCN can achieve state-of-the-art performance on the NTU RGB+D 60 and NTU RGB+D 120 datasets.
翻訳日:2022-10-13 16:06:10 公開日:2022-10-10
# fAux: 勾配アライメントによる個々のフェアネスのテスト

fAux: Testing Individual Fairness via Gradient Alignment ( http://arxiv.org/abs/2210.06288v1 )

ライセンス: Link先を確認
Giuseppe Castiglione, Ga Wu, Christopher Srinivasa, Simon Prince(参考訳) 機械学習モデルは、異なる集団の個人が不公平に扱われるバイアスに弱い。 個々のレベルでモデルの公平性をテストしようとする最近の作業は、メトリクスを選択するためのドメイン知識に依存するか、ドメイン外のサンプルを生成するリスクを負う入力変換に依存する。 いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。 個々人の公正さを評価するための新しい基準を提案し,fAux(キツネ)と呼ばれるこの基準に基づく実践的試験法を開発した。 これは、テスト対象モデルの予測の導出と、観測データから保護された変数を予測する補助モデルの導出を比較することに基づいている。 提案手法は,合成データと実世界データの両方における識別を効果的に識別し,現代手法よりも定量的・質的優位性を有することを示す。

Machine learning models are vulnerable to biases that result in unfair treatment of individuals from different populations. Recent work that aims to test a model's fairness at the individual level either relies on domain knowledge to choose metrics, or on input transformations that risk generating out-of-domain samples. We describe a new approach for testing individual fairness that does not have either requirement. We propose a novel criterion for evaluating individual fairness and develop a practical testing method based on this criterion which we call fAux (pronounced fox). This is based on comparing the derivatives of the predictions of the model to be tested with those of an auxiliary model, which predicts the protected variable from the observed data. We show that the proposed method effectively identifies discrimination on both synthetic and real-world datasets, and has quantitative and qualitative advantages over contemporary methods.
翻訳日:2022-10-13 13:08:11 公開日:2022-10-10
# 連続時間ダイナミクスモデルからのマイニング因果関係:津波予報への適用

Mining Causality from Continuous-time Dynamics Models: An Application to Tsunami Forecasting ( http://arxiv.org/abs/2210.04958v1 )

ライセンス: Link先を確認
Fan Wu and Sanghyun Hong and Dobsub Rim and Noseong Park and Kookjin Lee(参考訳) 神経常微分方程式のような連続時間ダイナミクスモデルは、時系列データの基盤となるダイナミクスのモデリングと正確な予測を可能にした。 しかし、ニューラルネットワークを用いたダイナミクスのパラメータ化は、データ内の因果構造を特定するのを難しくする。 この不透明さは、因果関係を捉えることが津波予測のような正確な予測と同じ重要性を持つ領域におけるこれらのモデルの使用を妨げる。 本稿では,連続時間モデルから因果構造を抽出する機構を提案することで,この問題に対処する。 我々は,動的モデルの入力層の重み付けにより因果構造を捕捉するモデルを訓練する。 まず,時系列の正確な因果構造が先行するシナリオにおいて,本手法の有効性を検証する。 次に本手法を,正確な因果構造を特徴付けるのが困難である津波予報問題に適用する。 実験の結果,提案手法は高い予測精度を達成しつつ,物理的に一貫性のある因果関係の学習に有効であることがわかった。

Continuous-time dynamics models, such as neural ordinary differential equations, have enabled the modeling of underlying dynamics in time-series data and accurate forecasting. However, parameterization of dynamics using a neural network makes it difficult for humans to identify causal structures in the data. In consequence, this opaqueness hinders the use of these models in the domains where capturing causal relationships carries the same importance as accurate predictions, e.g., tsunami forecasting. In this paper, we address this challenge by proposing a mechanism for mining causal structures from continuous-time models. We train models to capture the causal structure by enforcing sparsity in the weights of the input layers of the dynamics models. We first verify the effectiveness of our method in the scenario where the exact causal-structures of time-series are known as a priori. We next apply our method to a real-world problem, namely tsunami forecasting, where the exact causal-structures are difficult to characterize. Experimental results show that the proposed method is effective in learning physically-consistent causal relationships while achieving high forecasting accuracy.
翻訳日:2022-10-12 17:32:44 公開日:2022-10-10
# 畳み込み変圧器による異常拡散のキャラクタリゼーション

Characterization of anomalous diffusion through convolutional transformers ( http://arxiv.org/abs/2210.04959v1 )

ライセンス: Link先を確認
Nicol\'as Firbas, \`Oscar Garibo-i-Orts, Miguel \'Angel Garcia-March, J. Alberto Conejero(参考訳) 異常拡散チャレンジ(andiチャレンジ)の結果は、各軌道に付随する異常拡散指数アルファの推論と、そのような軌道を発生させる拡散機構の決定の両方において、異常拡散の特徴付けにおいて、機械学習手法が古典的統計的方法論を上回ることができることを示した(タスク2)。 さらに、AnDiチャレンジの両タスクでトップ3に入った5つのチームのうち、3つのチームはリカレントニューラルネットワーク(RNN)を使用していた。 長い短期記憶(LSTM)ネットワークのように、RNNはシーケンシャルデータにおける長期的な依存関係を学習するのに効果的であるが、その主な欠点は、シーケンシャルにトレーニングする必要があることである。 大規模データセットによるトレーニングを容易にするために, 並列トレーニングにより, 異常拡散のキャラクタリゼーションのための新しいトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。 我々の新しいアーキテクチャである畳み込みトランスフォーマー(convtransformer)は、二層畳み込みニューラルネットワークを使用して、文中の単語と考えることのできる拡散的軌跡から特徴を抽出する。 これらの特徴は、回帰または分類を行う2つのトランスフォーマーエンコーディングブロックに供給される。 我々の知る限り、異常拡散を特徴づけるためにトランスフォーマーが使われるのはこれが初めてである。 さらに、変換ブロックを符号化するトランスフォーマーが畳み込みニューラルネットワークで使われ、トランスフォーマーデコードブロックや位置符号化を必要としないのは、これが初めてかもしれない。 並列に訓練できることとは別に、convtransformerは、実験研究者にとって最も重要な、短い軌跡(長さ10〜50歩)において、基礎となる拡散的レジームを決定する際に、前回の状態を上回ることができることを示した。

The results of the Anomalous Diffusion Challenge (AnDi Challenge) have shown that machine learning methods can outperform classical statistical methodology at the characterization of anomalous diffusion in both the inference of the anomalous diffusion exponent alpha associated with each trajectory (Task 1), and the determination of the underlying diffusive regime which produced such trajectories (Task 2). Furthermore, of the five teams that finished in the top three across both tasks of the AnDi challenge, three of those teams used recurrent neural networks (RNNs). While RNNs, like the long short-term memory (LSTM) network, are effective at learning long-term dependencies in sequential data, their key disadvantage is that they must be trained sequentially. In order to facilitate training with larger data sets, by training in parallel, we propose a new transformer based neural network architecture for the characterization of anomalous diffusion. Our new architecture, the Convolutional Transformer (ConvTransformer) uses a bi-layered convolutional neural network to extract features from our diffusive trajectories that can be thought of as being words in a sentence. These features are then fed to two transformer encoding blocks that perform either regression or classification. To our knowledge, this is the first time transformers have been used for characterizing anomalous diffusion. Moreover, this may be the first time that a transformer encoding block has been used with a convolutional neural network and without the need for a transformer decoding block or positional encoding. Apart from being able to train in parallel, we show that the ConvTransformer is able to outperform the previous state of the art at determining the underlying diffusive regime in short trajectories (length 10-50 steps), which are the most important for experimental researchers.
翻訳日:2022-10-12 17:32:28 公開日:2022-10-10
# ラクダを用いた社会経済企業のリスク自動予測

Risk Automatic Prediction for Social Economy Companies using Camels ( http://arxiv.org/abs/2210.05052v1 )

ライセンス: Link先を確認
Joseph Gallego-Mejia and Daniela Martin-Vega and Fabio Gonzalez(参考訳) 政府は社会経済企業を監督・検査しなければならない(参照)。 しかし,SEEの多さや検査員の多さから,すべてのSEEを検査することは不可能である。 我々は機械学習アプローチに基づく予測モデルを提案した。 本手法は,各SEEの履歴データを用いてランダム森林アルゴリズムを用いて学習した。 3つの連続したデータが連結された。 提案手法は,これらの周期を入力データとして使用し,第4周期における各SEEのリスクを予測する。 全体の精度は76\%であった。 さらに,SEEのリスクを予測する精度も良好であった。 我々は,過去のポートフォリオの法的性質と変動が,将来の展望のリスクを予測する良い要因であることを見出した。 これにより、教師付き機械学習手法により、将来的なSEEのリスクを予測することができる。 SEEのリスクの高い予測は、リスクの高いSEEのみに着目して、各インスペクタの日々の作業を改善する。

Governments have to supervise and inspect social economy enterprises (SEEs). However, inspecting all SEEs is not possible due to the large number of SEEs and the low number of inspectors in general. We proposed a prediction model based on a machine learning approach. The method was trained with the random forest algorithm with historical data provided by each SEE. Three consecutive periods of data were concatenated. The proposed method uses these periods as input data and predicts the risk of each SEE in the fourth period. The model achieved 76\% overall accuracy. In addition, it obtained good accuracy in predicting the high risk of a SEE. We found that the legal nature and the variation of the past-due portfolio are good predictors of the future risk of a SEE. Thus, the risk of a SEE in a future period can be predicted by a supervised machine learning method. Predicting the high risk of a SEE improves the daily work of each inspector by focusing only on high-risk SEEs.
翻訳日:2022-10-12 17:31:54 公開日:2022-10-10
# 低次元・高次元特徴の融合による自動音声キャプション

Automated Audio Captioning via Fusion of Low- and High- Dimensional Features ( http://arxiv.org/abs/2210.05037v1 )

ライセンス: Link先を確認
Jianyuan Sun and Xubo Liu and Xinhao Mei and Mark D. Plumbley and Volkan Kilic and Wenwu Wang(参考訳) 自動音声キャプション(AAC)は、簡単な文を用いて音声クリップの内容を記述することを目的としている。 既存のAAC手法は、エンコーダ-デコーダアーキテクチャに基づいて開発されており、その成功の原因は、エンコーダとしてPANNと呼ばれる訓練済みのCNN10を使用することである。 aacは、さまざまなシナリオの音声を含む高次元のタレント空間であるため、非常に難しいタスクである。 既存の方法は、デコーダの入力としてPANNの高次元表現のみを使用する。 しかし、低次元表現は高次元表現を無視できるほど多くの音声情報を保持できる。 さらに,従来の音声キャプションから学習することで,高次元アプローチで音声キャプションを予測できるが,頑健さや効率性に欠ける。 これらの課題に対処するため,AACフレームワークの低次元・高次元機能を統合した融合モデルを提案する。 本稿では,AACのためのLow- and High-dimensional Feature Fusion(LHDFF)モデルと呼ばれる新しいエンコーダデコーダフレームワークを提案する。 さらに、LHDFFでは、中間畳み込み層出力から低次元特徴とPANNの最終層出力から高次元特徴を融合させることにより、Residual PANNs(RPANNs)と呼ばれる新しいPANNエンコーダを提案する。 低次元・高次元融合特性と高次元特徴の情報を十分に探究するために, 並列にキャプションを生成するために, デュアルトランスデコーダ構造を提案する。 特に、2つのトランスデコーダのそれぞれの利点に集中することによりシステム全体の性能を向上できる確率的融合手法を提案する。 実験結果から,lhdffは他の既存モデルと比較して布地データとオーディオキャプタデータセットで最高の性能が得られることがわかった。

Automated audio captioning (AAC) aims to describe the content of an audio clip using simple sentences. Existing AAC methods are developed based on an encoder-decoder architecture that success is attributed to the use of a pre-trained CNN10 called PANNs as the encoder to learn rich audio representations. AAC is a highly challenging task due to its high-dimensional talent space involves audio of various scenarios. Existing methods only use the high-dimensional representation of the PANNs as the input of the decoder. However, the low-dimension representation may retain as much audio information as the high-dimensional representation may be neglected. In addition, although the high-dimensional approach may predict the audio captions by learning from existing audio captions, which lacks robustness and efficiency. To deal with these challenges, a fusion model which integrates low- and high-dimensional features AAC framework is proposed. In this paper, a new encoder-decoder framework is proposed called the Low- and High-Dimensional Feature Fusion (LHDFF) model for AAC. Moreover, in LHDFF, a new PANNs encoder is proposed called Residual PANNs (RPANNs) by fusing the low-dimensional feature from the intermediate convolution layer output and the high-dimensional feature from the final layer output of PANNs. To fully explore the information of the low- and high-dimensional fusion feature and high-dimensional feature respectively, we proposed dual transformer decoder structures to generate the captions in parallel. Especially, a probabilistic fusion approach is proposed that can ensure the overall performance of the system is improved by concentrating on the respective advantages of the two transformer decoders. Experimental results show that LHDFF achieves the best performance on the Clotho and AudioCaps datasets compared with other existing models
翻訳日:2022-10-12 17:21:42 公開日:2022-10-10
# Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- メモリ効率の良い逆問題解法

Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A Memory-Efficient Inverse Problem Solver ( http://arxiv.org/abs/2210.04987v1 )

ライセンス: Link先を確認
Peimeng Guan, Jihui Jin, Justin Romberg, Mark A. Davenport(参考訳) 逆問題では、潜在的に腐敗し、しばしば不適切な測定結果から、いくつかの関心のシグナルを再構築することを目的としています。 古典的な最適化に基づく手法は、正規化器と共にデータの一貫性を最適化する。 現在の最先端機械学習アプローチは、最適化ベースのソルバの反復更新をロールアウトして、データから正規化子を学習することで、そのようなテクニックからインスピレーションを得ている。 このループアンロール(lu)メソッドは大きな成功を収めているが、トレーニング中に高いメモリコストをもたらす最高のパフォーマンスのために、深いモデルを必要とすることが多い。 そこで本稿では,計算コストとネットワーク表現性のバランスに対処するため,浅平衡正規化器 (LUSER) を用いたLUアルゴリズムを提案する。 これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が高い。 提案手法は,画像劣化,CT,および単コイル磁気共鳴イメージング(MRI)タスクに基づいて評価し,フィードフォワード畳み込み正規化器を用いたより一般的なLUアーキテクチャと比較した場合,トレーニング中に最大8倍の計算資源を必要とする一方で,類似あるいはそれ以上の性能を示す。

In inverse problems we aim to reconstruct some underlying signal of interest from potentially corrupted and often ill-posed measurements. Classical optimization-based techniques proceed by optimizing a data consistency metric together with a regularizer. Current state-of-the-art machine learning approaches draw inspiration from such techniques by unrolling the iterative updates for an optimization-based solver and then learning a regularizer from data. This loop unrolling (LU) method has shown tremendous success, but often requires a deep model for the best performance leading to high memory costs during training. Thus, to address the balance between computation cost and network expressiveness, we propose an LU algorithm with shallow equilibrium regularizers (LUSER). These implicit models are as expressive as deeper convolutional networks, but far more memory efficient during training. The proposed method is evaluated on image deblurring, computed tomography (CT), as well as single-coil Magnetic Resonance Imaging (MRI) tasks and shows similar, or even better, performance while requiring up to 8 times less computational resources during training when compared against a more typical LU architecture with feedforward convolutional regularizers.
翻訳日:2022-10-12 17:14:42 公開日:2022-10-10
# ファウショット物体検出のための高速階層学習

Fast Hierarchical Learning for Few-Shot Object Detection ( http://arxiv.org/abs/2210.05008v1 )

ライセンス: Link先を確認
Yihang She, Goutam Bhat, Martin Danelljan, Fisher Yu(参考訳) 転送学習に基づくアプローチは、最近、少数ショット検出タスクで有望な結果を得た。 しかし、これらのアプローチは、ベース検出器の微調整による「破滅的忘れ」の問題に悩まされ、ベースクラスでの準最適性能に繋がる。 さらに、確率勾配降下(sgd)の遅い収束速度は、高いレイテンシをもたらし、結果としてリアルタイムアプリケーションを制限する。 我々はこの仕事で前述の問題に取り組む。 我々は,新しいクラスを既存のベースクラスとバックグラウンドクラスの子クラスとして扱う階層的学習問題として,少ないショット検出を提案する。 新規クラスの検出ヘッドは、特殊最適化戦略を用いて訓練され、SGDと比較してトレーニング時間が大幅に短縮される。 提案手法は,MS-COCOベンチマークにおいて,基本クラスにおける初期モデルの性能を完全に維持しながら,競合する新規クラス性能を得る。 さらに,このアプローチを,新たなクラス改良によるマイナショット検出タスクに適用することを示す。

Transfer learning based approaches have recently achieved promising results on the few-shot detection task. These approaches however suffer from ``catastrophic forgetting'' issue due to finetuning of base detector, leading to sub-optimal performance on the base classes. Furthermore, the slow convergence rate of stochastic gradient descent (SGD) results in high latency and consequently restricts real-time applications. We tackle the aforementioned issues in this work. We pose few-shot detection as a hierarchical learning problem, where the novel classes are treated as the child classes of existing base classes and the background class. The detection heads for the novel classes are then trained using a specialized optimization strategy, leading to significantly lower training times compared to SGD. Our approach obtains competitive novel class performance on few-shot MS-COCO benchmark, while completely retaining the performance of the initial model on the base classes. We further demonstrate the application of our approach to a new class-refined few-shot detection task.
翻訳日:2022-10-12 17:14:19 公開日:2022-10-10
# 深層学習による未開発国における肺炎早期診断の改善

Using Deep Learning to Improve Early Diagnosis of Pneumonia in Underdeveloped Countries ( http://arxiv.org/abs/2210.05023v1 )

ライセンス: Link先を確認
Kyler Larsen(参考訳) 技術や医療の進歩が進むにつれ、多くの国は、医療費や資格の欠如により、いまだに質の高い医療を受けることができない。 この医療の不一致は、検出の欠如やケアの欠如によって、多くの予防可能な死を引き起こしている。 世界でもっとも一般的な病気の1つが肺炎で、2017年に世界で2億5500万人が死亡した。 同年、アメリカは100000人当たり15.88人の肺炎死亡率を記録したが、チャドやギニアなどサハラ以南のアフリカでは100000人当たり150人以上の死亡率を記録した。 サハラ以南のアフリカでは医師や看護師が極端に不足しており、およそ240万人と推定されている。 テスト中の仮説は、深層学習モデルがX線形式で入力を受け取り、前診断画像と比較して医師の同等の精度で診断できるというものである。 このプロジェクトで使用されるモデルは、畳み込みニューラルネットワークの改良である。 モデルでは、正常肺と異常肺の2000個のx線画像を訓練し、その後、肺炎と健康肺の均等に分割された画像を含む400枚の画像でテストした。 各コンピュータ実行テストでは、精度のベース測定と、特異度や感度などのより具体的な測定値に基づいてデータが収集された。 その結果、試験されたアルゴリズムは、平均82.5%の確率で異常な肺所見を正確に同定することができた。 このモデルは98.5%の最大特異度と90%の最大感度を別々に達成し、これらの2つの指標の最高同時値は90%の感度と78.5%の特異度であった。 この研究は、他のディープラーニングモデルや機械学習モデルをテストすることでさらに改善され、メトリクススコアと正しい診断の可能性を改善することができる。

As advancements in technology and medicine are being made, many countries are still unable to access quality medical care due to cost and lack of qualified medical personnel. This discrepancy in healthcare has caused many preventable deaths, either due to lack of detection or lack of care. One of the most prevalent diseases in the world is pneumonia, an infection of the lungs that killed 2.56 million people worldwide in 2017. In this same year, the United States recorded a pneumonia death rate of 15.88 people per 100000 in population, while much of Sub-Saharan Africa, such as Chad and Guinea, experienced death rates of over 150 people per 100000. In sub-Saharan Africa, there is an extreme shortage of doctors and nurses, estimated to be around 2.4 million. The hypothesis being tested is that a deep learning model can receive input in the form of an x-ray and produce a diagnosis with the equivalent accuracy of a physician, compared to a prediagnosed image. The model used in this project is a modified convolutional neural network. The model was trained on a set of 2000 x-ray images that have predetermined normal and abnormal lung findings, and then tested on a set of 400 images that contains evenly split images of pneumonia and healthy lungs. For each computer-run test, data was collected on a base measurement of accuracy, as well as more specific metrics such as specificity and sensitivity. Results show that the algorithm tested was able to accurately identify abnormal lung findings an average of 82.5% of the time. The model achieved a maximum specificity of 98.5% and a maximum sensitivity of 90% separately, and the highest simultaneous values of these two metrics was a sensitivity of 90% and a specificity of 78.5%. This research can be further improved by testing other deep learning models as well as machine learning models to improve the metric scores and chance of correct diagnoses.
翻訳日:2022-10-12 17:14:02 公開日:2022-10-10
# 単位選択:ケーススタディとa/bテストヒューリスティックとの比較

Unit Selection: Case Study and Comparison with A/B Test Heuristic ( http://arxiv.org/abs/2210.05030v1 )

ライセンス: Link先を確認
Ang Li, Judea Pearl(参考訳) liとpearlによって定義された単位選択問題は、反事実的行動パターンを希望する個人、例えば、推奨され、そうでなければ肯定的に反応する個人を特定する。 Li と Pearl は、その単位選択モデルは A/B テストヒューリスティックスを超えていることを示した。 本稿では,LiとPearlで定義された利得関数の例外例であるA/Bテストヒューリスティックスの本質を明らかにする。 さらに、li-pearlの単位選択モデルのよりシミュレートされたユースケースを提供し、意思決定者がモデルを正確に適用できるようにし、a/bテストのヒューリスティックが一般的に問題となることを説明した。

The unit selection problem defined by Li and Pearl identifies individuals who have desired counterfactual behavior patterns, for example, individuals who would respond positively if encouraged and would not otherwise. Li and Pearl showed by example that their unit selection model is beyond the A/B test heuristics. In this paper, we reveal the essence of the A/B test heuristics, which are exceptional cases of the benefit function defined by Li and Pearl. Furthermore, We provided more simulated use cases of Li-Pearl's unit selection model to help decision-makers apply their model correctly, explaining that A/B test heuristics are generally problematic.
翻訳日:2022-10-12 17:06:17 公開日:2022-10-10
# 協調強化学習のための学習クレジット割り当て

Learning Credit Assignment for Cooperative Reinforcement Learning ( http://arxiv.org/abs/2210.05367v1 )

ライセンス: Link先を確認
Wubing Chen, Wenbin Li, Xiao Liu, Shangdong Yang(参考訳) 協調型マルチエージェントポリシー勾配(MAPG)アルゴリズムは近年広く注目されており、マルチエージェントシステムの一般的なスキームと見なされている。 クレジット割り当てはmapgにおいて重要な役割を担っており、複数のエージェント間の協力を誘導することができる。 しかし、ほとんどのMAPGアルゴリズムは「textit{centralized-decentralized mismatch}」として知られるゲーム理論の病理のため、良好な信用割当を達成できない。 この問題に対処するため,本論文では,新しい方法であるtextit{\underline{M}ulti-\underline{A}gent \underline{P}olarization \underline{P}olicy \underline{G}radient} (MAPPG)を提案する。 MAPPGは単純だが効率的な分極関数を用いて、関節と個々の動作の最適整合性を容易に実現できる制約に変換する。 理論的には、MAPPGの個々のポリシーがグローバルな最適化に収束できることを実証する。 実演的に、よく知られた行列ゲームと微分ゲームでMAPPGを評価し、MAPPGが離散的かつ連続的な行動空間のグローバルな最適度に収束できることを検証する。 また,一連のStarCraft IIマイクロマネジメントタスク上でMAPPGを評価し,MAPPGが最先端のMAPGアルゴリズムより優れていることを示す。

Cooperative multi-agent policy gradient (MAPG) algorithms have recently attracted wide attention and are regarded as a general scheme for the multi-agent system. Credit assignment plays an important role in MAPG and can induce cooperation among multiple agents. However, most MAPG algorithms cannot achieve good credit assignment because of the game-theoretic pathology known as \textit{centralized-decentralized mismatch}. To address this issue, this paper presents a novel method, \textit{\underline{M}ulti-\underline{A}gent \underline{P}olarization \underline{P}olicy \underline{G}radient} (MAPPG). MAPPG takes a simple but efficient polarization function to transform the optimal consistency of joint and individual actions into easily realized constraints, thus enabling efficient credit assignment in MAPG. Theoretically, we prove that individual policies of MAPPG can converge to the global optimum. Empirically, we evaluate MAPPG on the well-known matrix game and differential game, and verify that MAPPG can converge to the global optimum for both discrete and continuous action spaces. We also evaluate MAPPG on a set of StarCraft II micromanagement tasks and demonstrate that MAPPG outperforms the state-of-the-art MAPG algorithms.
翻訳日:2022-10-12 16:57:23 公開日:2022-10-10
# グローバル最適化のグローバル分析

A global analysis of global optimisation ( http://arxiv.org/abs/2210.05371v1 )

ライセンス: Link先を確認
Lachlan Ewen MacDonald, Hemanth Saratchandran, Jack Valmadre, Simon Lucey(参考訳) ディープニューラルネットワークのトレーニングに関する理論的理解は、近年大きな進歩を遂げている。 特に、四角いコストで訓練されたチェーンネットワークが初期化に近いグローバルミニマに収束することを保証するのに十分な幅と学習速度が十分であることが示されている。 しかし、この理論は、無限大のミニマが無限大でしか出てこないクロスエントロピーコストには適用できない。 本稿では,バッチ正規化,重み正規化,スキップ接続など,ユビキタスなアーキテクチャ選択を包含する最適化研究のための汎用理論的枠組みを提案する。 ニューラルネットワークロスランドスケープの曲率と規則性特性をグローバルに解析するために、我々のフレームワークを使用し、2つのアプリケーションを提供します。 まず,深層ニューラルネットワークのクラスが,そのようなオプティマが無限大にしか存在しない場合でも,勾配降下を用いてグローバルオプティマに学習できることを示す。 次に, この理論を, MNIST, CIFAR10, CIFAR100上でResNetsを用いて検証し, 残差接続がトレーニング速度に与える影響を実証分析した。

Theoretical understanding of the training of deep neural networks has made great strides in recent years. In particular, it has been shown that sufficient width and sufficiently small learning rate suffice to guarantee that chain networks trained with the square cost converge to global minima close to initialisation. However, this theory cannot apply to the cross-entropy cost, whose global minima exit only at infinity. In this paper, we introduce a general theoretical framework, designed for the study of optimisation, that encompasses ubiquitous architectural choices including batch normalisation, weight normalisation and skip connections. We use our framework to conduct a global analysis of the curvature and regularity properties of neural network loss landscapes, and give two applications. First, we give the first proof that a class of deep neural networks can be trained using gradient descent to global optima even when such optima only exist at infinity. Second, we use the theory in an empirical analysis of the effect of residual connections on training speed, which we verify with ResNets on MNIST, CIFAR10 and CIFAR100.
翻訳日:2022-10-12 16:56:58 公開日:2022-10-10
# roombaによるカバレッジパス計画のシミュレーション

Simulating Coverage Path Planning with Roomba ( http://arxiv.org/abs/2210.04988v1 )

ライセンス: Link先を確認
Robert Chuchro(参考訳) カバレッジパスの計画には、障害のある環境のすべての空いている状態を参照することが含まれる。 本稿では,掃除ロボットのタスクをシミュレートするために,当初エージェントに知られていなかった環境においてこの問題を考察する。 先行研究の調査では、この問題を解決するために学習を適用するためのわずかな努力が明らかにされている。 本稿では,深層強化学習を用いたカバーパス計画問題のモデル化について検討し,一般的な掃除ロボットであるroombaの組み込みアルゴリズムの性能と比較する。

Coverage Path Planning involves visiting every unoccupied state in an environment with obstacles. In this paper, we explore this problem in environments which are initially unknown to the agent, for purposes of simulating the task of a vacuum cleaning robot. A survey of prior work reveals sparse effort in applying learning to solve this problem. In this paper, we explore modeling a Cover Path Planning problem using Deep Reinforcement Learning, and compare it with the performance of the built-in algorithm of the Roomba, a popular vacuum cleaning robot.
翻訳日:2022-10-12 16:55:12 公開日:2022-10-10
# 因果関係の確率:実験試料および観測試料の適度なサイズ

Probabilities of Causation: Adequate Size of Experimental and Observational Samples ( http://arxiv.org/abs/2210.05027v1 )

ライセンス: Link先を確認
Ang Li, Ruirui Mao, Judea Pearl(参考訳) 因果関係の確率は一般に意思決定問題を解決するために用いられる。 テンとパールは、実験データと観測データを用いて、必然性と十分性の確率(pns)、十分性の確率(ps)、必然性の確率(pn)に対する鋭い境界を導出した。 仮定は、実験値と観測値の分布を正確に推定するために十分な量のサンプルを持っているというものである。 本研究では,与えられた信頼区間(ci)が特定された場合に,その推定に必要なサンプルサイズを決定する手法を提案する。 さらにシミュレーションにより,提案したサンプルサイズがPNSの境界を安定に推定することを示した。

The probabilities of causation are commonly used to solve decision-making problems. Tian and Pearl derived sharp bounds for the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN) using experimental and observational data. The assumption is that one is in possession of a large enough sample to permit an accurate estimation of the experimental and observational distributions. In this study, we present a method for determining the sample size needed for such estimation, when a given confidence interval (CI) is specified. We further show by simulation that the proposed sample size delivered stable estimations of the bounds of PNS.
翻訳日:2022-10-12 16:55:04 公開日:2022-10-10
# 不均衡非定常データストリーム分類に対するハイブリッドアクティブパッシブアプローチ

A Hybrid Active-Passive Approach to Imbalanced Nonstationary Data Stream Classification ( http://arxiv.org/abs/2210.04949v1 )

ライセンス: Link先を確認
Kleanthis Malialis and Manuel Roveri and Cesare Alippi and Christos G. Panayiotou and Marios M. Polycarpou(参考訳) 実世界のアプリケーションでは、データを生成するプロセスは非定常的な影響(例えば、季節性、センサやアクチュエータに影響を及ぼす故障、ユーザの行動の変化)に悩まされる可能性がある。 これらの変化は、しばしばコンセプトドリフトと呼ばれ、時間の経過とともに時代遅れになる訓練された学習モデルに深刻な(潜在的に破滅的な)影響をもたらす可能性がある。 コンセプトドリフトの存在下での学習は、コンセプトドリフトを追跡および適応可能な機械学習モデルとディープラーニングモデルの設計を目標とする。 通常、コンセプトドリフトを扱う技術はアクティブか受動的かのいずれかであり、伝統的にこれらは相互排他的と考えられてきた。 アクティブテクニックは明示的なドリフト検出機構を使用し、概念ドリフトの検出時に学習アルゴリズムを再訓練する。 受動的手法は暗黙の手法を使ってドリフトに対処し、漸進学習を用いてモデルを継続的に更新する。 文献上に存在するものとは違って,2つのアプローチをマージするハイブリッドな代替案を提案する。 提案手法であるhybrid-adaptive rebalancing (hareba) は,学習の質と速度において,強いベースラインと最先端の手法を著しく上回っている。

In real-world applications, the process generating the data might suffer from nonstationary effects (e.g., due to seasonality, faults affecting sensors or actuators, and changes in the users' behaviour). These changes, often called concept drift, might induce severe (potentially catastrophic) impacts on trained learning models that become obsolete over time, and inadequate to solve the task at hand. Learning in presence of concept drift aims at designing machine and deep learning models that are able to track and adapt to concept drift. Typically, techniques to handle concept drift are either active or passive, and traditionally, these have been considered to be mutually exclusive. Active techniques use an explicit drift detection mechanism, and re-train the learning algorithm when concept drift is detected. Passive techniques use an implicit method to deal with drift, and continually update the model using incremental learning. Differently from what present in the literature, we propose a hybrid alternative which merges the two approaches, hence, leveraging on their advantages. The proposed method called Hybrid-Adaptive REBAlancing (HAREBA) significantly outperforms strong baselines and state-of-the-art methods in terms of learning quality and speed; we experiment how it is effective under severe class imbalance levels too.
翻訳日:2022-10-12 16:49:18 公開日:2022-10-10
# 騒音APCデータを用いた都市交通網の昼前・同日レベル予測モデルの設計について

On Designing Day Ahead and Same Day Ridership Level Prediction Models for City-Scale Transit Networks Using Noisy APC Data ( http://arxiv.org/abs/2210.04989v1 )

ライセンス: Link先を確認
Jose Paolo Talusan (1), Ayan Mukhopadhyay (1), Dan Freudberg (2), Abhishek Dubey (1) ((1) Vanderbilt University, (2) Nashville Metropolitan Transit Authority)(参考訳) 公共交通機関の乗客需要を正確に予測できる能力は、乗客や交通機関に利益をもたらす。 公共交通機関は、使用済みのバスルートや過度に利用されたバスルートを扱うためにバスを再配置し、資源利用を改善し、乗客は、過密したバスを避け、一定の快適性を維持するためにスケジュールを調整および計画することができる。 しかし、正確な占有率の予測は非自明な作業である。 異質性、進化するライダーシップパターン、天気などの外因性事象、その他の確率変数などの様々な理由により、タスクはより困難になる。 ビッグデータの進歩により、交通当局は車両のリアルタイムの乗客情報にアクセスできるようになった。 生成されるデータの量は驚異的です。 データ不足はないが、有用な情報が生成される前に、きれいにし、処理し、拡張し、マージする必要がある。 本稿では,複数のソースから収集したデータの利用と融合,洗浄,処理,マージを行い,トランジット・ライダーシップの予測のための機械学習モデルのトレーニングを行う。 交通、気象、交通、カレンダーのデータを含む2年間(2020-2022年)にわたるデータを使用します。 結果として得られたデータは1700万の観測値に等しく、旅行の異なるモデルと停止レベルの予測を訓練するために使用される。 ナッシュビルの公共交通機関が提供している現実の交通データに対する我々のアプローチを評価する。 我々は、Xgboostに基づく旅行レベルモデルとLSTMに基づく停止レベルモデルが、交通サービス全体のベースライン統計モデルより優れていることを示した。

The ability to accurately predict public transit ridership demand benefits passengers and transit agencies. Agencies will be able to reallocate buses to handle under or over-utilized bus routes, improving resource utilization, and passengers will be able to adjust and plan their schedules to avoid overcrowded buses and maintain a certain level of comfort. However, accurately predicting occupancy is a non-trivial task. Various reasons such as heterogeneity, evolving ridership patterns, exogenous events like weather, and other stochastic variables, make the task much more challenging. With the progress of big data, transit authorities now have access to real-time passenger occupancy information for their vehicles. The amount of data generated is staggering. While there is no shortage in data, it must still be cleaned, processed, augmented, and merged before any useful information can be generated. In this paper, we propose the use and fusion of data from multiple sources, cleaned, processed, and merged together, for use in training machine learning models to predict transit ridership. We use data that spans a 2-year period (2020-2022) incorporating transit, weather, traffic, and calendar data. The resulting data, which equates to 17 million observations, is used to train separate models for the trip and stop level prediction. We evaluate our approach on real-world transit data provided by the public transit agency of Nashville, TN. We demonstrate that the trip level model based on Xgboost and the stop level model based on LSTM outperform the baseline statistical model across the entire transit service day.
翻訳日:2022-10-12 16:48:54 公開日:2022-10-10
# アクションは価値ある複数の単語である:アクション認識における曖昧さを扱う

An Action Is Worth Multiple Words: Handling Ambiguity in Action Recognition ( http://arxiv.org/abs/2210.04933v1 )

ライセンス: Link先を確認
Kiyoon Kim, Davide Moltisanti, Oisin Mac Aodha, Laura Sevilla-Lara(参考訳) ビデオで描かれたアクションを正確に命名することは困難であり、しばしば曖昧な作業である。 名詞(例えば、犬、猫、椅子など)として表されるオブジェクトのインスタンスとは対照的に、アクションの場合、人間のアノテーションは通常、特定のアクションを構成するもの(例えば、ジョギングとランニング)に関するコンセンサスを欠いている。 実際には、同じアクションに対して複数の有効なポジティブアノテーションを含むことができる。 その結果、ビデオデータセットは、しばしば、アトミックアクションクラス間のラベルノイズと重なりのかなりのレベルを含む。 本稿では,単一の正のトレーニングラベルのみから複数ラベルの行動認識モデルを訓練することの課題について述べる。 列車内の類似事例からサンプル化した擬似訓練例を生成するための2つの手法を提案する。 モデル由来の擬似ラベルを使用する他のアプローチとは異なり、擬似ラベルは人間のアノテーションから生まれ、特徴的類似性に基づいて選択される。 提案手法を検証するため,EPIC-Kitchens-100の検証セットのサブセットを複数ラベルで手動で注釈付けすることで,新しい評価ベンチマークを作成する。 我々は,この新しいテストセットにおける結果と,hmdb-51 の新バージョンである confusion-hmdb-102 のさらなる結果を示す。 データとコードはhttps://github.com/seion/verb_ambiguityで入手できる。

Precisely naming the action depicted in a video can be a challenging and oftentimes ambiguous task. In contrast to object instances represented as nouns (e.g. dog, cat, chair, etc.), in the case of actions, human annotators typically lack a consensus as to what constitutes a specific action (e.g. jogging versus running). In practice, a given video can contain multiple valid positive annotations for the same action. As a result, video datasets often contain significant levels of label noise and overlap between the atomic action classes. In this work, we address the challenge of training multi-label action recognition models from only single positive training labels. We propose two approaches that are based on generating pseudo training examples sampled from similar instances within the train set. Unlike other approaches that use model-derived pseudo-labels, our pseudo-labels come from human annotations and are selected based on feature similarity. To validate our approaches, we create a new evaluation benchmark by manually annotating a subset of EPIC-Kitchens-100's validation set with multiple verb labels. We present results on this new test set along with additional results on a new version of HMDB-51, called Confusing-HMDB-102, where we outperform existing methods in both cases. Data and code are available at https://github.com/kiyoon/verb_ambiguity
翻訳日:2022-10-12 16:05:23 公開日:2022-10-10
# 学習に基づくマイクロ表現認識の深い洞察: 約束,挑戦,研究ニーズの展望

Deep Insights of Learning based Micro Expression Recognition: A Perspective on Promises, Challenges and Research Needs ( http://arxiv.org/abs/2210.04935v1 )

ライセンス: Link先を確認
Monu Verma, Santosh Kumar Vipparthi, and Girdhari Singh(参考訳) マイクロ表現認識(MER)はその本質的な性質と微細な変化のために非常に困難な研究領域である。 文献では,merの問題は手作り/ディスクリプタベースの手法によって解決されている。 しかし,近年,MERの性能向上のために,ディープラーニング(DL)に基づく手法が採用されている。 また、MERに関する豊富な調査記事は、データセット、実験的な設定、従来のおよびディープラーニングメソッドを要約することで利用可能である。 対照的に、これらの研究は、DLベースのMERの実験的な設定戦略とネットワーク設計パラダイムの影響を伝達する能力に欠ける。 そこで本稿は,ネットワークモデル設計,実験戦略,課題,研究ニーズの約束を視点として,DLベースのMERフレームワークに関する深い洞察を提供することを目的とする。 また、利用可能なMERフレームワークの詳細な分類は、モデル設計と技術的な特性の様々な側面で述べられている。 さらに,mer法で採用されている実験プロトコルと検証プロトコルの実証分析を行った。 先に述べた課題とネットワーク設計戦略は、mer研究の先駆的なコンピューティング研究コミュニティを支援するかもしれない。 最後に、今後の方向性、研究ニーズを指摘し、結論を導きます。

Micro expression recognition (MER) is a very challenging area of research due to its intrinsic nature and fine-grained changes. In the literature, the problem of MER has been solved through handcrafted/descriptor-based techniques. However, in recent times, deep learning (DL) based techniques have been adopted to gain higher performance for MER. Also, rich survey articles on MER are available by summarizing the datasets, experimental settings, conventional and deep learning methods. In contrast, these studies lack the ability to convey the impact of network design paradigms and experimental setting strategies for DL-based MER. Therefore, this paper aims to provide a deep insight into the DL-based MER frameworks with a perspective on promises in network model designing, experimental strategies, challenges, and research needs. Also, the detailed categorization of available MER frameworks is presented in various aspects of model design and technical characteristics. Moreover, an empirical analysis of the experimental and validation protocols adopted by MER methods is presented. The challenges mentioned earlier and network design strategies may assist the affective computing research community in forging ahead in MER research. Finally, we point out the future directions, research needs, and draw our conclusions.
翻訳日:2022-10-12 16:04:58 公開日:2022-10-10
# EarthNets:地球観測におけるAIの活用

EarthNets: Empowering AI in Earth Observation ( http://arxiv.org/abs/2210.04936v1 )

ライセンス: Link先を確認
Zhitong Xiong, Fahong Zhang, Yi Wang, Yilei Shi, Xiao Xiang Zhu(参考訳) 地球観測は、リモートセンシングデータを用いて地球の状態を監視することを目的としており、我々の日常生活や生活環境を改善するために重要である。 軌道上の衛星の数が増えるにつれて、リモートセンシングコミュニティの研究を促進するために、多様なセンサーと研究領域を持つデータセットがますます増えている。 本稿では,400以上の公開データセットについて,まず,土地利用/被覆,変化/不況モニタリング,環境理解,農業,気候変動,気象予報など,総合的なレビューを行う。 我々は,これらの地球観測データセットを,体積,書誌分析,研究領域,データセット間の相関の5つの側面から体系的に分析する。 データセット属性に基づいて,データセットの測定,ランク付け,選択を行い,モデル評価のための新しいベンチマークを構築することを提案する。 さらに,地球観測のための新しいプラットフォームであるEarthNetsが,リモートセンシングデータ上での深層学習手法の公平かつ一貫した評価に向けてリリースされた。 EarthNetsは標準のデータセットライブラリと最先端のディープラーニングモデルをサポートし、リモートセンシングと機械学習コミュニティのギャップを埋める。 earthnetsプラットフォームに基づいて、新しいベンチマークで広範なディープラーニング手法が評価される。 洞察力のある結果は将来の研究に有益である。 プラットフォーム、データセットコレクションはhttps://earthnets.nicepage.ioで公開されている。

Earth observation, aiming at monitoring the state of planet Earth using remote sensing data, is critical for improving our daily lives and living environment. With an increasing number of satellites in orbit, more and more datasets with diverse sensors and research domains are published to facilitate the research of the remote sensing community. In this paper, for the first time, we present a comprehensive review of more than 400 publicly published datasets, including applications like, land use/cover, change/disaster monitoring, scene understanding, agriculture, climate change and weather forecasting. We systemically analyze these Earth observation datasets from five aspects, including the volume, bibliometric analysis, research domains and the correlation between datasets. Based on the dataset attributes, we propose to measure, rank and select datasets to build a new benchmark for model evaluation. Furthermore, a new platform for Earth observation, termed EarthNets, is released towards a fair and consistent evaluation of deep learning methods on remote sensing data. EarthNets supports standard dataset libraries and cutting-edge deep learning models to bridge the gap between remote sensing and the machine learning community. Based on the EarthNets platform, extensive deep learning methods are evaluated on the new benchmark. The insightful results are beneficial to future research. The platform, dataset collections are publicly available at https://earthnets.nicepage.io.
翻訳日:2022-10-12 16:04:43 公開日:2022-10-10
# LidarNAS: 3Dポイントクラウドのためのニューラルネットワークの統合と検索

LidarNAS: Unifying and Searching Neural Architectures for 3D Point Clouds ( http://arxiv.org/abs/2210.05018v1 )

ライセンス: Link先を確認
Chenxi Liu, Zhaoqi Leng, Pei Sun, Shuyang Cheng, Charles R. Qi, Yin Zhou, Mingxing Tan, Dragomir Anguelov(参考訳) 3dポイントクラウドでオブジェクトを正確に理解するニューラルモデルの開発は、ロボティクスと自動運転の成功に不可欠である。 しかし、おそらくはデータの高次元性(画像と比較して)のため、既存のニューラルアーキテクチャは、考慮されたビュー、ニューラルネットワークの特徴の形式、使用されるニューラル操作など、その設計に大きな多様性を示す。 統一されたフレームワークと解釈の欠如は、これらの設計を視点に置いて、体系的に新しい設計を探求することを難しくする。 本稿では,ニューラルネットワークを一連のビュー変換とニューラルネットワーク層に分解する,統一的なフレームワークの提案から始める。 このモジュラーフレームワークは、バックボーン設計を公平に比較しながら、様々な既存の作品を再現できることを実証する。 次に,このフレームワークが具体的なニューラルネットワーク探索(NAS)空間に容易に実現可能であることを示し,NAS-for-3D探索の原理を示す。 waymo open dataset上の3dオブジェクト検出タスクで進化nasを実行するとき、我々は最先端のモデルを上回るだけでなく、nasが車両と歩行者の両方のクラスで同じマクロレベルのアーキテクチャ概念を発見する傾向があるという興味深い発見を報告します。

Developing neural models that accurately understand objects in 3D point clouds is essential for the success of robotics and autonomous driving. However, arguably due to the higher-dimensional nature of the data (as compared to images), existing neural architectures exhibit a large variety in their designs, including but not limited to the views considered, the format of the neural features, and the neural operations used. Lack of a unified framework and interpretation makes it hard to put these designs in perspective, as well as systematically explore new ones. In this paper, we begin by proposing a unified framework of such, with the key idea being factorizing the neural networks into a series of view transforms and neural layers. We demonstrate that this modular framework can reproduce a variety of existing works while allowing a fair comparison of backbone designs. Then, we show how this framework can easily materialize into a concrete neural architecture search (NAS) space, allowing a principled NAS-for-3D exploration. In performing evolutionary NAS on the 3D object detection task on the Waymo Open Dataset, not only do we outperform the state-of-the-art models, but also report the interesting finding that NAS tends to discover the same macro-level architecture concept for both the vehicle and pedestrian classes.
翻訳日:2022-10-12 16:04:23 公開日:2022-10-10
# miniXCOMにおけるTD学習による適応MCTSの探索

Exploring Adaptive MCTS with TD Learning in miniXCOM ( http://arxiv.org/abs/2210.05014v1 )

ライセンス: Link先を確認
Kimiya Saadat and Richard Zhao(参考訳) 近年、モンテカルロ木探索(mcts)がゲームコミュニティで広く採用されている。 深層強化学習と併用することで、多くのアプリケーションで成功事例が生み出されている。 これらのアプローチは、単純なボードゲームからStarCraftのようなより複雑なビデオゲームまで、様々なゲームで実装されているが、ディープニューラルネットワークの使用には相当なトレーニング期間が必要である。 本研究では,事前学習を必要とせず,mtsのオンライン適応性を検討する。 時間差学習により改良された適応MCTSアルゴリズムMCTS-TDを提案する。 我々は,いくつかのターンベースの戦術ゲームからなる人気商業フランチャイズであるXCOMの簡易版である miniXCOM に対する新たなアプローチを実証し,MCTS-TD の適応性によって対戦相手に対するパフォーマンスが向上することを示す。

In recent years, Monte Carlo tree search (MCTS) has achieved widespread adoption within the game community. Its use in conjunction with deep reinforcement learning has produced success stories in many applications. While these approaches have been implemented in various games, from simple board games to more complicated video games such as StarCraft, the use of deep neural networks requires a substantial training period. In this work, we explore on-line adaptivity in MCTS without requiring pre-training. We present MCTS-TD, an adaptive MCTS algorithm improved with temporal difference learning. We demonstrate our new approach on the game miniXCOM, a simplified version of XCOM, a popular commercial franchise consisting of several turn-based tactical games, and show how adaptivity in MCTS-TD allows for improved performances against opponents.
翻訳日:2022-10-12 15:53:38 公開日:2022-10-10
# 科学のためのニューロシンボリックプログラミング

Neurosymbolic Programming for Science ( http://arxiv.org/abs/2210.05050v1 )

ライセンス: Link先を確認
Jennifer J. Sun, Megan Tjandrasuwita, Atharva Sehgal, Armando Solar-Lezama, Swarat Chaudhuri, Yisong Yue, Omar Costilla-Reyes(参考訳) ニューロシンボリックプログラミング(NP)技術は、分野横断の科学的発見を促進する可能性がある。 これらのモデルは、ニューラルネットワークとシンボリックコンポーネントを組み合わせて、高レベルの概念や既知の制約を使って、データから複雑なパターンや表現を学ぶ。 その結果、NP技術は、先行知識や実験文脈のような科学者の記号的なドメイン知識と相互作用し、解釈可能な出力を生成することができる。 ここでは、現在のNPモデルと科学的ワークフローの間の機会と課題を、科学における行動分析から実世界の例で識別する。 我々は、科学分野のNPを前進させるための具体的な次のステップを定義し、自然科学と社会科学のワークフローに広く利用できるようにする。

Neurosymbolic Programming (NP) techniques have the potential to accelerate scientific discovery across fields. These models combine neural and symbolic components to learn complex patterns and representations from data, using high-level concepts or known constraints. As a result, NP techniques can interface with symbolic domain knowledge from scientists, such as prior knowledge and experimental context, to produce interpretable outputs. Here, we identify opportunities and challenges between current NP models and scientific workflows, with real-world examples from behavior analysis in science. We define concrete next steps to move the NP for science field forward, to enable its use broadly for workflows across the natural and social sciences.
翻訳日:2022-10-12 15:53:25 公開日:2022-10-10
# DEPTWEET:うつ病を検知するソーシャルメディアテキストのタイポロジー

DEPTWEET: A Typology for Social Media Texts to Detect Depression Severities ( http://arxiv.org/abs/2210.05372v1 )

ライセンス: Link先を確認
Mohsinul Kabir, Tasnim Ahmed, Md. Bakhtiar Hasan, Md Tahmid Rahman Laskar, Tarun Kumar Joarder, Hasan Mahmud, Kamrul Hasan(参考訳) データ駆動方式によるメンタルヘルス研究は、標準型の欠如と適切なデータの不足によって妨げられている。 本研究では,うつ病の重症度を検出するために,うつ病の臨床的記述を活用してソーシャルメディアテキストのタイプロジを構築する。 標準臨床評価手順の診断と精神障害の統計マニュアル(dsm-5)と患者健康アンケート(phq-9)をエミュレートし、ツイートからうつ病の兆候を微妙なものにする。 タイポロジーとともに,エキスパート・アノテータがラベル付けした40191ツイートの新しいデータセットを提案する。 各ツイートは "non-depressed" または "depressed" とラベル付けされる。 また,「抑うつ」ツイートには,(1)軽度,(2)中等度,(3)重度という3つの重大度が考慮される。 各ラベルには関連する信頼スコアが付与され、アノテーションの品質が検証される。 本稿では,BERT や DistilBERT などの注目モデルを用いて,データセットの品質を,要約統計を表現しながら評価する。 最後に,研究の限界を広く取り上げ,さらなる研究の方向性を示す。

Mental health research through data-driven methods has been hindered by a lack of standard typology and scarcity of adequate data. In this study, we leverage the clinical articulation of depression to build a typology for social media texts for detecting the severity of depression. It emulates the standard clinical assessment procedure Diagnostic and Statistical Manual of Mental Disorders (DSM-5) and Patient Health Questionnaire (PHQ-9) to encompass subtle indications of depressive disorders from tweets. Along with the typology, we present a new dataset of 40191 tweets labeled by expert annotators. Each tweet is labeled as 'non-depressed' or 'depressed'. Moreover, three severity levels are considered for 'depressed' tweets: (1) mild, (2) moderate, and (3) severe. An associated confidence score is provided with each label to validate the quality of annotation. We examine the quality of the dataset via representing summary statistics while setting strong baseline results using attention-based models like BERT and DistilBERT. Finally, we extensively address the limitations of the study to provide directions for further research.
翻訳日:2022-10-12 15:46:07 公開日:2022-10-10
# REV:自由テキスト合理化の情報理論評価

REV: Information-Theoretic Evaluation of Free-Text Rationales ( http://arxiv.org/abs/2210.04982v1 )

ライセンス: Link先を確認
Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha Swayamdipta(参考訳) 自由文理性は説明可能なAIへの有望なステップであるが、その評価は依然としてオープンな研究課題である。 既存のメトリクスは、主に有理数と与えられたラベルの直接的な関連性を測定することに重点を置いているが、理想的な計量は、入力やラベルに提供されない有理数に固有の情報に焦点を合わせることもできるべきだと我々は主張する。 本研究は条件付きv-情報を用いて情報理論的な観点から検討する。 より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外に,与えられたラベルをサポートする理論的根拠で新たな情報を定量化することができる。 GPT-3による数ショットプロンプトを含む4つのベンチマークにおける推論タスクの実験は、既存の指標と比較して、異なるタイプの有理値-ラベルペアの評価におけるREVの有効性を示す。 いくつかの定量的比較を通じて,ラベルに対する自由文有理数における新しい情報のより敏感な測定を行う上で,REVの能力を示す。 さらに、REVは合理的評価に関する人間の判断と一致している。 全体として、従来のパフォーマンス指標と併用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。

Free-text rationales are a promising step towards explainable AI, yet their evaluation remains an open research problem. While existing metrics have mostly focused on measuring the direct association between the rationale and a given label, we argue that an ideal metric should also be able to focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using the conditional V-information. More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), that can quantify the new information in a rationale supporting a given label beyond the information already available in the input or the label. Experiments on reasoning tasks across four benchmarks, including few-shot prompting with GPT-3, demonstrate the effectiveness of REV in evaluating different types of rationale-label pairs, compared to existing metrics. Through several quantitative comparisons, we demonstrate the capability of REV in providing more sensitive measurements of new information in free-text rationales with respect to a label. Furthermore, REV is consistent with human judgments on rationale evaluations. Overall, when used alongside traditional performance metrics, REV provides deeper insights into a models' reasoning and prediction processes.
翻訳日:2022-10-12 15:27:19 公開日:2022-10-10
# コントラスト学習による多言語表現蒸留

Multilingual Representation Distillation with Contrastive Learning ( http://arxiv.org/abs/2210.05033v1 )

ライセンス: Link先を確認
Weiting Tan, Kevin Heffernan, Holger Schwenk and Philipp Koehn(参考訳) 大規模モデルの多言語文表現は、2つ以上の言語からの意味情報をエンコードすることができ、異なる言語間情報検索タスクに使用できる。 本稿では,コントラスト学習を多言語表現蒸留と統合し,並列文の品質推定(相互翻訳として使用できる意味的に類似した文を求める)に用いる。 我々は多言語類似性探索とコーパスフィルタリングタスクによるアプローチを検証する。 異なる低リソース言語を対象とした実験により,従来の文エンコーダ(LASER, LASER3, LaBSE)よりも優れていた。

Multilingual sentence representations from large models can encode semantic information from two or more languages and can be used for different cross-lingual information retrieval tasks. In this paper, we integrate contrastive learning into multilingual representation distillation and use it for quality estimation of parallel sentences (find semantically similar sentences that can be used as translations of each other). We validate our approach with multilingual similarity search and corpus filtering tasks. Experiments across different low-resource languages show that our method significantly outperforms previous sentence encoders such as LASER, LASER3, and LaBSE.
翻訳日:2022-10-12 15:26:58 公開日:2022-10-10
# 音源とファジィマッチング相互作用の制御による検索拡張ニューラルマシン翻訳の改善

Improving Retrieval Augmented Neural Machine Translation by Controlling Source and Fuzzy-Match Interactions ( http://arxiv.org/abs/2210.05047v1 )

ライセンス: Link先を確認
Cuong Hoang, Devendra Sachan, Prashant Mathur, Brian Thompson, Marcello Federico(参考訳) 一般ドメインモデルは、推論時に顧客またはドメイン固有の並列データにアクセスするが、トレーニング中はアクセスしないゼロショット適応について検討する。 そこで本研究では,原文に対してトップkドメイン内ファジィマッチングが検出される検索拡張翻訳 (rat) の概念を基礎とし,それらのファジィマッチング文のターゲット言語翻訳を推論時に翻訳モデルに提供した。 本稿では,ソース文とトップkファジィなターゲット言語マッチング間の相互作用を制御し,先行作業のアーキテクチャと比較する新しいアーキテクチャを提案する。 WMTデータのトレーニングモデルを用いて,2つの言語ペア(En-DeとEn-Fr)で実験を行い,それぞれ5と7のマルチドメインデータセットを用いて実験を行った。 我々のアプローチは代替アーキテクチャを一貫して上回り、言語対、ドメイン、および数kのファジィマッチングでBLEUを改善する。

We explore zero-shot adaptation, where a general-domain model has access to customer or domain specific parallel data at inference time, but not during training. We build on the idea of Retrieval Augmented Translation (RAT) where top-k in-domain fuzzy matches are found for the source sentence, and target-language translations of those fuzzy-matched sentences are provided to the translation model at inference time. We propose a novel architecture to control interactions between a source sentence and the top-k fuzzy target-language matches, and compare it to architectures from prior work. We conduct experiments in two language pairs (En-De and En-Fr) by training models on WMT data and testing them with five and seven multi-domain datasets, respectively. Our approach consistently outperforms the alternative architectures, improving BLEU across language pair, domain, and number k of fuzzy matches.
翻訳日:2022-10-12 15:26:46 公開日:2022-10-10
# ハイパーパラメータスケーリング戦略のメタ原理ファミリー

Meta-Principled Family of Hyperparameter Scaling Strategies ( http://arxiv.org/abs/2210.04909v1 )

ライセンス: Link先を確認
Sho Yaida(参考訳) 本稿ではまず,ニューラルタングエントスケーリングと平均場/最大更新スケーリングを補間するハイパーパラメータスケーリング戦略の1パラメータファミリーを導出する。 次に,ネットワーク出力,神経接核,神経接核の微分といった動的観測可能性のスケーリングを,広大かつ深層ニューラルネットワークに対して計算する。 これらの計算は、結果として生じる大規模モデルが表現学習能力を維持するように、深さを幅でスケールする適切な方法を示している。 最後に、文献で検討された様々な無限幅限界は、有限幅ニューラルネットワークの有効理論によってまたがる相互接続されたウェブの異なる隅角に対応し、そのトレーニングダイナミクスは弱結合から強結合まで幅広い。

In this note, we first derive a one-parameter family of hyperparameter scaling strategies that interpolates between the neural-tangent scaling and mean-field/maximal-update scaling. We then calculate the scalings of dynamical observables -- network outputs, neural tangent kernels, and differentials of neural tangent kernels -- for wide and deep neural networks. These calculations in turn reveal a proper way to scale depth with width such that resultant large-scale models maintain their representation-learning ability. Finally, we observe that various infinite-width limits examined in the literature correspond to the distinct corners of the interconnected web spanned by effective theories for finite-width neural networks, with their training dynamics ranging from being weakly-coupled to being strongly-coupled.
翻訳日:2022-10-12 15:18:54 公開日:2022-10-10
# ニューラル画像圧縮におけるオーバーフィットデコーダバイアスによる再構成品質の向上

Improving The Reconstruction Quality by Overfitted Decoder Bias in Neural Image Compression ( http://arxiv.org/abs/2210.04898v1 )

ライセンス: Link先を確認
Oussama Jourairi, Muhammet Balcilar, Anne Lambert, Fran\c{c}ois Schnitzler(参考訳) エンドツーエンドのトレーニング可能なモデルは、ビデオや画像の従来の手作り圧縮技術のパフォーマンスに到達した。 これらのモデルのパラメータは大きなトレーニングセットで学習されるため、任意の画像が圧縮されるのに最適ではない。 本稿では,デコーダのバイアスのサブセットをインスタンスベースで微調整することで,余分な符号化時間とわずかな追加信号コストと引き換えに再構成品質を向上させることを提案する。 提案手法は,どのエンドツーエンド圧縮手法にも適用可能であり,最先端のニューラルイメージ圧縮BD-rateを3-5\%$で改善する。

End-to-end trainable models have reached the performance of traditional handcrafted compression techniques on videos and images. Since the parameters of these models are learned over large training sets, they are not optimal for any given image to be compressed. In this paper, we propose an instance-based fine-tuning of a subset of decoder's bias to improve the reconstruction quality in exchange for extra encoding time and minor additional signaling cost. The proposed method is applicable to any end-to-end compression methods, improving the state-of-the-art neural image compression BD-rate by $3-5\%$.
翻訳日:2022-10-12 15:17:50 公開日:2022-10-10
# パーティクルブリーフMDP近似による連続観測PMDPの一般化最適保証

Generalized Optimality Guarantees for Solving Continuous Observation POMDPs through Particle Belief MDP Approximation ( http://arxiv.org/abs/2210.05015v1 )

ライセンス: Link先を確認
Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。 近年のオンラインサンプリングベースのpomdpアルゴリズムは, 観測可能性の重み付けにより実用的効果を示しているが, これらのアルゴリズムが用いる粒子フィルタリング手法の近似誤差を限定した一般理論は提案されていない。 我々の主な貢献は、有限サンプル粒子信念MDP(PB-MDP)近似における最適性が元のPOMDPの最適性を保証することを正式に正当化することである。 PB-MDP と POMDP の基本的なブリッジは、対応する粒子信念 MDP 近似を解き、POMDP の収束保証を保ち、サンプリングに基づく任意の MDP アルゴリズムを POMDP に適用することができる。 実際にこれは、観測密度モデルへのアクセスを仮定し、単に状態遷移生成モデルを粒子フィルタリングモデルに置き換えるだけで、計算複雑性は$\mathcal{O}(C)$で$C$の粒子の数は$C$になる。 pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。

Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory bounding the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is to formally justify that optimality guarantees in a finite sample particle belief MDP (PB-MDP) approximation of a POMDP/belief MDP yields optimality guarantees in the original POMDP as well. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm of choice to a POMDP by solving the corresponding particle belief MDP approximation and preserve the convergence guarantees in the POMDP. Practically, this means additionally assuming access to the observation density model, and simply swapping out the state transition generative model with a particle filtering-based model, which only increases the computational complexity by a factor of $\mathcal{O}(C)$, with $C$ the number of particles in a particle belief state. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
翻訳日:2022-10-12 14:54:57 公開日:2022-10-10
# FEAMOE: 専門家の公正で説明可能な、適応的な混合

FEAMOE: Fair, Explainable and Adaptive Mixture of Experts ( http://arxiv.org/abs/2210.04995v1 )

ライセンス: Link先を確認
Shubham Sharma, Jette Henderson, Joydeep Ghosh(参考訳) 高スループット環境にデプロイされた信頼できる機械学習モデルに望まれる3つの重要な特性は、公平性、説明可能性、さまざまな種類の「ドリフト」を考慮できる能力である。 モデル精度のドリフト(例:共変量シフトによるドリフト)は広く研究されているが、フェアネスメトリクスのドリフトはほとんど未調査のままである。 本稿では,FEAMOEを提案する。FEAMOEは,より公平に学習し,より説明可能な,解釈可能なモデルであり,分類器の精度と公平性の両方において,ドリフトに迅速に適応できるフレームワークである。 我々は,この3つのフェアネス尺度の枠組みを説明し,これらのフェアネス制約に対してドリフトがどのように扱われるかを示す。 複数のデータセットにおける実験により、線形エキスパートの混合に適用されたフレームワークは、より公平なモデルを作成しながら、精度の面でニューラルネットワークに比較可能であることが示されている。 次に、大規模HMDAデータセットを用いて、HMDAでトレーニングされた様々なモデルが、精度と公平性の両方に関してドリフトを示す一方で、FEAMOEは、考慮された公正性対策のすべてに関してこれらのドリフトを適切に処理でき、モデル精度も維持できることを示す。 また,提案フレームワークは高速なShapley値記述を可能とし,FEAMOEで利用可能なモデル決定について,計算効率の良い特徴属性に基づく説明を行う。

Three key properties that are desired of trustworthy machine learning models deployed in high-stakes environments are fairness, explainability, and an ability to account for various kinds of "drift". While drifts in model accuracy, for example due to covariate shift, have been widely investigated, drifts in fairness metrics over time remain largely unexplored. In this paper, we propose FEAMOE, a novel "mixture-of-experts" inspired framework aimed at learning fairer, more explainable/interpretable models that can also rapidly adjust to drifts in both the accuracy and the fairness of a classifier. We illustrate our framework for three popular fairness measures and demonstrate how drift can be handled with respect to these fairness constraints. Experiments on multiple datasets show that our framework as applied to a mixture of linear experts is able to perform comparably to neural networks in terms of accuracy while producing fairer models. We then use the large-scale HMDA dataset and show that while various models trained on HMDA demonstrate drift with respect to both accuracy and fairness, FEAMOE can ably handle these drifts with respect to all the considered fairness measures and maintain model accuracy as well. We also prove that the proposed framework allows for producing fast Shapley value explanations, which makes computationally efficient feature attribution based explanations of model decisions readily available via FEAMOE.
翻訳日:2022-10-12 14:54:27 公開日:2022-10-10
# NLPと機械学習を用いたソーシャルメディアの個人イベント通知

Social Media Personal Event Notifier Using NLP and Machine Learning ( http://arxiv.org/abs/2210.05001v1 )

ライセンス: Link先を確認
Pavithiran G, Sharan Padmanabhan, Ashwin Kumar BR, Vetriselvi A(参考訳) ソーシャルメディアのアプリは非常に有望で、日常的に広く使われている。 ほとんどのソーシャルメディアアプリは、近くや遠くの人々に重要な情報を提供するために使われている。 生活がよりヘキになればなるほど、ソーシャルメディアアプリの利用を制限しようと努力する人も多くなり、ほとんどの人は日々の生活に夢中になっている。 このため、結婚式の招待状、インタビュー、誕生日パーティーなど重要な情報を見落としたり、イベントに出席できないことを発見したりすることがしばしばある。 多くの場合、これはユーザーがイベントの前に招待状や情報を見つけやすくなり、準備する時間がほとんどないために起こる。 そこで本研究では,自然言語処理(NLP)手法であるTokenization, Stop Words removal, Lemmatization, Segmentation, Named Entity Recognition (NER)を用いて,ソーシャルメディアチャットの収集とフィルタリングを行うシステムを開発した。 また、K-Nearest Neighbor(KNN)アルゴリズムのような機械学習アルゴリズムは、受信した招待を優先し、優先度のレベルをソートするために実装される。 最後に、カスタマイズされた通知が、今後のイベントを認識したユーザに配信される。 したがって、イベントを見逃す可能性は低いか、あるいは計画できる。

Social media apps have become very promising and omnipresent in daily life. Most social media apps are used to deliver vital information to those nearby and far away. As our lives become more hectic, many of us strive to limit our usage of social media apps because they are too addictive, and the majority of us have gotten preoccupied with our daily lives. Because of this, we frequently overlook crucial information, such as invitations to weddings, interviews, birthday parties, etc., or find ourselves unable to attend the event. In most cases, this happens because users are more likely to discover the invitation or information only before the event, giving them little time to prepare. To solve this issue, in this study, we created a system that will collect social media chat and filter it using Natural Language Processing (NLP) methods like Tokenization, Stop Words Removal, Lemmatization, Segmentation, and Named Entity Recognition (NER). Also, Machine Learning Algorithms such as K-Nearest Neighbor (KNN) Algorithm are implemented to prioritize the received invitation and to sort the level of priority. Finally, a customized notification will be delivered to the users where they acknowledge the upcoming event. So, the chances of missing the event are less or can be planned.
翻訳日:2022-10-12 14:47:31 公開日:2022-10-10
# きめ細かいフレームサンプリングによるコントラスト映像言語学習

Contrastive Video-Language Learning with Fine-grained Frame Sampling ( http://arxiv.org/abs/2210.05039v1 )

ライセンス: Link先を確認
Zixu Wang, Yujie Zhong, Yishu Miao, Lin Ma, Lucia Specia(参考訳) ビデオと言語表現学習の最近の進歩にもかかわらず、この2つのモダリティ間の弱いあるいは疎い対応は、この分野のボトルネックのままである。 ほとんどのビデオ言語モデルはペアレベルの損失によってトレーニングされ、ペアのビデオとテキストが一致しているかどうかを予測する。 しかし、一対のビデオテキストセグメントであっても、フレームのサブセットのみが対応するテキストに意味的に関係しており、残りの部分はノイズを表す。 本研究では,ビデオフレーム上で動作する細粒度コントラスト目標を用いて,映像と言語表現をよりよく学習する手法であるファインコ(きめきめのコントラストロス)を提案する。 テキストと意味的に等価なフレームを選択し、クロスモーダル対応を改善することで、ビデオの分割を支援する。 FineCoは、よく確立されたVideoCLIPモデルを出発点として構築し、長いビデオを含むテキストビデオ検索ベンチマークであるYouCookIIの最先端のパフォーマンスを達成する。 FineCoはテキストビデオ検索(MSR-VTT)と短いビデオによるビデオ質問応答データセット(MSR-VTT QAとMSR-VTT MC)の競争結果も達成している。

Despite recent progress in video and language representation learning, the weak or sparse correspondence between the two modalities remains a bottleneck in the area. Most video-language models are trained via pair-level loss to predict whether a pair of video and text is aligned. However, even in paired video-text segments, only a subset of the frames are semantically relevant to the corresponding text, with the remainder representing noise; where the ratio of noisy frames is higher for longer videos. We propose FineCo (Fine-grained Contrastive Loss for Frame Sampling), an approach to better learn video and language representations with a fine-grained contrastive objective operating on video frames. It helps distil a video by selecting the frames that are semantically equivalent to the text, improving cross-modal correspondence. Building on the well established VideoCLIP model as a starting point, FineCo achieves state-of-the-art performance on YouCookII, a text-video retrieval benchmark with long videos. FineCo also achieves competitive results on text-video retrieval (MSR-VTT), and video question answering datasets (MSR-VTT QA and MSR-VTT MC) with shorter videos.
翻訳日:2022-10-12 14:47:10 公開日:2022-10-10
# DeepPerform: リソース制約ニューラルネットワークのパフォーマンステストのための効率的なアプローチ

DeepPerform: An Efficient Approach for Performance Testing of Resource-Constrained Neural Networks ( http://arxiv.org/abs/2210.05370v1 )

ライセンス: Link先を確認
Simin Chen, Mirazul Haque, Cong Liu, Wei Yang(参考訳) 今日では、リソース制約された組み込みデバイスでAdNN(Adaptive Deep Neural Networks)が増えている。 従来のソフトウェアと同様に、冗長な計算はadnnに存在し、結果としてパフォーマンスが大幅に低下する。 パフォーマンスの低下は入力に依存し、入力依存のパフォーマンスボトルネック(idpbs)と呼ばれる。 AdNNがリソース制約のあるアプリケーションのパフォーマンス要件を満たすためには、AdNN内のIDPBを検出するためにパフォーマンステストを実行することが不可欠である。 既存のニューラルネットワークテスト手法は主に、パフォーマンステストを必要としない正確性テストに関係している。 このギャップを埋めるために,AdNNのIDPBを検出するためのテストサンプルを生成するスケーラブルなアプローチであるDeepPerformを提案する。 まず,IDPBを検出する性能試験の問題を最適化問題として定式化する方法を示す。 次に,adnnの計算量分布を学習し,推定することにより,deepperformが最適化問題を効率的に処理することを示す。 一般的な5つのAdNNモデルに対して,広く使用されている3つのデータセット上でDeepPerformを評価する。 結果は、DeepPerformがより深刻なパフォーマンス劣化(FLOP: up up to 552\%)を引き起こすテストサンプルを生成することを示している。 さらに、deepperformは、テスト入力(実行時のオーバーヘッド:わずか6~10ミリ秒)を生成するベースラインメソッドよりもはるかに効率的である。

Today, an increasing number of Adaptive Deep Neural Networks (AdNNs) are being used on resource-constrained embedded devices. We observe that, similar to traditional software, redundant computation exists in AdNNs, resulting in considerable performance degradation. The performance degradation is dependent on the input and is referred to as input-dependent performance bottlenecks (IDPBs). To ensure an AdNN satisfies the performance requirements of resource-constrained applications, it is essential to conduct performance testing to detect IDPBs in the AdNN. Existing neural network testing methods are primarily concerned with correctness testing, which does not involve performance testing. To fill this gap, we propose DeepPerform, a scalable approach to generate test samples to detect the IDPBs in AdNNs. We first demonstrate how the problem of generating performance test samples detecting IDPBs can be formulated as an optimization problem. Following that, we demonstrate how DeepPerform efficiently handles the optimization problem by learning and estimating the distribution of AdNNs' computational consumption. We evaluate DeepPerform on three widely used datasets against five popular AdNN models. The results show that DeepPerform generates test samples that cause more severe performance degradation (FLOPs: increase up to 552\%). Furthermore, DeepPerform is substantially more efficient than the baseline methods in generating test inputs(runtime overhead: only 6-10 milliseconds).
翻訳日:2022-10-12 14:44:29 公開日:2022-10-10
# 低用量CT用マスク付きオートエンコーダ

Masked Autoencoders for Low dose CT denoising ( http://arxiv.org/abs/2210.04944v1 )

ライセンス: Link先を確認
Dayang Wang, Yongshun Xu, Shuo Han, Hengyong Yu(参考訳) 低線量CT(LDCT)はX線放射を低減させるが、より多くのノイズやアーティファクトで画質を損なう。 近年,LDCT画像の品質向上のため,多くのトランスフォーマーモデルが開発されている。 しかし、トランスモデルの成功は大量のノイズとクリーンなデータに依存しており、臨床応用では利用できないことが多い。 コンピュータビジョンや自然言語処理の分野では、マスク付きオートエンコーダ(mae)が、優れた特徴表現能力のため、トランスフォーマーのラベルフリーな自己予習法として提案されている。 本稿では,従来のエンコーダ・デコーダ学習モデルを再設計し,これをLDCT復調問題に適用する。 MAEは、未ラベルデータを活用することができ、地上真実データが欠落している場合にLDCT復調モデルの構造保存を容易にする。 マヨデータセットの実験では、MAEが変圧器の性能を向上し、地上の真理データへの依存を緩和できることが示された。

Low-dose computed tomography (LDCT) reduces the X-ray radiation but compromises image quality with more noises and artifacts. A plethora of transformer models have been developed recently to improve LDCT image quality. However, the success of a transformer model relies on a large amount of paired noisy and clean data, which is often unavailable in clinical applications. In computer vision and natural language processing fields, masked autoencoders (MAE) have been proposed as an effective label-free self-pretraining method for transformers, due to its excellent feature representation ability. Here, we redesign the classical encoder-decoder learning model to match the denoising task and apply it to LDCT denoising problem. The MAE can leverage the unlabeled data and facilitate structural preservation for the LDCT denoising model when ground truth data are missing. Experiments on the Mayo dataset validate that the MAE can boost the transformer's denoising performance and relieve the dependence on the ground truth data.
翻訳日:2022-10-12 14:35:50 公開日:2022-10-10
# f-DM:進行信号変換による多段階拡散モデル

f-DM: A Multi-stage Diffusion Model via Progressive Signal Transformation ( http://arxiv.org/abs/2210.04955v1 )

ライセンス: Link先を確認
Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Miguel Angel Bautista, Josh Susskind(参考訳) 拡散モデル (dms) は様々な領域における生成モデリングのための sota ツールとして最近登場した。 標準DMは階層的変分オートエンコーダ(VAE)のインスタンス化と見なすことができ、従属変数は一定のスケールと分散を持つ入力中心ガウス分布から推定される。 VAEとは異なり、この定式化はDMが潜在空間の変更や抽象表現の学習を制限している。 本研究では,プログレッシブ信号変換が可能な一般化されたDMファミリであるf-DMを提案する。 より正確には、dmsを拡張して、変換された入力が各拡散ステップの平均となる一連の(手設計または学習された)変換を組み込む。 一般化された定式化を提案し、改良されたサンプリングアルゴリズムを用いて対応する雑音除去対象を導出する。 実演として,事前学習されたvaesのエンコーダに基づくダウンサンプリング,ぼかし,学習変換など,さまざまな機能を備えた画像生成タスクにf-dmを適用する。 また,信号のサブサンプリング時にノイズレベルを調整することの重要性を認識し,簡易な再スケーリング手法を提案する。 f-DMはFFHQ、AFHQ、LSUN、ImageNetなどの標準画像生成ベンチマーク上で、効率性とセマンティックな解釈により高品質なサンプルを生成することができる。

Diffusion models (DMs) have recently emerged as SoTA tools for generative modeling in various domains. Standard DMs can be viewed as an instantiation of hierarchical variational autoencoders (VAEs) where the latent variables are inferred from input-centered Gaussian distributions with fixed scales and variances. Unlike VAEs, this formulation limits DMs from changing the latent spaces and learning abstract representations. In this work, we propose f-DM, a generalized family of DMs which allows progressive signal transformation. More precisely, we extend DMs to incorporate a set of (hand-designed or learned) transformations, where the transformed input is the mean of each diffusion step. We propose a generalized formulation and derive the corresponding de-noising objective with a modified sampling algorithm. As a demonstration, we apply f-DM in image generation tasks with a range of functions, including down-sampling, blurring, and learned transformations based on the encoder of pretrained VAEs. In addition, we identify the importance of adjusting the noise levels whenever the signal is sub-sampled and propose a simple rescaling recipe. f-DM can produce high-quality samples on standard image generation benchmarks like FFHQ, AFHQ, LSUN, and ImageNet with better efficiency and semantic interpretation.
翻訳日:2022-10-12 14:35:32 公開日:2022-10-10
# 関数空間正規化 r\'enyi divergences

Function-space regularized R\'enyi divergences ( http://arxiv.org/abs/2210.04974v1 )

ライセンス: Link先を確認
Jeremiah Birrell, Yannis Pantazis, Paul Dupuis, Markos A. Katsoulakis, Luc Rey-Bellet(参考訳) 正規化 r\'enyi divergences の新たな族は、$\alpha$ の順序だけでなく、変分関数空間によってもパラメトリゼーションされる。 これらの新しい対象は、選択された函数空間に付随する積分確率計量(IPM)と標準 R'enyi 分岐の不完全畳み込みをとることによって定義される。 本稿では, 数値的にトラクタブルな分散推定器を構築するのに使用できる新しい双対変分表現を導出する。 この表現はリスクに敏感な用語を回避し、従って低い分散を示すため、$\alpha>1$の場合にはよく理解される。 これらの新しい発散のいくつかの性質を証明し、古典的な R'enyi 発散と IPM との補間を示す。 また、$\alpha\to\infty$ limitも検討し、これは古典的な場合において、正規化された最悪のケース-regretと新しい変分表現をもたらす。 さらに,提案する正規化 r\'enyi の発散は,ipm から完全連続ではない分布,例えば経験的測度や低次元支援のある分布を比較できるような特徴を継承していることを示す。 本研究では,合成データと実データの両方について数値的な結果を示し,推定とgan訓練の両方において,これら新たな多様性の有用性を示し,特に分散の低減とトレーニング性能の向上を実証した。

We propose a new family of regularized R\'enyi divergences parametrized not only by the order $\alpha$ but also by a variational function space. These new objects are defined by taking the infimal convolution of the standard R\'enyi divergence with the integral probability metric (IPM) associated with the chosen function space. We derive a novel dual variational representation that can be used to construct numerically tractable divergence estimators. This representation avoids risk-sensitive terms and therefore exhibits lower variance, making it well-behaved when $\alpha>1$; this addresses a notable weakness of prior approaches. We prove several properties of these new divergences, showing that they interpolate between the classical R\'enyi divergences and IPMs. We also study the $\alpha\to\infty$ limit, which leads to a regularized worst-case-regret and a new variational representation in the classical case. Moreover, we show that the proposed regularized R\'enyi divergences inherit features from IPMs such as the ability to compare distributions that are not absolutely continuous, e.g., empirical measures and distributions with low-dimensional support. We present numerical results on both synthetic and real datasets, showing the utility of these new divergences in both estimation and GAN training applications; in particular, we demonstrate significantly reduced variance and improved training performance.
翻訳日:2022-10-12 14:27:19 公開日:2022-10-10
# データ拡張の善、悪、悪の側面:暗黙のスペクトル正規化の観点から

The good, the bad and the ugly sides of data augmentation: An implicit spectral regularization perspective ( http://arxiv.org/abs/2210.05021v1 )

ライセンス: Link先を確認
Chi-Heng Lin, Chiraag Kaushik, Eva L. Dyer, Vidya Muthukumar(参考訳) データ拡張(da)は、現代の機械学習のパフォーマンスを高める強力なワークホースである。 コンピュータビジョンにおける翻訳やスケーリングのような特定の拡張は、伝統的に同じ分布から新しい(人工)データを生成することによって一般化を改善すると考えられている。 しかし、この伝統的な視点は、トレーニングデータ分布を大きく変える現代の機械学習(ランダム化マスキング、カットアウト、ミックスアップなど)における一般的な拡張の成功を説明できない。 本研究では,DAの一般クラスが過度パラメータ化および過度パラメータ化線形モデル一般化に与える影響を特徴付ける新しい理論フレームワークを開発する。 daは2つの異なる効果の組み合わせによって暗黙のスペクトル正規化を誘導する。 a)データ共分散行列の固有値の相対比率を訓練データに依存して操作すること b) リッジ回帰によるデータ共分散行列のスペクトル全体を均一に増加させる。 これらの効果は、一般的な拡張に適用すると、過小パラメータと過小パラメータのレジームの一般化における不一致や、回帰と分類のタスクの違いなど、幅広い現象をもたらす。 本フレームワークは,DAの一般化に対する微妙な影響と,時として驚くべき影響を強調し,新しい拡張設計のためのテストベッドとして機能する。

Data augmentation (DA) is a powerful workhorse for bolstering performance in modern machine learning. Specific augmentations like translations and scaling in computer vision are traditionally believed to improve generalization by generating new (artificial) data from the same distribution. However, this traditional viewpoint does not explain the success of prevalent augmentations in modern machine learning (e.g. randomized masking, cutout, mixup), that greatly alter the training data distribution. In this work, we develop a new theoretical framework to characterize the impact of a general class of DA on underparameterized and overparameterized linear model generalization. Our framework reveals that DA induces implicit spectral regularization through a combination of two distinct effects: a) manipulating the relative proportion of eigenvalues of the data covariance matrix in a training-data-dependent manner, and b) uniformly boosting the entire spectrum of the data covariance matrix through ridge regression. These effects, when applied to popular augmentations, give rise to a wide variety of phenomena, including discrepancies in generalization between over-parameterized and under-parameterized regimes and differences between regression and classification tasks. Our framework highlights the nuanced and sometimes surprising impacts of DA on generalization, and serves as a testbed for novel augmentation design.
翻訳日:2022-10-12 14:26:53 公開日:2022-10-10
# 環境対応言語モデルを用いた実行可能行動計画の生成

Generating Executable Action Plans with Environmentally-Aware Language Models ( http://arxiv.org/abs/2210.04964v1 )

ライセンス: Link先を確認
Maitrey Gramopadhye, Daniel Szafir(参考訳) 大量のテキストデータセットを使用してトレーニングされた大規模言語モデル(LLM)は、最近、ハイレベルテキストクエリからロボットエージェントのアクションプランを生成することを約束している。 しかしながら、これらのモデルは通常ロボットの環境を考慮せず、結果として計画された行動や環境制約の曖昧さのために実際に実行できないような計画が生成される。 本稿では,実行可能エージェントアクションに直接マッピング可能な環境対応アクションプランを生成する手法を提案する。 本手法では,環境オブジェクトとオブジェクトの関係をLLMアクションプラン生成に付加的な入力として統合し,環境に対する意識をシステムに提供し,各アクションをシーンに存在するオブジェクトにマッピングする計画を作成する。 また、アクションステップを生成してオブジェクトと関連付けるとともに、システムがオブジェクトインスタンス間で曖昧にし、状態を考慮するのに役立つ新しいスコアリング関数を設計する。 我々はVirtualHomeシミュレータとActivityProgramsナレッジベースを用いたアプローチの評価を行った。 その結果,我々のシステムから生成された行動プランは,その正しさと実行可能性でそれぞれ5.3%,実行可能性が8.9%向上した。

Large Language Models (LLMs) trained using massive text datasets have recently shown promise in generating action plans for robotic agents from high level text queries. However, these models typically do not consider the robot's environment, resulting in generated plans that may not actually be executable due to ambiguities in the planned actions or environmental constraints. In this paper, we propose an approach to generate environmentally-aware action plans that can be directly mapped to executable agent actions. Our approach involves integrating environmental objects and object relations as additional inputs into LLM action plan generation to provide the system with an awareness of its surroundings, resulting in plans where each generated action is mapped to objects present in the scene. We also design a novel scoring function that, along with generating the action steps and associating them with objects, helps the system disambiguate among object instances and take into account their states. We evaluate our approach using the VirtualHome simulator and the ActivityPrograms knowledge base. Our results show that the action plans generated from our system outperform prior work in terms of their correctness and executability by 5.3% and 8.9% respectively.
翻訳日:2022-10-12 14:19:34 公開日:2022-10-10
# OptFormerによるハイパーパラメータ自動最適化の多段階計画

Multi-step Planning for Automated Hyperparameter Optimization with OptFormer ( http://arxiv.org/abs/2210.04971v1 )

ライセンス: Link先を確認
Lucio M. Dery, Abram L. Friesen, Nando De Freitas, Marc'Aurelio Ranzato, Yutian Chen(参考訳) 機械学習がより多くの業界に浸透し、モデルがより高価になり、トレーニングに時間がかかり、自動化されたハイパーパラメータ最適化(HPO)の必要性は、これまで以上に強まっていた。 マルチステップ計画に基づくハイパーパラメータ最適化アプローチは、探索とエクスプロイトをより効果的にバランスさせることで、ミオピック代替よりも効率を向上する。 しかし、これらの手法のポテンシャルは、その技術的複雑さと計算強度のために完全には実現されていない。 本研究では,トランスフォーマーを用いた自然言語インタフェースハイパーパラメータ最適化の最近の進歩を活用し,これらの障壁を回避する。 我々は,ハイパーパラメータ提案と目標関数近似の両方を自己回帰生成としてキャスティングし,ロールアウトによるプランニングをシンプルかつ効率的なものにする,最近提案された optformer の上に構築する。 我々は、OptFormerモデル上で多段階計画を行うための様々な戦略を広範囲に探索し、非筋電図HPO戦略の構築におけるその可能性を強調する。

As machine learning permeates more industries and models become more expensive and time consuming to train, the need for efficient automated hyperparameter optimization (HPO) has never been more pressing. Multi-step planning based approaches to hyperparameter optimization promise improved efficiency over myopic alternatives by more effectively balancing out exploration and exploitation. However, the potential of these approaches has not been fully realized due to their technical complexity and computational intensity. In this work, we leverage recent advances in Transformer-based, natural-language-interfaced hyperparameter optimization to circumvent these barriers. We build on top of the recently proposed OptFormer which casts both hyperparameter suggestion and target function approximation as autoregressive generation thus making planning via rollouts simple and efficient. We conduct extensive exploration of different strategies for performing multi-step planning on top of the OptFormer model to highlight its potential for use in constructing non-myopic HPO strategies.
翻訳日:2022-10-12 14:18:41 公開日:2022-10-10
# Multi-CLS BERT: 従来の組立のオルタナティブな代替品

Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling ( http://arxiv.org/abs/2210.05043v1 )

ライセンス: Link先を確認
Haw-Shiuan Chang, Ruei-Yao Sun, Kathryn Ricci, Andrew McCallum(参考訳) BERTモデルを組み込むことで精度が大幅に向上するが、計算量やメモリフットプリントが大幅に向上する。 本研究では,1つのBERTモデルとほぼ同等の効率で,CLSに基づく予測タスクの新たなアンサンブル手法であるMulti-CLS BERTを提案する。 Multi-CLS BERTはパラメータ化と目的を持つ複数のCLSトークンを使用し、多様性を促進する。 したがって、各BERTモデルをアンサンブルで微調整する(そして、すべてテスト時に実行する)代わりに、単一のMulti-CLS BERTモデルのみを微調整する(そして、テスト時に1つのモデルを実行し、複数の最終CLS埋め込みをアンサンブルする)。 提案手法の有効性を検証するため, BERT (Aroca-Ouellette and Rudzicz, 2020) の最先端事前訓練法上に Multi-CLS BERT を構築した。 GLUEとSuperGLUEの実験では、Multi-CLS BERTは全体的な精度と信頼性の両方を確実に改善することを示した。 GLUEで100のトレーニングサンプルしか入手できない場合、Multi-CLS BERT_Baseモデルは対応するBERT_Largeモデルよりも優れている。 我々は,Multi-CLS BERTの動作を分析し,通常のBERT 5-wayアンサンブルと同じ特性と動作を多く持つが,計算量とメモリ量が4倍近く少ないことを示す。

Ensembling BERT models often significantly improves accuracy, but at the cost of significantly more computation and memory footprint. In this work, we propose Multi-CLS BERT, a novel ensembling method for CLS-based prediction tasks that is almost as efficient as a single BERT model. Multi-CLS BERT uses multiple CLS tokens with a parameterization and objective that encourages their diversity. Thus instead of fine-tuning each BERT model in an ensemble (and running them all at test time), we need only fine-tune our single Multi-CLS BERT model (and run the one model at test time, ensembling just the multiple final CLS embeddings). To test its effectiveness, we build Multi-CLS BERT on top of a state-of-the-art pretraining method for BERT (Aroca-Ouellette and Rudzicz, 2020). In experiments on GLUE and SuperGLUE we show that our Multi-CLS BERT reliably improves both overall accuracy and confidence estimation. When only 100 training samples are available in GLUE, the Multi-CLS BERT_Base model can even outperform the corresponding BERT_Large model. We analyze the behavior of our Multi-CLS BERT, showing that it has many of the same characteristics and behavior as a typical BERT 5-way ensemble, but with nearly 4-times less computation and memory.
翻訳日:2022-10-12 14:12:06 公開日:2022-10-10
# 医用画像の深層学習のためのドメイン誘導型データ拡張

Domain-guided data augmentation for deep learning on medical imaging ( http://arxiv.org/abs/2210.04977v1 )

ライセンス: Link先を確認
Chinmayee Athalye, Rima Arnaout(参考訳) ドメイン固有のデータ拡張は、医療画像タスクのためのニューラルネットワークのトレーニングに有用であるが、そのような技術は、これまで広く使われていなかった。 本稿では, 胎児超音波-125およびob-125データセットのビュー分類を用いて, 領域特異的データ拡張が医用画像診断に有用かどうかを検証した。 その結果、文脈保存型カットペースト戦略を用いて、ベンチマークテストデータセット上で得られたトレーニングモデルのパフォーマンスから、有効なトレーニングデータを作成することができた。 オンライン方式で使用する場合、このデータに基づいてトレーニングされたモデルは、従来のデータ拡張(FETAL-125 F-score 85.33+/-0.24 vs 86.89+/-0.60, p-value 0.0139; OB-125 F-score 74.60+/-0.11 vs 72.43+/-0.62, p-value 0.0039)と同様に実行される。 さらに、トレーニング期間中に拡張を行う能力や、選択した拡張をデータクラス間で等しく適用する能力は、データ拡張の設計において重要な考慮事項である。 最後に、我々は、オンライン形式でのbespokeデータ拡張の実行を容易にするオープンソースコードを提供する。 まとめると、この研究は、医療画像のタスクにドメイン誘導データ拡張を設計および適用する能力を拡大する。

While domain-specific data augmentation can be useful in training neural networks for medical imaging tasks, such techniques have not been widely used to date. Here, we test whether domain-specific data augmentation is useful for medical imaging using a well-benchmarked task: view classification on fetal ultrasound FETAL-125 and OB-125 datasets. We found that using a context-preserving cut-paste strategy, we could create valid training data as measured by performance of the resulting trained model on the benchmark test dataset. When used in an online fashion, models trained on this data performed similarly to those trained using traditional data augmentation (FETAL-125 F-score 85.33+/-0.24 vs 86.89+/-0.60, p-value 0.0139; OB-125 F-score 74.60+/-0.11 vs 72.43+/-0.62, p-value 0.0039). Furthermore, the ability to perform augmentations during training time, as well as the ability to apply chosen augmentations equally across data classes, are important considerations in designing a bespoke data augmentation. Finally, we provide open-source code to facilitate running bespoke data augmentations in an online fashion. Taken together, this work expands the ability to design and apply domain-guided data augmentations for medical imaging tasks.
翻訳日:2022-10-12 14:10:17 公開日:2022-10-10
# 自己教師あり学習による心筋超音波からのラベルなしセグメンテーション

Label-free segmentation from cardiac ultrasound using self-supervised learning ( http://arxiv.org/abs/2210.04979v1 )

ライセンス: Link先を確認
Danielle L. Ferreira, Zaynaf Salaymang, Rima Arnaout(参考訳) 背景: 心室の分別と測定は心エコー検査において重要であるが, 困難で再現性に乏しい。 ニューラルネットワークは補助できるが、教師なしのアプローチは、これまで超音波が不十分だったのに対して、教師なしのアプローチは、同じ面倒な手動アノテーションを必要とする。 目的: コンピュータビジョン,臨床領域知識,深層学習を組み合わせることで,心臓室内の自己監視(手動ラベル不要)のためのパイプラインを構築した。 方法: 450枚の心エコー図(145,000枚の画像)を訓練し, 8,393枚の心エコー図(4,476,266枚の画像,平均年齢61歳,51%)を用いて実験を行った。 また,左室を手動で追跡した10,030例(20,060例)の外部画像に対して,パイプラインを試験した。 結果: 臨床測定値とパイプライン予測値の r2 は, LVESV と LVEDV (Pipeline vs. Clinical r2=0.74, r2=0.65), LVEF と LV mass (r2=0.46, r2=0.54), 左右心房容積 (r2=0.7, r2=0.6), 右心室面積 (r2=0.47) と類似した。 正常群と異常群に分けた場合,平均精度は0.81(範囲0.71-0.95)であった。 テスト心エコー図(n=553)のサブセットは、対応する心臓MRIを有し、パイプラインとCMRの相関は、臨床心エコーとCMRと類似していた。 最後に、外部データセットでは、パイプラインが左室を0.83(95% ci 0.83)の平均サイコロスコアで正確に区分する。 結論: この結果は, 超音波からのセグメンテーションのための, 人間のラベルのない, 有効な, スケーラブルな手法であることを示す。

Background: Segmentation and measurement of cardiac chambers is critical in echocardiography but is also laborious and poorly reproducible. Neural networks can assist, but supervised approaches require the same laborious manual annotations, while unsupervised approaches have fared poorly in ultrasound to date. Objectives: We built a pipeline for self-supervised (no manual labels required) segmentation of cardiac chambers, combining computer vision, clinical domain knowledge, and deep learning. Methods: We trained on 450 echocardiograms (145,000 images) and tested on 8,393 echocardiograms (4,476,266 images; mean age 61 years, 51% female), using the resulting segmentations to calculate structural and functional measurements. We also tested our pipeline against external images from an additional 10,030 patients (20,060 images) with available manual tracings of the left ventricle. Results: r2 between clinically measured and pipeline-predicted measurements were similar to reported inter-clinician variation for LVESV and LVEDV (pipeline vs. clinical r2= 0.74 and r2=0.65, respectively), LVEF and LV mass (r2= 0.46 and r2=0.54), left and right atrium volumes (r2=0.7 and r2=0.6), and right ventricle area (r2=0.47). When binarized into normal vs. abnormal categories, average accuracy was 0.81 (range 0.71-0.95). A subset of the test echocardiograms (n=553) had corresponding cardiac MRI; correlation between pipeline and CMR measurements was similar to that between clinical echocardiogram and CMR. Finally, in the external dataset, our pipeline accurately segments the left ventricle with an average Dice score of 0.83 (95% CI 0.83). Conclusions: Our results demonstrate a human-label-free, valid, and scalable method for segmentation from ultrasound, a noisy but globally important imaging modality.
翻訳日:2022-10-12 14:09:47 公開日:2022-10-10
# graph2vid: マルチステップローカライズのためのビデオグラウンドへのフローグラフ

Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step Localization ( http://arxiv.org/abs/2210.04996v1 )

ライセンス: Link先を確認
Nikita Dvornik, Isma Hadji, Hai Pham, Dhaivat Bhatt, Brais Martinez, Afsaneh Fazly, Allan D. Jepson(参考訳) 本研究では,教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題について考察する。 この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。 しかし、実際には、手順のセットをわずかに異なる順序で追従することで、手続きを成功させる方法が複数存在することが多い。 したがって、所定のビデオでのローカライズを成功させるためには、最近の作品では、トレーニングとテストの両方の時間に人間の注釈によって提供されるビデオの手続きステップの実際の順序が必要となる。 ここでは、特定のビデオに縛られていない一般的な手続きテキストにのみ依存します。 命令のリストをステップの部分順序をキャプチャするプロシージャフローグラフに変換することにより、手順を完了するための様々な方法を表現する。 フローグラフを使用することで、トレーニングとテスト時間のアノテーションの要求が軽減される。 この目的のために,ビデオグラウンドにフローグラフの新たな問題を導入する。 このセットアップでは,プロシージャフローグラフと所定のビデオに整合した最適なステップ順序を求める。 この問題を解決するために,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズム,Graph2Vidを提案する。 提案手法の利点を示すために,クロスタスクデータセットを手続きフローグラフ情報とともに拡張する。 実験の結果、Graph2Vidはベースラインよりも効率的であり、ステップ順アノテーションを必要とせず、強力なステップローカライゼーション結果が得られることがわかった。

In this work, we consider the problem of weakly-supervised multi-step localization in instructional videos. An established approach to this problem is to rely on a given list of steps. However, in reality, there is often more than one way to execute a procedure successfully, by following the set of steps in slightly varying orders. Thus, for successful localization in a given video, recent works require the actual order of procedure steps in the video, to be provided by human annotators at both training and test times. Instead, here, we only rely on generic procedural text that is not tied to a specific video. We represent the various ways to complete the procedure by transforming the list of instructions into a procedure flow graph which captures the partial order of steps. Using the flow graphs reduces both training and test time annotation requirements. To this end, we introduce the new problem of flow graph to video grounding. In this setup, we seek the optimal step ordering consistent with the procedure flow graph and a given video. To solve this problem, we propose a new algorithm - Graph2Vid - that infers the actual ordering of steps in the video and simultaneously localizes them. To show the advantage of our proposed formulation, we extend the CrossTask dataset with procedure flow graph information. Our experiments show that Graph2Vid is both more efficient than the baselines and yields strong step localization results, without the need for step order annotation.
翻訳日:2022-10-12 14:09:03 公開日:2022-10-10
# 火災との戦い--テキスト対ビデオ検索ベンチマークの有効性評価

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks ( http://arxiv.org/abs/2210.05038v1 )

ライセンス: Link先を確認
Pedro Rodriguez, Mahmoud Azab, Becka Silvert, Renato Sanchez, Linzy Labson, Hardik Shah and Seungwhan Moon(参考訳) テキスト記述による膨大なビデオの検索は、重要なマルチモーダル検索タスクである。 テキスト対ビデオ検索のための目的のデータセットが欠如していることから,(1)キャプションをそれぞれのビデオに正の一致として扱うこと,(2)他のすべての動画を負のものとして扱うことで,モデルを評価するためにビデオキャプションデータセットが再設計された。 しかし、この手法は評価中に根本的な欠陥をもたらす:キャプションは元のビデオにのみ関連付けられているため、多くの代替ビデオはキャプションと一致し、偽陰性なキャプションとビデオのペアを生成する。 これらの偽陰性が修正されると、最近の最先端モデルでは25%のリコールポイントが得られ、ベンチマーク自体の有効性を脅かしている。 この問題を診断し緩和するために、683K追加のキャプションビデオペアを注釈してリリースする。 これらを用いて、2つの標準ベンチマーク(MSR-VTTとMSVD)における3つのモデルの有効性スコアを再計算する。 その結果,(1)再計算された指標は,ベストモデルに対して最大25%のリコールポイント,(2)Recall@10の飽和度に近づき,(3)キャプション長(一般性)は正の数に関係しており,(4)検出すべき効果サイズに応じた評価サイズを選択することで,アノテーションコストを軽減できることがわかった。 これらのベンチマークを現在の形で廃止し、将来のテキスト・ビデオ検索ベンチマークに推奨する。

Searching vast troves of videos with textual descriptions is a core multimodal retrieval task. Owing to the lack of a purpose-built dataset for text-to-video retrieval, video captioning datasets have been re-purposed to evaluate models by (1) treating captions as positive matches to their respective videos and (2) all other videos as negatives. However, this methodology leads to a fundamental flaw during evaluation: since captions are marked as relevant only to their original video, many alternate videos also match the caption, which creates false-negative caption-video pairs. We show that when these false negatives are corrected, a recent state-of-the-art model gains 25% recall points -- a difference that threatens the validity of the benchmark itself. To diagnose and mitigate this issue, we annotate and release 683K additional caption-video pairs. Using these, we recompute effectiveness scores for three models on two standard benchmarks (MSR-VTT and MSVD). We find that (1) the recomputed metrics are up to 25% recall points higher for the best models, (2) these benchmarks are nearing saturation for Recall@10, (3) caption length (generality) is related to the number of positives, and (4) annotation costs can be mitigated by choosing evaluation sizes corresponding to desired effect size to detect. We recommend retiring these benchmarks in their current form and make recommendations for future text-to-video retrieval benchmarks.
翻訳日:2022-10-12 14:00:45 公開日:2022-10-10
# 抽出か推測か? 事象時間関係抽出の忠実度向上

Extracting or Guessing? Improving Faithfulness of Event Temporal Relation Extraction ( http://arxiv.org/abs/2210.04992v1 )

ライセンス: Link先を確認
Haoyu Wang, Hongming Zhang, Yuqian Deng, Jacob R. Gardner, Muhao Chen, Dan Roth(参考訳) 本稿では, 2 つの視点から \temprel 抽出モデルの忠実性を改善することを目的とする。 最初の視点は、文脈記述に基づいて真に抽出することである。 そこで本研究では,イベントトリガバイアスと頻繁なラベルバイアスという,2つの重要なトレーニングバイアスの影響を緩和する反事実分析手法を提案する。 また、コンテキスト記述に明示的に重点を置くために、イベント表現にテンス情報を追加します。 第2の視点は、適切な不確実性の推定と、テキストに関係が記述されていない場合の抽出の回避である。 モデル予測カテゴリー分布よりもディリクレ事前のパラメータ化により、正しさ確率のモデル推定を改善し、TempRel予測をより選択的にする。 また、バイアス緩和後のモデル信頼度尺度の再検討に温度スケーリングを用いる。 MATRES, MATRES-DS, TDDiscourseの実験的解析により, このモデルがTempRelと時間軸をSOTA法よりも忠実に抽出することを示した。

In this paper, we seek to improve the faithfulness of \temprel extraction models from two perspectives. The first perspective is to extract genuinely based on contextual description. To achieve this, we propose to conduct counterfactual analysis to attenuate the effects of two significant types of training biases: the event trigger bias and the frequent label bias. We also add tense information into event representations to explicitly place an emphasis on the contextual description. The second perspective is to provide proper uncertainty estimation and abstain from extraction when no relation is described in the text. By parameterization of Dirichlet Prior over the model-predicted categorical distribution, we improve the model estimates of the correctness likelihood and make TempRel predictions more selective. We also employ temperature scaling to recalibrate the model confidence measure after bias mitigation. Through experimental analysis on MATRES, MATRES-DS, and TDDiscourse, we demonstrate that our model extracts TempRel and timelines more faithfully compared to SOTA methods, especially under distribution shifts.
翻訳日:2022-10-12 13:52:40 公開日:2022-10-10
# すべてのエラーが等しくない:階層化されたエラー合成を用いたテキスト生成メトリクスの学習

Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis ( http://arxiv.org/abs/2210.05035v1 )

ライセンス: Link先を確認
Wenda Xu, Yilin Tuan, Yujie Lu, Michael Saxon, Lei Li, William Yang Wang(参考訳) 汎用的で自動的な自然言語生成(nlg)の評価指標を構築することは可能か? 既存の学習メトリクスは不満足に動作するか、あるいは人間の評価データがすでに利用可能になっているタスクに限定される。 本稿では,新たな反復的誤り合成と重度スコアリングパイプラインを活用することで,人間のアノテーションを必要とせず,人間の判断と高い相関性を持つモデルに基づく指標SESCOREを紹介する。 このパイプラインは、生のテキストに一連の妥当な誤りを適用し、人間の判断と補足をシミュレートして重大度ラベルを割り当てる。 我々は,既存の指標に対するスコアと人間の評価との相関性を比較し,sescoreを評価した。 SESCOREは、機械翻訳、画像キャプション、WebNLGテキスト生成など、さまざまなNLGタスクにおいて、以前の教師なしメトリクスよりも優れています。 WMT 20/21 En-De と Zh-En では,SESCORE は人間の判断と平均ケンドール相関を 0.154 から 0.195 に改善した。 SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETと同等のパフォーマンスを達成している。

Is it possible to build a general and automatic natural language generation (NLG) evaluation metric? Existing learned metrics either perform unsatisfactorily or are restricted to tasks where large human rating data is already available. We introduce SESCORE, a model-based metric that is highly correlated with human judgements without requiring human annotation, by utilizing a novel, iterative error synthesis and severity scoring pipeline. This pipeline applies a series of plausible errors to raw text and assigns severity labels by simulating human judgements with entailment. We evaluate SESCORE against existing metrics by comparing how their scores correlate with human ratings. SESCORE outperforms all prior unsupervised metrics on multiple diverse NLG tasks including machine translation, image captioning, and WebNLG text generation. For WMT 20/21 En-De and Zh-En, SESCORE improve the average Kendall correlation with human judgement from 0.154 to 0.195. SESCORE even achieves comparable performance to the best supervised metric COMET, despite receiving no human-annotated training data.
翻訳日:2022-10-12 13:52:21 公開日:2022-10-10
# ニューラルラジアンス場を用いた視覚誘導二足歩行スキルのシム2リアルトランスファー

NeRF2Real: Sim2real Transfer of Vision-guided Bipedal Motion Skills using Neural Radiance Fields ( http://arxiv.org/abs/2210.04932v1 )

ライセンス: Link先を確認
Arunkumar Byravan, Jan Humplik, Leonard Hasenclever, Arthur Brussee, Francesco Nori, Tuomas Haarnoja, Ben Moran, Steven Bohez, Fereshteh Sadeghi, Bojan Vujatovic, and Nicolas Heess(参考訳) 本稿では,リアルな視覚を持つ「野生」シーンと,rgbカメラを用いたアクティブな知覚に依存するポリシーにsim2realアプローチを適用するシステムを提案する。 汎用電話機を用いて収集された静的シーンの短いビデオが与えられたとき、シーンの接触形状とニューラル・ラジアンス・フィールド(nerf)を用いた新しいビュー合成の関数を学習する。 他の動的オブジェクト(例えば、ロボット自身の体、ボール)のレンダリングをオーバーレイすることで、静的シーンのnerfレンダリングを強化します。 その後、物理シミュレータのレンダリングエンジンを用いてシミュレーションが作成され、静的シーン幾何学(NeRF体積密度から推定される)と動的オブジェクトの幾何学と物理特性(既知のもの)から接触ダイナミクスを計算する。 このシミュレーションにより,頭部搭載型rgbカメラを用いた20自由度ヒューマノイドロボットの視覚ベースの全身ナビゲーションとボールプッシュポリシーを学習できることを実証し,これらのポリシーを実ロボットに転送することに成功した。 プロジェクトビデオはhttps://sites.google.com/view/nerf2real/homeで利用可能

We present a system for applying sim2real approaches to "in the wild" scenes with realistic visuals, and to policies which rely on active perception using RGB cameras. Given a short video of a static scene collected using a generic phone, we learn the scene's contact geometry and a function for novel view synthesis using a Neural Radiance Field (NeRF). We augment the NeRF rendering of the static scene by overlaying the rendering of other dynamic objects (e.g. the robot's own body, a ball). A simulation is then created using the rendering engine in a physics simulator which computes contact dynamics from the static scene geometry (estimated from the NeRF volume density) and the dynamic objects' geometry and physical properties (assumed known). We demonstrate that we can use this simulation to learn vision-based whole body navigation and ball pushing policies for a 20 degrees of freedom humanoid robot with an actuated head-mounted RGB camera, and we successfully transfer these policies to a real robot. Project video is available at https://sites.google.com/view/nerf2real/home
翻訳日:2022-10-12 13:45:19 公開日:2022-10-10
# 進化するクラスオントロジーによる学習

Learning with an Evolving Class Ontology ( http://arxiv.org/abs/2210.04993v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Deepak Pathak, Yu-Xiong Wang, Deva Ramanan, Shu Kong(参考訳) 生涯学習者は時間とともに進化する概念語彙を認識する必要がある。 よくあるが未熟なシナリオは、古いクラスを洗練/拡張するクラスラベルを学習することだ。 例えば、人間は犬種の前に${\tt dog}$を認識することを学ぶ。 実際の設定では、データセット$\textit{versioning}$はしばしばオントロジーに洗練を導入します。例えば、以前の${\ttの車両を洗練させる自動運転車ベンチマークなどです。 本稿では,$\textit{learning with evolving class ontology}$ (leco) の問題を研究するためのプロトコルを定式化する。 LECOは異なる期間(TP)で学習する分類器を必要とし、各TPは「粗い」ラベルの古いオントロジーを洗練させる「細い」ラベルの新しいオントロジーを導入する(例えば、以前の${\tt dog}$を洗練させる犬種など)。 LECOは、新しいデータをアノテートするか、古いデータをラバー化するか、粗いラベルをどのように活用するか、以前のTPのモデルを微調整するか、スクラッチからトレーニングするか、といった質問を探索している。 これらの疑問に答えるために、クラス増分学習のような関連する問題からの洞察を活用する。 画像分類のレンズ(CIFARとiNaturalist)とセマンティックセグメンテーション(Mapillary)を用いてLECOプロトコルで検証する。 現在の状況は、新しいオントロジー(COCO-to-LVISやMapillary1.2-to-2.0など)で既存のデータセットをラベリングすることにあるが、LECOはより優れた戦略として、新しいオントロジーで$\textit{new}$データをアノテートすることを示しています。 しかし、これは古いvs-newラベルが一貫性のない集約データセットを生成し、学習を複雑にする。 この課題に対処するために,半教師付き学習と部分ラベル学習の手法を採用する。 このような戦略は驚くほど最適にでき、最新のオントロジーでラベル付けされた集合データセットから学習する"オークル"に近づきます。

Lifelong learners must recognize concept vocabularies that evolve over time. A common yet underexplored scenario is learning with class labels over time that refine/expand old classes. For example, humans learn to recognize ${\tt dog}$ before dog breeds. In practical settings, dataset $\textit{versioning}$ often introduces refinement to ontologies, such as autonomous vehicle benchmarks that refine a previous ${\tt vehicle}$ class into ${\tt school-bus}$ as autonomous operations expand to new cities. This paper formalizes a protocol for studying the problem of $\textit{Learning with Evolving Class Ontology}$ (LECO). LECO requires learning classifiers in distinct time periods (TPs); each TP introduces a new ontology of "fine" labels that refines old ontologies of "coarse" labels (e.g., dog breeds that refine the previous ${\tt dog}$). LECO explores such questions as whether to annotate new data or relabel the old, how to leverage coarse labels, and whether to finetune the previous TP's model or train from scratch. To answer these questions, we leverage insights from related problems such as class-incremental learning. We validate them under the LECO protocol through the lens of image classification (CIFAR and iNaturalist) and semantic segmentation (Mapillary). Our experiments lead to surprising conclusions; while the current status quo is to relabel existing datasets with new ontologies (such as COCO-to-LVIS or Mapillary1.2-to-2.0), LECO demonstrates that a far better strategy is to annotate $\textit{new}$ data with the new ontology. However, this produces an aggregate dataset with inconsistent old-vs-new labels, complicating learning. To address this challenge, we adopt methods from semi-supervised and partial-label learning. Such strategies can surprisingly be made near-optimal, approaching an "oracle" that learns on the aggregate dataset exhaustively labeled with the newest ontology.
翻訳日:2022-10-12 13:44:57 公開日:2022-10-10
# ニューロモルフィックハードウェアにおける機械学習ワークロードのエネルギー効率向上

Energy-Efficient Deployment of Machine Learning Workloads on Neuromorphic Hardware ( http://arxiv.org/abs/2210.05006v1 )

ライセンス: Link先を確認
Peyton Chandarana, Mohammadreza Mohammadi, James Seekings, Ramtin Zand(参考訳) テクノロジー産業は、自然言語処理、経路計画、画像分類など、より小さなエッジコンピューティングデバイス上でのタスクの実装に向けて進んでいるため、アルゴリズムやハードウェアアクセラレーターのより効率的な実装の需要は、研究の重要領域となっている。 近年、ディープニューラルネットワーク(DNN)が消費する電力と面積を減らすことに焦点を当てたエッジディープラーニングハードウェアアクセラレータがいくつかリリースされている。 一方、個別の時系列データで動作するスパイクニューラルネットワーク(SNN)は、特定のニューロモルフィックイベントベース/非同期ハードウェアに展開する際、前述のエッジDNNアクセラレーターよりも大幅に電力削減が達成されている。 ニューロモルフィックハードウェアは、エッジでのディープラーニングタスクを加速する大きな可能性を示しているが、現在のアルゴリズムとハードウェアの空間は限られており、かなり初期の開発段階にある。 このように、事前学習したDNNをSNNに変換するためのハイブリッドアプローチが多数提案されている。 本研究では,事前学習したDNNをSNNに変換するための一般的なガイドを提供するとともに,レイテンシ,パワー,エネルギに関するニューロモルフィックハードウェアへの変換されたSNNの展開を改善する手法を提案する。 実験の結果、Intel Neural Compute Stick 2と比較して、IntelのニューロモルフィックプロセッサであるLoihiは、SNN改善技術を用いて、テスト画像分類タスクにおいて最大27倍の消費電力と5倍のエネルギーを消費していることがわかった。

As the technology industry is moving towards implementing tasks such as natural language processing, path planning, image classification, and more on smaller edge computing devices, the demand for more efficient implementations of algorithms and hardware accelerators has become a significant area of research. In recent years, several edge deep learning hardware accelerators have been released that specifically focus on reducing the power and area consumed by deep neural networks (DNNs). On the other hand, spiking neural networks (SNNs) which operate on discrete time-series data, have been shown to achieve substantial power reductions over even the aforementioned edge DNN accelerators when deployed on specialized neuromorphic event-based/asynchronous hardware. While neuromorphic hardware has demonstrated great potential for accelerating deep learning tasks at the edge, the current space of algorithms and hardware is limited and still in rather early development. Thus, many hybrid approaches have been proposed which aim to convert pre-trained DNNs into SNNs. In this work, we provide a general guide to converting pre-trained DNNs into SNNs while also presenting techniques to improve the deployment of converted SNNs on neuromorphic hardware with respect to latency, power, and energy. Our experimental results show that when compared against the Intel Neural Compute Stick 2, Intel's neuromorphic processor, Loihi, consumes up to 27x less power and 5x less energy in the tested image classification tasks by using our SNN improvement techniques.
翻訳日:2022-10-12 13:36:13 公開日:2022-10-10
# 目標達成は難しい - 確率的最短経路のサンプル複雑性を解決する

Reaching Goals is Hard: Settling the Sample Complexity of the Stochastic Shortest Path ( http://arxiv.org/abs/2210.04946v1 )

ライセンス: Link先を確認
Liyu Chen, Andrea Tirinzoni, Matteo Pirotta, Alessandro Lazaric(参考訳) 確率的短経路 (ssp) 問題における$\epsilon$-optimal policy の学習のサンプル複雑性について検討した。 まず,学習者が生成モデルにアクセスできる場合に,サンプルの複雑性境界を導出する。 S$状態、$A$アクション、最小コスト$c_{\min}$、および全ての状態に対する最適ポリシーの最大期待コスト$B_{\star}$、任意のアルゴリズムが、高い確率で$\epsilon$-Optimalポリシーを返すために少なくとも$\Omega(SAB_{\star}^3/(c_{\min}\epsilon^2)のサンプルを必要とする、最悪のSSPインスタンスが存在することを示す。 驚くべきことに、$c_{\min}=0$のSSP問題はいつでも学習できないので、SSPでの学習は有限ホリゾンや割引設定よりも厳密である。 この結果は、最適政策の打点時間に関する事前知識が利用可能である場合や、限界打点時間を持つ政策と競合することによって最適性を制限した場合に、低い限界で補完する。 最後に,これらの場合の上限値に一致するアルゴリズムを設計する。 これにより、SSPにおける$\epsilon$-optimal Policesを生成モデルで学習する際の複雑さが解決される。 また、生成モデルにアクセスせずに$\epsilon$-optimalポリシーを学習する研究(いわゆる最良の政治識別問題)を開始し、サンプル効率のよい学習は一般に不可能であることを示す。 一方で、エージェントが固定コストを払えば、任意の状態から直接目標状態に到達することができると仮定すれば、効率的な学習が可能になる。 そして、この仮定の下で第一上界と下界を定めます。 最後に、同様の分析ツールを用いて、一般コスト下でのSSPでは地平面自由後悔は不可能であることが証明され(Tarbouriech et al., 2021c)。

We study the sample complexity of learning an $\epsilon$-optimal policy in the Stochastic Shortest Path (SSP) problem. We first derive sample complexity bounds when the learner has access to a generative model. We show that there exists a worst-case SSP instance with $S$ states, $A$ actions, minimum cost $c_{\min}$, and maximum expected cost of the optimal policy over all states $B_{\star}$, where any algorithm requires at least $\Omega(SAB_{\star}^3/(c_{\min}\epsilon^2))$ samples to return an $\epsilon$-optimal policy with high probability. Surprisingly, this implies that whenever $c_{\min}=0$ an SSP problem may not be learnable, thus revealing that learning in SSPs is strictly harder than in the finite-horizon and discounted settings. We complement this result with lower bounds when prior knowledge of the hitting time of the optimal policy is available and when we restrict optimality by competing against policies with bounded hitting time. Finally, we design an algorithm with matching upper bounds in these cases. This settles the sample complexity of learning $\epsilon$-optimal polices in SSP with generative models. We also initiate the study of learning $\epsilon$-optimal policies without access to a generative model (i.e., the so-called best-policy identification problem), and show that sample-efficient learning is impossible in general. On the other hand, efficient learning can be made possible if we assume the agent can directly reach the goal state from any state by paying a fixed cost. We then establish the first upper and lower bounds under this assumption. Finally, using similar analytic tools, we prove that horizon-free regret is impossible in SSPs under general costs, resolving an open problem in (Tarbouriech et al., 2021c).
翻訳日:2022-10-12 13:35:29 公開日:2022-10-10
# 大規模線形モデルのサンプリングに基づく推論と線形ラプラスへの応用

Sampling-based inference for large linear models, with application to linearised Laplace ( http://arxiv.org/abs/2210.04994v1 )

ライセンス: Link先を確認
Javier Antor\'an, Shreyas Padhy, Riccardo Barbano, Eric Nalisnick, David Janz, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 大規模線形モデルは機械学習を通じてどこでも利用でき、現代のニューラルネットワークの不確実性定量化のための代理モデルとして応用されている。 残念ながら、ベイズ線形モデルに関連する計算コストは、この手法の適用を小さなネットワーク、小さな出力空間、小さなデータセットに制約する。 ガウス多出力線形モデルを共役するスケーラブルなサンプルベースベイズ推定法とハイパーパラメータ(正規化)選択のマッチング法を導入することで、この制限に対処する。 さらに, 古典的特徴正規化法 (g-prior) を用いて, 前述した線形ラプラス法の病理を解明した。 これらの貢献により,CIFAR100のResNet-18(100Mパラメータ,100アウトプットディメンションx50kデータポイント)と高分解能トモグラフィ再構成タスク(2Mパラメータ,251kアウトプットディメンション)のU-Netを用いて線形化されたニューラルネットワーク推論を行うことができる。

Large-scale linear models are ubiquitous throughout machine learning, with contemporary application as surrogate models for neural network uncertainty quantification; that is, the linearised Laplace method. Alas, the computational cost associated with Bayesian linear models constrains this method's application to small networks, small output spaces and small datasets. We address this limitation by introducing a scalable sample-based Bayesian inference method for conjugate Gaussian multi-output linear models, together with a matching method for hyperparameter (regularisation) selection. Furthermore, we use a classic feature normalisation method (the g-prior) to resolve a previously highlighted pathology of the linearised Laplace method. Together, these contributions allow us to perform linearised neural network inference with ResNet-18 on CIFAR100 (11M parameters, 100 output dimensions x 50k datapoints) and with a U-Net on a high-resolution tomographic reconstruction task (2M parameters, 251k output dimensions).
翻訳日:2022-10-12 13:34:50 公開日:2022-10-10
# 産業実践におけるユーザ駆動型アルゴリズム監査のプラクティス,課題,機会の理解

Understanding Practices, Challenges, and Opportunities for User-Driven Algorithm Auditing in Industry Practice ( http://arxiv.org/abs/2210.03709v2 )

ライセンス: Link先を確認
Wesley Hanwen Deng, Bill Boyuan Guo, Alicia DeVrio, Hong Shen, Motahhare Eslami, Kenneth Holstein(参考訳) 近年,アルゴリズムシステムにおける問題行動の検出にユーザが直接関与するアルゴリズム監査に対する,ユーザ主導のアプローチに対する研究者と実践者の双方の関心が高まっている。 しかしながら、ユーザ主導の監査に関する業界実践者の現在のプラクティスや課題、あるいはそのようなアプローチをよりうまく活用する機会についてはほとんど分かっていません。 本研究では,ユーザ主導の監査アプローチを実践する実践者を対象に,一連のインタビューと反復的共同設計活動を行った。 調査の結果,ユーザ監査を適切に採用し,インセンティブを得る上で,実践者が直面する課題がいくつか明らかになった。 さらに、実践者は、ユーザ主導の監査に対する組織的障害を共有し、実践者とユーザ監査者との複雑な関係を浮き彫りにした。 これらの知見に基づいて,今後のHCI研究の機会を議論し,産業実践におけるユーザ主導監査の可能性(およびリスク軽減)を実現する。

Recent years have seen growing interest among both researchers and practitioners in user-driven approaches to algorithm auditing, which directly engage users in detecting problematic behaviors in algorithmic systems. However, we know little about industry practitioners' current practices and challenges around user-driven auditing, nor what opportunities exist for them to better leverage such approaches in practice. To investigate, we conducted a series of interviews and iterative co-design activities with practitioners who employ user-driven auditing approaches in their work. Our findings reveal several challenges practitioners face in appropriately recruiting and incentivizing user auditors, scaffolding user audits, and deriving actionable insights from user-driven audit reports. Furthermore, practitioners shared organizational obstacles to user-driven auditing, surfacing a complex relationship between practitioners and user auditors. Based on these findings, we discuss opportunities for future HCI research to help realize the potential (and mitigate risks) of user-driven auditing in industry practice.
翻訳日:2022-10-12 11:11:38 公開日:2022-10-10
# ニューラルネットワークを用いたバイカルGVDデータのノイズ除去

Rejecting noise in Baikal-GVD data with neural networks ( http://arxiv.org/abs/2210.04653v1 )

ライセンス: Link先を確認
I. Kharuk, G. Rubtsov, G. Safronov(参考訳) Baikal-GVDはバイカル湖の淡水に設置された大型の1 km$^3$の水中ニュートリノ望遠鏡である。 深い湖水環境は背景光によって浸透し、バイカルGVD光センサで検出可能な信号を生成する。 本稿では,これらのノイズを信号から効率的に分離するためのニューラルネットワークを提案する。 ニューラルネットワークはu-netのようなアーキテクチャを持ち、イベントの時間的(causal)構造を採用している。 モンテカルロシミュレーションデータでは、99%の信号純度(精度)と98%の生存効率(リコール)に達する。 データ分析にニューラルネットワークを用いることの利点について論じ,グラフベースを含むニューラルネットワークのアーキテクチャについて考察した。

Baikal-GVD is a large ($\sim$ 1 km$^3$) underwater neutrino telescope installed in the fresh waters of Lake Baikal. The deep lake water environment is pervaded by background light, which produces detectable signals in the Baikal-GVD photosensors. We introduce a neural network for an efficient separation of these noise hits from the signal ones, stemming from the propagation of relativistic particles through the detector. The neural network has a U-net like architecture and employs temporal (causal) structure of events. On Monte-Carlo simulated data, it reaches 99% signal purity (precision) and 98% survival efficiency (recall). The benefits of using neural network for data analysis are discussed, and other possible architectures of neural networks, including graph based, are examined.
翻訳日:2022-10-11 19:56:02 公開日:2022-10-10
# Rieoptax: JAX における Riemann 最適化

Rieoptax: Riemannian Optimization in JAX ( http://arxiv.org/abs/2210.04840v1 )

ライセンス: Link先を確認
Saiteja Utpala, Andi Han, Pratik Jawanpuria, Bamdev Mishra(参考訳) JAXにおけるRiemann最適化のためのオープンソースのPythonライブラリであるRieoptaxを紹介します。 リーマン指数写像や対数写像のような多くの微分幾何学的プリミティブは、通常、CPUやGPU上のPythonの既存のフレームワークよりも高速である。 我々は,リーマン確率勾配,確率分散低減,適応勾配法など,様々な基本的および高度な確率最適化解法をサポートする。 提案するツールボックスの特徴は、リーマン多様体上の微分的プライベート最適化もサポートする点である。

We present Rieoptax, an open source Python library for Riemannian optimization in JAX. We show that many differential geometric primitives, such as Riemannian exponential and logarithm maps, are usually faster in Rieoptax than existing frameworks in Python, both on CPU and GPU. We support various range of basic and advanced stochastic optimization solvers like Riemannian stochastic gradient, stochastic variance reduction, and adaptive gradient methods. A distinguishing feature of the proposed toolbox is that we also support differentially private optimization on Riemannian manifolds.
翻訳日:2022-10-11 19:55:50 公開日:2022-10-10
# 複雑な流体のモデリングとシミュレーションのための科学機械学習

Scientific Machine Learning for Modeling and Simulating Complex Fluids ( http://arxiv.org/abs/2210.04431v1 )

ライセンス: Link先を確認
Kyle R. Lennon, Gareth H. McKinley, James W. Swan(参考訳) レオロジー構成方程式の定式化 -- 複雑な流体の内部応力と変形を関連づけるモデル -- は、軟質材料を含むシステムの工学における重要なステップである。 データ駆動型モデルは、高価な第一原理モデルの代替となり、多くの工学分野において精度の低い経験モデルを提供するが、複雑な流体に対する同様のモデルの開発は遅れている。 非ニュートン流体力学を特徴付けるテクニックの多様性は、一様構造化されたトレーニングデータを必要とする古典的な機械学習アプローチの挑戦を生み出している。 したがって、初期の機械学習構成方程式は、異なる変形プロトコルや機械的観測装置間では可搬性がない。 本稿では,このような問題を解決するためのデータ駆動型フレームワークを提案する。そこでは,特定の実験プロトコルやフロー・キネマティックスの詳細によらず,本質的な物理情報を含む学習可能なモデルを構築することができる。 これらの科学的機械学習モデルは、物質的に客観的なテンソル構成フレームワークに普遍近似器を組み込む。 構成上、これらのモデルは、連続体力学によって要求されるフレーム不変性やテンソル対称性のような物理的制約を扱う。 この枠組みは, 限られたデータから正確な構成方程式を迅速に発見し, よりキネマティックに複雑な流れを記述するために, 学習モデルを用いることを実証する。 この固有の柔軟性は、これらの「デジタル流体双対」を様々な材料システムや工学的問題に適用することを認める。 私たちは、トレーニングされたモデルを多次元計算流体力学シミュレーションにデプロイすることで、この柔軟性を説明します。

The formulation of rheological constitutive equations -- models that relate internal stresses and deformations in complex fluids -- is a critical step in the engineering of systems involving soft materials. While data-driven models provide accessible alternatives to expensive first-principles models and less accurate empirical models in many engineering disciplines, the development of similar models for complex fluids has lagged. The diversity of techniques for characterizing non-Newtonian fluid dynamics creates a challenge for classical machine learning approaches, which require uniformly structured training data. Consequently, early machine learning constitutive equations have not been portable between different deformation protocols or mechanical observables. Here, we present a data-driven framework that resolves such issues, allowing rheologists to construct learnable models that incorporate essential physical information, while remaining agnostic to details regarding particular experimental protocols or flow kinematics. These scientific machine learning models incorporate a universal approximator within a materially objective tensorial constitutive framework. By construction, these models respect physical constraints, such as frame-invariance and tensor symmetry, required by continuum mechanics. We demonstrate that this framework facilitates the rapid discovery of accurate constitutive equations from limited data, and that the learned models may be used to describe more kinematically complex flows. This inherent flexibility admits the application of these 'digital fluid twins' to a range of material systems and engineering problems. We illustrate this flexibility by deploying a trained model within a multidimensional computational fluid dynamics simulation -- a task that is not achievable using any previously developed data-driven rheological equation of state.
翻訳日:2022-10-11 19:43:24 公開日:2022-10-10
# ノードレベル差分プライバシーを用いたグラフニューラルネットワークのトレーニング

Towards Training Graph Neural Networks with Node-Level Differential Privacy ( http://arxiv.org/abs/2210.04442v1 )

ライセンス: Link先を確認
Qiuchen Zhang, Jing Ma, Jian Lou, Carl Yang, Li Xiong(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データのマイニングで大きな成功を収めた。 グラフ表現の学習におけるGNNの優れたパフォーマンスにもかかわらず、グラフの機密情報を公開可能なトレーニングされたモデルに対して、深刻なプライバシー上の懸念が提起されている。 ノードの特徴とエッジのプライベート情報を考慮した厳密なノードレベルの差分プライバシを満足しながら,実用性を確保するためのgnnモデルのトレーニングに関する最初の正式な研究を行った。 本稿では,gnnモデルの学習中に,パーソナライズされたページランクを利用してメッセージパッシングプロセスを特徴集約から切り離し,グラフトポロジ情報を形式的に保護する差分プライベートページランクアルゴリズムを提案する。 さらに、モデルトレーニング中の差分プライベートPageRank結果に依存するサンプリングプロセスによるプライバシー劣化を分析し、ノードの特徴をさらに保護し、厳密なノードレベルの差分プライバシーを実現するための差分プライベートGNN(DPGNN)アルゴリズムを提案する。 実世界のグラフデータセットに対する大規模な実験は、優れたモデルユーティリティを保ちながらノードレベルの差分プライバシーを提供するための提案アルゴリズムの有効性を示す。

Graph Neural Networks (GNNs) have achieved great success in mining graph-structured data. Despite the superior performance of GNNs in learning graph representations, serious privacy concerns have been raised for the trained models which could expose the sensitive information of graphs. We conduct the first formal study of training GNN models to ensure utility while satisfying the rigorous node-level differential privacy considering the private information of both node features and edges. We adopt the training framework utilizing personalized PageRank to decouple the message-passing process from feature aggregation during training GNN models and propose differentially private PageRank algorithms to protect graph topology information formally. Furthermore, we analyze the privacy degradation caused by the sampling process dependent on the differentially private PageRank results during model training and propose a differentially private GNN (DPGNN) algorithm to further protect node features and achieve rigorous node-level differential privacy. Extensive experiments on real-world graph datasets demonstrate the effectiveness of the proposed algorithms for providing node-level differential privacy while preserving good model utility.
翻訳日:2022-10-11 19:43:00 公開日:2022-10-10
# 自然および人工エージェントの連続的タスク学習

Continual task learning in natural and artificial agents ( http://arxiv.org/abs/2210.04520v1 )

ライセンス: Link先を確認
Timo Flesch, Andrew Saxe, Christopher Summerfield(参考訳) 人間や他の動物はどうやって新しい仕事を学ぶのか? 脳の記録研究の波は、タスク学習中にニューラル表現がどのように変化するかを調査し、相互干渉を最小限に抑える方法でタスクの獲得とコーディングに焦点をあてた。 本稿では,新皮質におけるニューラルタスク表現の幾何学と次元を探索した最近の研究と,これらの知見を生かした計算モデルについて概説する。 我々は、教師付き学習と教師なし学習を組み合わせた機械学習のアイデアが、神経科学者が自然のタスクがどのように学習され、生物学的脳でコード化されるかを理解するのにどのように役立つかについて議論する。

How do humans and other animals learn new tasks? A wave of brain recording studies has investigated how neural representations change during task learning, with a focus on how tasks can be acquired and coded in ways that minimise mutual interference. We review recent work that has explored the geometry and dimensionality of neural task representations in neocortex, and computational models that have exploited these findings to understand how the brain may partition knowledge between tasks. We discuss how ideas from machine learning, including those that combine supervised and unsupervised learning, are helping neuroscientists understand how natural tasks are learned and coded in biological brains.
翻訳日:2022-10-11 19:42:41 公開日:2022-10-10
# 条件付き可逆ニューラルネットワークを用いた多層薄膜の逆設計に関する研究

Investigation of inverse design of multilayer thin-films with conditional invertible Neural Networks ( http://arxiv.org/abs/2210.04629v1 )

ライセンス: Link先を確認
Alexander Luce, Ali Mahdavi, Heribert Wankerl, Florian Marquardt(参考訳) 現在,光学的多層膜設計の課題は,グラデーションに基づく最適化と,追加の薄膜層を導入する手法を用いて解決されている。 近年, 薄膜の設計に深層学習や強化学習が採用されているが, 訓練されたネットワークは通常, 1つの目標に対して熟練し, 光学的目標が変化した場合に再訓練されなければならない。 本研究は,光標的とした多層薄膜の逆設計に条件付き可逆ニューラルネットワーク(cINN)を適用した。 cINNはトレーニングデータセット内のすべての薄膜構成のエネルギー環境を学習するため、cINNsはランダムな変数のみに依存して所望のターゲットに適宜近い薄膜構成を提案する確率的アンサンブルを生成することができることを示す。 提案する構成を局所最適化によりさらに精錬することにより, 生成した薄膜が, 同等の最先端技術よりも高い精度で目標に到達できることを実証する。 さらに,トレーニングデータ分布の外側にあるサンプルについて生成能力をテストしたところ,cinnは分布目標外でも薄膜を予測できることが判明した。 その結果, 薄膜の生成設計を改善するためには, 確立した機械学習法と新しい機械学習法を併用し, 良好な結果を得る必要があることが示唆された。

The task of designing optical multilayer thin-films regarding a given target is currently solved using gradient-based optimization in conjunction with methods that can introduce additional thin-film layers. Recently, Deep Learning and Reinforcement Learning have been been introduced to the task of designing thin-films with great success, however a trained network is usually only able to become proficient for a single target and must be retrained if the optical targets are varied. In this work, we apply conditional Invertible Neural Networks (cINN) to inversely designing multilayer thin-films given an optical target. Since the cINN learns the energy landscape of all thin-film configurations within the training dataset, we show that cINNs can generate a stochastic ensemble of proposals for thin-film configurations that that are reasonably close to the desired target depending only on random variables. By refining the proposed configurations further by a local optimization, we show that the generated thin-films reach the target with significantly greater precision than comparable state-of-the art approaches. Furthermore, we tested the generative capabilities on samples which are outside the training data distribution and found that the cINN was able to predict thin-films for out-of-distribution targets, too. The results suggest that in order to improve the generative design of thin-films, it is instructive to use established and new machine learning methods in conjunction in order to obtain the most favorable results.
翻訳日:2022-10-11 19:42:27 公開日:2022-10-10
# ユークリッドニューラルネットワークにおける階層学習

Hierarchical Learning in Euclidean Neural Networks ( http://arxiv.org/abs/2210.04766v1 )

ライセンス: Link先を確認
Joshua A. Rackers and Pranav Rao(参考訳) 等価な機械学習手法は、近年、3d学習アプリケーションで広く成功している。 これらのモデルはユークリッド空間の反射、翻訳、回転対称性を明示的に構築し、物理科学における様々な応用の精度とデータの効率を大幅に向上させた。 等変モデルに対する際立った疑問は、これらの応用において予想以上に大きな進歩を達成する理由である。 そこで本研究では,ユークリッドニューラルネットワーク(\texttt{e3nn})における高次(非スカラー)特徴の役割について検討する。 本研究では, 電子密度予測問題に対するtexttt{e3nn} のこれまで研究されてきた応用に焦点をあて, 様々な非スカラー出力が可能であり, 出力の性質(スカラー $l=0$, ベクトル $l=1$, あるいは高次 $l>1$)がネットワーク内の非スカラー隠れ特徴の有効性に関係しているかどうかを検討する。 さらに,学習を通しての非スカラー特徴の挙動を考察し,多極展開を思わせる$l$の自然な特徴階層を求める。 我々は、最終的に {\tt e3nn}ネットワークのためのドメイン・アプリケーションの設計原則と選択を知らせることを目指しています。

Equivariant machine learning methods have shown wide success at 3D learning applications in recent years. These models explicitly build in the reflection, translation and rotation symmetries of Euclidean space and have facilitated large advances in accuracy and data efficiency for a range of applications in the physical sciences. An outstanding question for equivariant models is why they achieve such larger-than-expected advances in these applications. To probe this question, we examine the role of higher order (non-scalar) features in Euclidean Neural Networks (\texttt{e3nn}). We focus on the previously studied application of \texttt{e3nn} to the problem of electron density prediction, which allows for a variety of non-scalar outputs, and examine whether the nature of the output (scalar $l=0$, vector $l=1$, or higher order $l>1$) is relevant to the effectiveness of non-scalar hidden features in the network. Further, we examine the behavior of non-scalar features throughout training, finding a natural hierarchy of features by $l$, reminiscent of a multipole expansion. We aim for our work to ultimately inform design principles and choices of domain applications for {\tt e3nn} networks.
翻訳日:2022-10-11 19:42:00 公開日:2022-10-10
# オンライン学習のプライバシはお支払いですか?

Do you pay for Privacy in Online learning? ( http://arxiv.org/abs/2210.04817v1 )

ライセンス: Link先を確認
Amartya Sanyal, Giorgia Ramponi(参考訳) オンライン学習は、誤り境界モデルにおいて、学習理論における最も基本的な概念の1つである。 ディファレンシャルプライバシは、機械学習コミュニティで最も広く使われているプライバシの統計概念である。 したがって、オンライン上で異なるプライベートな学習が可能な学習問題を定義することが非常に興味深いことは明らかである。 本稿では,2つの問題が学習の観点から同等であるかどうか,すなわちオンライン学習フレームワークにおいてプライバシは無償か,という疑問を提起する。

Online learning, in the mistake bound model, is one of the most fundamental concepts in learning theory. Differential privacy, instead, is the most widely used statistical concept of privacy in the machine learning community. It is thus clear that defining learning problems that are online differentially privately learnable is of great interest. In this paper, we pose the question on if the two problems are equivalent from a learning perspective, i.e., is privacy for free in the online learning framework?
翻訳日:2022-10-11 19:41:15 公開日:2022-10-10
# 認定トレーニング:小さな箱は必要なだけ

Certified Training: Small Boxes are All You Need ( http://arxiv.org/abs/2210.04871v1 )

ライセンス: Link先を確認
Mark Niklas M\"uller, Franziska Eckert, Marc Fischer, Martin Vechev(参考訳) 本稿では,MNIST, CIFAR-10, TinyImageNetの摂動大小の既存手法を, 標準および認証精度の両面から比較し, 性能を向上する新しい認証トレーニング手法SABRを提案する。 SABRの背後にある重要な洞察は、逆入力領域の小さいが慎重に選択された部分集合に対する間隔境界の伝播は、近似誤差を著しく低減しつつ、領域全体の最悪の損失を近似するのに十分であるということである。 SABRは、一般的に使用されているすべてのベンチマークにおいて新しい最先端の指標を確立するだけでなく、より重要なのは、ロバストネスと精度のトレードオフを克服することを約束する新しい認定トレーニング手法を指摘する。

We propose the novel certified training method, SABR, which outperforms existing methods across perturbation magnitudes on MNIST, CIFAR-10, and TinyImageNet, in terms of both standard and certifiable accuracies. The key insight behind SABR is that propagating interval bounds for a small but carefully selected subset of the adversarial input region is sufficient to approximate the worst-case loss over the whole region while significantly reducing approximation errors. SABR does not only establish a new state-of-the-art in all commonly used benchmarks but more importantly, points to a new class of certified training methods promising to overcome the robustness-accuracy trade-off.
翻訳日:2022-10-11 19:41:07 公開日:2022-10-10
# 強化学習による動的四足ロボットゴールキーパーの作成

Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning ( http://arxiv.org/abs/2210.04435v1 )

ライセンス: Link先を確認
Xiaoyu Huang, Zhongyu Li, Yanzhen Xiang, Yiming Ni, Yufeng Chi, Yunhao Li, Lizhi Yang, Xue Bin Peng and Koushil Sreenath(参考訳) 本稿では,四足ロボットが現実世界でサッカーゴールキーピングタスクを行うための強化学習(rl)フレームワークを提案する。 四足歩行を用いたサッカーのゴールキーピングは難しい問題であり、非常にダイナミックな移動と正確で高速な非包括的(ボール)操作を組み合わせる。 ロボットは、非常に短時間、通常1秒未満でダイナミックな移動操作を使用して、潜在的に飛来するボールに反応し、インターセプトする必要がある。 本稿では,階層型モデルフリーなRLフレームワークを用いてこの問題に対処する。 フレームワークの最初のコンポーネントは、目標の異なる領域をカバーするために使用できる、異なる移動スキルのための複数のコントロールポリシーを含んでいる。 それぞれの制御ポリシーにより、ロボットはジャンプ、ダイビング、サイドステップなどの特定の移動スキルを実行しながら、ランダムなパラメトリックなエンドエフェクタ軌道を追跡することができる。 これらのスキルは、高いレベルのプランナーであるフレームワークの第2部によって活用され、所望のスキルとエンドエフェクタの軌道を決定し、ゴールの異なる領域に飛んでいるボールを迎撃する。 提案するフレームワークをミニチーター四足ロボットにデプロイし,実世界における高速移動球の様々なアジャイルインターセプションに対するフレームワークの有効性を実証する。

We present a reinforcement learning (RL) framework that enables quadrupedal robots to perform soccer goalkeeping tasks in the real world. Soccer goalkeeping using quadrupeds is a challenging problem, that combines highly dynamic locomotion with precise and fast non-prehensile object (ball) manipulation. The robot needs to react to and intercept a potentially flying ball using dynamic locomotion maneuvers in a very short amount of time, usually less than one second. In this paper, we propose to address this problem using a hierarchical model-free RL framework. The first component of the framework contains multiple control policies for distinct locomotion skills, which can be used to cover different regions of the goal. Each control policy enables the robot to track random parametric end-effector trajectories while performing one specific locomotion skill, such as jump, dive, and sidestep. These skills are then utilized by the second part of the framework which is a high-level planner to determine a desired skill and end-effector trajectory in order to intercept a ball flying to different regions of the goal. We deploy the proposed framework on a Mini Cheetah quadrupedal robot and demonstrate the effectiveness of our framework for various agile interceptions of a fast-moving ball in the real world.
翻訳日:2022-10-11 19:27:23 公開日:2022-10-10
# 識別の順序フレーム上の信念関数

Belief functions on ordered frames of discernment ( http://arxiv.org/abs/2210.04535v1 )

ライセンス: Link先を確認
Arnaud Martin (DRUID), Camilles No\^us(参考訳) ほとんどのアンケートは、信念機能によって順序が不十分な順序の回答を提供する。 本稿では,信念関数に対する順序要素からなる識別の枠組みが与える影響について検討する。 これにより、交叉結合に対して、パワー空間と順序要素の和が再定義される。 また、順序付けられた要素とその使用に関する距離について研究する。 特に、会員関数から、それらがファジィであることを考えると、順序要素の交叉の濃度を再定義する。

Most questionnaires offer ordered responses whose order is poorly studied via belief functions. In this paper, we study the consequences of a frame of discernment consisting of ordered elements on belief functions. This leads us to redefine the power space and the union of ordered elements for the disjunctive combination. We also study distances on ordered elements and their use. In particular, from a membership function, we redefine the cardinality of the intersection of ordered elements, considering them fuzzy.
翻訳日:2022-10-11 19:26:59 公開日:2022-10-10
# 浅層ニューラルネットワーク分類器を克服したマルチモードファイバリザーバコンピューティング

Multi-mode fiber reservoir computing overcomes shallow neural networks classifiers ( http://arxiv.org/abs/2210.04745v1 )

ライセンス: Link先を確認
Daniele Ancora, Matteo Negri, Antonio Gianfrate, Dimitris Trypogeorgos, Lorenzo Dominici, Daniele Sanvitto, Federico Ricci-Tersenghi, Luca Leuzzi(参考訳) 乱れたフォトニクスでは、通常は光学的に不透明な物質を特徴付け、光を届けたり、撮像を行うことができる。 特に、マルチモード光ファイバは安価で扱いやすい複雑なデバイスであるため、広く研究されている。 ここでは、貯水池計算のパラダイムを用いて、これらの光学ツールを非線形分類を行うのに十分な量の相互作用を導入できるランダムプロジェクタに変換する。 ファイバが投影するデータに対して,単一のロジスティック回帰層をトレーニングすることで,生画像上で学習する精度が向上することを示す。 驚くべきことに、物理的測定による分類精度は、乱れたデバイスによる光伝送を記述する手段として広く受け入れられている標準透過マトリクスモデルより高い。 ディープニューラルネットワークの現在の理論とは対照的に,ファイバデータに基づくトレーニングでは,損失景観の平坦な領域に分類器が存在することも明らかにした。 これらの事実は、マルチモードファイバが堅牢な一般化特性を示し、光学的機械学習のツールとして有望であることを示唆している。

In disordered photonics, one typically tries to characterize the optically opaque material in order to be able to deliver light or perform imaging through it. Among others, multi-mode optical fibers are extensively studied because they are cheap and easy-to-handle complex devices. Here, instead, we use the reservoir computing paradigm to turn these optical tools into random projectors capable of introducing a sufficient amount of interaction to perform non-linear classification. We show that training a single logistic regression layer on the data projected by the fiber improves the accuracy with respect to learning it on the raw images. Surprisingly, the classification accuracy performed with physical measurements is higher than the one obtained using the standard transmission matrix model, a widely accepted tool to describe light transmission through disordered devices. Consistently with the current theory of deep neural networks, we also reveal that the classifier lives in a flatter region of the loss landscape when trained on fiber data. These facts suggest that multi-mode fibers exhibit robust generalization properties, thus making them promising tools for optically-aided machine learning.
翻訳日:2022-10-11 19:26:53 公開日:2022-10-10
# DeepHS-HDRVideo:超高速ダイナミックレンジビデオ再構成

DeepHS-HDRVideo: Deep High Speed High Dynamic Range Video Reconstruction ( http://arxiv.org/abs/2210.04429v1 )

ライセンス: Link先を確認
Zeeshan Khan, Parth Shettiwar, Mukul Khanna, Shanmuganathan Raman(参考訳) ハードウェアの制約により、標準のオフザシェルフデジタルカメラは低ダイナミックレンジ(LDR)と低フレーム/秒(FPS)出力に悩まされる。 高ダイナミックレンジ(HDR)ビデオ再構成における従来の作業は、光フローベースネットワークを用いて、交互に露出するLDRフレームのシーケンスを入力とし、隣接するフレームをアライメントする。 しかし、これらの手法はしばしば困難な状況で運動アーティファクトを生じさせる。 これは、光流を用いたアライメントを適用するために、代替の露出フレームを露出に合わせる必要があるためである。 したがって、LDRフレームの過飽和とノイズは不正確なアライメントをもたらす。 そこで本研究では,事前学習したビデオフレーム補間ネットワークを用いて,入力されたLDRフレームの整列を提案する。 これにより、エラーが発生しやすい露光マッチングステップを回避し、同じ露光入力から中間の紛失フレームを直接生成するため、ldrフレームのアライメントが向上する。 さらに、中間フレームを再帰的に補間することで、高いFPS HDRビデオを生成することができる。 本研究では,hdr映像再構成にビデオフレーム補間を用いることを提案し,高fps hdr映像を生成する最初の方法を提案する。 実験により,標準HDRビデオデータセット[1],[2]における2.4 PSNR値の絶対的改善と,高速FPS HDRビデオ生成のためのベンチマークにより,提案手法の有効性を実証した。

Due to hardware constraints, standard off-the-shelf digital cameras suffers from low dynamic range (LDR) and low frame per second (FPS) outputs. Previous works in high dynamic range (HDR) video reconstruction uses sequence of alternating exposure LDR frames as input, and align the neighbouring frames using optical flow based networks. However, these methods often result in motion artifacts in challenging situations. This is because, the alternate exposure frames have to be exposure matched in order to apply alignment using optical flow. Hence, over-saturation and noise in the LDR frames results in inaccurate alignment. To this end, we propose to align the input LDR frames using a pre-trained video frame interpolation network. This results in better alignment of LDR frames, since we circumvent the error-prone exposure matching step, and directly generate intermediate missing frames from the same exposure inputs. Furthermore, it allows us to generate high FPS HDR videos by recursively interpolating the intermediate frames. Through this work, we propose to use video frame interpolation for HDR video reconstruction, and present the first method to generate high FPS HDR videos. Experimental results demonstrate the efficacy of the proposed framework against optical flow based alignment methods, with an absolute improvement of 2.4 PSNR value on standard HDR video datasets [1], [2] and further benchmark our method for high FPS HDR video generation.
翻訳日:2022-10-11 19:17:30 公開日:2022-10-10
# スペクトル幾何検証:計量定位のための再ランキング点クラウド検索

Spectral Geometric Verification: Re-Ranking Point Cloud Retrieval for Metric Localization ( http://arxiv.org/abs/2210.04432v1 )

ライセンス: Link先を確認
Kavisha Vidanapathirana, Peyman Moghadam, Sridha Sridharan, Clinton Fookes(参考訳) 性能向上のために多くの検索タスクで再ランク付け手法が広く使われているが、メトリックローカライズのためのポイントクラウド検索の文脈では研究されていない。 本稿では,抽出した点雲の再分類のためのスペクトル幾何検証(Spectral Geometric Verification, SpectralGV)を紹介する。 2点クラウドの対応互換性グラフの最適クラスタ間スコアを,その幾何学的適合性を表すロバストな適合度スコアとして利用できることを示す。 検索した全ての点群を問合せでまず登録し,その不整合率に基づいて検索をソートする基本的幾何的検証に基づく再ランク法と比較すると,本手法はより効率的であり,不整合に頑健でありながら決定論的再ランク解を提供する。 提案手法は,5つの大規模クラウドデータセットにまたがる複数の対応型アーキテクチャの性能向上を実証する。 また,これらのデータセット上の位置認識とメトリックローカライズについて,最先端の結果を得る。 我々の知る限りでは、このレターは、メトリックローカライゼーションのタスクのために、ポイントクラウド検索領域で再ランク付けされた最初のものである。 オープンソース実装は、https://github.com/csiro-robotics/SpectralGVで利用可能になる。

Although re-ranking methods are widely used in many retrieval tasks to improve performance, they haven't been studied in the context of point cloud retrieval for metric localization. In this letter, we introduce Spectral Geometric Verification (SpectralGV), for the re-ranking of retrieved point clouds. We demonstrate how the optimal inter-cluster score of the correspondence compatibility graph of two point clouds can be used as a robust fitness score representing their geometric compatibility, hence allowing geometric verification without registration. Compared to the baseline geometric verification based re-ranking methods which first register all retrieved point clouds with the query and then sort retrievals based on the inlier-ratio after registration, our method is considerably more efficient and provides a deterministic re-ranking solution while remaining robust to outliers. We demonstrate how our method boosts the performance of several correspondence-based architectures across 5 different large-scale point cloud datasets. We also achieve state-of-the-art results for both place recognition and metric-localization on these datasets. To the best of our knowledge, this letter is also the first to explore re-ranking in the point cloud retrieval domain for the task of metric localization. The open-source implementation will be made available at: https://github.com/csiro-robotics/SpectralGV.
翻訳日:2022-10-11 19:17:06 公開日:2022-10-10
# 不確かさを意識したLiDARパン光学セグメンテーション

Uncertainty-aware LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2210.04472v1 )

ライセンス: Link先を確認
Kshitij Sirohi, Sajad Marvi, Daniel B\"uscher and Wolfram Burgard(参考訳) 現代の自律システムは、特に自動運転のシナリオにおいて、LiDARスキャナーに依存していることが多い。 この文脈では、信頼できるシーン理解は不可欠である。 現在の学習に基づく方法は、通常、関連する不確実性の適切な推定を怠りながら、このタスクの最大パフォーマンスを達成しようとする。 本稿では,lidar点雲を用いた不確実性認識汎視セグメンテーションの課題を解決するための新しい手法を提案する。 提案するEvLPSNetネットワークは,このタスクをサンプリング不要で効率的に解く最初の方法である。 ポイントごとのセマンティクスとインスタンスのセグメンテーションを予測し、ポイントごとの不確実性を推定する。 さらに、予測された不確実性を利用して性能を改善する方法も取り入れている。 我々は,最先端のパンオプティカルセグメンテーションネットワークとサンプリングフリーの不確実性推定技術を組み合わせた,いくつかの強力なベースラインを提供する。 広汎な評価により,不確実性を認識したパノプティックセグメンテーションの品質とキャリブレーションにおいて,これらのベースラインと比較して最高の性能が得られることが示された。 コードを以下に示す。 \url{https://github.com/kshitij3112/EvLPSNet}

Modern autonomous systems often rely on LiDAR scanners, in particular for autonomous driving scenarios. In this context, reliable scene understanding is indispensable. Current learning-based methods typically try to achieve maximum performance for this task, while neglecting a proper estimation of the associated uncertainties. In this work, we introduce a novel approach for solving the task of uncertainty-aware panoptic segmentation using LiDAR point clouds. Our proposed EvLPSNet network is the first to solve this task efficiently in a sampling-free manner. It aims to predict per-point semantic and instance segmentations, together with per-point uncertainty estimates. Moreover, it incorporates methods for improving the performance by employing the predicted uncertainties. We provide several strong baselines combining state-of-the-art panoptic segmentation networks with sampling-free uncertainty estimation techniques. Extensive evaluations show that we achieve the best performance on uncertainty-aware panoptic segmentation quality and calibration compared to these baselines. We make our code available at: \url{https://github.com/kshitij3112/EvLPSNet}
翻訳日:2022-10-11 19:16:42 公開日:2022-10-10
# 変態複雑度によるポイントクラウドの品質評価

Evaluating Point Cloud Quality via Transformational Complexity ( http://arxiv.org/abs/2210.04671v1 )

ライセンス: Link先を確認
Yujie Zhang, Qi Yang, Yifei Zhou, Xiaozhong Xu, Le Yang, Yiling Xu(参考訳) フルリファレンスポイントクラウド品質評価(FR-PCQA)は、歪んだポイントクラウドの品質を利用可能なリファレンスで推測することを目的としている。 認知科学研究と人間の視覚システム(hvs)の直観の融合により、期待された知覚結果と大脳皮質の視覚中心における実際的な知覚再現との差は主観的品質低下を示す。 そこで本稿では,歪んだ点雲をその基準に戻す複雑さを計測し,一方の点雲の符号長で近似し,他方が与えられた場合の点雲の品質を導出する。 この目的のために、まず基準と歪んだ点雲を1つの3次元ボロノイ図に基づいて一連の局所パッチ対に分割する。 次に, 予測符号化理論に動機づけられ, 1つの空間認識ベクトル自己回帰(sa-var)モデルを用いて, 各々の基準パッチの形状と色チャネルを歪みパッチの有無でエンコードする。 具体的には、残差誤差が多変量ガウス分布に従うことを仮定し、共分散行列を用いて基準と歪んだサンプルの間の自己複雑度と変換複雑性を計算する。 複雑性項の他に、sa-var によって生成された予測項が最終品質予測を促進する補助的特徴として導入された。 5つのパブリックポイントのクラウド品質データベースに関する広範な実験は、トランスフォーメーション複雑性に基づく歪みメトリック(tcdm)が最先端(sota)結果を生み出すことを証明し、アブレーションの研究により、主要なモジュールとパラメータを調べることによって、当社のメトリクスが一貫したパフォーマンスを持つ様々なシナリオに一般化できることがさらに示されている。

Full-reference point cloud quality assessment (FR-PCQA) aims to infer the quality of distorted point clouds with available references. Merging the research of cognitive science and intuition of the human visual system (HVS), the difference between the expected perceptual result and the practical perception reproduction in the visual center of the cerebral cortex indicates the subjective quality degradation. Therefore in this paper, we try to derive the point cloud quality by measuring the complexity of transforming the distorted point cloud back to its reference, which in practice can be approximated by the code length of one point cloud when the other is given. For this purpose, we first segment the reference and the distorted point cloud into a series of local patch pairs based on one 3D Voronoi diagram. Next, motivated by the predictive coding theory, we utilize one space-aware vector autoregressive (SA-VAR) model to encode the geometry and color channels of each reference patch in cases with and without the distorted patch, respectively. Specifically, supposing that the residual errors follow the multi-variate Gaussian distributions, we calculate the self-complexity of the reference and the transformational complexity between the reference and the distorted sample via covariance matrices. Besides the complexity terms, the prediction terms generated by SA-VAR are introduced as one auxiliary feature to promote the final quality prediction. Extensive experiments on five public point cloud quality databases demonstrate that the transformational complexity based distortion metric (TCDM) produces state-of-the-art (SOTA) results, and ablation studies have further shown that our metric can be generalized to various scenarios with consistent performance by examining its key modules and parameters.
翻訳日:2022-10-11 19:16:24 公開日:2022-10-10
# LSEH: クロスモーダル情報検索のためのセマンティックに強化されたハードネガティクス

LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information Retrieval ( http://arxiv.org/abs/2210.04754v1 )

ライセンス: Link先を確認
Yan Gong and Georgina Cosma(参考訳) Visual Semantic Embedding (VSE) は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込むことを目標としている。 既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的マージンを学習するハードネガティブ損失関数を用いて訓練されている。 しかし、ハード負損失関数の客観的マージンは、無関係な画像記述対の意味的差異を無視する固定ハイパーパラメータとして設定される。 画像記述対の最適類似度を測定するための課題として,(1)画像記述の基盤となる意味を見出す,(2)無関係な画像記述対間の最適な類似度スコアに基づいて学習目標を動的に決定する,意味的に強化されたハード・負の損失関数を提案する,という2つの主成分からなる新しいアプローチを提案する。 提案手法を5つの最先端VSEネットワークに統合し, クロスモーダル情報検索のための3つのベンチマークデータセットに適用した。 その結果,提案手法は,既存のVSEネットワークや将来的なVSEネットワークにも適用可能であることがわかった。

Visual Semantic Embedding (VSE) aims to extract the semantics of images and their descriptions, and embed them into the same latent space for cross-modal information retrieval. Most existing VSE networks are trained by adopting a hard negatives loss function which learns an objective margin between the similarity of relevant and irrelevant image-description embedding pairs. However, the objective margin in the hard negatives loss function is set as a fixed hyperparameter that ignores the semantic differences of the irrelevant image-description pairs. To address the challenge of measuring the optimal similarities between image-description pairs before obtaining the trained VSE networks, this paper presents a novel approach that comprises two main parts: (1) finds the underlying semantics of image descriptions; and (2) proposes a novel semantically enhanced hard negatives loss function, where the learning objective is dynamically determined based on the optimal similarity scores between irrelevant image-description pairs. Extensive experiments were carried out by integrating the proposed methods into five state-of-the-art VSE networks that were applied to three benchmark datasets for cross-modal information retrieval tasks. The results revealed that the proposed methods achieved the best performance and can also be adopted by existing and future VSE networks.
翻訳日:2022-10-11 19:15:52 公開日:2022-10-10
# 高信頼表現を用いた半監督震度同定のためのコントラスト学習手法

Contrastive Learning Approach for Semi-Supervised Seismic Facies Identification Using High-Confidence Representations ( http://arxiv.org/abs/2210.04776v1 )

ライセンス: Link先を確認
Kewen Li, Wenlong Liu, Yimin Dou, Zhifeng Xu, Hongjie Duan, Ruilin Jing(参考訳) 地震波のラベリングは地震インタプリタの経験に大きく依存しており、隣接する場所での地震波の分布は非常によく似ており、多くのラベリングは繰り返しの作業である。 しかし,不均質にラベル付けされたスライスのみを用いたモデルの訓練では,厳密な分類の混乱,すなわち地震波のタイプを別のものと誤認することが判明した。 そこで本稿では,非ラベルデータの特徴を用いた半教師付き地震災害識別手法を提案する。 分類信頼度の高い領域の特徴をサンプリングし,画素レベルインスタンス識別タスクを用いてクラス間距離を狭め,クラス間距離を増加させる。 我々の手法は、ネットワーク構造に大きな変更を加えることなく、対照的な損失を計算するために1つの枝を拡張する必要がある。 我々は,SEAM AI と Netherlands F3 の2つの公的な地震探査実験を行い,提案モデルは F3 のアノテーションの 1% しか使用せず,90 以上のIOU スコアを達成している。 私たちはコードと事前訓練済みモデルを公開しました。

The labeling of seismic facies relies heavily on the experience of seismic interpreters, and the distribution of seismic facies in adjacent locations is very similar, which means that much of the labeling is costly repetitive work. However, we found that training the model with only a few evenly sampled labeled slices still suffers from severe classification confusion, that is, misidentifying one class of seismic facies as another. To address this issue, we propose a semi-supervised seismic facies identification method using features from unlabeled data for contrastive learning. We sample features in regions with high classification confidence, and use an pixel-level instance discrimination task to narrow the intra-class distance and increase the inter-class distance. Instance discrimination encourages the latent space to produce more distinguishable decision boundaries and reduces the bias in the features of the same class.Our method only needs to extend one branch to compute the contrastive loss without extensive changes to the network structure. We have conducted experiments on two public seismic surveys, SEAM AI and Netherlands F3, and the proposed model achieves an IOU score of more than 90 using only 1% of the annotations in the F3 survey. We have made our codes and pre-trained models publicly available: www.github.com/upcliuwenlong/CONSS
翻訳日:2022-10-11 19:15:27 公開日:2022-10-10
# NerfAcc: 一般的なNeRF加速ツールボックス

NerfAcc: A General NeRF Acceleration Toolbox ( http://arxiv.org/abs/2210.04847v1 )

ライセンス: Link先を確認
Ruilong Li, Matthew Tancik and Angjoo Kanazawa(参考訳) 放射場の効率的なボリュームレンダリングのためのツールボックスであるNerfAccを提案する。 我々は、Instant-NGPで提案された技術に基づいて、これらの技術を拡張して、境界付静的シーンだけでなく、動的シーンや非境界付シーンもサポートする。 NerfAccにはユーザフレンドリーなPython APIが付属しており、ほとんどのNeRFのプラグアンドプレイアクセラレーションの準備が整っている。 このツールボックスの使い方を示す様々な例が提供されている。 コードは、https://github.com/KAIR-BAIR/nerfacc.com/で参照できる。

We propose NerfAcc, a toolbox for efficient volumetric rendering of radiance fields. We build on the techniques proposed in Instant-NGP, and extend these techniques to not only support bounded static scenes, but also for dynamic scenes and unbounded scenes. NerfAcc comes with a user-friendly Python API, and is ready for plug-and-play acceleration of most NeRFs. Various examples are provided to show how to use this toolbox. Code can be found here: https://github.com/KAIR-BAIR/nerfacc.
翻訳日:2022-10-11 19:15:05 公開日:2022-10-10
# PoGaIN:PairedサンプルからのPoisson-Gaussian画像ノイズモデリング

PoGaIN: Poisson-Gaussian Image Noise Modeling from Paired Samples ( http://arxiv.org/abs/2210.04866v1 )

ライセンス: Link先を確認
Nicolas B\"ahler, Majed El Helou, \'Etienne Objois, Kaan Okumu\c{s}, and Sabine S\"usstrunk(参考訳) 画像ノイズはしばしばポアソン・ガウス分布に正確に適合する。 しかし,ノイズ画像のみから分布パラメータを推定することは難しい課題である。 そこで本研究では,ノイズフリーとペアノイズフリーの事例について検討する。 現在、より正確な推定を行うという約束を守るため、ノイズフリー情報を利用する方法はない。 このギャップを埋めるために、ペア画像サンプルからポアソン・ガウシアンノイズモデリングのための新しい累積法を導出する。 本稿では,mseに着目した異なるベースラインに対する性能向上,異常値の影響,画像依存性とバイアス,さらには実世界の適用可能性に関する洞察と議論のためのlog-likelihood関数の導出について述べる。

Image noise can often be accurately fitted to a Poisson-Gaussian distribution. However, estimating the distribution parameters from only a noisy image is a challenging task. Here, we study the case when paired noisy and noise-free samples are available. No method is currently available to exploit the noise-free information, which holds the promise of achieving more accurate estimates. To fill this gap, we derive a novel, cumulant-based, approach for Poisson-Gaussian noise modeling from paired image samples. We show its improved performance over different baselines with special emphasis on MSE, effect of outliers, image dependence and bias, and additionally derive the log-likelihood function for further insight and discuss real-world applicability.
翻訳日:2022-10-11 19:14:57 公開日:2022-10-10
# フォーカスプラス:遠隔授業におけるWebカメラによる学習者の歪み検出

Focus Plus: Detect Learner's Distraction by Web Camera in Distance Teaching ( http://arxiv.org/abs/2210.04400v1 )

ライセンス: Link先を確認
Eason Chen, Yuen Hsien Tseng, Kuo-Ping Lo(参考訳) 近年、新型コロナウイルスの影響で遠隔教育が盛んになっている。 しかし、学生も教師も、注意をそらすことなど、遠隔教育においていくつかの課題に直面している。 我々は,Webカメラから最新のAI技術を用いて学習者の状態を検知し,課題を解決するシステムであるFocus+を提案した。 これにより、教師は生徒の地位を知ることができ、生徒は学習経験を調整できる。 本研究では,Focus+のAI検出モデルをトレーニングし,評価するためのモデルの設計について論じる。

Distance teaching has become popular these years because of the COVID-19 epidemic. However, both students and teachers face several challenges in distance teaching, like being easy to distract. We proposed Focus+, a system designed to detect learners' status with the latest AI technology from their web camera to solve such challenges. By doing so, teachers can know students' status, and students can regulate their learning experience. In this research, we will discuss the expected model's design for training and evaluating the AI detection model of Focus+.
翻訳日:2022-10-11 18:58:59 公開日:2022-10-10
# 方向グラフ上のMAPFの小さな解仮説は真である

The Small Solution Hypothesis for MAPF on Directed Graphs Is True ( http://arxiv.org/abs/2210.04590v1 )

ライセンス: Link先を確認
Bernhard Nebel(参考訳) 有向グラフ上のマルチエージェントパスフィンディングの計算複雑性の決定は、長年にわたり未解決の問題であった。 最近になって、問題はnp-hardであることが判明した。 さらに、強く連結されたダイグラフの短い解仮説が成り立つと、NP内であることが証明されている。 本稿では,この仮説が真であることを示す。

The determination of the computational complexity of multi-agent pathfinding on directed graphs has been an open problem for many years. Only recently, it has been established that the problem is NP-hard. Further, it has been proved that it is in NP, provided the short solution hypothesis for strongly connected digraphs holds. In this paper, it is shown that this hypothesis is indeed true.
翻訳日:2022-10-11 18:58:51 公開日:2022-10-10
# 強化学習のための経験的説明

Experiential Explanations for Reinforcement Learning ( http://arxiv.org/abs/2210.04723v1 )

ライセンス: Link先を確認
Amal Alabdulkarim, Mark O. Riedl(参考訳) 強化学習(rl)アプローチは、ロボティクスやヘルスケアなど、さまざまな重要な分野で人気が高まっている。 しかし、これらのシステムの多くは複雑で解釈不能であり、非aiの専門家にとって理解や介入が困難である。 RLエージェントの動作を説明する上での課題の1つは、将来の期待される報酬を予測することを学ぶとき、エージェントは環境におけるトレーニング時の経験に関するコンテキスト情報を破棄し、期待されるユーティリティのみに依存することである。 多様な環境報酬がエージェントの行動に及ぼす影響を定性的に説明することにより,ユーザの疑問に答える局所的な反事実的説明を生成する手法である経験的説明を提案する。 ポリシーに沿って追加モジュールをトレーニングすることで、これを実現する。 影響予測モデルと呼ばれるこれらのモデルは、異なる報酬源がエージェントのポリシーにどのように影響するかをモデル化し、ポリシーが環境をどのように反映するかに関する失われたコンテキスト情報を復元する。 そこで本研究では,エージェントの意図する行動軌跡と,ユーザの提案する反事実軌跡とを対比するために,これらのモデルを用いた。

Reinforcement Learning (RL) approaches are becoming increasingly popular in various key disciplines, including robotics and healthcare. However, many of these systems are complex and non-interpretable, making it challenging for non-AI experts to understand or intervene. One of the challenges of explaining RL agent behavior is that, when learning to predict future expected reward, agents discard contextual information about their experiences when training in an environment and rely solely on expected utility. We propose a technique, Experiential Explanations, for generating local counterfactual explanations that can answer users' why-not questions by explaining qualitatively the effects of the various environmental rewards on the agent's behavior. We achieve this by training additional modules alongside the policy. These models, called influence predictors, model how different reward sources influence the agent's policy, thus restoring lost contextual information about how the policy reflects the environment. To generate explanations, we use these models in addition to the policy to contrast between the agent's intended behavior trajectory and a counterfactual trajectory suggested by the user.
翻訳日:2022-10-11 18:58:46 公開日:2022-10-10
# 自律ナビゲーションのためのベンチマーク強化学習技術

Benchmarking Reinforcement Learning Techniques for Autonomous Navigation ( http://arxiv.org/abs/2210.04839v1 )

ライセンス: Link先を確認
Zifan Xu, Bo Liu, Xuesu Xiao, Anirudh Nair and Peter Stone(参考訳) 深部強化学習(RL)は自律型ロボットナビゲーションに多くの成功をもたらした。 しかし、RLベースのナビゲーションシステムの現実的な使用を阻止する重要な制限がある。 例えば、ほとんどの学習アプローチは安全性の保証を欠いている。 これらの課題に対処するさまざまな学習テクニックにもかかわらず、自律ナビゲーションに特化したオープンソースのベンチマークと再現可能な学習手法が欠如しているため、ロボット工学者は、移動ロボットにどの学習方法を使うかを選択することが難しくなり、研究者は自律ナビゲーションの一般的な学習方法の現在の欠点を識別する。 本稿では,D1)不確実性を考慮した推論,(D2)安全性,(D3)限られた試行錯誤データからの学習,(D4)多種多様な新しい環境への一般化の4つの主要デシラタを同定する。 次に、メモリベースニューラルネットワークアーキテクチャ(D1)、セーフRL(D2)、モデルベースRL(D2,D3)、ドメインランダム化(D4)の4つのデシダータの1つ以上の達成を目的とした、学習技術の4つの主要なクラスを探索する。 新たなオープンソースの大規模ナビゲーションベンチマークと実世界の環境にこれらの学習技術をデプロイすることにより、これらの技術がRLベースのナビゲーションシステムに対してどの程度のデシラタを達成できるかを確定するための総合的研究を行う。

Deep reinforcement learning (RL) has brought many successes for autonomous robot navigation. However, there still exists important limitations that prevent real-world use of RL-based navigation systems. For example, most learning approaches lack safety guarantees; and learned navigation systems may not generalize well to unseen environments. Despite a variety of recent learning techniques to tackle these challenges in general, a lack of an open-source benchmark and reproducible learning methods specifically for autonomous navigation makes it difficult for roboticists to choose what learning methods to use for their mobile robots and for learning researchers to identify current shortcomings of general learning methods for autonomous navigation. In this paper, we identify four major desiderata of applying deep RL approaches for autonomous navigation: (D1) reasoning under uncertainty, (D2) safety, (D3) learning from limited trial-and-error data, and (D4) generalization to diverse and novel environments. Then, we explore four major classes of learning techniques with the purpose of achieving one or more of the four desiderata: memory-based neural network architectures (D1), safe RL (D2), model-based RL (D2, D3), and domain randomization (D4). By deploying these learning techniques in a new open-source large-scale navigation benchmark and real-world environments, we perform a comprehensive study aimed at establishing to what extent can these techniques achieve these desiderata for RL-based navigation systems.
翻訳日:2022-10-11 18:58:26 公開日:2022-10-10
# euの若い人口における主な死因の特定

Identifying patterns of main causes of death in the young EU population ( http://arxiv.org/abs/2210.04469v1 )

ライセンス: Link先を確認
Simona Korenjak-\v{C}erne and Nata\v{s}a Kej\v{z}ar(参考訳) 死亡パターンの研究は、多くの分野で人気のある研究テーマである。 特に年齢と性別の組み合わせによる死亡の主な死因の死亡パターンに関心がある。 シンボルデータ分析 (SDA) を用い, 死亡原因の年齢, 性別, パターンの3次元を含む。 本研究は、若年層に類似した死亡パターンを持つeu諸国のクラスターを識別するための代替手法を提案するとともに、死亡率の分布に関する包括的情報について、年齢・性別の異なるグループによる主な死因について検討するものである。 特定クラスタにおける死亡パターンと,その他の社会デマトグラフィー指標との関係について検討する。 最新の完全なデータとして、EUの2016年の原油死亡率のデータを使用します。

The study of mortality patterns is a popular research topic in many areas. We are particularly interested in mortality patterns among main causes of death associated with age-gender combinations. We use symbolic data analysis (SDA) and include three dimensions: age, gender, and patterns across main causes of death. In this study, we present an alternative method to identify clusters of EU countries with similar mortality patterns in the young population, while considering comprehensive information on the distribution of deaths among the main causes of death by different age-gender groups. We explore possible relationships between mortality patterns in the identified clusters and some other sociodemographic indicators. We use EU data of crude mortality rates from 2016, as the most recent complete data available.
翻訳日:2022-10-11 18:57:16 公開日:2022-10-10
# 混合応答に対するベイジアンスパース回帰とファグ製造における実行量予測への応用

Bayesian Sparse Regression for Mixed Multi-Responses with Application to Runtime Metrics Prediction in Fog Manufacturing ( http://arxiv.org/abs/2210.04811v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Xiaoning Kang, Ran Jin, and Xinwei Deng(参考訳) フォグ製造は、異なる産業用インターネットアーキテクチャの下で予測的な計算負荷オフロード手法によって制御される分散フォグ計算ユニットを通じて、従来の製造システムを大幅に強化することができる。 予測オフロード法は、多変量混合型応答(連続、カウント、バイナリ)を含むランタイムパフォーマンスメトリクスの正確な予測と不確実性の定量化に大きく依存していることが知られている。 本研究では,多変量混合応答に対するベイズ的スパース回帰を提案し,実行時性能指標の予測を強化し,統計的推測を可能にする。 提案手法は,実行時性能指標の混合型をモデル化するために,グループ選択と個別変数選択の両方を考慮する。 複数の応答間の条件依存性を精度行列を用いてグラフィカルモデルにより記述し、グラフのスパース推定を可能にするためにスパイク・アンド・スラブ前処理を用いる。 提案手法は, 予測精度の向上だけでなく, モデルパラメータの統計的推論やフォグ製造における予測によって, 予測モデルをより解釈しやすくする。 霧製造におけるシミュレーション研究と実例を用いて,提案モデルの有効性を実証する。

Fog manufacturing can greatly enhance traditional manufacturing systems through distributed Fog computation units, which are governed by predictive computational workload offloading methods under different Industrial Internet architectures. It is known that the predictive offloading methods highly depend on accurate prediction and uncertainty quantification of runtime performance metrics, containing multivariate mixed-type responses (i.e., continuous, counting, binary). In this work, we propose a Bayesian sparse regression for multivariate mixed responses to enhance the prediction of runtime performance metrics and to enable the statistical inferences. The proposed method considers both group and individual variable selection to jointly model the mixed types of runtime performance metrics. The conditional dependency among multiple responses is described by a graphical model using the precision matrix, where a spike-and-slab prior is used to enable the sparse estimation of the graph. The proposed method not only achieves accurate prediction, but also makes the predictive model more interpretable with statistical inferences on model parameters and prediction in the Fog manufacturing. A simulation study and a real case example in a Fog manufacturing are conducted to demonstrate the merits of the proposed model.
翻訳日:2022-10-11 18:57:05 公開日:2022-10-10
# 依存検閲による時間-時間予測のためのコプラベースブースティングモデル

A copula-based boosting model for time-to-event prediction with dependent censoring ( http://arxiv.org/abs/2210.04869v1 )

ライセンス: Link先を確認
Alise Danielle Midtfjord and Riccardo De Bin and Arne Bang Huseby(参考訳) time-to-eventデータ解析の特徴は、イベント時間の検閲が可能である。 検閲データを扱うための統計的学習方法は、たとえそれが仮定が守られなくてもバイアス付き予測に繋がるとしても、独立した検閲の仮定によって制限される。 本稿では,clayton-boostについて紹介する。crayton-boostは,アクセラレーション障害時間モデルに基づくブースティング手法であり,clayton copulaを用いてイベントと検閲分布の依存性を処理する。 copulaを活用することで、独立した検閲仮定はもはや必要なくなる。 一般的な方法との比較において、Clayton-boostは依存的な検閲の有無で予測バイアスを除去し、依存強度やパーセンテージの検閲がかなり大きい場合に比較方法より優れていることを示す。 clayton-boostのパフォーマンス向上は、独立した検閲仮定に批判的な理由があることを示しており、現実世界のデータは潜在的な依存関係をモデル化することで大きな利益をもたらす可能性がある。

A characteristic feature of time-to-event data analysis is possible censoring of the event time. Most of the statistical learning methods for handling censored data are limited by the assumption of independent censoring, even if this can lead to biased predictions when the assumption does not hold. This paper introduces Clayton-boost, a boosting approach built upon the accelerated failure time model, which uses a Clayton copula to handle the dependency between the event and censoring distributions. By taking advantage of a copula, the independent censoring assumption is not needed any more. During comparisons with commonly used methods, Clayton-boost shows a strong ability to remove prediction bias at the presence of dependent censoring and outperforms the comparing methods either if the dependency strength or percentage censoring are considerable. The encouraging performance of Clayton-boost shows that there is indeed reasons to be critical about the independent censoring assumption, and that real-world data could highly benefit from modelling the potential dependency.
翻訳日:2022-10-11 18:56:44 公開日:2022-10-10
# 医療におけるmlの堅牢性に対する個人差の驚くべき影響

Everything is Varied: The Surprising Impact of Individual Variation on ML Robustness in Medicine ( http://arxiv.org/abs/2210.04555v1 )

ライセンス: Link先を確認
Andra Campagner, Lorenzo Famiglini, Anna Carobene, Federico Cabitza(参考訳) 医学的環境では、個体差(IV)とは、集団差や誤差ではなく、対象内変異(intra-subject variation)であり、特定の事例や測定過程に関連する変動の本質的、特徴的パターンである。 ivを考慮に入れると、医療データの適切な分析には重要であると考えられてきたが、この不確実性の原因とその堅牢性への影響は機械学習(ml)では無視されている。 このギャップを埋めるために、IVがMLのパフォーマンスと一般化にどのように影響し、その影響を緩和するかを検討する。 具体的には、統計学習の枠組みにおけるIVの問題を定式化するための方法論的貢献と、新型コロナウイルスの診断のための世界最大規模の実験用医療データセットに基づく実験を通して、以下の結果を示す。 1) 共通最先端mlモデルは、データにおけるivの存在によって深刻な影響を受ける。 2)データ強化とデータ不整合に基づく高度な学習戦略と適切な学習設計は,IVに対する堅牢性向上に有効である。 本研究は,臨床環境におけるMLの安全な展開を可能にするために,IVを正しく評価することの重要性を示唆するものである。

In medical settings, Individual Variation (IV) refers to variation that is due not to population differences or errors, but rather to within-subject variation, that is the intrinsic and characteristic patterns of variation pertaining to a given instance or the measurement process. While taking into account IV has been deemed critical for proper analysis of medical data, this source of uncertainty and its impact on robustness have so far been neglected in Machine Learning (ML). To fill this gap, we look at how IV affects ML performance and generalization and how its impact can be mitigated. Specifically, we provide a methodological contribution to formalize the problem of IV in the statistical learning framework and, through an experiment based on one of the largest real-world laboratory medicine datasets for the problem of COVID-19 diagnosis, we show that: 1) common state-of-the-art ML models are severely impacted by the presence of IV in data; and 2) advanced learning strategies, based on data augmentation and data imprecisiation, and proper study designs can be effective at improving robustness to IV. Our findings demonstrate the critical relevance of correctly accounting for IV to enable safe deployment of ML in clinical settings.
翻訳日:2022-10-11 18:51:06 公開日:2022-10-10
# ParaDime: パラメトリック次元化のためのフレームワーク

ParaDime: A Framework for Parametric Dimensionality Reduction ( http://arxiv.org/abs/2210.04582v1 )

ライセンス: Link先を確認
Andreas Hinterreiter and Christina Humer and Bernhard Kainz and Marc Streit(参考訳) パラダイム(paradime)はパラメトリック次元還元(dr)の枠組みである。 パラメトリックDRでは、ニューラルネットワークは、目的関数を最小化しながら、低次元空間に高次元のデータ項目を埋め込むように訓練される。 パラダイムは、いくつかの近代DR技術の目的関数は、相互関係の変容によって生じるという考えに基づいている。 それらの関係や変換の計算方法や、トレーニングプロセスを支配する損失の中でどのように使用されるかを指定するための、共通のインターフェースを提供する。 このインターフェースを通じて、パラダイムはメートル法MDS、t-SNE、UMAPといったDR技術のパラメトリックバージョンを統一する。 さらに、ユーザーはdrプロセスの各側面を完全にカスタマイズできる。 本研究では,ParaDimeのカスタマイズの容易さが,ハイブリッド分類/埋め込みモデルや教師付きDRなどの興味深い手法の実験にいかに適しているかを示す。

ParaDime is a framework for parametric dimensionality reduction (DR). In parametric DR, neural networks are trained to embed high-dimensional data items in a low-dimensional space while minimizing an objective function. ParaDime builds on the idea that the objective functions of several modern DR techniques result from transformed inter-item relationships. It provides a common interface to specify the way these relations and transformations are computed and how they are used within the losses that govern the training process. Through this interface, ParaDime unifies parametric versions of DR techniques such as metric MDS, t-SNE, and UMAP. Furthermore, it allows users to fully customize each aspect of the DR process. We show how this ease of customization makes ParaDime suitable for experimenting with interesting techniques, such as hybrid classification/embedding models or supervised DR, which opens up new possibilities for visualizing high-dimensional data.
翻訳日:2022-10-11 18:50:28 公開日:2022-10-10
# FedBA:UAVネットワークにおける非IIDフェデレーション学習フレームワーク

FedBA: Non-IID Federated Learning Framework in UAV Networks ( http://arxiv.org/abs/2210.04699v1 )

ライセンス: Link先を確認
Pei Li, Zhijun Liu, Luyi Chang, Jialiang Peng, Yi Wu(参考訳) 科学技術の発展と進歩に伴い、モノのインターネット(IoT)は徐々に人々の生活に浸透し、私たちの生活に非常に便利なものとなり、人々の作業効率が向上しています。 具体的には、IoTは、実行できないジョブで人間を置き換えることができる。 新しいタイプのIoT車両として、無人航空機(UAV)の研究の現状と動向は満足度が高く、開発見通しは非常に有望である。 しかし、ドローンアプリケーションのプライバシーとコミュニケーションは依然として深刻な問題である。 これは、ほとんどのドローンが依然として集中型クラウドベースのデータ処理を使用しており、ドローンが収集したデータの漏洩につながる可能性があるためである。 同時に、ドローンが収集する大量のデータが、クラウドに転送されると通信のオーバーヘッドを増大させる可能性がある。 プライバシー保護の手段としてのフェデレート学習は、上記の2つの問題を効果的に解決することができる。 しかし、UAVネットワークに適用する場合のフェデレーション学習は、UAV規制の地域差に起因するデータの均一性も考慮する必要がある。 そこで本研究では,グローバルモデル最適化のための新しいアルゴリズムであるFedBAを提案し,データの不均一性問題を解決する。 さらに,本アルゴリズムを実際のデータセットに適用し,実験結果から,アルゴリズムが他のアルゴリズムよりも優れ,uavの局所モデルの精度が向上したことを示す。

With the development and progress of science and technology, the Internet of Things(IoT) has gradually entered people's lives, bringing great convenience to our lives and improving people's work efficiency. Specifically, the IoT can replace humans in jobs that they cannot perform. As a new type of IoT vehicle, the current status and trend of research on Unmanned Aerial Vehicle(UAV) is gratifying, and the development prospect is very promising. However, privacy and communication are still very serious issues in drone applications. This is because most drones still use centralized cloud-based data processing, which may lead to leakage of data collected by drones. At the same time, the large amount of data collected by drones may incur greater communication overhead when transferred to the cloud. Federated learning as a means of privacy protection can effectively solve the above two problems. However, federated learning when applied to UAV networks also needs to consider the heterogeneity of data, which is caused by regional differences in UAV regulation. In response, this paper proposes a new algorithm FedBA to optimize the global model and solves the data heterogeneity problem. In addition, we apply the algorithm to some real datasets, and the experimental results show that the algorithm outperforms other algorithms and improves the accuracy of the local model for UAVs.
翻訳日:2022-10-11 18:50:08 公開日:2022-10-10
# PyHopper -- ハイパーパラメータ最適化

PyHopper -- Hyperparameter optimization ( http://arxiv.org/abs/2210.04728v1 )

ライセンス: Link先を確認
Mathias Lechner, Ramin Hasani, Philipp Neubauer, Sophie Neubauer, Daniela Rus(参考訳) ハイパーパラメータチューニングは機械学習研究の基本的な側面である。 ハイパーパラメータの体系的な最適化のためのインフラストラクチャのセットアップにはかなりの時間がかかる。 本稿では,機械学習研究者のハイパーパラメータチューニングワークフローを合理化するブラックボックス最適化プラットフォームpyhopperを提案する。 PyHopperの目標は、最小限の労力で既存のコードと統合し、最小限のマニュアル監視で最適化プロセスを実行することである。 単純さを主テーマとして、PyHopperは、数百万の次元にスケールする単一のロバストなマルコフチェーンモンテカルロ最適化アルゴリズムを利用している。 既存のチューニングパッケージと比較して、単一のアルゴリズムにフォーカスすることで、ユーザは複数のアルゴリズムを選択できなくなり、PyHopperを簡単にカスタマイズできる。 PyHopperはApache-2.0ライセンスでhttps://github.com/PyHopper/PyHopperで公開されている。

Hyperparameter tuning is a fundamental aspect of machine learning research. Setting up the infrastructure for systematic optimization of hyperparameters can take a significant amount of time. Here, we present PyHopper, a black-box optimization platform designed to streamline the hyperparameter tuning workflow of machine learning researchers. PyHopper's goal is to integrate with existing code with minimal effort and run the optimization process with minimal necessary manual oversight. With simplicity as the primary theme, PyHopper is powered by a single robust Markov-chain Monte-Carlo optimization algorithm that scales to millions of dimensions. Compared to existing tuning packages, focusing on a single algorithm frees the user from having to decide between several algorithms and makes PyHopper easily customizable. PyHopper is publicly available under the Apache-2.0 license at https://github.com/PyHopper/PyHopper.
翻訳日:2022-10-11 18:49:49 公開日:2022-10-10
# 次元化によるNTKの効率化

Efficient NTK using Dimensionality Reduction ( http://arxiv.org/abs/2210.04807v1 )

ライセンス: Link先を確認
Nir Ailon, Supratim Shit(参考訳) 近年、ニューラルネットワークの学習パラメータのダイナミックスを幅の広い範囲で説明するために、neural tangent kernel(ntk)が使われている。 NTKの定量的分析は、訓練と配備の両方において、しばしば非現実的で時間とエネルギーのコストが高いネットワーク幅をもたらす。 本稿では,行列因子化手法を用いて,事前解析により得られたものと類似の保証を得る方法を示し,学習コストと推論資源コストを低減させる。 入力点のデータの次元が入力点の数と同じ順序である場合、結果の重要性はさらに増大する。 より一般に,高密度線形層を低複雑性因子化に置き換えた大幅ネットワークを解析する方法を提案する。

Recently, neural tangent kernel (NTK) has been used to explain the dynamics of learning parameters of neural networks, at the large width limit. Quantitative analyses of NTK give rise to network widths that are often impractical and incur high costs in time and energy in both training and deployment. Using a matrix factorization technique, we show how to obtain similar guarantees to those obtained by a prior analysis while reducing training and inference resource costs. The importance of our result further increases when the input points' data dimension is in the same order as the number of input points. More generally, our work suggests how to analyze large width networks in which dense linear layers are replaced with a low complexity factorization, thus reducing the heavy dependence on the large width.
翻訳日:2022-10-11 18:49:35 公開日:2022-10-10
# 複素問題における深層強化学習のばらつきを軽減するためのnステップサロゲートステージ報酬

Long N-step Surrogate Stage Reward to Reduce Variances of Deep Reinforcement Learning in Complex Problems ( http://arxiv.org/abs/2210.04820v1 )

ライセンス: Link先を確認
Junmin Zhong, Ruofan Wu, Jennie Si(参考訳) 強化学習における高分散は、収束を阻害し、タスクパフォーマンスを損なう。 報酬信号は学習行動において重要な役割を果たすため、多段階法は問題を緩和すると考えられており、単段階法よりも効果的であると考えられている。 しかし、複雑な連続制御問題の解法における多段階法の有効性を示すために、この重要な側面に関する包括的かつ体系的な研究が欠如している。 本研究では, 従来の手法が限られたステップで実現可能であるのに対して, 複雑な環境のダイナミクスを効果的に考慮するために, 長いn$-step surrogate stage (lnss) アプローチを導入する。 LNSS法は単純で計算コストが低く、値ベースあるいはポリシー勾配強化学習に適用できる。 OpenAI Gym と DeepMind Control Suite の LNSS を体系的に評価し,DRL のよい結果を得るのが難しかった複雑なベンチマーク環境に対処する。 本稿では,総報酬,収束速度,変動係数(cv)の観点から,lssによる性能改善を示す。 また、LNSSが各単一ステップ法からQ値の分散の上限を指数関数的に減らす方法に関する分析的な洞察も提供する。

High variances in reinforcement learning have shown impeding successful convergence and hurting task performance. As reward signal plays an important role in learning behavior, multi-step methods have been considered to mitigate the problem, and are believed to be more effective than single step methods. However, there is a lack of comprehensive and systematic study on this important aspect to demonstrate the effectiveness of multi-step methods in solving highly complex continuous control problems. In this study, we introduce a new long $N$-step surrogate stage (LNSS) reward approach to effectively account for complex environment dynamics while previous methods are usually feasible for limited number of steps. The LNSS method is simple, low computational cost, and applicable to value based or policy gradient reinforcement learning. We systematically evaluate LNSS in OpenAI Gym and DeepMind Control Suite to address some complex benchmark environments that have been challenging to obtain good results by DRL in general. We demonstrate performance improvement in terms of total reward, convergence speed, and coefficient of variation (CV) by LNSS. We also provide analytical insights on how LNSS exponentially reduces the upper bound on the variances of Q value from a respective single step method
翻訳日:2022-10-11 18:49:22 公開日:2022-10-10
# 層アンサンブル

Layer Ensembles ( http://arxiv.org/abs/2210.04882v1 )

ライセンス: Link先を確認
Illia Oleksiienko and Alexandros Iosifidis(参考訳) ディープアンサンブルはベイズ型ニューラルネットワークの一種であり、各ネットワークから票を集め、それらの予測の差を計算することで、複数のニューラルネットワークの予測の不確実性を予測するのに使うことができる。 本稿では,ネットワークの各層毎の独立なカテゴリ分布を考慮し,通常のDeep Ensemblesよりも多くの重なり合ったサンプルを提供する,Layer Ensemblesと呼ばれる不確実性推定手法を提案する。 さらに、共通レイヤ出力を再利用し、最大19倍の高速化と2倍のメモリ使用量の削減を実現する推論プロシージャを備えた最適化レイヤアンサンブルを導入する。 また、レイヤーアンサンブルは、ランキングサンプルによってさらに改善できることを示し、結果として、Deep Ensemblesよりも高い不確実性を実現する一方で、メモリと実行時間が少なくなるモデルが得られる。

Deep Ensembles, as a type of Bayesian Neural Networks, can be used to estimate uncertainty on the prediction of multiple neural networks by collecting votes from each network and computing the difference in those predictions. In this paper, we introduce a novel method for uncertainty estimation called Layer Ensembles that considers a set of independent categorical distributions for each layer of the network, giving many more possible samples with overlapped layers, than in the regular Deep Ensembles. We further introduce Optimized Layer Ensembles with an inference procedure that reuses common layer outputs, achieving up to 19x speed up and quadratically reducing memory usage. We also show that Layer Ensembles can be further improved by ranking samples, resulting in models that require less memory and time to run while achieving higher uncertainty quality than Deep Ensembles.
翻訳日:2022-10-11 18:48:59 公開日:2022-10-10
# 支持ベクトルマシンとリカレントニューラルネットワークによるチェリーツリーの開花日予測

Predicting Blossom Date of Cherry Tree With Support Vector Machine and Recurrent Neural Network ( http://arxiv.org/abs/2210.04406v1 )

ライセンス: Link先を確認
Hongyi Zheng, Yanyu Chen, Zihan Zhang(参考訳) 本研究プロジェクトは,桜の開花時期と気温の関係を調査する。 モデルを通じて、将来の開花は予測され、公共計画の旅行を助け、花粉の季節を避ける。 桜の開花時期を正確に予測するために,マルチクラスサポートベクター分類器 (svc) とリカレントニューラルネットワーク (rnn, 特にlong short-term memory (lstm) を適用した。 最終的に、我々はこれらの手法の性能を評価し、比較し、現実にどちらがより適用可能かを調べる。

Our project probes the relationship between temperatures and the blossom date of cherry trees. Through modeling, future flowering will become predictive, helping the public plan travels and avoid pollen season. To predict the date when the cherry trees will blossom exactly could be viewed as a multiclass classification problem, so we applied the multi-class Support Vector Classifier (SVC) and Recurrent Neural Network (RNN), particularly Long Short-term Memory (LSTM), to formulate the problem. In the end, we evaluate and compare the performance of these approaches to find out which one might be more applicable in reality.
翻訳日:2022-10-11 18:41:00 公開日:2022-10-10
# 術中時系列の自己説明階層モデル

Self-explaining Hierarchical Model for Intraoperative Time Series ( http://arxiv.org/abs/2210.04417v1 )

ライセンス: Link先を確認
Dingwen Li, Bing Xue, Christopher King, Bradley Fritz, Michael Avidan, Joanna Abraham, Chenyang Lu(参考訳) 術後の合併症は外科的疾患である。 これらの合併症のいくつかは、術中データに基づく早期予測によって予防できる可能性がある。 しかし,術中データは細粒度多変量時系列で構成され,正確なモデルの効果的な学習を禁止している。 臨床イベントやプロトコルに関連する大きなギャップは通常無視される。 さらに、深いモデルは一般的に透明性を欠いている。 それにもかかわらず、この解釈性は、臨床医が術後のケアとタイムリーな介入の計画と提供を行うのを助けるのに不可欠である。 そこで本研究では,術中時系列における注意力と再帰力の両モデルを組み合わせた階層モデルを提案する。 さらに,術中データの貢献を細かな方法で提供し,予測を解釈するための階層モデルのための説明モジュールを開発した。 複数のアウトカムを持つ111,888回の大規模手術と外部高分解能icuデータセットの実験により,本モデルが強力な予測性能(すなわち,高い精度)を達成し,術中時系列に基づく予測結果に対する堅牢な解釈(すなわち高い透明性)を提供することが示された。

Major postoperative complications are devastating to surgical patients. Some of these complications are potentially preventable via early predictions based on intraoperative data. However, intraoperative data comprise long and fine-grained multivariate time series, prohibiting the effective learning of accurate models. The large gaps associated with clinical events and protocols are usually ignored. Moreover, deep models generally lack transparency. Nevertheless, the interpretability is crucial to assist clinicians in planning for and delivering postoperative care and timely interventions. Towards this end, we propose a hierarchical model combining the strength of both attention and recurrent models for intraoperative time series. We further develop an explanation module for the hierarchical model to interpret the predictions by providing contributions of intraoperative data in a fine-grained manner. Experiments on a large dataset of 111,888 surgeries with multiple outcomes and an external high-resolution ICU dataset show that our model can achieve strong predictive performance (i.e., high accuracy) and offer robust interpretations (i.e., high transparency) for predicted outcomes based on intraoperative time series.
翻訳日:2022-10-11 18:40:48 公開日:2022-10-10
# 温度の非対称なスケーリングは、ネットワークをもっと大きくする

Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again ( http://arxiv.org/abs/2210.04427v1 )

ライセンス: Link先を確認
Xin-Chun Li, Wen-Shu Fan, Shaoming Song, Yinchuan Li, Bingshuai Li, Yunfeng Shao, De-Chuan Zhan(参考訳) 知識蒸留(英: knowledge distillation, kd)は、よく発達したニューラルネットワーク("it teacher})の知識をより弱いもの("it student})に移すことを目的としている。 特異な現象は、より正確なモデルが必ずしも良く教えるとは限らないことであり、温度調整は不一致の容量を緩和することもできない。 これを説明するために、KDの有効性を3つの部分に分解する: {\it correct guidance}, {\it smooth regularization}, {\it class discriminability}。 最後の言葉は、教師がkdで提供する「間違ったクラス確率」の区別性を記述する。 複雑な教師は自信過剰であり、伝統的な温度スケーリングは「itクラス判別可能性」の有効性を制限する傾向がある。 そこで,本論文では,より高温度/低温度を正・低温度クラスに別々に適用する非対称温度スケーリング (ats) を提案する。 ATSは、教師のラベルにおける間違ったクラス確率のばらつきを拡大し、生徒に可能な限り、間違ったクラスとターゲットクラスとの絶対的な親和性を把握させる。 理論的解析と広範囲な実験により,ATSの有効性が示された。 mindspore で開発されたデモは \url{https://gitee.com/lxcnju/ats-mindspore} で公開されている。

Knowledge Distillation (KD) aims at transferring the knowledge of a well-performed neural network (the {\it teacher}) to a weaker one (the {\it student}). A peculiar phenomenon is that a more accurate model doesn't necessarily teach better, and temperature adjustment can neither alleviate the mismatched capacity. To explain this, we decompose the efficacy of KD into three parts: {\it correct guidance}, {\it smooth regularization}, and {\it class discriminability}. The last term describes the distinctness of {\it wrong class probabilities} that the teacher provides in KD. Complex teachers tend to be over-confident and traditional temperature scaling limits the efficacy of {\it class discriminability}, resulting in less discriminative wrong class probabilities. Therefore, we propose {\it Asymmetric Temperature Scaling (ATS)}, which separately applies a higher/lower temperature to the correct/wrong class. ATS enlarges the variance of wrong class probabilities in the teacher's label and makes the students grasp the absolute affinities of wrong classes to the target class as discriminative as possible. Both theoretical analysis and extensive experimental results demonstrate the effectiveness of ATS. The demo developed in Mindspore is available at \url{https://gitee.com/lxcnju/ats-mindspore}.
翻訳日:2022-10-11 18:40:31 公開日:2022-10-10
# 俳優か批評家か? 2つの時間スケールの物語

Actor-Critic or Critic-Actor? A Tale of Two Time Scales ( http://arxiv.org/abs/2210.04470v1 )

ライセンス: Link先を確認
Shalabh Bhatnagar, Vivek S. Borkar, Soumyajit Guin(参考訳) 本稿では,より高速な時間スケールで計算し,より遅い時間スケールで計算する値関数を用いた2つの時間スケール確率近似として,表型アクタ・クリティックアルゴリズムの標準的な定式化を再考する。 これはポリシーイテレーションをエミュレートする。 まず、時間スケールの逆転が実際に値反復をエミュレートし、正当性のあるアルゴリズムであることを観察する。 この2つの関数近似を(線形関数近似と非線形関数近似の両方と)経験的に比較し,提案アルゴリズムが計算コストを極端に増加させながら経験的に優れていることを示した。

We revisit the standard formulation of tabular actor-critic algorithm as a two time-scale stochastic approximation with value function computed on a faster time-scale and policy computed on a slower time-scale. This emulates policy iteration. We begin by observing that reversal of the time scales will in fact emulate value iteration and is a legitimate algorithm. We compare the two empirically with and without function approximation (with both linear and nonlinear function approximators) and observe that our proposed critic-actor algorithm performs better empirically though with a marginal increase in the computational cost.
翻訳日:2022-10-11 18:40:03 公開日:2022-10-10
# 不均一フェデレーション学習に関する調査研究

A Survey on Heterogeneous Federated Learning ( http://arxiv.org/abs/2210.04505v1 )

ライセンス: Link先を確認
Dashan Gao, Xin Yao, Qiang Yang(参考訳) フェデレートラーニング(FL)は、データプライバシを保護し、プライバシとセキュリティを侵害することなく、組織間のモデルを協調的にトレーニングすることで、独立したデータサイロを事実上組み立てることを目的としている。 しかし、FLはデータ空間、統計、システム不均一性など様々な側面から異質性に直面している。 例えば、関心の対立のない共同組織は、しばしば異なる領域から生まれ、異なる特徴空間から異質なデータを持つ。 参加者はまた、非IIDおよび不均衡なデータ分布と様々なリソース制約されたデバイスのために、異種パーソナライズされたローカルモデルをトレーニングしたい場合もあります。 したがって、FLの不均一性の問題に対処するために不均一FLを提案する。 本研究では,データ空間,統計,システム,モデルの不均一性の観点から,異種flの領域を包括的に検討する。 まずflの概要を説明し,その定義と分類について述べる。 そこで本稿では,問題設定と学習目的に応じて,各種類の不均一性に対する不均一FL設定の正確な分類法を提案する。 また,flの多様性に取り組むためのトランスファー学習手法についても検討した。 さらにヘテロジニアスFLの応用について述べる。 最後に、課題と機会を強調し、新しいフレームワーク設計と信頼できるアプローチに向けた将来的な研究方向性を想定する。

Federated learning (FL) has been proposed to protect data privacy and virtually assemble the isolated data silos by cooperatively training models among organizations without breaching privacy and security. However, FL faces heterogeneity from various aspects, including data space, statistical, and system heterogeneity. For example, collaborative organizations without conflict of interest often come from different areas and have heterogeneous data from different feature spaces. Participants may also want to train heterogeneous personalized local models due to non-IID and imbalanced data distribution and various resource-constrained devices. Therefore, heterogeneous FL is proposed to address the problem of heterogeneity in FL. In this survey, we comprehensively investigate the domain of heterogeneous FL in terms of data space, statistical, system, and model heterogeneity. We first give an overview of FL, including its definition and categorization. Then, We propose a precise taxonomy of heterogeneous FL settings for each type of heterogeneity according to the problem setting and learning objective. We also investigate the transfer learning methodologies to tackle the heterogeneity in FL. We further present the applications of heterogeneous FL. Finally, we highlight the challenges and opportunities and envision promising future research directions toward new framework design and trustworthy approaches.
翻訳日:2022-10-11 18:39:53 公開日:2022-10-10
# 有限地平線制約マルコフ決定過程に対する政策勾配アプローチ

A policy gradient approach for Finite Horizon Constrained Markov Decision Processes ( http://arxiv.org/abs/2210.04527v1 )

ライセンス: Link先を確認
Soumyajit Guin and Shalabh Bhatnagar(参考訳) 有限地平線設定は強化学習(RL)問題に広く採用されている。 これらは常に最適な定常的な政策をもたらす。 多くの場合、有限な地平線制御問題に興味を持ち、そのような問題に対して、最適方針は一般に時変である。 近年では、エージェントが報酬を最大化しつつ、一定の制約基準を満たすことを目的としている、制約強化学習(Constrained Reinforcement Learning)が人気になっている。 しかし、この設定は定常ポリシーが最適である無限地平線 MDP の文脈でのみ研究されている。 我々は,固定された(有限)時間後に地平線が終了する有限な地平線設定において,rlを制約するアルゴリズムを初めて提示する。 提案手法では,状態空間と動作空間が大きい場合や連続する場合に必要となる関数近似を用い,最適方針を求めるためにポリシー勾配法を用いる。 得られる最適方針はステージによって異なり、時間に依存します。 最善の知識を得るために,本論文は制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。 アルゴリズムの最適方針への収束を示す。 さらに,制約のない(つまり正規有限地平線mdp)設定において,本アルゴリズムのサンプル複雑性結果を示す。 また,本アルゴリズムの性能を実験により比較分析し,他のよく知られたアルゴリズムよりも優れた性能を示す。

The infinite horizon setting is widely adopted for problems of reinforcement learning (RL). These invariably result in stationary policies that are optimal. In many situations, finite horizon control problems are of interest and for such problems, the optimal policies are time-varying in general. Another setting that has become popular in recent times is of Constrained Reinforcement Learning, where the agent maximizes its rewards while also aims to satisfy certain constraint criteria. However, this setting has only been studied in the context of infinite horizon MDPs where stationary policies are optimal. We present, for the first time, an algorithm for constrained RL in the Finite Horizon Setting where the horizon terminates after a fixed (finite) time. We use function approximation in our algorithm which is essential when the state and action spaces are large or continuous and use the policy gradient method to find the optimal policy. The optimal policy that we obtain depends on the stage and so is time-dependent. To the best of our knowledge, our paper presents the first policy gradient algorithm for the finite horizon setting with constraints. We show the convergence of our algorithm to an optimal policy. We further present a sample complexity result for our algorithm in the unconstrained (i.e., the regular finite horizon MDP) setting. We also compare and analyze the performance of our algorithm through experiments and show that our algorithm performs better than other well known algorithms.
翻訳日:2022-10-11 18:39:33 公開日:2022-10-10
# DALE: 効率的かつ正確なグローバル説明のための差分蓄積局所効果

DALE: Differential Accumulated Local Effects for efficient and accurate global explanations ( http://arxiv.org/abs/2210.04542v1 )

ライセンス: Link先を確認
Vasilis Gkolemis, Theodore Dalamagas, Christos Diou(参考訳) 累積局所効果(英: Accumulated Local Effect, ALE)は、部分依存プロットのような既存の手法の基本的障害モードを克服し、特徴効果を正確に推定する手法である。 しかし、ALEの近似、すなわちトレーニングセットの限られたサンプルからALEを推定する方法は、2つの弱点に直面している。 第一に、入力が高次元性である場合にはスケールが良くなく、第二に、トレーニングセットが比較的小さい場合には、アウト・オブ・ディストリビューション(OOD)サンプリングに弱い。 本稿では,MLモデルが微分可能で,自動微分可能なフレームワークが利用できる場合に使用できる,微分局所効果(DALE)と呼ばれる新しいALE近似を提案する。 提案手法は,計算オーバーヘッドがほぼゼロな高次元機械学習シナリオに適用可能な特徴効果推定を実現する。 さらに、DALEは、OODサンプリングによる誤解を招く推定を解消し、特徴効果を計算するための人工的なポイントを作成しない。 最後に、ある仮説の下でデールがエールの偏りのない推定子であることを正式に証明し、説明の標準誤差を定量化する方法を提案する。 合成データと実データの両方を用いた実験は、提案手法の価値を示している。

Accumulated Local Effect (ALE) is a method for accurately estimating feature effects, overcoming fundamental failure modes of previously-existed methods, such as Partial Dependence Plots. However, ALE's approximation, i.e. the method for estimating ALE from the limited samples of the training set, faces two weaknesses. First, it does not scale well in cases where the input has high dimensionality, and, second, it is vulnerable to out-of-distribution (OOD) sampling when the training set is relatively small. In this paper, we propose a novel ALE approximation, called Differential Accumulated Local Effects (DALE), which can be used in cases where the ML model is differentiable and an auto-differentiable framework is accessible. Our proposal has significant computational advantages, making feature effect estimation applicable to high-dimensional Machine Learning scenarios with near-zero computational overhead. Furthermore, DALE does not create artificial points for calculating the feature effect, resolving misleading estimations due to OOD sampling. Finally, we formally prove that, under some hypotheses, DALE is an unbiased estimator of ALE and we present a method for quantifying the standard error of the explanation. Experiments using both synthetic and real datasets demonstrate the value of the proposed approach.
翻訳日:2022-10-11 18:39:14 公開日:2022-10-10
# なぜ君を選んだらいいのか。 AutoXAI: eXplainable AIソリューションの選択とチューニングのためのフレームワーク

Why Should I Choose You? AutoXAI: A Framework for Selecting and Tuning eXplainable AI Solutions ( http://arxiv.org/abs/2210.02795v2 )

ライセンス: Link先を確認
Robin Cugny, Julien Aligon, Max Chevalier, Geoffrey Roman Jimenez and Olivier Teste(参考訳) 近年、既存のML(Machine Learning)モデルの説明や解釈可能なMLモデルを作成するために、多くのXAI(eXplainable Artificial Intelligence)ソリューションが提案されている。 近年,評価手法が提案され,これらのxaiソリューションを比較できるようになった。 しかしながら、これらの多様性の中で最も重要なXAIソリューションを選択するのは、特に特定のニーズや制約を満たす場合、いまだに面倒な作業です。 本稿では,ユーザのコンテキスト(データセット,MLモデル,XAIのニーズ,制約)を考慮して,最適なXAIソリューションとそのハイパーパラメータを,特定のXAI評価指標に従って推奨するフレームワークであるAutoXAIを提案する。 コンテキスト対応レコメンデータシステムからのアプローチとAutoML(Automated Machine Learning)からの最適化と評価戦略に適応する。 われわれはAutoXAIを2つのユースケースに適用し、ユーザのニーズに合わせて最適なハイパーパラメータでXAIソリューションを推奨していることを示す。

In recent years, a large number of XAI (eXplainable Artificial Intelligence) solutions have been proposed to explain existing ML (Machine Learning) models or to create interpretable ML models. Evaluation measures have recently been proposed and it is now possible to compare these XAI solutions. However, selecting the most relevant XAI solution among all this diversity is still a tedious task, especially when meeting specific needs and constraints. In this paper, we propose AutoXAI, a framework that recommends the best XAI solution and its hyperparameters according to specific XAI evaluation metrics while considering the user's context (dataset, ML model, XAI needs and constraints). It adapts approaches from context-aware recommender systems and strategies of optimization and evaluation from AutoML (Automated Machine Learning). We apply AutoXAI to two use cases, and show that it recommends XAI solutions adapted to the user's needs with the best hyperparameters matching the user's constraints.
翻訳日:2022-10-11 18:24:39 公開日:2022-10-10
# Framingham Heart Study データセットを用いた欠測データ計算法の比較

Comparison of Missing Data Imputation Methods using the Framingham Heart study dataset ( http://arxiv.org/abs/2210.03154v2 )

ライセンス: Link先を確認
Konstantinos Psychogyios, Loukas Ilias, Dimitris Askounis(参考訳) 心臓血管疾患(英: Cardiovascular disease, CVD)は、心臓や血管を包含する疾患の一種であり、世界保健機関(WHO)によると、世界中の死因である。 この症例に関するEHRデータは、一般的には医療ケースと同様に、非常に頻度の低い値を含んでいる。 欠落の割合は様々であり、計器エラーや手動データ入力手順などと関連付けられている。 通常、欠落率は大きいが、多くの場合、欠落した値の計算部はケース削除またはモードや中央値の計算のような単純な統計手法で処理される。 これらの手法はデータセットの変数間の関係を考慮しないため、大きなバイアスをもたらすことが知られている。 医療フレームワークでは、多くのデータセットがラボテストまたは患者の医療テストで構成されており、これらの関係は存在し強い。 本稿では,GAN(Generative Adversarial Networks)とオートエンコーダ(Autoencoder)に基づく,最先端の欠落値計算手法のテストと修正を行う。 データ計算とポストインプット予測の両方のタスクに対して評価を行う。 計算作業では,正常化ルート平均正方形誤差 (RMSE) と受信器動作特性曲線 (AUROC) の0.20, 7.00%の改善が達成された。 計算後予測タスクでは、F1スコアで標準手法を2.50%上回っている。

Cardiovascular disease (CVD) is a class of diseases that involve the heart or blood vessels and according to World Health Organization is the leading cause of death worldwide. EHR data regarding this case, as well as medical cases in general, contain missing values very frequently. The percentage of missingness may vary and is linked with instrument errors, manual data entry procedures, etc. Even though the missing rate is usually significant, in many cases the missing value imputation part is handled poorly either with case-deletion or with simple statistical approaches such as mode and median imputation. These methods are known to introduce significant bias, since they do not account for the relationships between the dataset's variables. Within the medical framework, many datasets consist of lab tests or patient medical tests, where these relationships are present and strong. To address these limitations, in this paper we test and modify state-of-the-art missing value imputation methods based on Generative Adversarial Networks (GANs) and Autoencoders. The evaluation is accomplished for both the tasks of data imputation and post-imputation prediction. Regarding the imputation task, we achieve improvements of 0.20, 7.00% in normalised Root Mean Squared Error (RMSE) and Area Under the Receiver Operating Characteristic Curve (AUROC) respectively. In terms of the post-imputation prediction task, our models outperform the standard approaches by 2.50% in F1-score.
翻訳日:2022-10-11 18:24:23 公開日:2022-10-10
# 幾何学的複素PDEを解くための統一ハード制約フレームワーク

A Unified Hard-Constraint Framework for Solving Geometrically Complex PDEs ( http://arxiv.org/abs/2210.03526v2 )

ライセンス: Link先を確認
Songming Liu, Zhongkai Hao, Chengyang Ying, Hang Su, Jun Zhu, Ze Cheng(参考訳) 本稿では,最もよく用いられるディリクレ,ノイマン,ロビン境界条件(bcs)を考えるニューラルネットワークを用いて,幾何学的に複雑なpdesを解決するための統一的ハードコンストラクションフレームワークを提案する。 具体的には、まず混合有限要素法から「外部場」を導入し、PDEを3種類のBCを等価に線形形式に変換するように再構成する。 改革に基づいて、BCの一般的な解を解析的に導き、BCに自動的に満足するアンザッツを構築するために使用される。 このようなフレームワークを用いることで、余分な損失項を加えることなくニューラルネットワークをトレーニングし、幾何学的に複雑なPDEを効率的に処理し、BCとPDEに対応する損失項間の不均衡な競合を軽減することができる。 理論上は,「エクストラフィールド」がトレーニングプロセスを安定化できることを実証する。 実世界の幾何学的複素PDEの実験結果は,最先端のベースラインと比較して,本手法の有効性を示した。

We present a unified hard-constraint framework for solving geometrically complex PDEs with neural networks, where the most commonly used Dirichlet, Neumann, and Robin boundary conditions (BCs) are considered. Specifically, we first introduce the "extra fields" from the mixed finite element method to reformulate the PDEs so as to equivalently transform the three types of BCs into linear forms. Based on the reformulation, we derive the general solutions of the BCs analytically, which are employed to construct an ansatz that automatically satisfies the BCs. With such a framework, we can train the neural networks without adding extra loss terms and thus efficiently handle geometrically complex PDEs, alleviating the unbalanced competition between the loss terms corresponding to the BCs and PDEs. We theoretically demonstrate that the "extra fields" can stabilize the training process. Experimental results on real-world geometrically complex PDEs showcase the effectiveness of our method compared with state-of-the-art baselines.
翻訳日:2022-10-11 18:23:55 公開日:2022-10-10
# GTAV-NightRain:夜間降雨ストリーク除去のための測光リアルタイム大規模データセット

GTAV-NightRain: Photometric Realistic Large-scale Dataset for Night-time Rain Streak Removal ( http://arxiv.org/abs/2210.04708v1 )

ライセンス: Link先を確認
Fan Zhang, Shaodi You, Yu Li, Ying Fu(参考訳) 雨は透明で、カメラのシーンの光を反射し、屈折します。 屋外の視界では、特に雨は視界を低下させ、そのため除去する必要がある。 既存の雨害除去データセットでは、密度、スケール、方向、強度が考慮されているが、透明性は考慮されていない。 この問題は特に夜景において深刻な問題であり、雨の出現はシーン照明との相互作用に大きく依存し、画像内の異なる位置で大きく変化する。 非現実的なデータセットが深刻なドメインバイアスを引き起こすため、これは問題となる。 本稿では,大規模な夜間雨天除去データセットであるGTAV-NightRainデータセットを提案する。 既存のデータセットとは異なり、3dコンピュータグラフィックスプラットフォーム(gta v)を使用することで、雨と照度の間の3次元の相互作用を推測することができる。 データセットの現在のリリースには、12,860のhd雨画像と1,286の対応するhd地上真実画像が含まれている。 体系的なベンチマークと分析がデータセットと共に提供され、さらなる研究を促す。

Rain is transparent, which reflects and refracts light in the scene to the camera. In outdoor vision, rain, especially rain streaks degrade visibility and therefore need to be removed. In existing rain streak removal datasets, although density, scale, direction and intensity have been considered, transparency is not fully taken into account. This problem is particularly serious in night scenes, where the appearance of rain largely depends on the interaction with scene illuminations and changes drastically on different positions within the image. This is problematic, because unrealistic dataset causes serious domain bias. In this paper, we propose GTAV-NightRain dataset, which is a large-scale synthetic night-time rain streak removal dataset. Unlike existing datasets, by using 3D computer graphic platform (namely GTA V), we are allowed to infer the three dimensional interaction between rain and illuminations, which insures the photometric realness. Current release of the dataset contains 12,860 HD rainy images and 1,286 corresponding HD ground truth images in diversified night scenes. A systematic benchmark and analysis are provided along with the dataset to inspire further research.
翻訳日:2022-10-11 18:15:03 公開日:2022-10-10
# 最適輸送アライメントによるセマンティックス-一貫性クロスドメイン要約

Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment ( http://arxiv.org/abs/2210.04722v1 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Franck Dernoncourt, Trung Bui, Zhaowen Wang, Bo Li, Ding Zhao, Hailin Jin(参考訳) マルチモーダル・アウトプット(MSMO)を用いたマルチメディア要約は,最近検討された言語基盤への応用である。 現実世界のアプリケーション、すなわちニュース記事のカバーイメージやタイトルを自動的に生成したり、オンラインビデオの紹介を行う上で重要な役割を果たす。 しかし、既存の手法は映像や記事全体から特徴を抽出し、融合法を用いて代表的なものを選択するため、通常は臨界構造や様々な意味論を無視している。 本研究では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタント・クロスドメイン・サマリゼーション(SCCS)モデルを提案する。 具体的には,まずビデオと記事の両方をセグメントに分解し,構造的意味論を抽出する。 次に、sccは最適な移動距離を持つクロスドメインアライメントの目的に従い、マルチモーダルな相互作用を利用して視覚的およびテキスト的要約をマッチングおよび選択する。 提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。

Multimedia summarization with multimodal output (MSMO) is a recently explored application in language grounding. It plays an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online videos. However, existing methods extract features from the whole video and article and use fusion methods to select the representative one, thus usually ignoring the critical structure and varying semantics. In this work, we propose a Semantics-Consistent Cross-domain Summarization (SCCS) model based on optimal transport alignment with visual and textual segmentation. In specific, our method first decomposes both video and article into segments in order to capture the structural semantics, respectively. Then SCCS follows a cross-domain alignment objective with optimal transport distance, which leverages multimodal interaction to match and select the visual and textual summary. We evaluated our method on three recent multimodal datasets and demonstrated the effectiveness of our method in producing high-quality multimodal summaries.
翻訳日:2022-10-11 18:14:46 公開日:2022-10-10
# 自動運転運転のためのマルチタスクネットワークのエッジデバイス展開

Edge Device Deployment of Multi-Tasking Network for Self-Driving Operations ( http://arxiv.org/abs/2210.04735v1 )

ライセンス: Link先を確認
Shokhrukh Miraliev, Shakhboz Abdigapporov, Jumabek Alikhanov, Vijay Kakani, Hakil Kim(参考訳) 安全で堅牢な自動運転システムは、アプリケーション指向シナリオの環境の正確な認識に依存している。 本稿では,3つの重要なタスク(オブジェクト検出,ドライビング可能な領域分割,レーン検出タスク)を組み込みシステムに展開することを提案する。 この研究目的を達成するために、単純なエンコーダデコーダアーキテクチャを用いてマルチタスクネットワークを利用する。 異なるバックボーンネットワークに基づく2つのモデルの包括的かつ広範な比較を行う。 すべてのトレーニング実験はサーバ上で行われ、Nvidia Jetson Xavier NXはデプロイメントデバイスとして選択される。

A safe and robust autonomous driving system relies on accurate perception of the environment for application-oriented scenarios. This paper proposes deployment of the three most crucial tasks (i.e., object detection, drivable area segmentation and lane detection tasks) on embedded system for self-driving operations. To achieve this research objective, multi-tasking network is utilized with a simple encoder-decoder architecture. Comprehensive and extensive comparisons for two models based on different backbone networks are performed. All training experiments are performed on server while Nvidia Jetson Xavier NX is chosen as deployment device.
翻訳日:2022-10-11 18:14:31 公開日:2022-10-10
# LMQFormer:軽量除雪用ラプラスガイド型マスククエリトランス

LMQFormer: A Laplace-Prior-Guided Mask Query Transformer for Lightweight Snow Removal ( http://arxiv.org/abs/2210.04787v1 )

ライセンス: Link先を確認
Junhong Lin, Nanfeng Jiang, Zhentao Zhang, Weiling Chen and Tiesong Zhao(参考訳) 除雪は、雪の地域を見つけ、痕跡を修復することなくクリーンな画像を復元することを目的としている。 雨の規則性や半透明性とは異なり、様々なパターンと劣化の降雪は背景をひどく損なう。 その結果、最先端の除雪方法は、通常、大きなパラメータサイズを保持する。 本稿では,Laplace Mask Query Transformer (LMQFormer) と呼ばれる軽量だが高効率な除雪ネットワークを提案する。 まず,雪の先行知識として粗いマスクを生成するためのLaplace-VQVAEを提案する。 マスクをデータセットに使用する代わりに、雪の情報エントロピーと回復の計算コストの両方を削減することを目的としている。 第2に、粗いマスクで雪を取り除くためにMask Query Transformer(MQFormer)を設計し、2つの並列エンコーダとハイブリッドデコーダを使用して、軽量な要求下で広範な雪の特徴を学習する。 第3に、粗いマスクを特定の数のクエリに変換するDMQA(Duplicated Mask Query Attention)を開発し、パラメータを減らしたMQFormerの注意領域を制限する。 また, 提案モデルの有効性を実証し, パラメータが大幅に減少し, 走行時間が低くなることにより, 最先端の除雪性能が得られることを示した。

Snow removal aims to locate snow areas and recover clean images without repairing traces. Unlike the regularity and semitransparency of rain, snow with various patterns and degradations seriously occludes the background. As a result, the state-of-the-art snow removal methods usually retains a large parameter size. In this paper, we propose a lightweight but high-efficient snow removal network called Laplace Mask Query Transformer (LMQFormer). Firstly, we present a Laplace-VQVAE to generate a coarse mask as prior knowledge of snow. Instead of using the mask in dataset, we aim at reducing both the information entropy of snow and the computational cost of recovery. Secondly, we design a Mask Query Transformer (MQFormer) to remove snow with the coarse mask, where we use two parallel encoders and a hybrid decoder to learn extensive snow features under lightweight requirements. Thirdly, we develop a Duplicated Mask Query Attention (DMQA) that converts the coarse mask into a specific number of queries, which constraint the attention areas of MQFormer with reduced parameters. Experimental results in popular datasets have demonstrated the efficiency of our proposed model, which achieves the state-of-the-art snow removal quality with significantly reduced parameters and the lowest running time.
翻訳日:2022-10-11 18:14:22 公開日:2022-10-10
# 4次元教師なし物体発見

4D Unsupervised Object Discovery ( http://arxiv.org/abs/2210.04801v1 )

ライセンス: Link先を確認
Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang(参考訳) オブジェクト発見はコンピュータビジョンのコアタスクである。 監視対象検出の急速な進歩はあったが、その教師なし検出は未発見のままである。 データ量の増加に伴い、アノテーションの高価なコストが、さらなる研究を妨げる大きな制限となっている。 したがって、アノテーションなしでオブジェクトを見つけることは非常に重要である。 しかし、このタスクは、識別情報の欠如のため、静止画や点雲だけでは実用的でないように思える。 従来の研究は、重要な時間的情報や制約をマルチモーダル入力の背後で自然に見てきた。 本稿では,3次元点雲と2次元RGB画像の3次元データからオブジェクトを同時検出する4次元非教師対象発見法を提案する。 本稿では,2次元局所化ネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。 大規模なwaymoオープンデータセットに関する広範な実験は、ローカライズネットワークとclusternetが、クラスに依存しない2dオブジェクト検出と3dインスタンスセグメンテーションの両方で競合性能を達成していることを示唆している。 コードとモデルはhttps://github.com/Robertwyq/LSMOL.comで公開される。

Object discovery is a core task in computer vision. While fast progresses have been made in supervised object detection, its unsupervised counterpart remains largely unexplored. With the growth of data volume, the expensive cost of annotations is the major limitation hindering further study. Therefore, discovering objects without annotations has great significance. However, this task seems impractical on still-image or point cloud alone due to the lack of discriminative information. Previous studies underlook the crucial temporal information and constraints naturally behind multi-modal inputs. In this paper, we propose 4D unsupervised object discovery, jointly discovering objects from 4D data -- 3D point clouds and 2D RGB images with temporal information. We present the first practical approach for this task by proposing a ClusterNet on 3D point clouds, which is jointly iteratively optimized with a 2D localization network. Extensive experiments on the large-scale Waymo Open Dataset suggest that the localization network and ClusterNet achieve competitive performance on both class-agnostic 2D object detection and 3D instance segmentation, bridging the gap between unsupervised methods and full supervised ones. Codes and models will be made available at https://github.com/Robertwyq/LSMOL.
翻訳日:2022-10-11 18:14:00 公開日:2022-10-10
# テスト時間領域適応のためのビジュアルプロンプトチューニング

Visual Prompt Tuning for Test-time Domain Adaptation ( http://arxiv.org/abs/2210.04831v1 )

ライセンス: Link先を確認
Yunhe Gao, Xingjian Shi, Yi Zhu, Hao Wang, Zhiqiang Tang, Xiong Zhou, Mu Li, Dimitris N. Metaxas(参考訳) モデルは、実世界のデプロイメントシナリオにおける必然的な分散シフトに起因するパフォーマンス低下を避けるために、テスト期間中に目に見えないデータに適応する能力を持つべきです。 本研究では,モデルがソースデータにアクセスせずに対象領域に適応する,実用的かつ困難なテスト時適応(TTA)問題に取り組む。 そこで本研究では,2つの主成分を用いたデータ効率プロンプトチューニング(dept)という簡単なレシピを提案する。 まず、deptは視覚トランスフォーマーに視覚プロンプトを挿入し、これらのソース初期化プロンプトのみを適応時にチューニングする。 このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。 次に、deptは、メモリバンクベースのオンライン擬似ラベリングによって、ソース表現をターゲットドメインにブートストラップする。 プロンプト用に特別に設計された階層的自己監督正規化は、自己学習中のエラー蓄積を軽減するために共同最適化される。 チューニング可能なパラメータをはるかに少なくすることで、deptは、主要な適応ベンチマークでの最先端のパフォーマンスだけでなく、100\%データに比べて性能低下のない1\%または10\%データでの適応性、より優れたデータ効率を示す。 さらに、DePTはオンラインまたはマルチソースのTTA設定にも拡張可能である。

Models should have the ability to adapt to unseen data during test-time to avoid performance drop caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called data-efficient prompt tuning (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.
翻訳日:2022-10-11 18:13:39 公開日:2022-10-10
# 空中画像を用いた水鳥モニタリングのための深部物体検出

Deep object detection for waterbird monitoring using aerial imagery ( http://arxiv.org/abs/2210.04868v1 )

ライセンス: Link先を確認
Krish Kabra, Alexander Xiong, Wenbin Li, Minxuan Luo, William Lu, Raul Garcia, Dhananjay Vijay, Jiahui Yu, Maojie Tang, Tianjiao Yu, Hank Arnold, Anna Vallery, Richard Gibbons, Arko Barman(参考訳) 水鳥の営巣島のモニタリングは、生態系の健全性の評価や保全管理の決定に使用される水鳥の個体群の動向を追跡するために不可欠である。 最近、無人航空機やドローンが、水鳥のコロニーを正確に監視する技術として登場した。 しかし、何百、あるいは数千もの空中画像から水鳥を手動で数えることは困難かつ時間がかかります。 本研究では,商用ドローンで収集した空中画像を用いて,水鳥の正確な検出,数え,監視に使用できる深層学習パイプラインを提案する。 畳み込み型ニューラルネットワークを用いた物体検出装置を用いて,テキサス沿岸の植民地性営巣島でよく見られる16種類の水鳥を検出できることを示す。 高速R-CNNとRetinaNetオブジェクト検出器を用いた実験では,それぞれ67.9%,63.1%の平均補間精度が得られた。

Monitoring of colonial waterbird nesting islands is essential to tracking waterbird population trends, which are used for evaluating ecosystem health and informing conservation management decisions. Recently, unmanned aerial vehicles, or drones, have emerged as a viable technology to precisely monitor waterbird colonies. However, manually counting waterbirds from hundreds, or potentially thousands, of aerial images is both difficult and time-consuming. In this work, we present a deep learning pipeline that can be used to precisely detect, count, and monitor waterbirds using aerial imagery collected by a commercial drone. By utilizing convolutional neural network-based object detectors, we show that we can detect 16 classes of waterbird species that are commonly found in colonial nesting islands along the Texas coast. Our experiments using Faster R-CNN and RetinaNet object detectors give mean interpolated average precision scores of 67.9% and 63.1% respectively.
翻訳日:2022-10-11 18:13:18 公開日:2022-10-10
# EVA3D:2次元画像からの合成3Dヒューマンジェネレーション

EVA3D: Compositional 3D Human Generation from 2D Image Collections ( http://arxiv.org/abs/2210.04888v1 )

ライセンス: Link先を確認
Fangzhou Hong, Zhaoxi Chen, Yushi Lan, Liang Pan, Ziwei Liu(参考訳) 逆グラフィックスは2次元観察から3次元モデルを復元することを目的としている。 微分レンダリングを利用して、最近の3D認識生成モデルは、2D画像を用いた剛体オブジェクト生成の印象的な結果を示している。 しかし、ポーズや外観の複雑さと多様性のため、人間の体のような関節のある物体を生成することは依然として困難である。 本研究では,2次元画像収集から学習した無条件3次元生成モデルであるeva3dを提案する。 EVA3Dは、詳細な幾何学を持つ3D人間をサンプリングし、ベルやホイッスルを使わずに高品質な画像(最大512x256)をレンダリングすることができる。 EVA3Dの中核には、人体を局所的な部分に分割する合成ヒトのNeRF表現がある。 各パートは個々のボリュームで表現される。 この構成表現は 1)人間固有の優先事項 2)ネットワークパラメータの適応割り当て 3) 効率的なトレーニングとレンダリング。 さらに,スパース2次元画像コレクションの特徴(例えば不均衡ポーズ分布)に対応するため,より優れたGAN学習のためのポーズ誘導サンプリング戦略を提案する。 EVA3Dはテクスチャーとテクスチャの質の両方に関して最先端の3次元人為的性能を実現する。 特にEVA3Dは、クリーンなフレームワークで多様な人体を"逆グラフ"する大きな可能性とスケーラビリティを示している。

Inverse graphics aims to recover 3D models from 2D observations. Utilizing differentiable rendering, recent 3D-aware generative models have shown impressive results of rigid object generation using 2D images. However, it remains challenging to generate articulated objects, like human bodies, due to their complexity and diversity in poses and appearances. In this work, we propose, EVA3D, an unconditional 3D human generative model learned from 2D image collections only. EVA3D can sample 3D humans with detailed geometry and render high-quality images (up to 512x256) without bells and whistles (e.g. super resolution). At the core of EVA3D is a compositional human NeRF representation, which divides the human body into local parts. Each part is represented by an individual volume. This compositional representation enables 1) inherent human priors, 2) adaptive allocation of network parameters, 3) efficient training and rendering. Moreover, to accommodate for the characteristics of sparse 2D human image collections (e.g. imbalanced pose distribution), we propose a pose-guided sampling strategy for better GAN learning. Extensive experiments validate that EVA3D achieves state-of-the-art 3D human generation performance regarding both geometry and texture quality. Notably, EVA3D demonstrates great potential and scalability to "inverse-graphics" diverse human bodies with a clean framework.
翻訳日:2022-10-11 18:13:03 公開日:2022-10-10
# Token Dropout を用いたターボトレーニング

Turbo Training with Token Dropout ( http://arxiv.org/abs/2210.04889v1 )

ライセンス: Link先を確認
Tengda Han, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,映像タスクの効率的な訓練方法である。 1)複数のビデオタスクにおけるトランスフォーマーのためのシンプルで多目的なトレーニングパラダイムであるTurbo Trainingを提案する。 2) 動作分類, 映像言語表現学習, 長時間映像活動分類におけるTurboトレーニングの利点について述べるとともに, ほぼ4倍のスピードアップを実現し, メモリ消費を大幅に削減できることを示す。 (3) ターボトレーニングは, 限られた資源下でのトレーニングが不可能な, 従来よりも競争力や優れたパフォーマンスを実現するため, 長距離ビデオ言語訓練とエンドツーエンドビデオ訓練を可能にする。

The objective of this paper is an efficient training method for video tasks. We make three contributions: (1) We propose Turbo training, a simple and versatile training paradigm for Transformers on multiple video tasks. (2) We illustrate the advantages of Turbo training on action classification, video-language representation learning, and long-video activity classification, showing that Turbo training can largely maintain competitive performance while achieving almost 4X speed-up and significantly less memory consumption. (3) Turbo training enables long-schedule video-language training and end-to-end long-video training, delivering competitive or superior performance than previous works, which were infeasible to train under limited resources.
翻訳日:2022-10-11 18:12:43 公開日:2022-10-10
# YFACC:視覚的接地による言語間キーワードローカライゼーションのためのYor\`ub\'a音声画像データセット

YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword localisation through visual grounding ( http://arxiv.org/abs/2210.04600v1 )

ライセンス: Link先を確認
Kayode Olaleye, Dan Oneata, Herman Kamper(参考訳) ヴィジュアル・グラウンドド・スピーチ(vgs)モデルは、ラベルなしの音声キャプションと組み合わせた画像で訓練される。 このようなモデルは、ラベル付きデータの取得が不可能な設定で音声システムを構築するために用いられる。 しかしながら、ほとんどのVGS研究は英語や他の高リソース言語で行われている。 本稿ではこの欠点に対処しようと試みる。 我々は、ナイジェリアで話されている真のローソース言語yor\``ub\'aで、6k flickr画像のための音声キャプションの、新しい単一話者データセットを収集してリリースします。 我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yor\`ub\'a 発話と組み合わせる。 これにより、言語間のキーワードのローカライゼーションが可能になり、Yor\`ub\'a 音声で書かれた英語クエリが検出され、位置される。 より小さなデータセットの効果を定量化するために、類似データに基づいて訓練された英語システムと比較する。 この新しいデータセットは、実際の低リソース言語にvgsモデルを使用する研究を促進することを期待している。

Visually grounded speech (VGS) models are trained on images paired with unlabelled spoken captions. Such models could be used to build speech systems in settings where it is impossible to get labelled data, e.g. for documenting unwritten languages. However, most VGS studies are in English or other high-resource languages. This paper attempts to address this shortcoming. We collect and release a new single-speaker dataset of audio captions for 6k Flickr images in Yor\`ub\'a -- a real low-resource language spoken in Nigeria. We train an attention-based VGS model where images are automatically tagged with English visual labels and paired with Yor\`ub\'a utterances. This enables cross-lingual keyword localisation: a written English query is detected and located in Yor\`ub\'a speech. To quantify the effect of the smaller dataset, we compare to English systems trained on similar and more data. We hope that this new dataset will stimulate research in the use of VGS models for real low-resource languages.
翻訳日:2022-10-11 18:12:29 公開日:2022-10-10
# バウンダリフェイス:顔認識のための雑音ラベル自己補正によるマイニングフレームワーク

BoundaryFace: A mining framework with noise label self-correction for Face Recognition ( http://arxiv.org/abs/2210.04567v1 )

ライセンス: Link先を確認
Shijie Wu and Xun Gong(参考訳) 近年の顔認識は、損失関数の進歩とトレーニングセットのサイズが爆発的に伸びているため、大きな進歩を遂げている。 適切に設計された損失は分類のための識別的特徴を抽出する鍵と見なされる。 顔認識におけるソフトマックス損失の代替として、マージンに基づく損失がいくつか提案されている。 しかし、2つの問題が残る。 1) 識別学習におけるハードサンプルマイニングの重要性を見落としている。 2)大規模データセットにはラベルノイズがユビキタスに存在するため,モデルの性能を著しく損なう可能性がある。 本稿では,決定境界の観点から,サンプルの真理クラスセンターと最寄りの負クラスセンターの関係に着目した新たなマイニングフレームワークを提案する。 具体的には、クローズドセットノイズラベルの自己補正モジュールが前進し、多くのラベルノイズを含むデータセットでこのフレームワークがうまく機能する。 提案手法は様々な顔認証ベンチマークにおいてSOTA法より一貫して優れる。 トレーニングコードはhttps://github.com/SWJTU-3DVision/BoundaryFaceでリリースされた。

Face recognition has made tremendous progress in recent years due to the advances in loss functions and the explosive growth in training sets size. A properly designed loss is seen as key to extract discriminative features for classification. Several margin-based losses have been proposed as alternatives of softmax loss in face recognition. However, two issues remain to consider: 1) They overlook the importance of hard sample mining for discriminative learning. 2) Label noise ubiquitously exists in large-scale datasets, which can seriously damage the model's performance. In this paper, starting from the perspective of decision boundary, we propose a novel mining framework that focuses on the relationship between a sample's ground truth class center and its nearest negative class center. Specifically, a closed-set noise label self-correction module is put forward, making this framework work well on datasets containing a lot of label noise. The proposed method consistently outperforms SOTA methods in various face recognition benchmarks. Training code has been released at https://github.com/SWJTU-3DVision/BoundaryFace.
翻訳日:2022-10-11 18:06:32 公開日:2022-10-10
# 教師なしマルチモーダル異常検出と局在のためのeyecandiesデータセット

The Eyecandies Dataset for Unsupervised Multimodal Anomaly Detection and Localization ( http://arxiv.org/abs/2210.04570v1 )

ライセンス: Link先を確認
Luca Bonfiglioli, Marco Toschi, Davide Silvestri, Nicola Fioraio, Daniele De Gregorio(参考訳) 教師なし異常検出および局所化のための新しい合成データセットであるEyecandiesを提案する。 複数の雷条件下で制御された環境下でプロシージャ生成したキャンディーの光リアル画像がレンダリングされ、産業用コンベアのシナリオで深度と正常マップが提供される。 モデルトレーニングとバリデーションのための異常なサンプルを利用可能とし, 正確な接地トルースアノテーションを持つ異常なインスタンスをテストセットでのみ提供する。 データセットは10種類のキャンディーで構成され、それぞれが複雑なテクスチャ、自己閉塞、特異性など、さまざまな課題を示す。 さらに,プロシージャレンダリングパイプラインのキーパラメータをランダムに描画し,任意の数のインスタンスをフォトリアリスティックな外観で作成することで,クラス内の大きな変動を実現する。 同様に、レンダリンググラフに異常が注入され、ピクセル単位でのアノテーションが自動的に生成される。 このデータセットは、例えば、色、深さ、正規マップを組み合わせることで、既存のほとんどのデータセットでは提供されないような、異常検出タスクを解決するためのオリジナルのアプローチの探求を促す可能性がある。 実際、追加情報の利用によって検出性能が向上する可能性を実証するために、深い畳み込みオートエンコーダを訓練し、異なる入力の組み合わせを再構築した結果を示す。

We present Eyecandies, a novel synthetic dataset for unsupervised anomaly detection and localization. Photo-realistic images of procedurally generated candies are rendered in a controlled environment under multiple lightning conditions, also providing depth and normal maps in an industrial conveyor scenario. We make available anomaly-free samples for model training and validation, while anomalous instances with precise ground-truth annotations are provided only in the test set. The dataset comprises ten classes of candies, each showing different challenges, such as complex textures, self-occlusions and specularities. Furthermore, we achieve large intra-class variation by randomly drawing key parameters of a procedural rendering pipeline, which enables the creation of an arbitrary number of instances with photo-realistic appearance. Likewise, anomalies are injected into the rendering graph and pixel-wise annotations are automatically generated, overcoming human-biases and possible inconsistencies. We believe this dataset may encourage the exploration of original approaches to solve the anomaly detection task, e.g. by combining color, depth and normal maps, as they are not provided by most of the existing datasets. Indeed, in order to demonstrate how exploiting additional information may actually lead to higher detection performance, we show the results obtained by training a deep convolutional autoencoder to reconstruct different combinations of inputs.
翻訳日:2022-10-11 18:06:16 公開日:2022-10-10
# フロアプラン対応カメラのリファインメント

Floorplan-Aware Camera Poses Refinement ( http://arxiv.org/abs/2210.04572v1 )

ライセンス: Link先を確認
Anna Sokolova, Filipp Nikitin, Anna Vorontsova, Anton Konushin(参考訳) 大きな屋内シーンを処理するのは難しい作業であり、スキャン登録とカメラの軌跡推定手法が時間に渡りエラーを蓄積する。 その結果,壁の正しい位置が重要である視覚ベースの位置決めやナビゲーションなど,いくつかのアプリケーションでは再構成スキャンの品質が不十分となる。 多くの屋内シーンには、壁、仕切り、ドアなど、シーンの幾何学的要素や主要な構造要素に関する情報を含む技術的なフロアプランのイメージが存在している。 このようなフロアプランは空間情報の有用な情報源であり、3次元モデルの最適化を導くことができる。 標準RGB-D3D再構築パイプラインは、RGB-Dシーケンスに適用されるトラッキングモジュールと、RGB-Dシーケンスをポーズし、カメラのポーズを補正して一貫性を向上させるバンドル調整(BA)モジュールとから構成される。 本稿では,シーン構造に関する事前知識をフロアプラン形式で活用する,従来のBAを拡張した新しい最適化アルゴリズムを提案する。 redwoodデータセットと自己取得データを用いた実験により,3次元復元の精度が向上した。

Processing large indoor scenes is a challenging task, as scan registration and camera trajectory estimation methods accumulate errors across time. As a result, the quality of reconstructed scans is insufficient for some applications, such as visual-based localization and navigation, where the correct position of walls is crucial. For many indoor scenes, there exists an image of a technical floorplan that contains information about the geometry and main structural elements of the scene, such as walls, partitions, and doors. We argue that such a floorplan is a useful source of spatial information, which can guide a 3D model optimization. The standard RGB-D 3D reconstruction pipeline consists of a tracking module applied to an RGB-D sequence and a bundle adjustment (BA) module that takes the posed RGB-D sequence and corrects the camera poses to improve consistency. We propose a novel optimization algorithm expanding conventional BA that leverages the prior knowledge about the scene structure in the form of a floorplan. Our experiments on the Redwood dataset and our self-captured data demonstrate that utilizing floorplan improves accuracy of 3D reconstructions.
翻訳日:2022-10-11 18:05:53 公開日:2022-10-10
# ARUBA: 空中物体検出のためのアーキテクチャ非依存の平衡損失

ARUBA: An Architecture-Agnostic Balanced Loss for Aerial Object Detection ( http://arxiv.org/abs/2210.04574v1 )

ライセンス: Link先を確認
Rebbapragada V C Sairam, Monish Keswani, Uttaran Sinha, Nishit Shah, Vineeth N Balasubramanian(参考訳) ディープニューラルネットワークは、トレーニングデータセットのバイアスを相反する傾向がある。 オブジェクト検出において、バイアスはクラス、背景、オブジェクトサイズといった様々な不均衡の形で存在する。 本稿では,オブジェクトのサイズを画像中の画素数,サイズ不均衡として,データセット内の特定のオブジェクトサイズの過剰表現として表現する。 我々は,ドローンによる空中画像データセットにおけるサイズ不均衡の問題に対処することを目的とする。 既存のサイズ不均衡の解決方法は、複数のスケールの画像や特徴マップを用いて異なるサイズのオブジェクトを検出するアーキテクチャ上の変更に基づいている。 一方,我々は,任意のオブジェクト検出モデル上でプラグインとして適用可能な,新しいアーキテクチャ非依存な平衡損失(aruba)を提案する。 これは、オブジェクトサイズの順序性にインスパイアされた近傍駆動アプローチに従う。 HRSC2016, DOTAv1.0, DOTAv1.5, VisDroneなどの航空データセットを用いた総合的な実験により, 本手法の有効性を検証し, 一貫した性能向上を実現する。

Deep neural networks tend to reciprocate the bias of their training dataset. In object detection, the bias exists in the form of various imbalances such as class, background-foreground, and object size. In this paper, we denote size of an object as the number of pixels it covers in an image and size imbalance as the over-representation of certain sizes of objects in a dataset. We aim to address the problem of size imbalance in drone-based aerial image datasets. Existing methods for solving size imbalance are based on architectural changes that utilize multiple scales of images or feature maps for detecting objects of different sizes. We, on the other hand, propose a novel ARchitectUre-agnostic BAlanced Loss (ARUBA) that can be applied as a plugin on top of any object detection model. It follows a neighborhood-driven approach inspired by the ordinality of object size. We evaluate the effectiveness of our approach through comprehensive experiments on aerial datasets such as HRSC2016, DOTAv1.0, DOTAv1.5 and VisDrone and obtain consistent improvement in performance.
翻訳日:2022-10-11 18:05:34 公開日:2022-10-10
# Universal Adversarial Perturbations:小さな画像データセットの効率性

Universal Adversarial Perturbations: Efficiency on a small image dataset ( http://arxiv.org/abs/2210.04591v1 )

ライセンス: Link先を確認
Waris Radji (ENSEIRB-MATMECA, UB)(参考訳) ニューラルネットワークは画像分類タスクで非常によく機能するが、入力イメージを視覚的に変更することなくニューラルネットワークを騙す敵の摂動に弱い。 論文では、任意の画像に付加された場合、非常に高い確率でニューラルネットワークを騙すユニバーサル・アドバイサル摂動の存在が示されている。 本稿では,計算された摂動の効率を研究できるように,より小さなニューラルネットワークアーキテクチャとトレーニングセット上で,普遍的摂動論文の経験を再現する。

Although neural networks perform very well on the image classification task, they are still vulnerable to adversarial perturbations that can fool a neural network without visibly changing an input image. A paper has shown the existence of Universal Adversarial Perturbations which when added to any image will fool the neural network with a very high probability. In this paper we will try to reproduce the experience of the Universal Adversarial Perturbations paper, but on a smaller neural network architecture and training set, in order to be able to study the efficiency of the computed perturbation.
翻訳日:2022-10-11 18:05:16 公開日:2022-10-10
# カテゴリーシフトを用いたマルチタスク分類のための連想グラフ学習

Association Graph Learning for Multi-Task Classification with Category Shifts ( http://arxiv.org/abs/2210.04637v1 )

ライセンス: Link先を確認
Jiayi Shen, Zehao Xiao, Xiantong Zhen, Cees G. M. Snoek and Marcel Worring(参考訳) 本稿では,関連する分類タスクが同一ラベル空間を共有し,同時に学習されるマルチタスク分類に焦点を当てる。 特に、現在文献で取り組まれているよりも現実的な新しい設定に取り組み、カテゴリをトレーニングからテストデータにシフトさせます。 したがって、個々のタスクはテストセット内のカテゴリの完全なトレーニングデータを含まない。 このようなテストデータを一般化するには、個々のタスクが関連するタスクから知識を活用することが不可欠である。 そこで本研究では,不足クラスに対するタスク間で知識を伝達するための関連グラフの学習を提案する。 本研究では,タスク,クラス,インスタンスを表すノードとの関連グラフを構築し,エッジ内のノード間の関係を符号化し,相互知識伝達を導く。 関連グラフ上のメッセージパッシングにより、我々のモデルは各インスタンスのカテゴリ情報を強化し、より差別的になる。 グラフ内のタスクノードとクラスノードの疎結合を避けるために、各クラスノードのエッジ重みのバランスをとるよう促す代入エントロピー最大化を導入する。 これにより、すべてのタスクが関連するタスクのカテゴリ情報を完全に活用できる。 3つの一般的なベンチマークと皮膚病変分類のための医学的データセットの広範な評価により,本手法は代表的基準値よりも常に優れた性能を示した。

In this paper, we focus on multi-task classification, where related classification tasks share the same label space and are learned simultaneously. In particular, we tackle a new setting, which is more realistic than currently addressed in the literature, where categories shift from training to test data. Hence, individual tasks do not contain complete training data for the categories in the test set. To generalize to such test data, it is crucial for individual tasks to leverage knowledge from related tasks. To this end, we propose learning an association graph to transfer knowledge among tasks for missing classes. We construct the association graph with nodes representing tasks, classes and instances, and encode the relationships among the nodes in the edges to guide their mutual knowledge transfer. By message passing on the association graph, our model enhances the categorical information of each instance, making it more discriminative. To avoid spurious correlations between task and class nodes in the graph, we introduce an assignment entropy maximization that encourages each class node to balance its edge weights. This enables all tasks to fully utilize the categorical information from related tasks. An extensive evaluation on three general benchmarks and a medical dataset for skin lesion classification reveals that our method consistently performs better than representative baselines.
翻訳日:2022-10-11 18:04:47 公開日:2022-10-10
# 点光測光ステレオ問題に対するCNNに基づくアプローチ

A CNN Based Approach for the Point-Light Photometric Stereo Problem ( http://arxiv.org/abs/2210.04655v1 )

ライセンス: Link先を確認
Fotios Logothetis, Roberto Mecca, Ignas Budvytis, Roberto Cipolla(参考訳) 異なる光源下で複数の画像を用いて物体の3次元形状を再構成することは、特に光伝播や減衰、遠近視幾何学、鏡面反射といった現実的な仮定を考える場合、非常に難しい課題である。 光度ステレオ(PS)問題に取り組む多くの研究は、上記の仮定の多くを緩和する。 特に鏡面反射や全球照明効果を無視する。 本研究では,遠方場測光ステレオのためのディープニューラルネットワークの最近の改良を活用して,これらの現実的な仮定を処理可能なcnnベースの手法を提案する。 2つの主要なステップを持つ形状推定のために、点光PSの反復的な手順を用いてこれを実現する。 まず、ピクセル単位のcnnを訓練し、反射率サンプルから表面の正常値を予測する。 第2に、光方向を反復的に推定するために正規場を統合することで深度を計算し、入力画像の補正と次の反復に対する反射率サンプルの計算を行う。 われわれのアプローチは、DiLiGenT実世界のデータセットの最先端を著しく上回る。 さらに、近距離点光源psデータに対する我々のアプローチの性能を測定するために、異なる材料の14の物体の「近距離点光源フォトメトリックステレオのためのデータセット」をルーツに紹介する。 当社のアプローチは,このデータセットの競合も優れています。 データとテストコードはプロジェクトのページで入手できる。

Reconstructing the 3D shape of an object using several images under different light sources is a very challenging task, especially when realistic assumptions such as light propagation and attenuation, perspective viewing geometry and specular light reflection are considered. Many of works tackling Photometric Stereo (PS) problems often relax most of the aforementioned assumptions. Especially they ignore specular reflection and global illumination effects. In this work, we propose a CNN-based approach capable of handling these realistic assumptions by leveraging recent improvements of deep neural networks for far-field Photometric Stereo and adapt them to the point light setup. We achieve this by employing an iterative procedure of point-light PS for shape estimation which has two main steps. Firstly we train a per-pixel CNN to predict surface normals from reflectance samples. Secondly, we compute the depth by integrating the normal field in order to iteratively estimate light directions and attenuation which is used to compensate the input images to compute reflectance samples for the next iteration. Our approach sigificantly outperforms the state-of-the-art on the DiLiGenT real world dataset. Furthermore, in order to measure the performance of our approach for near-field point-light source PS data, we introduce LUCES the first real-world 'dataset for near-fieLd point light soUrCe photomEtric Stereo' of 14 objects of different materials were the effects of point light sources and perspective viewing are a lot more significant. Our approach also outperforms the competition on this dataset as well. Data and test code are available at the project page.
翻訳日:2022-10-11 18:04:27 公開日:2022-10-10
# 運動予測における自己教師付き学習における地図情報の利用

Exploiting map information for self-supervised learning in motion forecasting ( http://arxiv.org/abs/2210.04672v1 )

ライセンス: Link先を確認
Caio Azevedo, Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou(参考訳) 自己教師付き学習(SSL)の適用に関する最近の進展に触発されて,地図理解と一般化の改善を目的としたグラフ接続などの地図のみの情報を活用するトラジェクトリ予測補助タスクを考案した。 この補助タスクは、マルチタスクとプリトレーニングという2つのフレームワークを通じて適用します。 どちらのフレームワークでも、$\mathrm{minfde}_6$(最大20.3%)や$\mathrm{missrate}_6$(最大33.3%)といったメトリクスにおけるベースラインの大幅な改善と、異なるトレーニング構成で示されるマップ機能のより豊かな理解が観察されています。 得られた結果は、Argoverse、Interaction、NuScenesという3つのデータセットで一致していた。 また、新しい事前トレーニングされたモデルの結果をInteraction Challengeに送信し、$\mathrm{minFDE}_6$と$\mathrm{minADE}_6$に対して$\textit{1st}$placeを達成する。

Inspired by recent developments regarding the application of self-supervised learning (SSL), we devise an auxiliary task for trajectory prediction that takes advantage of map-only information such as graph connectivity with the intent of improving map comprehension and generalization. We apply this auxiliary task through two frameworks - multitasking and pretraining. In either framework we observe significant improvement of our baseline in metrics such as $\mathrm{minFDE}_6$ (as much as 20.3%) and $\mathrm{MissRate}_6$ (as much as 33.3%), as well as a richer comprehension of map features demonstrated by different training configurations. The results obtained were consistent in all three data sets used for experiments: Argoverse, Interaction and NuScenes. We also submit our new pretrained model's results to the Interaction challenge and achieve $\textit{1st}$ place with respect to $\mathrm{minFDE}_6$ and $\mathrm{minADE}_6$.
翻訳日:2022-10-11 18:04:03 公開日:2022-10-10
# 言語優先は唯一のショートカットではない - VQAにおけるショートカット学習のベンチマーク

Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA ( http://arxiv.org/abs/2210.04692v1 )

ライセンス: Link先を確認
Qingyi Si, Fandong Meng, Mingyu Zheng, Zheng Lin, Yuanxin Liu, Peng Fu, Yanan Cao, Weiping Wang and Jie Zhou(参考訳) VQA(Visual Question Answering)モデルは、意図されたソリューションではなく、データセットバイアスによって形成されるショートカットソリューションを学ぶ傾向がある。 ショートカット学習を超えてVQAモデルの推論能力を評価するために、VQA-CP v2データセットは、質問タイプが与えられたトレーニングとテストセット間の分散シフトを導入する。 このように、モデルはトレーニングセットのショートカット(質問タイプから回答まで)をテストセットでうまく動作させることはできない。 しかしながら、VQA-CP v2は1種類のショートカットしか考慮していないため、モデルがこのショートカットに固有のソリューションではなく、意図したソリューションに依存することを保証できない。 この制限を克服するために,複数のoodテストセットで異なる分散シフトを構築することにより,様々な種類のショートカットを考慮した新しいデータセットを提案する。 さらに,OODテストセットを用いたモデル選択や,OOD評価手順の標準化など,VQA-CP v2の使用における3つの問題点を克服する。 私たちのベンチマークでは、VQAでのショートカット学習をより厳密で包括的なテストベッドを提供しています。 我々は最近の手法をベンチマークし、特定のショートカット用に特別に設計された手法は、我々の様々なOODテストセットに同時に一般化できないことを発見した。 また,様々なショートカットを体系的に研究し,VQAにおけるショートカット学習の探索を促進するいくつかの貴重な知見を提供する。

Visual Question Answering (VQA) models are prone to learn the shortcut solution formed by dataset biases rather than the intended solution. To evaluate the VQA models' reasoning ability beyond shortcut learning, the VQA-CP v2 dataset introduces a distribution shift between the training and test set given a question type. In this way, the model cannot use the training set shortcut (from question type to answer) to perform well on the test set. However, VQA-CP v2 only considers one type of shortcut and thus still cannot guarantee that the model relies on the intended solution rather than a solution specific to this shortcut. To overcome this limitation, we propose a new dataset that considers varying types of shortcuts by constructing different distribution shifts in multiple OOD test sets. In addition, we overcome the three troubling practices in the use of VQA-CP v2, e.g., selecting models using OOD test sets, and further standardize OOD evaluation procedure. Our benchmark provides a more rigorous and comprehensive testbed for shortcut learning in VQA. We benchmark recent methods and find that methods specifically designed for particular shortcuts fail to simultaneously generalize to our varying OOD test sets. We also systematically study the varying shortcuts and provide several valuable findings, which may promote the exploration of shortcut learning in VQA.
翻訳日:2022-10-11 18:03:41 公開日:2022-10-10
# ロゴ検出のためのディープラーニング:調査

Deep Learning for Logo Detection: A Survey ( http://arxiv.org/abs/2210.04399v1 )

ライセンス: Link先を確認
Sujuan Hou, Jiacheng Li, Weiqing Min, Qiang Hou, Yanna Zhao, Yuanjie Zheng and Shuqiang Jiang(参考訳) ロゴがますます作成されるにつれて、ロゴ検出は多くのドメインやタスクで研究ホットスポットとなっている。 この領域の最近の進歩は、多くのデータセット、学習戦略、ネットワークアーキテクチャなどを用いたディープラーニングベースのソリューションによって支配されている。 本稿では, 深層学習技術のロゴ検出への応用について概説する。 まず,より多様で,より困難で,より現実を反映した,ロゴ検出アルゴリズムの性能評価を容易にするように設計された公開データセットの包括的な説明について述べる。 次に,既存のロゴ検出戦略と学習戦略の長所と短所を詳細に分析する。 その後,知的輸送やブランド監視から著作権及び商標の遵守に至るまで,さまざまな分野におけるロゴ検出の応用について要約する。 最後に,潜在的な課題を分析し,ロゴ検出の開発に向けた今後の方向性を示す。

When logos are increasingly created, logo detection has gradually become a research hotspot across many domains and tasks. Recent advances in this area are dominated by deep learning-based solutions, where many datasets, learning strategies, network architectures, etc. have been employed. This paper reviews the advance in applying deep learning techniques to logo detection. Firstly, we discuss a comprehensive account of public datasets designed to facilitate performance evaluation of logo detection algorithms, which tend to be more diverse, more challenging, and more reflective of real life. Next, we perform an in-depth analysis of the existing logo detection strategies and the strengths and weaknesses of each learning strategy. Subsequently, we summarize the applications of logo detection in various fields, from intelligent transportation and brand monitoring to copyright and trademark compliance. Finally, we analyze the potential challenges and present the future directions for the development of logo detection to complete this survey.
翻訳日:2022-10-11 17:57:56 公開日:2022-10-10
# Deep Metric Learningのためのコントラストベイズ解析

Contrastive Bayesian Analysis for Deep Metric Learning ( http://arxiv.org/abs/2210.04402v1 )

ライセンス: Link先を確認
Shichao Kan, Zhiquan He, Yigang Cen, Yang Li, Mladenovic Vladimir, Zhihai He(参考訳) 近年のディープ・メトリック・ラーニングでは, 正対と負対の異なる対照的な損失関数の設計に焦点が当てられ, 学習した特徴の埋め込みにより, 同一クラスの正のサンプルを近づき, 異なるクラスから負のサンプルを遠ざけ合うことができる。 本研究では,中間特徴層における特徴と最終出力層におけるクラスラベルとの間には,重要な意味的ギャップがあることを認識する。 このギャップを埋めるために,コントラスト学習環境において,画像ラベルの後方確率を特徴付け,モデル化するための対比ベイズ解析を開発した。 この対照的なベイズ解析は、深い計量学習のための新しい損失関数をもたらす。 提案手法を新しいクラスに一般化する能力を向上させるために, 計量分散制約により, 対照的なベイズ損失をさらに拡張する。 実験結果とアブレーション実験により,提案手法は,教師付きシナリオと擬似教師付きシナリオの両方において,深層メトリック学習の性能を大幅に向上させ,既存手法を大差で上回ることを示した。

Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
翻訳日:2022-10-11 17:57:43 公開日:2022-10-10
# HiCo: 超音波ビデオモデル事前学習のための階層的コントラスト学習

HiCo: Hierarchical Contrastive Learning for Ultrasound Video Model Pretraining ( http://arxiv.org/abs/2210.04477v1 )

ライセンス: Link先を確認
Chunhui Zhang and Yixiong Chen and Li Liu and Qiong Liu and Xi Zhou(参考訳) 自己監督型超音波(US)ビデオモデルプレトレーニングは、少量のラベル付きデータを用いて、米国の診断において最も有望な結果の1つを達成することができる。 しかし、ディープニューラルネットワーク(DNN)を学ぶためのマルチレベル知識を十分に活用していないため、転送可能な特徴表現を学習することは困難である。 本研究では,階層型コントラスト学習(HiCo)手法を提案する。 HiCoは、ピアレベルのセマンティックアライメントとクロスレベルのセマンティックアライメントの両方を導入し、異なるセマンティックレベル間の相互作用を促進する。 さらに、ハードラベルを平滑化し、異なるクラス間の画像の局所的類似性に起因する悪影響を緩和することにより、軟化目的関数を実装する。 HiCoによる5つのデータセットの実験は、最先端のアプローチよりも好ましい結果を示している。 この作業のソースコードは \url{https://github.com/983632847/hico} で公開されている。

The self-supervised ultrasound (US) video model pretraining can use a small amount of labeled data to achieve one of the most promising results on US diagnosis. However, it does not take full advantage of multi-level knowledge for learning deep neural networks (DNNs), and thus is difficult to learn transferable feature representations. This work proposes a hierarchical contrastive learning (HiCo) method to improve the transferability for the US video model pretraining. HiCo introduces both peer-level semantic alignment and cross-level semantic alignment to facilitate the interaction between different semantic levels, which can effectively accelerate the convergence speed, leading to better generalization and adaptation of the learned model. Additionally, a softened objective function is implemented by smoothing the hard labels, which can alleviate the negative effect caused by local similarities of images between different classes. Experiments with HiCo on five datasets demonstrate its favorable results over state-of-the-art approaches. The source code of this work is publicly available at \url{https://github.com/983632847/HiCo}.
翻訳日:2022-10-11 17:57:23 公開日:2022-10-10
# 画像編集のための遅延アライメントによるCLIPとStyleGANのブリッジ

Bridging CLIP and StyleGAN through Latent Alignment for Image Editing ( http://arxiv.org/abs/2210.04506v1 )

ライセンス: Link先を確認
Wanfeng Zheng, Qiang Li, Xiaoyan Guo, Pengfei Wan, Zhongyuan Wang(参考訳) 視覚言語モデル(CLIP)が提案されて以来,テキストによる画像操作が開発されている。 これまでの作業では,この問題に対処するためのテキストイメージの一貫性に基づく目標設計にCLIPを採用していた。 しかし、これらの手法には、単モード操作方向に対するテスト時間最適化または画像特徴クラスタ分析が必要である。 本稿では,CLIPとStyleGANをラテントアライメント(CSLA)を介してブリッジすることで,予測時最適化のない多様な操作方向マイニングを実現する。 具体的には、我々の努力は3つの部分から構成される。 1)CLIPとStyleGANの潜伏空間を橋渡しするために潜伏マッパーを訓練するデータフリートレーニング戦略 2) より正確なマッピングでは, 異なる潜在空間間の知識分布バイアス問題に対処するため, 時間的相対一貫性が提案される。 3) s空間にマッピングされた潜伏点を精錬するために,適応型混合法も提案されている。 このマッピング方式により、ganインバージョン、テキスト対画像生成、テキスト駆動画像操作を実現することができる。 本手法の有効性を示すために質的・定量的比較を行った。

Text-driven image manipulation is developed since the vision-language model (CLIP) has been proposed. Previous work has adopted CLIP to design a text-image consistency-based objective to address this issue. However, these methods require either test-time optimization or image feature cluster analysis for single-mode manipulation direction. In this paper, we manage to achieve inference-time optimization-free diverse manipulation direction mining by bridging CLIP and StyleGAN through Latent Alignment (CSLA). More specifically, our efforts consist of three parts: 1) a data-free training strategy to train latent mappers to bridge the latent space of CLIP and StyleGAN; 2) for more precise mapping, temporal relative consistency is proposed to address the knowledge distribution bias problem among different latent spaces; 3) to refine the mapped latent in s space, adaptive style mixing is also proposed. With this mapping scheme, we can achieve GAN inversion, text-to-image generation and text-driven image manipulation. Qualitative and quantitative comparisons are made to demonstrate the effectiveness of our method.
翻訳日:2022-10-11 17:57:03 公開日:2022-10-10
# horizon: 高解像度パノラマ合成フレームワーク

HORIZON: A High-Resolution Panorama Synthesis Framework ( http://arxiv.org/abs/2210.04522v1 )

ライセンス: Link先を確認
Kun Yan, Lei Ji, Chenfei Wu, Jian Liang, Ming Zhou, Nan Duan, Shuai Ma(参考訳) パノラマ合成は、すべての360度ビューで視覚的なシーンを生成し、没入型仮想世界を可能にすることを目的としている。 パノラマ合成プロセスが意味的に制御できるなら、対話的な仮想世界を構築し、前例のない人間とコンピュータの対話体験を作ることができる。 既存のパノラマ合成法は主に、縁を縫うときの射影歪みや連続性問題といったパノラマ球面構造による固有の課題に対処するが、意味論を効果的に制御することは困難である。 dall.eのような視覚合成の最近の成功は、意味制御で有望な2d平面画像を生成するが、必然的に歪んだコンテンツを生成するパノラマ合成に直接適用することは困難である。 また,これらの手法は,高分解能パノラマを品質や推論速度のために効果的に合成できない。 本研究では,高分解能パノラマ画像のための新世代フレームワークを提案する。 貢献には 1)球面モデルによる球面歪みとエッジ連続性問題を軽減する。 2)画像とテキストのヒントによる意味制御のサポート、及び 3)並列復号による高分解能パノラマの効果的生成 大規模な高解像度ストリートビューデータセットによる実験結果から,我々のアプローチの優位性を定量的に,質的に検証した。

Panorama synthesis aims to generate a visual scene with all 360-degree views and enables an immersive virtual world. If the panorama synthesis process can be semantically controlled, we can then build an interactive virtual world and form an unprecedented human-computer interaction experience. Existing panoramic synthesis methods mainly focus on dealing with the inherent challenges brought by panoramas' spherical structure such as the projection distortion and the in-continuity problem when stitching edges, but is hard to effectively control semantics. The recent success of visual synthesis like DALL.E generates promising 2D flat images with semantic control, however, it is hard to directly be applied to panorama synthesis which inevitably generates distorted content. Besides, both of the above methods can not effectively synthesize high-resolution panoramas either because of quality or inference speed. In this work, we propose a new generation framework for high-resolution panorama images. The contributions include 1) alleviating the spherical distortion and edge in-continuity problem through spherical modeling, 2) supporting semantic control through both image and text hints, and 3) effectively generating high-resolution panoramas through parallel decoding. Our experimental results on a large-scale high-resolution Street View dataset validated the superiority of our approach quantitatively and qualitatively.
翻訳日:2022-10-11 17:56:48 公開日:2022-10-10
# クラスレベルオーバーフィッティング緩和を用いたマージンベースマイトショットクラスインクリメンタルラーニング

Margin-Based Few-Shot Class-Incremental Learning with Class-Level Overfitting Mitigation ( http://arxiv.org/abs/2210.04524v1 )

ライセンス: Link先を確認
Yixiong Zou, Shanghang Zhang, Yuhua Li, Ruixuan Li(参考訳) FSCIL (Few-shot class-incremental Learning) は, 基礎クラスでの(事前)訓練後, 基礎クラスのパフォーマンスと新規クラスの一般化の両方に焦点をあてた, 少数のトレーニングサンプルで新規クラスを段階的に認識するように設計されている。 ベースクラストレーニングのよく知られた変更は、ベースクラス分類にマージンを適用することである。 しかし、現在検討中のベースクラスのトレーニングにおいて、マージンを適用することで、優れたベースクラスのパフォーマンスと新規クラスの一般化の両方を同時に達成できないというジレンマが存在する。 本稿では,FSCILにおけるこのようなジレンマの原因について検討する。 我々はまず、このジレンマをパターン学習の側面からクラスレベルのオーバーフィッティング(CO)問題と解釈し、その原因は学習マージンに基づくパターンの制約が容易に満たされることにある。 そこで本研究では,マージンベースパターン自体から余分な制約を課したパターン学習プロセスを提供することにより,co問題の軽減を図る新しいマージンベースfscil法を提案する。 CIFAR100, Caltech-USCD Birds-200-2011 (CUB200) および miniImageNet の大規模実験により, 提案手法がCO問題を効果的に軽減し, 最先端の性能を実現することを示した。

Few-shot class-incremental learning (FSCIL) is designed to incrementally recognize novel classes with only few training samples after the (pre-)training on base classes with sufficient samples, which focuses on both base-class performance and novel-class generalization. A well known modification to the base-class training is to apply a margin to the base-class classification. However, a dilemma exists that we can hardly achieve both good base-class performance and novel-class generalization simultaneously by applying the margin during the base-class training, which is still under explored. In this paper, we study the cause of such dilemma for FSCIL. We first interpret this dilemma as a class-level overfitting (CO) problem from the aspect of pattern learning, and then find its cause lies in the easily-satisfied constraint of learning margin-based patterns. Based on the analysis, we propose a novel margin-based FSCIL method to mitigate the CO problem by providing the pattern learning process with extra constraint from the margin-based patterns themselves. Extensive experiments on CIFAR100, Caltech-USCD Birds-200-2011 (CUB200), and miniImageNet demonstrate that the proposed method effectively mitigates the CO problem and achieves state-of-the-art performance.
翻訳日:2022-10-11 17:56:28 公開日:2022-10-10
# 学習2D-3D点線対応を用いた交通現場におけるスパース・セマンティック・マップに基づく単眼位置推定

Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using Learned 2D-3D Point-Line Correspondences ( http://arxiv.org/abs/2210.04543v1 )

ライセンス: Link先を確認
Xingyu Chen, Jianru Xue, and Shanmin Pang(参考訳) ビジョンに基づく事前マップのローカライズは、自動運転車にとって非常に重要である。 クエリー画像が与えられた場合、ゴールは先行マップに対応するカメラポーズを推定することであり、キーはマップ内のカメライメージの登録問題である。 自動運転車が閉塞状態(車、バス、トラックなど)や環境の変化(照明の変化、季節変化など)の下で道路を走行している間、既存のアプローチでは、登録問題を解決するために特徴レベルで密集したポイント記述子に大きく依存している。 結果として、しばしば正しいポーズを見積もることに失敗する。 そこで本研究では,高度に設計された深層ニューラルネットワークを用いて2d-3dの登録を解消する,意味的地図に基づくモノクロローカライズ手法を提案する。 複数のセマンティックラベルを持つ簡易な要素(例えば、ポール線、交通標識ミッドポイント)からなるスパースセマンティックマップを与えられた後、スパースセマンティックマップから画像から2Dセマンティックエレメントと3Dエレメントの対応する特徴を学習することにより、カメラポーズを推定する。 提案したスパース・セマンティック・マップに基づくローカライズ・アプローチは,環境の排他的・長期的変化に対して堅牢である。 その結果,提案手法は最先端の手法よりも優れていた。

Vision-based localization in a prior map is of crucial importance for autonomous vehicles. Given a query image, the goal is to estimate the camera pose corresponding to the prior map, and the key is the registration problem of camera images within the map. While autonomous vehicles drive on the road under occlusion (e.g., car, bus, truck) and changing environment appearance (e.g., illumination changes, seasonal variation), existing approaches rely heavily on dense point descriptors at the feature level to solve the registration problem, entangling features with appearance and occlusion. As a result, they often fail to estimate the correct poses. To address these issues, we propose a sparse semantic map-based monocular localization method, which solves 2D-3D registration via a well-designed deep neural network. Given a sparse semantic map that consists of simplified elements (e.g., pole lines, traffic sign midpoints) with multiple semantic labels, the camera pose is then estimated by learning the corresponding features between the 2D semantic elements from the image and the 3D elements from the sparse semantic map. The proposed sparse semantic map-based localization approach is robust against occlusion and long-term appearance changes in the environments. Extensive experimental results show that the proposed method outperforms the state-of-the-art approaches.
翻訳日:2022-10-11 17:56:02 公開日:2022-10-10
# SiNeRF-sinusoidal Neural Radiance Fields for Joint Pose Estimation and Scene Reconstruction (特集:情報ネットワーク)

SiNeRF: Sinusoidal Neural Radiance Fields for Joint Pose Estimation and Scene Reconstruction ( http://arxiv.org/abs/2210.04553v1 )

ライセンス: Link先を確認
Yitong Xia, Hao Tang, Radu Timofte, Luc Van Gool(参考訳) nerfmmはneural radiance field (nerf) であり、共同最適化タスク、すなわち現実世界のシーンを再構築し、同時にカメラパラメータを登録する。 nerfmmは正確なシーン合成とポーズ推定を生成するが、それでも挑戦的なシーンで注釈付きベースラインを上回ることは困難である。 本研究では,共同最適化に体系的な準最適性が存在することを確認し,さらに複数の潜在的ソースを同定する。 そこで本研究では,放射能マッピングに正弦波活性化を利用する正弦波ニューラル・ラジアンス・フィールド (sinerf) と,レイバッチを効率的に選択するための新しい混合領域サンプリング (mrs) を提案する。 定量的および定性的な結果から,SiNeRFはNeRFmmと比較して画像合成品質とポーズ推定精度を総合的に向上することが示された。 コードはhttps://github.com/yitongx/sinerfで入手できる。

NeRFmm is the Neural Radiance Fields (NeRF) that deal with Joint Optimization tasks, i.e., reconstructing real-world scenes and registering camera parameters simultaneously. Despite NeRFmm producing precise scene synthesis and pose estimations, it still struggles to outperform the full-annotated baseline on challenging scenes. In this work, we identify that there exists a systematic sub-optimality in joint optimization and further identify multiple potential sources for it. To diminish the impacts of potential sources, we propose Sinusoidal Neural Radiance Fields (SiNeRF) that leverage sinusoidal activations for radiance mapping and a novel Mixed Region Sampling (MRS) for selecting ray batch efficiently. Quantitative and qualitative results show that compared to NeRFmm, SiNeRF achieves comprehensive significant improvements in image synthesis quality and pose estimation accuracy. Codes are available at https://github.com/yitongx/sinerf.
翻訳日:2022-10-11 17:55:34 公開日:2022-10-10
# 店舗における視覚的類似商品検索

Visually Similar Products Retrieval for Shopsy ( http://arxiv.org/abs/2210.04560v1 )

ライセンス: Link先を確認
Prajit Nadkarni, Narendra Varma Dasararaju(参考訳) ビジュアル検索は、特に非技術に精通した地域言語に親しみのあるユーザーにとって、再販商にとって大きな助けとなる。 ヘッドブランドの商品を推奨するテキスト検索とは異なり、再販業者は探している商品を正確に特定できる。 eコマースで利用可能な製品属性は、データポイント間のきめ細かい関係を捉えることによって、より良いビジュアル検索システムを構築する大きな可能性を秘めている。 本研究では,マルチタスク学習手法を用いて,再販販売のためのビジュアル検索システムを設計する。 また,リセラー商取引で直面する画像圧縮,切り刻み,画像に書き込むといった課題についても強調し,対処する。 我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクから構成される。 マスキング技術は属性分類の設計に使用される。 次に,複数の属性の情報を用いてデータ内の相対順序をキャプチャするオフライントリプルトマイニング手法を提案する。 このテクニックは、単一のラベル/属性情報を使用する従来のトリプルトマイニングベースラインよりも優れたパフォーマンスを示す。 また、個別のタスクに対して統合マルチタスクモデルによって達成される漸進的なゲインを比較報告する。 本手法の有効性は,インド最大のeコマース企業であるFlipkartのLifestyleビジネスユニットの製品イメージの社内データセットを用いて実証した。 生産中の画像の効率よく検索するには,ANN(Approximate Nearest Neighbor)インデックスを用いる。 最後に、生産環境の制約を強調し、適切なANNインデックスを選択するために行われた設計選択と実験を示す。

Visual search is of great assistance in reseller commerce, especially for non-tech savvy users with affinity towards regional languages. It allows resellers to accurately locate the products that they seek, unlike textual search which recommends products from head brands. Product attributes available in e-commerce have a great potential for building better visual search systems as they capture fine grained relations between data points. In this work, we design a visual search system for reseller commerce using a multi-task learning approach. We also highlight and address the challenges like image compression, cropping, scribbling on the image, etc, faced in reseller commerce. Our model consists of three different tasks: attribute classification, triplet ranking and variational autoencoder (VAE). Masking technique is used for designing the attribute classification. Next, we introduce an offline triplet mining technique which utilizes information from multiple attributes to capture relative order within the data. This technique displays a better performance compared to the traditional triplet mining baseline, which uses single label/attribute information. We also compare and report incremental gain achieved by our unified multi-task model over each individual task separately. The effectiveness of our method is demonstrated using the in-house dataset of product images from the Lifestyle business-unit of Flipkart, India's largest e-commerce company. To efficiently retrieve the images in production, we use the Approximate Nearest Neighbor (ANN) index. Finally, we highlight our production environment constraints and present the design choices and experiments conducted to select a suitable ANN index.
翻訳日:2022-10-11 17:55:14 公開日:2022-10-10
# 動的シナリオのリアルタイム意味マッピングを実現する視覚SLAMにおける検出・追跡・予測

Using Detection, Tracking and Prediction in Visual SLAM to Achieve Real-time Semantic Mapping of Dynamic Scenarios ( http://arxiv.org/abs/2210.04562v1 )

ライセンス: Link先を確認
Xingyu Chen, Jianru Xue, Jianwu Fang, Yuxin Pan and Nanning Zheng(参考訳) 本稿では,orb-slam2に基づく軽量システムであるrds-slamを提案し,一般的なintel core i7 cpuのみを使用して,動的シナリオのためのオブジェクトレベルでのポーズを正確に推定し,セマンティックマップを構築する。 RDS-SLAMでは、ORB-SLAM2の限界を克服するために、3つの大きな改善とアーキテクチャの変更が提案されている。 まず、キーフレームに軽量なオブジェクト検出ニューラルネットワークを採用する。 第二に、効率的なトラッキングと予測機構をシステムに組み込んで、すべての受信フレームにおいて可動オブジェクトに属する特徴点を除去する。 第3に、セマンティックoctreeマップは、検出と追跡結果の確率的融合によって構築され、ロボットが動的シナリオにおける潜在的な相互作用のためにオブジェクトレベルで意味記述を維持することができる。 我々は、TUM RGB-DデータセットにおけるRDS-SLAMを評価し、実験結果から、RDS-SLAMは、Intel Core i7 CPUのみを使用して、動的シナリオでフレーム当たり30.3msで動作可能であることを示し、Intel Core i7 CPUと強力なGPUの両方に大きく依存している最先端のSLAMシステムと比較して、同等の精度を実現する。

In this paper, we propose a lightweight system, RDS-SLAM, based on ORB-SLAM2, which can accurately estimate poses and build semantic maps at object level for dynamic scenarios in real time using only one commonly used Intel Core i7 CPU. In RDS-SLAM, three major improvements, as well as major architectural modifications, are proposed to overcome the limitations of ORB-SLAM2. Firstly, it adopts a lightweight object detection neural network in key frames. Secondly, an efficient tracking and prediction mechanism is embedded into the system to remove the feature points belonging to movable objects in all incoming frames. Thirdly, a semantic octree map is built by probabilistic fusion of detection and tracking results, which enables a robot to maintain a semantic description at object level for potential interactions in dynamic scenarios. We evaluate RDS-SLAM in TUM RGB-D dataset, and experimental results show that RDS-SLAM can run with 30.3 ms per frame in dynamic scenarios using only an Intel Core i7 CPU, and achieves comparable accuracy compared with the state-of-the-art SLAM systems which heavily rely on both Intel Core i7 CPUs and powerful GPUs.
翻訳日:2022-10-11 17:54:53 公開日:2022-10-10
# DCVQE:ビデオ品質評価のための階層変換器

DCVQE: A Hierarchical Transformer for Video Quality Assessment ( http://arxiv.org/abs/2210.04377v1 )

ライセンス: Link先を確認
Zutong Li, Lei Yang(参考訳) ユーザ生成ビデオの爆発は、ノンリファレンスビデオ品質評価(NR-VQA)に対する大きな需要を刺激する。 人間のアノテーションの動作を観察した結果,NR-VQAのためのDCVQE(Divide and Conquer Video Quality Estimator)が提案された。 フレームレベルの品質埋め込み(QE)を抽出することから、提案手法はシーケンス全体を複数のクリップに分割し、トランスフォーマーを使用してクリップレベルのQEを学習し、フレームレベルのQEを同時に更新する。 私たちはこの階層的なTransformerの組み合わせをDivide and Conquer Transformer(DCTr)層と呼びます。 このDCTr層の処理を複数回繰り返すことにより、正確な映像品質特徴抽出を実現することができる。 また,注釈付きデータ間の順序関係を考慮に入れ,モデル学習のための新たな相関損失項を提案する。 各種データセットの実験により,DCVQEモデルの有効性とロバスト性が確認された。

The explosion of user-generated videos stimulates a great demand for no-reference video quality assessment (NR-VQA). Inspired by our observation on the actions of human annotation, we put forward a Divide and Conquer Video Quality Estimator (DCVQE) for NR-VQA. Starting from extracting the frame-level quality embeddings (QE), our proposal splits the whole sequence into a number of clips and applies Transformers to learn the clip-level QE and update the frame-level QE simultaneously; another Transformer is introduced to combine the clip-level QE to generate the video-level QE. We call this hierarchical combination of Transformers as a Divide and Conquer Transformer (DCTr) layer. An accurate video quality feature extraction can be achieved by repeating the process of this DCTr layer several times. Taking the order relationship among the annotated data into account, we also propose a novel correlation loss term for model training. Experiments on various datasets confirm the effectiveness and robustness of our DCVQE model.
翻訳日:2022-10-11 17:46:46 公開日:2022-10-10
# ラベル付きソースデータが少ない教師なし領域適応眼底画像セグメンテーション

Unsupervised Domain Adaptive Fundus Image Segmentation with Few Labeled Source Data ( http://arxiv.org/abs/2210.04379v1 )

ライセンス: Link先を確認
Qianbi Yu, Dongnan Liu, Chaoyi Zhang, Xinwen Zhang, Weidong Cai(参考訳) 深層学習に基づくセグメンテーション法は緑内障の自動診断と予後に広く用いられている。 実際には、異なる眼底カメラで得られた眼底画像は、照明と強度の点で著しく異なる。 最近のunsupervised domain adaptation (uda) メソッドは、ラベルなしの fundusデータセットにおけるモデルの一般化能力を高めるが、ソースドメインからの十分なラベル付きデータが必要であり、補助的なデータ取得とアノテーションコストをもたらす。 基礎画像上でのクロスドメインセグメンテーション手法のデータ効率をさらに向上するために,本研究では,少ないラベル付きソースデータを用いて,UDA光ディスクとカップセグメンテーション問題を探索する。 まず、検索に基づくマルチスタイル不変機構を設計し、ソースデータスタイルを多様化し、データ量を増やす。 次に,前景オブジェクトに対するプロトタイプの整合性機構を提案し,異なる画像スタイルで各組織の特徴的アライメントを容易にする。 さらに、対象画像のセグメンテーション性能を改善するために、クロススタイルの自己教師型学習ステージを設計する。 提案手法は,UDAファウンダス・セグメンテーションに基づく最先端のUDAセグメンテーション法と,ラベル付き情報源データとを比較検討した。

Deep learning-based segmentation methods have been widely employed for automatic glaucoma diagnosis and prognosis. In practice, fundus images obtained by different fundus cameras vary significantly in terms of illumination and intensity. Although recent unsupervised domain adaptation (UDA) methods enhance the models' generalization ability on the unlabeled target fundus datasets, they always require sufficient labeled data from the source domain, bringing auxiliary data acquisition and annotation costs. To further facilitate the data efficiency of the cross-domain segmentation methods on the fundus images, we explore UDA optic disc and cup segmentation problems using few labeled source data in this work. We first design a Searching-based Multi-style Invariant Mechanism to diversify the source data style as well as increase the data amount. Next, a prototype consistency mechanism on the foreground objects is proposed to facilitate the feature alignment for each kind of tissue under different image styles. Moreover, a cross-style self-supervised learning stage is further designed to improve the segmentation performance on the target images. Our method has outperformed several state-of-the-art UDA segmentation methods under the UDA fundus segmentation with few labeled source data.
翻訳日:2022-10-11 17:46:29 公開日:2022-10-10
# プロトタイプに基づく一貫性規則化による半教師付き意味セグメンテーション

Semi-supervised Semantic Segmentation with Prototype-based Consistency Regularization ( http://arxiv.org/abs/2210.04388v1 )

ライセンス: Link先を確認
Hai-Ming Xu, Lingqiao Liu, Qiuchen Bian, Zhen Yang(参考訳) 半教師付きセマンティックセグメンテーションでは、制限された注釈付き画像からラベルなし画像へラベル情報を効果的に伝達する必要がある。 このようなピクセル単位の予測タスクの課題は、クラス内の大きな変化、すなわち同じクラスに属する領域が同じ画像であっても全く異なる外観を示す可能性があることである。 この多様性はラベルの伝播をピクセルからピクセルへと困難にする。 そこで本研究では,クラス内特徴の分布を正規化し,ラベル伝播の困難さを緩和する新しい手法を提案する。 具体的には、線形予測器からの予測とプロトタイプベースの予測器からの出力との整合性を奨励し、同じ擬似クラスから少なくとも1つの内部クラスプロトタイプに近づきつつ、他の中間クラスプロトタイプから遠ざかっていることを暗黙的に推奨する。 さらに、CutMix操作と慎重に設計されたプロトタイプメンテナンス戦略を取り入れることで、Pascal VOCおよびCityscapesベンチマークの広範な実験評価から、最先端手法よりも優れた性能を示す半教師付きセマンティックセマンティックセマンティクスアルゴリズムを作成する。

Semi-supervised semantic segmentation requires the model to effectively propagate the label information from limited annotated images to unlabeled ones. A challenge for such a per-pixel prediction task is the large intra-class variation, i.e., regions belonging to the same class may exhibit a very different appearance even in the same picture. This diversity will make the label propagation hard from pixels to pixels. To address this problem, we propose a novel approach to regularize the distribution of within-class features to ease label propagation difficulty. Specifically, our approach encourages the consistency between the prediction from a linear predictor and the output from a prototype-based predictor, which implicitly encourages features from the same pseudo-class to be close to at least one within-class prototype while staying far from the other between-class prototypes. By further incorporating CutMix operations and a carefully-designed prototype maintenance strategy, we create a semi-supervised semantic segmentation algorithm that demonstrates superior performance over the state-of-the-art methods from extensive experimental evaluation on both Pascal VOC and Cityscapes benchmarks.
翻訳日:2022-10-11 17:46:09 公開日:2022-10-10
# LAPFormer: 軽量かつ高精度なポリプセグメンテーショントランス

LAPFormer: A Light and Accurate Polyp Segmentation Transformer ( http://arxiv.org/abs/2210.04393v1 )

ライセンス: Link先を確認
Mai Nguyen, Tung Thanh Bui, Quan Van Nguyen, Thanh Tung Nguyen, Toan Van Pham(参考訳) ポリプのセグメンテーションは、多種多様なポリプ形状、走査、ラベリングのモダリティのため、いまだに難しい問題として知られている。 これにより、深層学習モデルが未知のデータにうまく一般化することを防げる。 しかし、Transformerベースのアプローチは、CNNベースのアーキテクチャよりもグローバルなコンテキストを抽出し、しかしながらより一般化する能力によって、パフォーマンスにおいていくつかの顕著な成果を上げている。 そこで本研究では,階層的トランスフォーマエンコーダを用いてグローバル特徴の抽出と,ポリプの局所的出現を捉えるcnn(convolutional neural network)デコーダを組み合わせることで,トランスフォーマの強みを生かした新しいモデルであるlapformerを提案する。 提案するデコーダは,高階と低階から特徴を融合させるプログレッシブな特徴融合モジュールを備え,より相関性の高いマルチスケール機能を実現する。 さらに、機能改善モジュールと機能選択モジュールを機能処理に使用しています。 kvasir, cvc-clinic db, cvc-colondb, cvc-t, etis-laribの5つのベンチマークデータセットで実験を行った。

Polyp segmentation is still known as a difficult problem due to the large variety of polyp shapes, scanning and labeling modalities. This prevents deep learning model to generalize well on unseen data. However, Transformer-based approach recently has achieved some remarkable results on performance with the ability of extracting global context better than CNN-based architecture and yet lead to better generalization. To leverage this strength of Transformer, we propose a new model with encoder-decoder architecture named LAPFormer, which uses a hierarchical Transformer encoder to better extract global feature and combine with our novel CNN (Convolutional Neural Network) decoder for capturing local appearance of the polyps. Our proposed decoder contains a progressive feature fusion module designed for fusing feature from upper scales and lower scales and enable multi-scale features to be more correlative. Besides, we also use feature refinement module and feature selection module for processing feature. We test our model on five popular benchmark datasets for polyp segmentation, including Kvasir, CVC-Clinic DB, CVC-ColonDB, CVC-T, and ETIS-Larib
翻訳日:2022-10-11 17:45:48 公開日:2022-10-10
# リアリスティックな多言語データセット上でのニューラルリファレンシャルフォームセレクタの評価

Assessing Neural Referential Form Selectors on a Realistic Multilingual Dataset ( http://arxiv.org/abs/2210.04828v1 )

ライセンス: Link先を確認
Guanyi Chen, Fahime Same, Kees van Deemter(参考訳) ニューラル参照式生成(REG)に関するこれまでの研究はすべて、非常に限られた参照式(RE)使用域を反映した英データセットであるWebNLGを使用している。 この問題に対処するため、オントノートコーパスに基づくデータセットを構築し、英語と中国語(ゼロ代名詞を使用する言語)の両方で広範囲のREが使用されるようにした。 そこで我々は、RFS(Neural Referential Form Selection)モデルを構築し、それらをデータセット上で評価し、探索実験を行う。 実験の結果, OntoNotes は WebNLG と比較して REG/RFS モデルの評価に優れていた。 我々は、英語と中国語の RFS を比較し、言語理論に従って、中国語の RFS が英語よりも会話の文脈に依存していることを確認する。

Previous work on Neural Referring Expression Generation (REG) all uses WebNLG, an English dataset that has been shown to reflect a very limited range of referring expression (RE) use. To tackle this issue, we build a dataset based on the OntoNotes corpus that contains a broader range of RE use in both English and Chinese (a language that uses zero pronouns). We build neural Referential Form Selection (RFS) models accordingly, assess them on the dataset and conduct probing experiments. The experiments suggest that, compared to WebNLG, OntoNotes is better for assessing REG/RFS models. We compare English and Chinese RFS and confirm that, in line with linguistic theories, Chinese RFS depends more on discourse context than English.
翻訳日:2022-10-11 17:03:53 公開日:2022-10-10
# 長文要約のための階層3dアダプタ

Hierarchical3D Adapters for Long Video-to-text Summarization ( http://arxiv.org/abs/2210.04829v1 )

ライセンス: Link先を確認
Pinelopi Papalampidi, Mirella Lapata(参考訳) 本稿では,ビデオとテキストの要約に着目し,長い入力(例えば1時間長のテレビ番組)を長い出力(例えば、マルチ文要約)にまとめる上で,マルチモーダル情報を最大限に活用する方法を検討する。 我々は,テレビエピソードと参照要約の書き起こしからなる対話要約データセットであるsummscreen (chen et al., 2021)を拡張し,対応する全編映像を収集し,マルチモーダルな変種を作成する。 階層構造を付加したアダプタモジュールをモデルパラメータの3.8 %に調整しながら,マルチモーダル情報を事前学習したテキスト要約器に効率的に組み込む。 本実験では,マルチモーダル情報は,メモリ重みと完全調整されたテキスト要約法よりも優れた性能を提供することを示す。

In this paper, we focus on video-to-text summarization and investigate how to best utilize multimodal information for summarizing long inputs (e.g., an hour-long TV show) into long outputs (e.g., a multi-sentence summary). We extend SummScreen (Chen et al., 2021), a dialogue summarization dataset consisting of transcripts of TV episodes with reference summaries, and create a multimodal variant by collecting corresponding full-length videos. We incorporate multimodal information into a pre-trained textual summarizer efficiently using adapter modules augmented with a hierarchical structure while tuning only 3.8\% of model parameters. Our experiments demonstrate that multimodal information offers superior performance over more memory-heavy and fully fine-tuned textual summarization methods.
翻訳日:2022-10-11 17:03:39 公開日:2022-10-10
# CORE: 対実データ生成のための検索テーマ編集フレームワーク

CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation ( http://arxiv.org/abs/2210.04873v1 )

ライセンス: Link先を確認
Tanay Dixit, Bhargavi Paranjape, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) 対実データ拡張(CDA) - トレーニング中に最小限の摂動入力を追加することで、スプリアス相関によるモデル依存を減らし、アウト・オブ・ディストリビューション(OOD)データへの一般化を改善する。 反事実を生成する以前の作業は摂動の制限されたクラスのみを考慮し、その効果を制限した。 本稿では,CDAのための多種多様な反事実摂動を生成するための検索強化生成フレームワークであるCounterfactual Generation via Retrieval and Editing(CORE)を提案する。 各トレーニング例について、COREはまず、学習されたバイエンコーダを用いてタスク関連未ラベルテキストコーパス上で密集した検索を行い、関連する反事実の抜粋を抽出する。 COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。 コンディショニング言語モデルは自然に発生するデータを編集し、様々な摂動をもたらす。 自然言語推論と感情分析のベンチマーク実験により、COREのカウンターファクトはOODデータへの一般化を改善するのに他のDA手法よりも効果的であることが示されている。 また,CORE検索フレームワークは,手作業による摂動の多様性向上に有効であることを示す。

Counterfactual data augmentation (CDA) -- i.e., adding minimally perturbed inputs during training -- helps reduce model reliance on spurious correlations and improves generalization to out-of-distribution (OOD) data. Prior work on generating counterfactuals only considered restricted classes of perturbations, limiting their effectiveness. We present COunterfactual Generation via Retrieval and Editing (CORE), a retrieval-augmented generation framework for creating diverse counterfactual perturbations for CDA. For each training example, CORE first performs a dense retrieval over a task-related unlabeled text corpus using a learned bi-encoder and extracts relevant counterfactual excerpts. CORE then incorporates these into prompts to a large language model with few-shot learning capabilities, for counterfactual editing. Conditioning language model edits on naturally occurring data results in diverse perturbations. Experiments on natural language inference and sentiment analysis benchmarks show that CORE counterfactuals are more effective at improving generalization to OOD data compared to other DA approaches. We also show that the CORE retrieval framework can be used to encourage diversity in manually authored perturbations
翻訳日:2022-10-11 17:03:24 公開日:2022-10-10
# 最良作物管理を指導する農家の効率的・リスク対応戦略に向けて

Towards an efficient and risk aware strategy for guiding farmers in identifying best crop management ( http://arxiv.org/abs/2210.04537v1 )

ライセンス: Link先を確認
Romain Gautron (Cirad, CIAT), Dorian Baudry (CNRS), Myriam Adam (UMR AGAP, Cirad), Gatien N Falconnier (Cirad, CIMMYT), Marc Corbeels (Cirad, IITA)(参考訳) 農作物の損失は農家にとって費用がかかるため、一連の対照的な慣行と実地試験の間の最高の施肥慣行の特定は困難である。 最良のマネジメントプラクティスを特定するために、'直観的な戦略'は、テストするプラクティスの比率が等しい複数年のフィールドトライアルを設定することである。 本研究の目的は,「直観的戦略」と比較して,識別中に発生する農家の損失を最小化できるバンディットアルゴリズムを用いた識別戦略を提供することであった。 南マリの事例スタディで,フィールドトライアルの応答を模倣するために,DSSAT (Agro-Technological Transfer) の作物モデルに対する決定支援システムの改良を行った。 そこで我々は,リスク対応尺度,条件付きバリュー・アット・リスク(CVaR),新しい農業指標Yield Excess(YE)を用いて,肥料の実践を比較した。 yeは穀物の収量と農業的窒素利用効率の両方を担っている。 盗賊は直感的な戦略よりも優れており、ほとんどの場合、最悪の結果に対する農民の保護が増大した。 本研究は,実環境下でのコントラスト作物管理の実践実績を,リスク認識型アンサンブル識別のための新たな地平を開く手法である。

Identification of best performing fertilizer practices among a set of contrasting practices with field trials is challenging as crop losses are costly for farmers. To identify best management practices, an ''intuitive strategy'' would be to set multi-year field trials with equal proportion of each practice to test. Our objective was to provide an identification strategy using a bandit algorithm that was better at minimizing farmers' losses occurring during the identification, compared with the ''intuitive strategy''. We used a modification of the Decision Support Systems for Agro-Technological Transfer (DSSAT) crop model to mimic field trial responses, with a case-study in Southern Mali. We compared fertilizer practices using a risk-aware measure, the Conditional Value-at-Risk (CVaR), and a novel agronomic metric, the Yield Excess (YE). YE accounts for both grain yield and agronomic nitrogen use efficiency. The bandit-algorithm performed better than the intuitive strategy: it increased, in most cases, farmers' protection against worst outcomes. This study is a methodological step which opens up new horizons for risk-aware ensemble identification of the performance of contrasting crop management practices in real conditions.
翻訳日:2022-10-11 17:02:26 公開日:2022-10-10
# 全スライド画像分類のための双方向弱補正知識蒸留法

Bi-directional Weakly Supervised Knowledge Distillation for Whole Slide Image Classification ( http://arxiv.org/abs/2210.03664v2 )

ライセンス: Link先を確認
Linhao Qu, Xiaoyuan Luo, Manning Wang, Zhijian Song(参考訳) 臨床実践においてWSI(Whole Slide Image)の分類に基づくコンピュータ支援型病理診断が重要であり,MIL(Multiple Instance Learning)問題として定式化されることも多い。 既存の方法は、バッグ分類またはインスタンス分類の観点からこの問題を解決する。 本稿では,WSI分類のためのエンド・ツー・エンドの弱教師付き知識蒸留フレームワーク(WENO)を提案する。このフレームワークは,バッグ分類器とインスタンス分類器を統合し,双方の分類器の性能を相互に向上する。 具体的には、弱袋ラベルで訓練された教師ネットワークとして注目ベースのバッグ分類器を用い、正袋のインスタンスのソフト擬似ラベルとして教師ネットワークから得られた正規化された注目スコアを用いて訓練された学生ネットワークとしてインスタンス分類器を用いる。 インスタンス特徴抽出器を教師と生徒とで共有し、それら間の知識交換をさらに強化する。 また,生徒ネットワークの出力に基づいて,教師ネットワークに積極的にマイニングを継続させる強硬なインスタンスマイニング戦略を提案する。 WENOは、既存のアテンションベースのバッグ分類手法に容易に適用できるプラグイン・アンド・プレイフレームワークである。 5つのデータセットに関する広範な実験は、wenoの効率を示している。 コードはhttps://github.com/miccaiif/wenoで入手できる。

Computer-aided pathology diagnosis based on the classification of Whole Slide Image (WSI) plays an important role in clinical practice, and it is often formulated as a weakly-supervised Multiple Instance Learning (MIL) problem. Existing methods solve this problem from either a bag classification or an instance classification perspective. In this paper, we propose an end-to-end weakly supervised knowledge distillation framework (WENO) for WSI classification, which integrates a bag classifier and an instance classifier in a knowledge distillation framework to mutually improve the performance of both classifiers. Specifically, an attention-based bag classifier is used as the teacher network, which is trained with weak bag labels, and an instance classifier is used as the student network, which is trained using the normalized attention scores obtained from the teacher network as soft pseudo labels for the instances in positive bags. An instance feature extractor is shared between the teacher and the student to further enhance the knowledge exchange between them. In addition, we propose a hard positive instance mining strategy based on the output of the student network to force the teacher network to keep mining hard positive instances. WENO is a plug-and-play framework that can be easily applied to any existing attention-based bag classification methods. Extensive experiments on five datasets demonstrate the efficiency of WENO. Code is available at https://github.com/miccaiif/WENO.
翻訳日:2022-10-11 17:01:13 公開日:2022-10-10
# キー情報モデリングによる2重性微調整による低データ制約ニュースヘッドライン生成の改善

Leveraging Key Information Modeling to Improve Less-Data Constrained News Headline Generation via Duality Fine-Tuning ( http://arxiv.org/abs/2210.04473v1 )

ライセンス: Link先を確認
Zhuoxuan Jiang, Lingfeng Qiao, Di Yin, Shanshan Feng and Bo Ren(参考訳) 最近の言語生成モデルは、主に大規模データセットでトレーニングされるが、実際のシナリオでは、トレーニングデータセットは、取得するコストが高く、小規模であることが多い。 本稿では,データ制約の少ない生成の課題について検討する。特に,生成したニュースの見出しが短く,読者が同時に読みやすく,情報的であることを期待している場合。 キー情報モデリングタスクを強調し、キー情報予測と見出し生成タスクの確率的双対性制約を正式に定義し、新しい双対性微調整手法を提案する。 提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築し、データ制約の少ない生成タスクに適している。 さらに、この方法は、例えば自己回帰モデルやエンコーダデコーダモデルなど、事前訓練された様々な生成規則を利用することができる。 提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示す。

Recent language generative models are mostly trained on large-scale datasets, while in some real scenarios, the training datasets are often expensive to obtain and would be small-scale. In this paper we investigate the challenging task of less-data constrained generation, especially when the generated news headlines are short yet expected by readers to keep readable and informative simultaneously. We highlight the key information modeling task and propose a novel duality fine-tuning method by formally defining the probabilistic duality constraints between key information prediction and headline generation tasks. The proposed method can capture more information from limited data, build connections between separate tasks, and is suitable for less-data constrained generation tasks. Furthermore, the method can leverage various pre-trained generative regimes, e.g., autoregressive and encoder-decoder models. We conduct extensive experiments to demonstrate that our method is effective and efficient to achieve improved performance in terms of language modeling metric and informativeness correctness metric on two public datasets.
翻訳日:2022-10-11 16:54:59 公開日:2022-10-10
# 知識グラフを用いた時間質問応答のための意味的フレームワークに基づくクエリ生成

Semantic Framework based Query Generation for Temporal Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2210.04490v1 )

ライセンス: Link先を確認
Weantao Ding, Hao Chen, Huayu Li, Yuzhong Qu(参考訳) 近年,知識グラフ(時間的KGQA)に対する時間的意図による事実質問への回答が注目されている。 時間的クエリの生成において、既存のKGQAメソッドは、イベント間の固有の接続が時間的に関連し、その能力を制限することができるという事実を無視している。 我々は,時間的制約の解釈を体系的に分析し,解釈構造を時間的制約の意味的枠組み,SF-TConsとして結論付ける。 提案手法は,検索プロセスがSF-TConsによって制限されるような,参照するエンティティの関連事実を探索することによってクエリグラフを生成する,時間的質問応答手法であるSF-TQAを提案する。 評価の結果,SF-TQAは知識グラフの異なる2つのベンチマークにおいて既存手法よりも優れていた。

Answering factual questions with temporal intent over knowledge graphs (temporal KGQA) attracts rising attention in recent years. In the generation of temporal queries, existing KGQA methods ignore the fact that some intrinsic connections between events can make them temporally related, which may limit their capability. We systematically analyze the possible interpretation of temporal constraints and conclude the interpretation structures as the Semantic Framework of Temporal Constraints, SF-TCons. Based on the semantic framework, we propose a temporal question answering method, SF-TQA, which generates query graphs by exploring the relevant facts of mentioned entities, where the exploring process is restricted by SF-TCons. Our evaluations show that SF-TQA significantly outperforms existing methods on two benchmarks over different knowledge graphs.
翻訳日:2022-10-11 16:54:42 公開日:2022-10-10
# 相反クラス拡張による連続的関係抽出のための学習ロバスト表現

Learning Robust Representations for Continual Relation Extraction via Adversarial Class Augmentation ( http://arxiv.org/abs/2210.04497v1 )

ライセンス: Link先を確認
Peiyi Wang, Yifan Song, Tianyu Liu, Binghuai Lin, Yunbo Cao, Sujian Li, Zhifang Sui(参考訳) 連続関係抽出(CRE)は、クラス増分データストリームから新しい関係を継続的に学習することを目的としている。 CREモデルは通常、破滅的な忘れの問題、すなわちモデルが新しい関係を学ぶと古い関係のパフォーマンスが著しく低下する。 以前のほとんどの著作は、新しい関係が生まれるにつれて学習された表現の腐敗を破滅的に忘れ、creモデルが古い関係を十分に学習しているという暗黙の仮定をもっている。 本稿では,この仮定が成立しない可能性があること,また,それに続く学習過程における類似関係の出現に対して,学習表現が良好な頑健性を持っていないこと,について述べる。 この問題に対処するため,我々は,より正確かつ堅牢な表現を,実装が容易かつモデルに依存しない単純な対角クラス拡張機構(ACA)を通じて学習することを奨励する。 実験結果から、ACAは2つのベンチマークで最先端のCREモデルの性能を一貫して改善できることが示された。

Continual relation extraction (CRE) aims to continually learn new relations from a class-incremental data stream. CRE model usually suffers from catastrophic forgetting problem, i.e., the performance of old relations seriously degrades when the model learns new relations. Most previous work attributes catastrophic forgetting to the corruption of the learned representations as new relations come, with an implicit assumption that the CRE models have adequately learned the old relations. In this paper, through empirical studies we argue that this assumption may not hold, and an important reason for catastrophic forgetting is that the learned representations do not have good robustness against the appearance of analogous relations in the subsequent learning process. To address this issue, we encourage the model to learn more precise and robust representations through a simple yet effective adversarial class augmentation mechanism (ACA), which is easy to implement and model-agnostic. Experimental results show that ACA can consistently improve the performance of state-of-the-art CRE models on two popular benchmarks.
翻訳日:2022-10-11 16:54:28 公開日:2022-10-10
# SelfMix: 自己改善トレーニングによるテキストラベルノイズに対するロバスト学習

SelfMix: Robust Learning Against Textual Label Noise with Self-Mixup Training ( http://arxiv.org/abs/2210.04525v1 )

ライセンス: Link先を確認
Dan Qiao, Chenchen Dai, Yuyang Ding, Juntao Li, Qiang Chen, Wenliang Chen, Min Zhang(参考訳) 従来のテキスト分類の成功は注釈付きデータに依存しており、新しい訓練済み言語モデル(PLM)のパラダイムは下流タスクにラベル付きデータを必要とする。 しかし、実世界のアプリケーションでは、トレーニングデータには必然的にラベルノイズが存在し、そのようなデータ上に構築されたモデルの有効性、堅牢性、一般化を損なう。 近年、視覚データのジレンマを軽減するために注目すべき成果が得られているが、テキストデータの探索はごくわずかである。 このギャップを埋めるために,テキスト分類タスクにおけるラベルノイズを処理するための,単純かつ効果的な手法であるselfmixを提案する。 selfmixはガウス混合モデルを使ってサンプルを分離し、半教師あり学習を利用する。 複数のモデルを必要とする従来の手法とは異なり、本手法では1つのモデルのドロップアウト機構を用いて自己学習における確認バイアスを低減し、テキストレベルの混合学習戦略を導入する。 3種類のテキスト分類ベンチマークを用いた実験の結果,提案手法の性能は,ノイズ比やノイズタイプが異なるテキストデータと視覚データの両方に対して,これらの強力なベースラインよりも優れていることがわかった。 我々の匿名コードは \url{https://github.com/noise-learning/selfmix} で入手できる。

The conventional success of textual classification relies on annotated data, and the new paradigm of pre-trained language models (PLMs) still requires a few labeled data for downstream tasks. However, in real-world applications, label noise inevitably exists in training data, damaging the effectiveness, robustness, and generalization of the models constructed on such data. Recently, remarkable achievements have been made to mitigate this dilemma in visual data, while only a few explore textual data. To fill this gap, we present SelfMix, a simple yet effective method, to handle label noise in text classification tasks. SelfMix uses the Gaussian Mixture Model to separate samples and leverages semi-supervised learning. Unlike previous works requiring multiple models, our method utilizes the dropout mechanism on a single model to reduce the confirmation bias in self-training and introduces a textual-level mixup training strategy. Experimental results on three text classification benchmarks with different types of text show that the performance of our proposed method outperforms these strong baselines designed for both textual and visual data under different noise ratios and noise types. Our anonymous code is available at \url{https://github.com/noise-learning/SelfMix}.
翻訳日:2022-10-11 16:54:08 公開日:2022-10-10
# ニューラルマシン翻訳におけるイディオムの自動評価と解析

Automatic Evaluation and Analysis of Idioms in Neural Machine Translation ( http://arxiv.org/abs/2210.04545v1 )

ライセンス: Link先を確認
Christos Baziotis, Prashant Mathur, Eva Hasler(参考訳) ニューラルマシン翻訳(NMT)の大きな問題は、"Under the weather"のような慣用的な表現の翻訳である。 これらの表現の意味は構成語の意味だけでは構成されておらず、nmtモデルは文字通り(単語ごとに)翻訳する傾向があり、混乱と非意味翻訳に繋がる。 NMTにおけるイディオムの研究は、これらの誤りを定量化する自動手法が存在しないことによって制限され、妨げられる。 本稿では,まず,人間の関与なしにリテラル翻訳誤りの頻度を自動的に測定する新しい指標を提案する。 この指標を具備し、異なる条件(テストセットイディオムなしで)で訓練されたモデルと、幅広い(グローバルで対象とする)メトリクスとテストセットで、制御された翻訳実験を示す。 我々は,単言語前訓練の役割を探究し,テストセットのイディオムの翻訳例を一切観察することなく,実質的な改善をもたらすことを見出した。 本分析では,イディオム・コンテクストの役割を解明する。 ランダムに初期化されたモデルは、事前訓練されたモデルとは異なり、イディオムの文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。

A major open problem in neural machine translation (NMT) is the translation of idiomatic expressions, such as "under the weather". The meaning of these expressions is not composed by the meaning of their constituent words, and NMT models tend to translate them literally (i.e., word-by-word), which leads to confusing and nonsensical translations. Research on idioms in NMT is limited and obstructed by the absence of automatic methods for quantifying these errors. In this work, first, we propose a novel metric for automatically measuring the frequency of literal translation errors without human involvement. Equipped with this metric, we present controlled translation experiments with models trained in different conditions (with/without the test-set idioms) and across a wide range of (global and targeted) metrics and test sets. We explore the role of monolingual pretraining and find that it yields substantial targeted improvements, even without observing any translation examples of the test-set idioms. In our analysis, we probe the role of idiom context. We find that the randomly initialized models are more local or "myopic" as they are relatively unaffected by variations of the idiom context, unlike the pretrained ones.
翻訳日:2022-10-11 16:53:48 公開日:2022-10-10
# 言語モデルは方向推論の学習者である

Language Models Are Poor Learners of Directional Inference ( http://arxiv.org/abs/2210.04695v1 )

ライセンス: Link先を確認
Tianyi Li and Mohammad Javad Hosseini and Sabine Weber and Mark Steedman(参考訳) 我々は,プロンプトによる微調整を監督することにより,lmsの指向性述語補足能力について検討する。 我々の分析は、従来のNLIでは明らかな成功とは裏腹に、そのような方向推定を学習する能力は限られており、既存のデータセットは方向性テストに失敗し、また/またはエンタテインメントのプロキシとして学習可能なアーティファクトによって引き起こされ、過度な最適化結果が得られることを示している。 提案するBoOQA(Boolean Open QA)は,既存のトレーニングセットに根ざした,指向性述語推論のための頑健な多言語評価ベンチマークである。 BoOQA では,既存の LM-prompting モデルが非能率的指向性エンターテイメント学習者であることを示す。

We examine LMs' competence of directional predicate entailments by supervised fine-tuning with prompts. Our analysis shows that contrary to their apparent success on standard NLI, LMs show limited ability to learn such directional inference; moreover, existing datasets fail to test directionality, and/or are infested by artefacts that can be learnt as proxy for entailments, yielding over-optimistic results. In response, we present BoOQA (Boolean Open QA), a robust multi-lingual evaluation benchmark for directional predicate entailments, extrinsic to existing training sets. On BoOQA, we establish baselines and show evidence of existing LM-prompting models being incompetent directional entailment learners, in contrast to entailment graphs, however limited by sparsity.
翻訳日:2022-10-11 16:53:26 公開日:2022-10-10
# 可読性制御可能な生体医学文書要約

Readability Controllable Biomedical Document Summarization ( http://arxiv.org/abs/2210.04705v1 )

ライセンス: Link先を確認
Zheheng Luo, Qianqian Xie, Sophia Ananiadou(参考訳) 一般的な文献と異なり、生物医学的文書の高度に技術的な性質と読者のドメイン知識のばらつきから、人々が生物医学的文書を理解することの容易さが著しく異なることが認識されている。 しかし、既存のバイオメディカル文書要約システムは可読性制御にはほとんど注意を払わず、ユーザーは専門知識のレベルと相容れない要約を持つ。 そこで我々は,この緊急要求を認識し,利用者の可読性要求を認識し,ニーズに合致したサマリーを生成することを目的とした,生物医学文献の可読性制御可能なサマリ化に関する新しい課題を紹介する。 そこで本研究では,著者らが執筆した技術要約とplsを備えた生物医学論文からなるコーパスを構築し,事前学習言語モデル(plm)に基づく多元的な制御可能な抽象的・抽出的要約モデルのベンチマークを行った。 さらに,新しいマスキング言語モデル(MLM)に基づくメトリクスとその変種を提案し,レイとテクニカルの要約の可読性差を効果的に評価する。 自動および人為的評価による実験の結果,現在の制御手法では生成時にある程度の可読性調整が可能であるが,既存の制御可能な要約手法の性能は望ましいものとはほど遠いことがわかった。

Different from general documents, it is recognised that the ease with which people can understand a biomedical text is eminently varied, owing to the highly technical nature of biomedical documents and the variance of readers' domain knowledge. However, existing biomedical document summarization systems have paid little attention to readability control, leaving users with summaries that are incompatible with their levels of expertise. In recognition of this urgent demand, we introduce a new task of readability controllable summarization for biomedical documents, which aims to recognise users' readability demands and generate summaries that better suit their needs: technical summaries for experts and plain language summaries (PLS) for laymen. To establish this task, we construct a corpus consisting of biomedical papers with technical summaries and PLSs written by the authors, and benchmark multiple advanced controllable abstractive and extractive summarization models based on pre-trained language models (PLMs) with prevalent controlling and generation techniques. Moreover, we propose a novel masked language model (MLM) based metric and its variant to effectively evaluate the readability discrepancy between lay and technical summaries. Experimental results from automated and human evaluations show that though current control techniques allow for a certain degree of readability adjustment during generation, the performance of existing controllable summarization methods is far from desirable in this task.
翻訳日:2022-10-11 16:53:08 公開日:2022-10-10
# ファクトチェックの強化! Twitterにおけるクレームスパンの自動識別

Empowering the Fact-checkers! Automatic Identification of Claim Spans on Twitter ( http://arxiv.org/abs/2210.04710v1 )

ライセンス: Link先を確認
Megha Sundriyal, Atharva Kulkarni, Vaibhav Pulastya, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(covid-19)の影響で医療や政治の主張が広まり、偽情報や偽ニュースが急増している。 現在の流行は、手作業によるファクトチェックを駆使して、そのデータを効率的に分類し、検証し、この不当な誤情報の雪崩と戦うことである。 しかし,情報の普及率は,ファクトチェッカーの力を大きく上回っている。 したがって、手動のファクトチェッカーによる過剰な内容の排除を支援するために、ポストに存在するクレーム価値(ミス)情報スニペットを自動的に識別して抽出することが必須となる。 本稿では,Crim Span Identification (CSI) の新たな課題を紹介する。 トークンレベルのクレームを7.5k以上のツイートに分散した大規模TwitterコーパスであるCURTを提案する。 さらに、標準トークン分類ベースラインとともに、RoBERTaのアダプタベースのバリエーションであるDABERTaを用いてデータセットをベンチマークする。 実験の結果、DABERTaはいくつかの評価指標でベースラインシステムを上回る性能を示し、約1.5ポイント改善した。 また,モデルの性能を検証するための詳細な誤差解析とアブレーション研究について報告する。 最後に、パブリック使用のための包括的スパンアノテーションガイドラインをリリースする。

The widespread diffusion of medical and political claims in the wake of COVID-19 has led to a voluminous rise in misinformation and fake news. The current vogue is to employ manual fact-checkers to efficiently classify and verify such data to combat this avalanche of claim-ridden misinformation. However, the rate of information dissemination is such that it vastly outpaces the fact-checkers' strength. Therefore, to aid manual fact-checkers in eliminating the superfluous content, it becomes imperative to automatically identify and extract the snippets of claim-worthy (mis)information present in a post. In this work, we introduce the novel task of Claim Span Identification (CSI). We propose CURT, a large-scale Twitter corpus with token-level claim spans on more than 7.5k tweets. Furthermore, along with the standard token classification baselines, we benchmark our dataset with DABERTa, an adapter-based variation of RoBERTa. The experimental results attest that DABERTa outperforms the baseline systems across several evaluation metrics, improving by about 1.5 points. We also report detailed error analysis to validate the model's performance along with the ablation studies. Lastly, we release our comprehensive span annotation guidelines for public use.
翻訳日:2022-10-11 16:52:43 公開日:2022-10-10
# O(n^2)におけるスパンベースネスト付きネスト値認識のための動的プログラミングアルゴリズム

A dynamic programming algorithm for span-based nested named-entity recognition in O(n^2) ( http://arxiv.org/abs/2210.04738v1 )

ライセンス: Link先を確認
Caio Corro(参考訳) Span-based nested named-entity recognition (NER) はCYKアルゴリズムの変種を用いた3次時間複雑性を持つ。 探索空間に補足的構造制約を加えることで、ネストされたNERは2次時間複雑性を持ち、これは非ネストの場合と同じ漸近的複雑性を持つことを示す。 提案アルゴリズムは3つの標準英語ベンチマークの大部分をカバーし,同等の実験結果を提供する。

Span-based nested named-entity recognition (NER) has a cubic-time complexity using a variant of the CYK algorithm. We show that by adding a supplementary structural constraint on the search space, nested NER has a quadratic-time complexity, that is the same asymptotic complexity than the non-nested case. The proposed algorithm covers a large part of three standard English benchmarks and delivers comparable experimental results.
翻訳日:2022-10-11 16:52:24 公開日:2022-10-10
# メタフォリカルテキストへのリテラル変換のための仮面メタフォリモデリング

Masked Metaphor Modeling To Transfer Literal to Metaphorical Text ( http://arxiv.org/abs/2210.04756v1 )

ライセンス: Link先を確認
Giorgio Ottolina and John Pavlopoulos(参考訳) 本研究は,文のリテラルトークンをマスキングし,メタファ的言語モデルを用いて表現する,メタファ的パラフレーズ生成に対する新しいアプローチを提案する。 類似した研究とは異なり、提案されたアルゴリズムは動詞の置換に限らず、名詞や形容詞も含んでいる。 前者の転送率が最高(56%)であるにもかかわらず、後者の転送は可能(24%と31%)である。 人的評価の結果,システム生成メタファーは人的メタファーよりも創造的で比喩的と考えられることがわかった。 さらに,データ拡張に移行したメタファーを使用すれば,F1の比喩文分類の精度は3%向上することがわかった。

This study presents a new approach to metaphorical paraphrase generation by masking literal tokens of literal sentences and unmasking them with metaphorical language models. Unlike similar studies, the proposed algorithm is not limited to the replacement of verbs, but also of nouns and adjectives. Despite the fact that the transfer rate for the former is the highest (56%), the transfer of the latter is feasible (24% and 31%). Human evaluation showed that our system-generated metaphors are considered more creative and metaphorical than human-generated ones. Additionally, when using our transferred metaphors for data augmentation we show that state of the art metaphorical sentence classification improves by 3% in F1.
翻訳日:2022-10-11 16:52:14 公開日:2022-10-10
# 自己移動と他移動:日本の量子カテゴリーの基礎

Self-move and Other-move: Quantum Categorical Foundations of Japanese ( http://arxiv.org/abs/2210.04451v1 )

ライセンス: Link先を確認
Ryder Dale Walton(参考訳) 本研究の目的は、量子自然言語処理(QNLP)トランスレータプログラムを作成するという大きな目標に向けて貢献することである。 本研究は,圏論に基づく英語の先行研究に基づいて,日本語の本来の図式表現に寄与する。 英語と日本語の違いは、現在の研究機関における英語の偏見に対処するために強調されている。 さらに、これらの図の位相的原理とさらなる研究のための多くの潜在的な道筋が提案されている。 なぜこの取り組みが重要か? 数百の言語が数千年にわたって発展し、時間と地理的な場所にわたる人間の相互作用の進化と一致する。 これらの言語は、人間の生存、経験、繁栄、善良な生活の基盤である。 しかし、彼らはまた、グループ間の最も強い障壁でもある。 過去数十年間、自然言語処理(NLP)の進歩により、共通の言語や文化を共有しない個人間のギャップを埋めやすくなってきた。 Google TranslateやDeepLのようなツールは、世界中の人と体験を共有するのをこれまで以上に簡単にしてくれる。 それでもこれらのツールは,言語障壁を越えて私たちのアイデアを流動的に伝えることができず,人々が不安で恥ずかしいと感じているため,いまだに不十分です。 これは、英語や日本語など、実質的に異なる文化から生まれた言語に特に当てはまる。 量子コンピュータは、自然言語のような自然界や自然現象をシミュレートするのに適しているという点で、翻訳流速を達成する最良の機会を提供する。 キーワード:カテゴリー理論、ディスコキャット、ディスコサー、日本語文法、英文法、翻訳、トポロジー、量子自然言語処理、自然言語処理

The purpose of this work is to contribute toward the larger goal of creating a Quantum Natural Language Processing (QNLP) translator program. This work contributes original diagrammatic representations of the Japanese language based on prior work that accomplished on the English language based on category theory. The germane differences between the English and Japanese languages are emphasized to help address English language bias in the current body of research. Additionally, topological principles of these diagrams and many potential avenues for further research are proposed. Why is this endeavor important? Hundreds of languages have developed over the course of millennia coinciding with the evolution of human interaction across time and geographic location. These languages are foundational to human survival, experience, flourishing, and living the good life. They are also, however, the strongest barrier between people groups. Over the last several decades, advancements in Natural Language Processing (NLP) have made it easier to bridge the gap between individuals who do not share a common language or culture. Tools like Google Translate and DeepL make it easier than ever before to share our experiences with people globally. Nevertheless, these tools are still inadequate as they fail to convey our ideas across the language barrier fluently, leaving people feeling anxious and embarrassed. This is particularly true of languages born out of substantially different cultures, such as English and Japanese. Quantum computers offer the best chance to achieve translation fluency in that they are better suited to simulating the natural world and natural phenomenon such as natural speech. Keywords: category theory, DisCoCat, DisCoCirc, Japanese grammar, English grammar, translation, topology, Quantum Natural Language Processing, Natural Language Processing
翻訳日:2022-10-11 16:43:50 公開日:2022-10-10
# 画像をどこにでも拡張する:マルチモーダル機械翻訳のための逆知識蒸留

Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation ( http://arxiv.org/abs/2210.04468v1 )

ライセンス: Link先を確認
Ru Peng, Yawen Zeng, Junbo Zhao(参考訳) 過去のマルチモーダル機械翻訳(MMT)では、視覚情報を付加することによりバイリンガル設定が高められた。 しかし、マルチモーダルデータセットのイメージマスタ要件は、MTTの開発をほとんど妨げます - すなわち、[画像、ソーステキスト、ターゲットテキスト]の整列形式を必要とするのです。 この制限は、特に通常のNTT設定のように、アライメントされた画像が提供されない場合、一般的に推論フェーズで問題となる。 そこで本研究では, 逆知識蒸留方式を用いて, 画像自由推論フェーズをサポートする新しいMMTフレームワークであるIKD-MMTを紹介する。 特に、マルチモーダル特徴生成器は知識蒸留モジュールで実行され、入力として(のみ)ソーステキストから直接マルチモーダル特徴を生成する。 機械翻訳のイメージフリー推論をサポートする可能性を享受する先行作品がいくつか存在するが、その性能は画像マスト翻訳に匹敵するものではない。 実験では,この手法を,すべての画像マスフレームワークを包括的に競合あるいは超越する最初の画像フリーアプローチとして認識し,多用されるMulti30kベンチマークで最先端の結果を得た。 私たちのコードとデータは、https://github.com/pengr/ikd-mmt/tree/masterで入手できます。 .

Past works on multimodal machine translation (MMT) elevate bilingual setup by incorporating additional aligned vision information. However, an image-must requirement of the multimodal dataset largely hinders MMT's development -- namely that it demands an aligned form of [image, source text, target text]. This limitation is generally troublesome during the inference phase especially when the aligned image is not provided as in the normal NMT setup. Thus, in this work, we introduce IKD-MMT, a novel MMT framework to support the image-free inference phase via an inversion knowledge distillation scheme. In particular, a multimodal feature generator is executed with a knowledge distillation module, which directly generates the multimodal feature from (only) source texts as the input. While there have been a few prior works entertaining the possibility to support image-free inference for machine translation, their performances have yet to rival the image-must translation. In our experiments, we identify our method as the first image-free approach to comprehensively rival or even surpass (almost) all image-must frameworks, and achieved the state-of-the-art result on the often-used Multi30k benchmark. Our code and data are available at: https://github.com/pengr/IKD-mmt/tree/master..
翻訳日:2022-10-11 16:43:26 公開日:2022-10-10
# 半教師付き学習における校正の重要性について

On the Importance of Calibration in Semi-supervised Learning ( http://arxiv.org/abs/2210.04783v1 )

ライセンス: Link先を確認
Charlotte Loh, Rumen Dangovski, Shivchander Sudalairaj, Seungwook Han, Ligong Han, Leonid Karlinsky, Marin Soljacic and Akash Srivastava(参考訳) State-of-the-art (SOTA) semi-supervised learning (SSL)法は、整合正則化と擬似ラベル付けの技法を組み合わせることでラベル付きデータとラベルなしデータの混合を利用することに成功した。 疑似ラベルリングでは、ラベルのないデータに対するモデルの予測がトレーニングに使用され、確認バイアスの軽減にはモデルキャリブレーションが重要である。 しかし、多くのSOTAメソッドはモデル性能に最適化されており、モデルのキャリブレーションの改善にはほとんど焦点を当てていない。 本研究では,モデルキャリブレーションとモデルキャリブレーションの相関が強く,近似ベイズ法を用いてキャリブレーションを改善することを提案する。 我々は、CIFAR-10、CIFAR-100、ImageNetの標準ビジョンベンチマークにおいて、キャリブレーションを最適化し、その有効性を実証する新しいSSLモデル群を紹介し、テスト精度を最大15.9%改善した。 さらに、クラス不均衡なデータセットやフォトニクス科学など、さらに現実的で困難な問題でも有効性を示す。

State-of-the-art (SOTA) semi-supervised learning (SSL) methods have been highly successful in leveraging a mix of labeled and unlabeled data by combining techniques of consistency regularization and pseudo-labeling. During pseudo-labeling, the model's predictions on unlabeled data are used for training and thus, model calibration is important in mitigating confirmation bias. Yet, many SOTA methods are optimized for model performance, with little focus directed to improve model calibration. In this work, we empirically demonstrate that model calibration is strongly correlated with model performance and propose to improve calibration via approximate Bayesian techniques. We introduce a family of new SSL models that optimizes for calibration and demonstrate their effectiveness across standard vision benchmarks of CIFAR-10, CIFAR-100 and ImageNet, giving up to 15.9% improvement in test accuracy. Furthermore, we also demonstrate their effectiveness in additional realistic and challenging problems, such as class-imbalanced datasets and in photonics science.
翻訳日:2022-10-11 16:18:40 公開日:2022-10-10
# 神経odeの前方不変性について

On the Forward Invariance of Neural ODEs ( http://arxiv.org/abs/2210.04763v1 )

ライセンス: Link先を確認
Wei Xiao and Tsun-Hsuan Wang and Ramin Hasani and Mathias Lechner and Daniela Rus(参考訳) 堅牢で信頼性の高い意思決定を保証するため、出力仕様をバックプロパゲートすることで、ニューラルネットワークのパラメータとその入力に対する制約を強制することが非常に望ましい。 このようにして、ネットワークが摂動下で信頼できる決定を下すことを保証することができる。 本稿では,不変集合伝播を用いて,神経常微分型方程式 (odes) の仕様保証のクラスを実現する新しい手法を提案する。 ニューラルODEの不変性は、数学的公式、物理法則、システムの安全性を満たすための出力仕様として定義される。 制御バリア関数を使用して、出力層上の神経odeの不変性を特定し、それを入力層に伝播する。 不変バックプロパゲーションを通じて、出力仕様をニューラルODEパラメータまたはその入力上の制約にマップする。 対応する制約の満足度は、出力仕様の満足度を意味する。 これにより、モデルの性能を最大に保ちながら、入力またはパラメータを変更して出力仕様の保証を達成することができる。 本稿では, 渦巻き曲線の回帰, 関節運動の自己回帰モデリング, 関数の凸像, 自律走行車における衝突回避の安全な神経制御など, 一連の表現学習課題における不変性を示す。

To ensure robust and trustworthy decision-making, it is highly desirable to enforce constraints over a neural network's parameters and its inputs automatically by back-propagating output specifications. This way, we can guarantee that the network makes reliable decisions under perturbations. Here, we propose a new method for achieving a class of specification guarantees for neural Ordinary Differentiable Equations (ODEs) by using invariance set propagation. An invariance of a neural ODE is defined as an output specification, such as to satisfy mathematical formulae, physical laws, and system safety. We use control barrier functions to specify the invariance of a neural ODE on the output layer and propagate it back to the input layer. Through the invariance backpropagation, we map output specifications onto constraints on the neural ODE parameters or its input. The satisfaction of the corresponding constraints implies the satisfaction of output specifications. This allows us to achieve output specification guarantees by changing the input or parameters while maximally preserving the model performance. We demonstrate the invariance propagation on a comprehensive series of representation learning tasks, including spiral curve regression, autoregressive modeling of joint physical dynamics, convexity portrait of a function, and safe neural control of collision avoidance for autonomous vehicles.
翻訳日:2022-10-11 16:18:04 公開日:2022-10-10
# 局所更新による勾配追従性能について

On the Performance of Gradient Tracking with Local Updates ( http://arxiv.org/abs/2210.04757v1 )

ライセンス: Link先を確認
Edward Duc Hien Nguyen and Sulaiman A. Alghunaim and Kun Yuan and C\'esar A. Uribe(参考訳) n$エージェントのネットワークが不均一な非凸コスト関数の集合の平均を分散的に最小化しようとする分散最適化問題について検討する。 Exact Diffusion~(ED)やGradient Tracking~(GT)のような最先端の分散アルゴリズムでは、イテレーション毎に通信が行われる。 しかし、コミュニケーションは高価で、リソース集約的で、遅い。 本研究では,局所的に更新されたGT法(LU-GT)を分析し,エージェントが隣人と対話する前に局所再帰を行う。 ローカルアップデートは、実際には通信のオーバーヘッドを減らすことが示されているが、その理論的な影響は完全には特徴づけられていない。 LU-GTはフェデレートラーニング設定と同じ通信複雑性を持つが、任意のネットワークトポロジが可能であることを示す。 さらに,LU-GTによって達成されたソリューションの品質は,ローカル更新数によって低下しないことを示す。 数値的な例から、ローカル更新によって特定のレジーム(例えば well-connected graph)における通信コストが削減されることがわかる。

We study the decentralized optimization problem where a network of $n$ agents seeks to minimize the average of a set of heterogeneous non-convex cost functions distributedly. State-of-the-art decentralized algorithms like Exact Diffusion~(ED) and Gradient Tracking~(GT) involve communicating every iteration. However, communication is expensive, resource intensive, and slow. In this work, we analyze a locally updated GT method (LU-GT), where agents perform local recursions before interacting with their neighbors. While local updates have been shown to reduce communication overhead in practice, their theoretical influence has not been fully characterized. We show LU-GT has the same communication complexity as the Federated Learning setting but allows arbitrary network topologies. In addition, we prove that the number of local updates does not degrade the quality of the solution achieved by LU-GT. Numerical examples reveal that local updates can lower communication costs in certain regimes (e.g., well-connected graphs).
翻訳日:2022-10-11 16:11:33 公開日:2022-10-10
# 学習制御政策における政策最適化の理論的基礎に向けて

Towards a Theoretical Foundation of Policy Optimization for Learning Control Policies ( http://arxiv.org/abs/2210.04810v1 )

ライセンス: Link先を確認
Bin Hu, Kaiqing Zhang, Na Li, Mehran Mesbahi, Maryam Fazel, Tamer Ba\c{s}ar(参考訳) 勾配に基づく手法は多様なアプリケーション領域におけるシステム設計と最適化に広く用いられている。 近年,これらの手法の理論的性質を制御・強化学習の文脈で研究することに新たな関心が寄せられている。 本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化の最近の発展について調査する。 我々は,制御理論,強化学習,大規模最適化をつなぐ学際的視点を提示する。 本稿では,線形二次レギュレータ(lqr),$\mathcal{h}_\infty$制御,リスク感受性制御,線形二次ガウス制御(lqg)および出力フィードバック合成といった,様々な連続制御問題に対する,勾配に基づく手法の最適化景観,大域収束,サンプル複雑性に関する最近の理論結果について検討する。 これらの最適化結果と合わせて,直接政策最適化が学習ベースの制御における安定性と頑健性にどのように対処するかについても論じる。 学習と制御の共通点におけるいくつかの課題と機会を指摘し、調査を締めくくった。

Gradient-based methods have been widely used for system design and optimization in diverse application domains. Recently, there has been a renewed interest in studying theoretical properties of these methods in the context of control and reinforcement learning. This article surveys some of the recent developments on policy optimization, a gradient-based iterative approach for feedback control synthesis, popularized by successes of reinforcement learning. We take an interdisciplinary perspective in our exposition that connects control theory, reinforcement learning, and large-scale optimization. We review a number of recently-developed theoretical results on the optimization landscape, global convergence, and sample complexity of gradient-based methods for various continuous control problems such as the linear quadratic regulator (LQR), $\mathcal{H}_\infty$ control, risk-sensitive control, linear quadratic Gaussian (LQG) control, and output feedback synthesis. In conjunction with these optimization results, we also discuss how direct policy optimization handles stability and robustness concerns in learning-based control, two main desiderata in control engineering. We conclude the survey by pointing out several challenges and opportunities at the intersection of learning and control.
翻訳日:2022-10-11 16:11:16 公開日:2022-10-10
# スケーラブルストリーミングテンソル分解によるマルチアスペクトグラフのモデリングとマイニング

Modeling and Mining Multi-Aspect Graphs With Scalable Streaming Tensor Decomposition ( http://arxiv.org/abs/2210.04404v1 )

ライセンス: Link先を確認
Ekta Gujral(参考訳) グラフは、オンラインソーシャルネットワークから健康データ、映画視聴パターンに至るまで、ほぼすべての現実世界のアプリケーションドメインに現れる。 通常、そのような実世界のグラフは、時間とともに進化するという意味で大きく動的である。 さらに、グラフは通常、マルチアスペクト情報、すなわちソーシャルネットワークでは、誰が誰に電話したか、誰がタイムラインにコメントしたかなど、ノード間の「コミュニケーションの手段」を持つことができる。 このようなマルチアスペクトグラフから、そのグラフ内のノードのコミュニティのような有用なパターンをモデル化し、マイニングするにはどうすればよいのか? これらのグラフの動的パターンをどうやって識別し、処理するデータの量が非常に大きい場合、ストリーミングデータにどう対処すればよいのか? そこで本論文では,静的および動的マルチアスペクトグラフをマイニングするためのテンソルに基づく新しい手法を提案する。 一般にテンソルは、時間進化ネットワーク、協調ネットワーク、脳波計測(EEG)のような時空間データなどの高次元多視点データを表現できる行列の高次一般化である。 まず、データ内のテンソル構造を利用して、一貫性のあるコミュニティとノード間のパターンを特定することを目的として、静的なマルチアスペクトグラフに焦点を当てる。 第二に、グラフが動的に進化するにつれて、分解を再計算することなく、既存の結果を段階的に更新しながら、データ内のストリーミング更新を処理することに重点を置いています。

Graphs emerge in almost every real-world application domain, ranging from online social networks all the way to health data and movie viewership patterns. Typically, such real-world graphs are big and dynamic, in the sense that they evolve over time. Furthermore, graphs usually contain multi-aspect information i.e. in a social network, we can have the "means of communication" between nodes, such as who messages whom, who calls whom, and who comments on whose timeline and so on. How can we model and mine useful patterns, such as communities of nodes in that graph, from such multi-aspect graphs? How can we identify dynamic patterns in those graphs, and how can we deal with streaming data, when the volume of data to be processed is very large? In order to answer those questions, in this thesis, we propose novel tensor-based methods for mining static and dynamic multi-aspect graphs. In general, a tensor is a higher-order generalization of a matrix that can represent high-dimensional multi-aspect data such as time-evolving networks, collaboration networks, and spatio-temporal data like Electroencephalography (EEG) brain measurements. The thesis is organized in two synergistic thrusts: First, we focus on static multi-aspect graphs, where the goal is to identify coherent communities and patterns between nodes by leveraging the tensor structure in the data. Second, as our graphs evolve dynamically, we focus on handling such streaming updates in the data without having to re-compute the decomposition, but incrementally update the existing results.
翻訳日:2022-10-11 16:01:21 公開日:2022-10-10
# 2次回帰モデルによる安定性のエッジへの漸進的シャープ化

Second-order regression models exhibit progressive sharpening to the edge of stability ( http://arxiv.org/abs/2210.04860v1 )

ライセンス: Link先を確認
Atish Agarwala, Fabian Pedregosa, and Jeffrey Pennington(参考訳) 近年のステップサイズの大きな勾配降下の研究では、損失ヘッシアンの最大固有値(漸進的シャープニング)を初期値で上昇させるレジームがしばしば存在し、さらに最大値付近の固有値の安定化により収束(安定性の限界)が達成される。 これらの現象は本質的に非線形であり、パラメータの予測関数がほぼ線形である定数ニューラル・タンジェント・カーネル(NTK)のモデルでは発生しない。 したがって、次の最も単純な予測モデルのクラス、すなわち2階回帰モデルと呼ばれるパラメータの二次的なクラスを考える。 2次元の二次的目的に対して、この2階回帰モデルが、安定性の端とわずかに異なる値に対してNTK固有値の漸進的なシャープ化を示すことを示す。 より高次元では、モデルはニューラルネットワークの特定の構造がなくても、一般的な振る舞いを示し、プログレッシブ・シャープニングとエッジ・オブ・ステイビリティの振る舞いはニューラルネットワークのユニークな特徴ではなく、高次元非線形モデルにおける離散学習アルゴリズムのより一般的な性質である可能性を示唆している。

Recent studies of gradient descent with large step sizes have shown that there is often a regime with an initial increase in the largest eigenvalue of the loss Hessian (progressive sharpening), followed by a stabilization of the eigenvalue near the maximum value which allows convergence (edge of stability). These phenomena are intrinsically non-linear and do not happen for models in the constant Neural Tangent Kernel (NTK) regime, for which the predictive function is approximately linear in the parameters. As such, we consider the next simplest class of predictive models, namely those that are quadratic in the parameters, which we call second-order regression models. For quadratic objectives in two dimensions, we prove that this second-order regression model exhibits progressive sharpening of the NTK eigenvalue towards a value that differs slightly from the edge of stability, which we explicitly compute. In higher dimensions, the model generically shows similar behavior, even without the specific structure of a neural network, suggesting that progressive sharpening and edge-of-stability behavior aren't unique features of neural networks, and could be a more general property of discrete learning algorithms in high-dimensional non-linear models.
翻訳日:2022-10-11 16:00:26 公開日:2022-10-10
# DeepMed:Debiased Deep Learningを用いた半パラメトリック因果メディエーション分析

DeepMed: Semiparametric Causal Mediation Analysis with Debiased Deep Learning ( http://arxiv.org/abs/2210.04389v1 )

ライセンス: Link先を確認
Siqi Xu, Lin Liu, Zhonghua Liu(参考訳) 因果的調停分析は因果性のブラックボックスを解き放ち、それゆえ、生物医学および社会科学における因果的経路を分離し、機械学習の公平性を評価する強力なツールである。 媒介分析における自然方向と間接効果を推定するバイアスを低減するために,ディープニューラルネットワーク(DNN)を用いて,効率的な影響関数の無限次元ニュアンス関数をクロスフィットするDeepMedを提案する。 我々は,(1)DNNアーキテクチャに空間的制約を課さずに半パラメトリック効率を達成でき,(2)ニュアンス関数の低次元構造に適応し,DNNに基づく半パラメトリック因果推論に関する既存の文献を著しく向上させることができる,という新たな理論結果を得た。 本研究の成果を裏付ける総合的な合成実験を行い,理論と実践のギャップを明らかにする。 概念実証として、DeepMedを用いて、機械学習の公正性に関する2つの実際のデータセットを分析し、過去の結果と一致する結論に達する。

Causal mediation analysis can unpack the black box of causality and is therefore a powerful tool for disentangling causal pathways in biomedical and social sciences, and also for evaluating machine learning fairness. To reduce bias for estimating Natural Direct and Indirect Effects in mediation analysis, we propose a new method called DeepMed that uses deep neural networks (DNNs) to cross-fit the infinite-dimensional nuisance functions in the efficient influence functions. We obtain novel theoretical results that our DeepMed method (1) can achieve semiparametric efficiency bound without imposing sparsity constraints on the DNN architecture and (2) can adapt to certain low dimensional structures of the nuisance functions, significantly advancing the existing literature on DNN-based semiparametric causal inference. Extensive synthetic experiments are conducted to support our findings and also expose the gap between theory and practice. As a proof of concept, we apply DeepMed to analyze two real datasets on machine learning fairness and reach conclusions consistent with previous findings.
翻訳日:2022-10-11 15:58:59 公開日:2022-10-10
# メラノーマ適応に対する自己監督型コントラスト学習からの全スライド画像表現

Using Whole Slide Image Representations from Self-Supervised Contrastive Learning for Melanoma Concordance Regression ( http://arxiv.org/abs/2210.04803v1 )

ライセンス: Link先を確認
Sean Grullon, Vaughn Spurrier, Jiayi Zhao, Corey Chivers, Yang Jiang, Kiran Motaparthi, Michael Bonham, and Julianna Ianni(参考訳) 悪性黒色腫は他のいくつかの皮膚癌よりも稀に発症するが,診断に至らなかった場合,長期生存率は極めて低い。 悪性黒色腫と良性メラノサイトーシス病変の鑑別は,病理組織学的に高い不一致率で診断が困難である。 医療提供者に潜在的な一致情報を提供するツールは、メラノーマに挑戦するための診断、予後、治療上の意思決定を知らせるのに役立つだろう。 本稿では,デジタル化された全スライド画像(WSIs)から,侵入性メラノーマやメラノーマの出現率を予測できるメラノーマ一致回帰深層学習モデルを提案する。 メラノーマの一致に対応する有意な特徴を,対比学習法SimCLRを用いて自己指導的に学習した。 4つの病理学研究室から採取した10,895標本からランダムに採取した83,356個のwsiタイルを用いたsimclr特徴抽出器を訓練した。 990例の検体に対して,3つの病理検査室から得られた基準的真実アノテーションを用いてメラノーマ一致回帰モデルを訓練し,211例の検体で検討した。 テストセット上で根平均二乗誤差 (rmse) を 0.28 +/- 0.01 で達成した。 また, 予測された一致率を悪性度分類器として用いた結果, 0.85 +/- 0.05 と 0.61 +/- 0.06 の精度とリコールを達成した。 これらの結果は、専門家のパネルに相談し、専門家が特定の診断に同意する度合いに基づいてスコアを提供する結果を予測できる人工知能(AI)システムを構築するための重要な第一歩である。 このようなシステムは、追加の染色や遺伝子検査を注文するなどの追加のテストや他のアクションを提案するために使用できる。

Although melanoma occurs more rarely than several other skin cancers, patients' long term survival rate is extremely low if the diagnosis is missed. Diagnosis is complicated by a high discordance rate among pathologists when distinguishing between melanoma and benign melanocytic lesions. A tool that provides potential concordance information to healthcare providers could help inform diagnostic, prognostic, and therapeutic decision-making for challenging melanoma cases. We present a melanoma concordance regression deep learning model capable of predicting the concordance rate of invasive melanoma or melanoma in-situ from digitized Whole Slide Images (WSIs). The salient features corresponding to melanoma concordance were learned in a self-supervised manner with the contrastive learning method, SimCLR. We trained a SimCLR feature extractor with 83,356 WSI tiles randomly sampled from 10,895 specimens originating from four distinct pathology labs. We trained a separate melanoma concordance regression model on 990 specimens with available concordance ground truth annotations from three pathology labs and tested the model on 211 specimens. We achieved a Root Mean Squared Error (RMSE) of 0.28 +/- 0.01 on the test set. We also investigated the performance of using the predicted concordance rate as a malignancy classifier, and achieved a precision and recall of 0.85 +/- 0.05 and 0.61 +/- 0.06, respectively, on the test set. These results are an important first step for building an artificial intelligence (AI) system capable of predicting the results of consulting a panel of experts and delivering a score based on the degree to which the experts would agree on a particular diagnosis. Such a system could be used to suggest additional testing or other action such as ordering additional stains or genetic tests.
翻訳日:2022-10-11 15:52:57 公開日:2022-10-10
# 局所タンデム学習を用いたスパイクニューラルネットワークの訓練

Training Spiking Neural Networks with Local Tandem Learning ( http://arxiv.org/abs/2210.04532v1 )

ライセンス: Link先を確認
Qu Yang, Jibin Wu, Malu Zhang, Yansong Chua, Xinchao Wang, Haizhou Li(参考訳) スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に妥当でエネルギー効率が高いことが示されている。 しかし、特にアナログコンピューティング基板への展開のために、深層snsのための効率的で一般化されたトレーニング方法が欠如している。 本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習ルールを提案する。 LTLルールは、事前学習されたANNの中間特徴表現を模倣することにより、教師が学習するアプローチに従う。 ネットワークレイヤの学習を分離し,情報量の高いスーパーバイザ信号を活用することで,計算複雑性を低く抑えながら,cifar-10データセット上の5つのトレーニング期間内に高速ネットワーク収束を実現する。 CIFAR-10, CIFAR-100, Tiny ImageNetデータセット上でSNNが教師のANNと同等の精度を達成できることを示す実験結果も得られた。 さらに、提案されたltlルールはハードウェアフレンドリである。 高速パラメータキャリブレーションを実行し、悪名高いデバイス非理想問題に対して堅牢性を提供するために、オンチップで容易に実装できる。 したがって、超低消費電力混合信号ニューロモルフィックコンピューティングチップ上でSNNの訓練と展開の機会は無数にある。

Spiking neural networks (SNNs) are shown to be more biologically plausible and energy efficient over their predecessors. However, there is a lack of an efficient and generalized training method for deep SNNs, especially for deployment on analog computing substrates. In this paper, we put forward a generalized learning rule, termed Local Tandem Learning (LTL). The LTL rule follows the teacher-student learning approach by mimicking the intermediate feature representations of a pre-trained ANN. By decoupling the learning of network layers and leveraging highly informative supervisor signals, we demonstrate rapid network convergence within five training epochs on the CIFAR-10 dataset while having low computational complexity. Our experimental results have also shown that the SNNs thus trained can achieve comparable accuracies to their teacher ANNs on CIFAR-10, CIFAR-100, and Tiny ImageNet datasets. Moreover, the proposed LTL rule is hardware friendly. It can be easily implemented on-chip to perform fast parameter calibration and provide robustness against the notorious device non-ideality issues. It, therefore, opens up a myriad of opportunities for training and deployment of SNN on ultra-low-power mixed-signal neuromorphic computing chips.10
翻訳日:2022-10-11 15:52:13 公開日:2022-10-10
# flamby: 現実的な医療環境でのクロスサイロフェデレーション学習のためのデータセットとベンチマーク

FLamby: Datasets and Benchmarks for Cross-Silo Federated Learning in Realistic Healthcare Settings ( http://arxiv.org/abs/2210.04620v1 )

ライセンス: Link先を確認
Jean Ogier du Terrail, Samy-Safwan Ayed, Edwige Cyffers, Felix Grimberg, Chaoyang He, Regis Loeb, Paul Mangold, Tanguy Marchand, Othmane Marfoq, Erum Mushtaq, Boris Muzellec, Constantin Philippenko, Santiago Silva, Maria Tele\'nczuk, Shadi Albarqouni, Salman Avestimehr, Aur\'elien Bellet, Aymeric Dieuleveut, Martin Jaggi, Sai Praneeth Karimireddy, Marco Lorenzi, Giovanni Neglia, Marc Tommasi, Mathieu Andreux(参考訳) フェデレートラーニング(FL)は、センシティブなデータを保持している複数のクライアントが、データを集中することなく、協調的に機械学習モデルをトレーニングできる新しいアプローチである。 クロスサイロのFL設定は、信頼できるクライアントがほとんど($2$--$50$)ない場合に対応し、それぞれが中から大規模なデータセットを保持し、一般的に医療、金融、産業などのアプリケーションで見られる。 これまでの研究では、デバイス間FLの代表的なデータセットが提案されていたが、現実的な医療用クロスサイロFLデータセットはほとんど存在せず、この重要な応用におけるアルゴリズム研究の速度が低下している。 本研究では,医療分野に重点を置くクロスサイロ・データセット・スイートであるFLamby(Federated Learning AMple Benchmark of Your cross-silo Strategy)を提案し,クロスサイロ・FLの理論と実践のギャップを埋める。 flambyは7つの医療データセットを自然な分割で包含しており、複数のタスク、モダリティ、データボリュームをカバーする。 実例として、すべてのデータセットで標準FLアルゴリズムをベンチマークする。 私たちの柔軟でモジュール化されたスイートは、研究者が簡単にデータセットをダウンロードし、結果を再現し、研究のためにさまざまなコンポーネントを再利用できます。 FLambyは~\url{www.github.com/owkin/flamby}で入手できる。

Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few ($2$--$50$) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~\url{www.github.com/owkin/flamby}.
翻訳日:2022-10-11 15:43:52 公開日:2022-10-10
# マスク付き顔認識のためのトランスフォーマーと畳み込みネットワークを用いたアンサンブル学習

Ensemble Learning using Transformers and Convolutional Networks for Masked Face Recognition ( http://arxiv.org/abs/2210.04816v1 )

ライセンス: Link先を確認
Mohammed R. Al-Sinan, Aseel F. Haneef, Hamzah Luqman(参考訳) マスク着用は、新型コロナウイルスの感染拡大を抑えるため、私たちが従わなければならなかった調整の1つです。 顔が常にマスクで覆われているため、この行動が顔認識システムの認識能力にどのように影響するかを理解し、調査する必要が生じた。 現在の顔認識システムは、制約のない一般的な顔認識ケースを扱う場合、極めて高精度であるが、隠蔽された顔ではうまく一般化しない。 本研究では,マスク付き顔認識システムを提案する。 提案システムは2つの畳み込みニューラルネットワークモデルと2つのトランスフォーマーモデルからなる。 CNNモデルは、FaceNet事前訓練モデルに基づいて微調整されている。 多数決手法を用いて4つのモデルの予測を行い,マスクを持つ人物を特定する。 提案システムは,本研究で作成したLFWデータセットを用いて評価されている。 最良精度は、精度92%のアンサンブルモデルを用いて得られる。 この認識速度は他のモデルの精度を上回っており、マスク面を認識するための提案モデルの正しさと頑健さを示している。 コードとデータはhttps://github.com/Hamzah-Luqman/MFRで公開されている。

Wearing a face mask is one of the adjustments we had to follow to reduce the spread of the coronavirus. Having our faces covered by masks constantly has driven the need to understand and investigate how this behavior affects the recognition capability of face recognition systems. Current face recognition systems have extremely high accuracy when dealing with unconstrained general face recognition cases but do not generalize well with occluded masked faces. In this work, we propose a system for masked face recognition. The proposed system comprises two Convolutional Neural Network (CNN) models and two Transformer models. The CNN models have been fine-tuned on FaceNet pre-trained model. We ensemble the predictions of the four models using the majority voting technique to identify the person with the mask. The proposed system has been evaluated on a synthetically masked LFW dataset created in this work. The best accuracy is obtained using the ensembled models with an accuracy of 92%. This recognition rate outperformed the accuracy of other models and it shows the correctness and robustness of the proposed model for recognizing masked faces. The code and data are available at https://github.com/Hamzah-Luqman/MFR
翻訳日:2022-10-11 15:43:27 公開日:2022-10-10
# メタ初期化によるマルチモーダル核融合

Multi-Modal Fusion by Meta-Initialization ( http://arxiv.org/abs/2210.04843v1 )

ライセンス: Link先を確認
Matthew T. Jackson, Shreshth A. Malik, Michael T. Matthews, Yousuf Mohamed-Ahmed(参考訳) 経験が乏しい場合、新しいタスクに適応するための情報が不十分な場合があります。 この場合、タスクのテキスト記述のような補助情報は、タスクの推論と適応の改善を可能にする。 本研究では,モデルに依存しないメタラーニングアルゴリズム(MAML)の拡張を提案する。 メタ初期化による融合(fumi)は,タスクに依存しない単一の初期化を学習するのではなく,ハイパーネットワークを用いた補助情報によるモデル初期化を条件とする。 さらに、既存のマルチモーダル数ショット学習ベンチマークの欠点から、簡潔で視覚的に関連するテキストクラス記述を備えた大規模画像分類データセットであるiNat-Animを構築した。 iNat-Animでは、FMIがMAMLのような単調なベースラインを数発で上回っている。 このプロジェクトのコードとiNat-Animのデータセット探索ツールがhttps://github.com/s-a-malik/multi-fewで公開されている。

When experience is scarce, models may have insufficient information to adapt to a new task. In this case, auxiliary information - such as a textual description of the task - can enable improved task inference and adaptation. In this work, we propose an extension to the Model-Agnostic Meta-Learning algorithm (MAML), which allows the model to adapt using auxiliary information as well as task experience. Our method, Fusion by Meta-Initialization (FuMI), conditions the model initialization on auxiliary information using a hypernetwork, rather than learning a single, task-agnostic initialization. Furthermore, motivated by the shortcomings of existing multi-modal few-shot learning benchmarks, we constructed iNat-Anim - a large-scale image classification dataset with succinct and visually pertinent textual class descriptions. On iNat-Anim, FuMI significantly outperforms uni-modal baselines such as MAML in the few-shot regime. The code for this project and a dataset exploration tool for iNat-Anim are publicly available at https://github.com/s-a-malik/multi-few .
翻訳日:2022-10-11 15:43:11 公開日:2022-10-10
# アドバサリートレーニングによるアダプタの再訪

Revisiting adapters with adversarial training ( http://arxiv.org/abs/2210.04886v1 )

ライセンス: Link先を確認
Sylvestre-Alvise Rebuffi, Francesco Croce, Sven Gowal(参考訳) 敵の訓練は一般的に防御機構として用いられるが、近年の研究ではレギュラライザーとしても機能することが示されている。 ニューラルネットワークをクリーンかつ逆入力で併用することにより、クリーンで非逆入力の分類精度を向上させることができる。 従来の知見とは対照的に,クリーン入力と逆入力を併用する場合にはバッチ統計を分離する必要はなく,各入力に対してドメイン固有のパラメータがほとんどないアダプタを使用すれば十分であることを示す。 視覚トランスフォーマタ(vit)の分類トークンをアダプタとして使用すると,2層正規化層の分類性能に匹敵するが,追加パラメータは大幅に減少する。 まず,非敵訓練型vit-b16モデルのtop-1精度を,imagenetの+1.12%向上させた(top-1精度83.76%に達した)。 第2に,さらに重要なのは,アダプタによるトレーニングによって,クリーントークンと敵トークンのリニアコンビネーションによるモデルスープが可能になることだ。 これらのモデルスープは、逆モデルスープと呼ばれ、効率を犠牲にすることなく、クリーンとロバストな精度のトレードオフを可能にします。 最後に,分布変化に直面した結果のモデルを容易に適応できることを示す。 我々のViT-B16は、Masked Autoencodersで得られたものよりも平均+4.00%高いImageNetの変種でトップ1の精度を得る。

While adversarial training is generally used as a defense mechanism, recent works show that it can also act as a regularizer. By co-training a neural network on clean and adversarial inputs, it is possible to improve classification accuracy on the clean, non-adversarial inputs. We demonstrate that, contrary to previous findings, it is not necessary to separate batch statistics when co-training on clean and adversarial inputs, and that it is sufficient to use adapters with few domain-specific parameters for each type of input. We establish that using the classification token of a Vision Transformer (ViT) as an adapter is enough to match the classification performance of dual normalization layers, while using significantly less additional parameters. First, we improve upon the top-1 accuracy of a non-adversarially trained ViT-B16 model by +1.12% on ImageNet (reaching 83.76% top-1 accuracy). Second, and more importantly, we show that training with adapters enables model soups through linear combinations of the clean and adversarial tokens. These model soups, which we call adversarial model soups, allow us to trade-off between clean and robust accuracy without sacrificing efficiency. Finally, we show that we can easily adapt the resulting models in the face of distribution shifts. Our ViT-B16 obtains top-1 accuracies on ImageNet variants that are on average +4.00% better than those obtained with Masked Autoencoders.
翻訳日:2022-10-11 15:42:54 公開日:2022-10-10
# イベント抽出:調査

Event Extraction: A Survey ( http://arxiv.org/abs/2210.03419v2 )

ライセンス: Link先を確認
Viet Dac Lai(参考訳) テキストから報告されたイベントを抽出することは、自然言語処理の主要な研究テーマの1つである。 このプロセスには、イベント検出、引数抽出、ロールラベリングなど、いくつかのタスクが含まれている。 自然言語処理と自然言語理解における最も重要なトピックの1つとして、イベント抽出の応用は、ニュースワイヤ、バイオメディカルドメイン、歴史と人類、サイバーセキュリティなど、幅広い分野にまたがる。 本稿では,テキスト文書からのイベント検出に関する包括的調査を行う。 本稿では,タスク定義,評価方法,ベンチマークデータセット,イベント抽出手法の分類について述べる。 また,イベント検出における今後の研究方向の展望を示す。

Extracting the reported events from text is one of the key research themes in natural language processing. This process includes several tasks such as event detection, argument extraction, role labeling. As one of the most important topics in natural language processing and natural language understanding, the applications of event extraction spans across a wide range of domains such as newswire, biomedical domain, history and humanity, and cyber security. This report presents a comprehensive survey for event detection from textual documents. In this report, we provide the task definition, the evaluation method, as well as the benchmark datasets and a taxonomy of methodologies for event extraction. We also present our vision of future research direction in event detection.
翻訳日:2022-10-11 15:42:27 公開日:2022-10-10
# CrowdChecked: ソーシャルメディアにおけるFact-Checked主張の検出

CrowdChecked: Detecting Previously Fact-Checked Claims in Social Media ( http://arxiv.org/abs/2210.04447v1 )

ライセンス: Link先を確認
Momchil Hardalov, Anton Chernyavskiy, Ivan Koychev, Dmitry Ilvovsky, Preslav Nakov(参考訳) ファクトチェックを自動化するシステムの開発には相当な進歩があったが、ユーザの目にはまだ信頼性が欠けている。 このように、入力クレームが以前プロのファクトチェッカーによってファクトチェックされたかどうかを検証し、その決定を説明する記事を返却することで、自動ファクトチェックを行うという興味深いアプローチが出現した。 これは、手動の事実チェックを信頼する人々にとって賢明なアプローチであり、多くのクレームが何度も繰り返されている。 しかし、このようなシステムを構築する際の大きな問題は、トレーニングで利用可能な、つぶやきを検証できる記事ペアの数が少ないことだ。 ここでは,このギャップを,利用者がファクトチェック記事へのリンクで回答したソーシャルメディアのマイニングクレームを利用して埋めることを目的としている。 特に、大規模な330,000ツイートと、それに対応するファクトチェック記事のペアをマイニングします。 さらに, 遠隔監視シナリオにおいて, 修正自己適応訓練に基づいて, この雑音データから学習するためのエンドツーエンドフレームワークを提案する。 CLEF'21 CheckThat!テストセットの実験では,2点の絶対値による技術状況の改善が示されている。 私たちのコードとデータセットはhttps://github.com/mhardalov/crowdchecked-claimsで利用可能です。

While there has been substantial progress in developing systems to automate fact-checking, they still lack credibility in the eyes of the users. Thus, an interesting approach has emerged: to perform automatic fact-checking by verifying whether an input claim has been previously fact-checked by professional fact-checkers and to return back an article that explains their decision. This is a sensible approach as people trust manual fact-checking, and as many claims are repeated multiple times. Yet, a major issue when building such systems is the small number of known tweet--verifying article pairs available for training. Here, we aim to bridge this gap by making use of crowd fact-checking, i.e., mining claims in social media for which users have responded with a link to a fact-checking article. In particular, we mine a large-scale collection of 330,000 tweets paired with a corresponding fact-checking article. We further propose an end-to-end framework to learn from this noisy data based on modified self-adaptive training, in a distant supervision scenario. Our experiments on the CLEF'21 CheckThat! test set show improvements over the state of the art by two points absolute. Our code and datasets are available at https://github.com/mhardalov/crowdchecked-claims
翻訳日:2022-10-11 15:41:57 公開日:2022-10-10
# ロボットタスクを効果的に学習するための説明と言語指導の併用

Using Both Demonstrations and Language Instructions to Efficiently Learn Robotic Tasks ( http://arxiv.org/abs/2210.04476v1 )

ライセンス: Link先を確認
Albert Yu, Raymond J. Mooney(参考訳) デモと自然言語命令は、ロボットに新しいタスクを定義し、教える一般的な方法である。 しかし、多くの複雑なタスクでは、デモや言語命令だけで曖昧さがあり、タスクが明確に特定されるのを防ぐ。 このような場合、デモと命令の組み合わせは、どちらか一方のモダリティ単独よりも簡潔かつ効果的にロボットにタスクを伝達する。 この問題を解決するために,視覚的な実演と言語指導という2つの要素からなるタスク埋め込みにロボットポリシーを調和させる手法であるDeL-TaCo(Joint Demo-Language Task Conditioning)を提案する。 DeL-TaCo(1)は、新しいタスク仕様において、これらの2つのモダリティを相互にあいまいにし、明確化することにより、新しいタスクを特定するのに必要な教師の労力を大幅に削減し、(2)従来のタスクコンディショニング手法よりも、新しいオブジェクトや命令に対するより優れた一般化性能を達成する。 我々の知る限り、デモと言語埋め込みの両方にマルチタスクロボット操作ポリシーを同時に適用することで、モダリティのみの条件付けよりもサンプル効率と一般化が向上することを示す最初の研究である。 詳細はhttps://sites.google.com/view/del-taco-learningを参照。

Demonstrations and natural language instructions are two common ways to specify and teach robots novel tasks. However, for many complex tasks, a demonstration or language instruction alone contains ambiguities, preventing tasks from being specified clearly. In such cases, a combination of both a demonstration and an instruction more concisely and effectively conveys the task to the robot than either modality alone. To instantiate this problem setting, we train a single multi-task policy on a few hundred challenging robotic pick-and-place tasks and propose DeL-TaCo (Joint Demo-Language Task Conditioning), a method for conditioning a robotic policy on task embeddings comprised of two components: a visual demonstration and a language instruction. By allowing these two modalities to mutually disambiguate and clarify each other during novel task specification, DeL-TaCo (1) substantially decreases the teacher effort needed to specify a new task and (2) achieves better generalization performance on novel objects and instructions over previous task-conditioning methods. To our knowledge, this is the first work to show that simultaneously conditioning a multi-task robotic manipulation policy on both demonstration and language embeddings improves sample efficiency and generalization over conditioning on either modality alone. See additional materials at https://sites.google.com/view/del-taco-learning
翻訳日:2022-10-11 15:41:35 公開日:2022-10-10
# ニューラルレンダリングによる静的ビデオにおける自己監督型3次元人物位置推定

Self-Supervised 3D Human Pose Estimation in Static Video Via Neural Rendering ( http://arxiv.org/abs/2210.04514v1 )

ライセンス: Link先を確認
Luca Schmidtke, Benjamin Hou, Athanasios Vlontzos, Bernhard Kainz(参考訳) 2D画像から3Dの人間のポーズを推定することは、モーションキャプチャー、バーチャルリアリティー、監視、スポーツや医学の歩行分析など多くの応用でコンピュータビジョンの分野において、困難かつ長期にわたる問題である。 手動のランドマークアノテーションを必要とせずに、一人の人物と静的な背景を含む2Dビデオから3Dポーズを推定する手法の予備的な結果を示す。 我々のモデルは、別のタイムポイントから与えられたビデオのランダムなフレームと変換された人間の形状テンプレートのレンダリングイメージを再構成する必要がある。 レイキャスティングをベースとしたレンダリングパイプラインの最適化は極めて重要であり、エンド・ツー・エンドのトレーニングを再構築作業のみに基づいて行うことができる。

Inferring 3D human pose from 2D images is a challenging and long-standing problem in the field of computer vision with many applications including motion capture, virtual reality, surveillance or gait analysis for sports and medicine. We present preliminary results for a method to estimate 3D pose from 2D video containing a single person and a static background without the need for any manual landmark annotations. We achieve this by formulating a simple yet effective self-supervision task: our model is required to reconstruct a random frame of a video given a frame from another timepoint and a rendered image of a transformed human shape template. Crucially for optimisation, our ray casting based rendering pipeline is fully differentiable, enabling end to end training solely based on the reconstruction task.
翻訳日:2022-10-11 15:40:58 公開日:2022-10-10
# 継続学習における事前学習モデルの使用に関する簡単なベースライン

A Simple Baseline that Questions the Use of Pretrained-Models in Continual Learning ( http://arxiv.org/abs/2210.04428v1 )

ライセンス: Link先を確認
Paul Janson, Wenxuan Zhang, Rahaf Aljundi, Mohamed Elhoseiny(参考訳) 表現学習における事前学習技術の成功により,事前学習モデルに基づく連続学習手法が提案されている。 これらの方法のいくつかは、事前学習された表現の連続学習メカニズムを設計し、連続学習のトレーニング中にバックボーンモデルの最小更新や更新を許可しない。 本稿では、我々が設計した単純なベースラインと比較することにより、優れたパフォーマンスを達成するためにこれらのモデルの複雑さが必要かどうかを問う。 我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。 これを検証するために、非常に単純なベースラインを実行します。 1) 凍結事前学習モデルを用いて、連続学習段階で遭遇したクラス毎の画像特徴を抽出し、対応する平均特徴をトレーニングデータ上で計算する。 2) 入力のクラスは、テストサンプルとクラスの平均特徴の最も近い隣り合う距離、すなわちNMC(Nearest Mean Classifier)に基づいて予測される。 このベースラインはシングルヘッドで、例外なく、(継続的に更新することで)タスクフリーになる。 このベースラインは、10-split-cifar-100で88.53%を達成し、同じ事前訓練されたトランスフォーマーモデルを用いて初期化されるほとんどの最先端の連続学習法を上回った。 トレーニング済みの重みから始めても、学習表現に継続的に品質を付加できる学習システムの設計において、私たちのベースラインが今後の進歩を促すことを期待しています。

With the success of pretraining techniques in representation learning, a number of continual learning methods based on pretrained models have been proposed. Some of these methods design continual learning mechanisms on the pre-trained representations and only allow minimum updates or even no updates of the backbone models during the training of continual learning. In this paper, we question whether the complexity of these models is needed to achieve good performance by comparing them to a simple baseline that we designed. We argue that the pretrained feature extractor itself can be strong enough to achieve a competitive or even better continual learning performance on Split-CIFAR100 and CoRe 50 benchmarks. To validate this, we conduct a very simple baseline that 1) use the frozen pretrained model to extract image features for every class encountered during the continual learning stage and compute their corresponding mean features on training data, and 2) predict the class of the input based on the nearest neighbor distance between test samples and mean features of the classes; i.e., Nearest Mean Classifier (NMC). This baseline is single-headed, exemplar-free, and can be task-free (by updating the means continually). This baseline achieved 88.53% on 10-Split-CIFAR-100, surpassing most state-of-the-art continual learning methods that are all initialized using the same pretrained transformer model. We hope our baseline may encourage future progress in designing learning systems that can continually add quality to the learning representations even if they started from some pretrained weights.
翻訳日:2022-10-11 15:33:26 公開日:2022-10-10
# インクリメンタルラーニングのためのメモリトランスネットワーク

A Memory Transformer Network for Incremental Learning ( http://arxiv.org/abs/2210.04485v1 )

ライセンス: Link先を確認
Ahmet Iscen, Thomas Bird, Mathilde Caron, Alireza Fathi, Cordelia Schmid(参考訳) モデルが学習する時間とともに、新しいクラスのデータを観察する学習環境であるクラス増分学習について検討する。 単純な問題定式化にもかかわらず、クラスインクリメンタル学習への分類モデルのナイーブな応用は、以前に見られたクラスの「破滅的な忘れ」をもたらす。 これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。 本稿では,このメモリバンクの利用性を高めるために提案する。我々は,既存の作業のような追加のトレーニングデータのソースとして使用するだけでなく,予測プロセスに明示的に統合する。我々の手法であるメモリトランスフォーマネットワーク(mtn)は,メモリ内の最寄りの近傍の情報をトランスフォーマによって結合し,より正確な予測を行う方法について学習する。 我々はアプローチを評価するために広範囲な実験とアブレーションを行う。 MTNは、ImageNet-1kとGoogle-Landmarks-1kのインクリメンタル学習ベンチマークにおいて、最先端のパフォーマンスを実現する。

We study class-incremental learning, a training setup in which new classes of data are observed over time for the model to learn from. Despite the straightforward problem formulation, the naive application of classification models to class-incremental learning results in the "catastrophic forgetting" of previously seen classes. One of the most successful existing methods has been the use of a memory of exemplars, which overcomes the issue of catastrophic forgetting by saving a subset of past data into a memory bank and utilizing it to prevent forgetting when training future tasks. In our paper, we propose to enhance the utilization of this memory bank: we not only use it as a source of additional training data like existing works but also integrate it in the prediction process explicitly.Our method, the Memory Transformer Network (MTN), learns how to combine and aggregate the information from the nearest neighbors in the memory with a transformer to make more accurate predictions. We conduct extensive experiments and ablations to evaluate our approach. We show that MTN achieves state-of-the-art performance on the challenging ImageNet-1k and Google-Landmarks-1k incremental learning benchmarks.
翻訳日:2022-10-11 15:33:00 公開日:2022-10-10
# 低資源ソーラーノキャスティングの炭素コストとメリットの比較

Comparing the carbon costs and benefits of low-resource solar nowcasting ( http://arxiv.org/abs/2210.04554v1 )

ライセンス: Link先を確認
Ben Dixon, Mar\'ia P\'erez-Ortiz, Jacob Bieker(参考訳) solar pv yield nowcastingは、グリッド統合をサポートするために需要のピークやトラフを予測するのに役立つ。 本稿では、イギリスの衛星画像と1時間から4時間にわたる太陽pvエネルギーのデータセットを用いて、太陽pvの収量向上のための複数の低リソース手法を比較した。 論文はまた、モデル展開によって発生する二酸化炭素排出量を推定し、低リソース環境でデプロイ可能な小さなモデルでさえ、炭素コストよりも数桁大きな利益をもたらす可能性があることを見出している。 また,CNNにおける予測誤差とアクティベーションについても検討した。

Solar PV yield nowcasting is used to help anticipate peaks and troughs in demand to support grid integration. This paper compares multiple low-resource approaches to nowcasting solar PV yield, using a dataset of UK satellite imagery and solar PV energy readings over a 1 to 4-hour time range. The paper also estimates the carbon emissions generated and averted by deploying models, and finds that even small models that could be deployable in low-resource settings may have a benefit several orders of magnitude greater than its carbon cost. The paper also examines prediction errors and the activations in a CNN.
翻訳日:2022-10-11 15:32:40 公開日:2022-10-10
# CLIP-Diffusion-LM:画像キャプションにおける拡散モデルの適用

CLIP-Diffusion-LM: Apply Diffusion Model on Image Captioning ( http://arxiv.org/abs/2210.04559v1 )

ライセンス: Link先を確認
Shitong Xu(参考訳) 画像キャプションタスクは、これまで広く研究されてきた。 しかし、限定的な実験は非回帰テキストデコーダに基づくキャプションの生成に焦点を当てている。 画像合成タスクにおける雑音拡散モデルの成功に触発されて,画像キャプションタスクにおける雑音拡散確率モデルをテキスト生成に適用した。 CLIP-Diffusion-LMは自己回帰モデルよりもはるかに少ない推論ステップで画像キャプションを生成することができることを示す。 flickr8kデータセットでは、0.1876 bleu-4のスコアが得られる。 Flickr8kとFlickr30kの組み合わせデータセットのトレーニングにより、われわれのモデルは0.2470 BLEU-4スコアを達成した。 私たちのコードはhttps://github.com/xu-shitong/diffusion-image-captioningで利用可能です。

Image captioning task has been extensively researched by previous work. However, limited experiments focus on generating captions based on non-autoregressive text decoder. Inspired by the recent success of the denoising diffusion model on image synthesis tasks, we apply denoising diffusion probabilistic models to text generation in image captioning tasks. We show that our CLIP-Diffusion-LM is capable of generating image captions using significantly fewer inference steps than autoregressive models. On the Flickr8k dataset, the model achieves 0.1876 BLEU-4 score. By training on the combined Flickr8k and Flickr30k dataset, our model achieves 0.2470 BLEU-4 score. Our code is available at https://github.com/xu-shitong/diffusion-image-captioning.
翻訳日:2022-10-11 15:32:30 公開日:2022-10-10
# ノイズ補正はうるさいですか。 PLS:2段階検出によるラベルノイズのロバスト性

Is your noise correction noisy? PLS: Robustness to label noise with two stage detection ( http://arxiv.org/abs/2210.04578v1 )

ライセンス: Link先を確認
Paul Albert, Eric Arazo, Tarun Kirshna, Noel E. O'Connor, Kevin McGuinness(参考訳) 正確なニューラルネットワークをwebからトレーニングできるロバストなアルゴリズムの設計は、人的労力を消費する時間を減らすため、多くの研究の対象となっている。 これまでの多くの研究成果は,ラベルノイズの種類による検出に焦点が当てられているが,本研究では,検出されたノイズの補正精度を向上させることを提案する。 多くの最先端コントリビューションにおいて、半教師付き方式で修正された擬似ラベルを推測する前にノイズサンプルを検出する2相アプローチが採用されている。 推測された擬似ラベルは、ラベルの推測が正しいことを保証することなく、教師付き目的に使用される。 これにより確認バイアスが発生し、ノイズの堅牢性が低下する。 ここでは,ノイズ試料の擬似ラベル正しさと強く相関する単純な計量であるpseudo-lossを提案する。 疑似損失を用いて,信頼度の低い疑似ラベルをトレーニングを通して動的に減量し,確認バイアスを回避し,ネットワーク精度を向上させる。 さらに,信頼度の高いラベル修正のためのクラスバウンド(教師あり)と教師なし表現との間の補間目標に対する頑健な表現を学習する信頼度誘導型対照目的の利用を提案する。 実験は,偽損失選択(pseudo-loss selection,pls)アルゴリズムの様々なベンチマークデータセットにおける最先端性能を実証する。 私たちの実験は完全に再現可能です.

Designing robust algorithms capable of training accurate neural networks on uncurated datasets from the web has been the subject of much research as it reduces the need for time consuming human labor. The focus of many previous research contributions has been on the detection of different types of label noise; however, this paper proposes to improve the correction accuracy of noisy samples once they have been detected. In many state-of-the-art contributions, a two phase approach is adopted where the noisy samples are detected before guessing a corrected pseudo-label in a semi-supervised fashion. The guessed pseudo-labels are then used in the supervised objective without ensuring that the label guess is likely to be correct. This can lead to confirmation bias, which reduces the noise robustness. Here we propose the pseudo-loss, a simple metric that we find to be strongly correlated with pseudo-label correctness on noisy samples. Using the pseudo-loss, we dynamically down weight under-confident pseudo-labels throughout training to avoid confirmation bias and improve the network accuracy. We additionally propose to use a confidence guided contrastive objective that learns robust representation on an interpolated objective between class bound (supervised) for confidently corrected samples and unsupervised representation for under-confident label corrections. Experiments demonstrate the state-of-the-art performance of our Pseudo-Loss Selection (PLS) algorithm on a variety of benchmark datasets including curated data synthetically corrupted with in-distribution and out-of-distribution noise, and two real world web noise datasets. Our experiments are fully reproducible [github coming soon]
翻訳日:2022-10-11 15:32:18 公開日:2022-10-10
# 画像解析における機械学習アルゴリズムバイアスの同定と緩和に関する調査

A survey of Identification and mitigation of Machine Learning algorithmic biases in Image Analysis ( http://arxiv.org/abs/2210.04491v1 )

ライセンス: Link先を確認
Laurent Risser, Agustin Picard, Lucas Hervier, Jean-Michel Loubes(参考訳) 機械学習におけるアルゴリズムバイアスの問題は、その具体的かつ潜在的に社会に有害な影響があるため、近年多くの注目を集めている。 同様に、バイアスは、機械学習が画像などの高次元インプットに基づいている現代の工業的および安全クリティカルなアプリケーションも変更することができる。 しかしこの問題は、機械学習文学のスポットライトからほとんど外されている。 一般的な感覚や潜在的なリスクに注意を向けるための規制によってプロキシ変数のセットが提供できる社会的なアプリケーションとは対照的に、産業や安全に重要なアプリケーションは、ほとんど盲目である。 望ましくないバイアスに関連する変数は、実際には入力データ内で間接的に表現することができるし、未知であることもあるため、対処が困難になる。 これはAIベースのソリューションの商用展開に対して、特にAIの望ましくないバイアスによって解決される問題に、特に新たな規制が明確に対処する状況において、真面目でしっかりと根底にある懸念を提起する。 そこで,本稿では,この領域における最近の進歩を概観する。まず,バイアスがどのように自身を証明できるかを提示し,その後,それらを明るみに出す異なる方法を探索し,異なる可能性を見つけ出して緩和する方法を提案する。 産業フェアネスの実践的リモートセンシング利用事例を提示する。

The problem of algorithmic bias in machine learning has gained a lot of attention in recent years due to its concrete and potentially hazardous implications in society. In much the same manner, biases can also alter modern industrial and safety-critical applications where machine learning are based on high dimensional inputs such as images. This issue has however been mostly left out of the spotlight in the machine learning literature. Contrarily to societal applications where a set of proxy variables can be provided by the common sense or by regulations to draw the attention on potential risks, industrial and safety-critical applications are most of the times sailing blind. The variables related to undesired biases can indeed be indirectly represented in the input data, or can be unknown, thus making them harder to tackle. This raises serious and well-founded concerns towards the commercial deployment of AI-based solutions, especially in a context where new regulations clearly address the issues opened by undesired biases in AI. Consequently, we propose here to make an overview of recent advances in this area, firstly by presenting how such biases can demonstrate themselves, then by exploring different ways to bring them to light, and by probing different possibilities to mitigate them. We finally present a practical remote sensing use-case of industrial Fairness.
翻訳日:2022-10-11 15:25:56 公開日:2022-10-10
# スケール同変U-Net

Scale Equivariant U-Net ( http://arxiv.org/abs/2210.04508v1 )

ライセンス: Link先を確認
Mateus Sangalli (CMM), Samy Blusseau (CMM), Santiago Velasco-Forero (CMM), Jesus Angulo (CMM)(参考訳) ニューラルネットワークでは、変換に同値である性質は、データに対応する対称性が存在する場合の一般化を改善する。 特に、スケール同変ネットワークはコンピュータビジョンタスクに適しており、オブジェクトの同じクラスが異なるスケールで現れる(例えば、ほとんどのセマンティックセグメンテーションタスク)。 近年、スケーリングと翻訳の半群と等価な畳み込み層が提案されている。 しかしながら、サブサンプリングとアップサンプリングの等価性は、いくつかのセグメンテーションアーキテクチャにおいて必要なビルディングブロックであるにもかかわらず、明示的には研究されていない。 U-Netは、最先端セマンティックセグメンテーションに使用される基本的な要素を含む、そのようなアーキテクチャの代表的な例である。 そこで本稿では, サブサンプリング層とアップサンプリング層を慎重に適用し, 上記のスケール等価層を用いて, 半群のスケールと翻訳にほぼ同値なU-Net(SEU-Net)を提案する。 さらに, スケール同変アーキテクチャにおける異なるスケールへの一般化を改善するために, スケールドロップアウトを提案する。 提案したSEU-Netは, セルセグメンテーションのためのOxford Pet IIITとDIC-C2DH-HeLaデータセットのセグメンテーションのために訓練されている。 u-netがスケールジッタリングで訓練された場合や、同変パイプライン内でアップサンプリング演算子を実行しないスケール同変アーキテクチャにおいて、u-netと比較すると、unseenスケールに対する一般化メトリックは劇的に改善される。 スケールドロップアウトは、pet実験におけるスケール同変モデルのより優れた一般化を誘導するが、細胞分裂実験ではない。

In neural networks, the property of being equivariant to transformations improves generalization when the corresponding symmetry is present in the data. In particular, scale-equivariant networks are suited to computer vision tasks where the same classes of objects appear at different scales, like in most semantic segmentation tasks. Recently, convolutional layers equivariant to a semigroup of scalings and translations have been proposed. However, the equivariance of subsampling and upsampling has never been explicitly studied even though they are necessary building blocks in some segmentation architectures. The U-Net is a representative example of such architectures, which includes the basic elements used for state-of-the-art semantic segmentation. Therefore, this paper introduces the Scale Equivariant U-Net (SEU-Net), a U-Net that is made approximately equivariant to a semigroup of scales and translations through careful application of subsampling and upsampling layers and the use of aforementioned scale-equivariant layers. Moreover, a scale-dropout is proposed in order to improve generalization to different scales in approximately scale-equivariant architectures. The proposed SEU-Net is trained for semantic segmentation of the Oxford Pet IIIT and the DIC-C2DH-HeLa dataset for cell segmentation. The generalization metric to unseen scales is dramatically improved in comparison to the U-Net, even when the U-Net is trained with scale jittering, and to a scale-equivariant architecture that does not perform upsampling operators inside the equivariant pipeline. The scale-dropout induces better generalization on the scale-equivariant models in the Pet experiment, but not on the cell segmentation experiment.
翻訳日:2022-10-11 15:25:36 公開日:2022-10-10
# FaDIn:一般パラメトリックカーネルを用いたホークスプロセスの高速離散推論

FaDIn: Fast Discretized Inference for Hawkes Processes with General Parametric Kernels ( http://arxiv.org/abs/2210.04635v1 )

ライセンス: Link先を確認
Guillaume Staerman, C\'edric Allain, Alexandre Gramfort and Thomas Moreau(参考訳) 時間的ポイントプロセス(TPP)は、イベントベースのデータをモデリングするための自然なツールである。 すべてのTPPモデルの中で、ホークスプロセスは指数的または非パラメトリックカーネルを考える際の単純さと計算容易さから最も広く使われていることが証明されている。 非パラメトリックカーネルはオプションだが、そのようなモデルは大きなデータセットを必要とする。 指数型カーネルは、イベントが即座により多くのイベントをトリガーする特定のアプリケーションに対してよりデータ効率が高く関連性が高いが、神経科学のような遅延を推定する必要があるアプリケーションには不適である。 本研究の目的は,有限サポートを持つ一般パラメトリックカーネルを用いたtpp推論の効率的な解法を提供することである。 開発されたソリューションは、離散化されたイベントを利用する高速なL2勾配に基づく解法からなる。 離散化を理論的に支援した後, 様々な数値実験により, 新たな手法の統計的, 計算効率を実証した。 最後に、脳磁図(MEG)で記録された脳信号から刺激誘発パターンの発生をモデル化し、本手法の有効性を評価する。 一般的なパラメトリックカーネルの使用を考えると、提案手法は最先端の手法に比べてパターンレイテンシをより正確に推定できることを示している。

Temporal point processes (TPP) are a natural tool for modeling event-based data. Among all TPP models, Hawkes processes have proven to be the most widely used, mainly due to their simplicity and computational ease when considering exponential or non-parametric kernels. Although non-parametric kernels are an option, such models require large datasets. While exponential kernels are more data efficient and relevant for certain applications where events immediately trigger more events, they are ill-suited for applications where latencies need to be estimated, such as in neuroscience. This work aims to offer an efficient solution to TPP inference using general parametric kernels with finite support. The developed solution consists of a fast L2 gradient-based solver leveraging a discretized version of the events. After supporting the use of discretization theoretically, the statistical and computational efficiency of the novel approach is demonstrated through various numerical experiments. Finally, the effectiveness of the method is evaluated by modeling the occurrence of stimuli-induced patterns from brain signals recorded with magnetoencephalography (MEG). Given the use of general parametric kernels, results show that the proposed approach leads to a more plausible estimation of pattern latency compared to the state-of-the-art.
翻訳日:2022-10-11 15:25:08 公開日:2022-10-10
# スケーラブルでハードルフリーなシミュレーションベース推論の提案

Truncated proposals for scalable and hassle-free simulation-based inference ( http://arxiv.org/abs/2210.04815v1 )

ライセンス: Link先を確認
Michael Deistler, Pedro J Goncalves, Jakob H Macke(参考訳) シミュレーションベース推論(sbi)は、確率的シミュレータを繰り返し実行し、モデルシミュレーションから後方分布を推測することで、統計的逆問題を解く。 シミュレーション効率を向上させるために、複数の推論手法が逐次的アプローチをとり、モデルシミュレーションを生成する提案分布を反復的に適応する。 しかし、これらのシーケンシャルな手法の多くは、結果の最適化問題は困難であり、効率的な診断ツールが欠如しているため、実際に使用するのが困難である。 これらの課題を克服するために、TSNPE(Trncated Sequential Neural Posterior Estimation)を提案する。 TSNPEは、競合する提案を逐次推論し、代替アプローチの最適化問題をサイドステッピングする。 さらにTSNPEは、多くのパラメータを持つ複雑なモデルにスケール可能なカバレッジテストを効率的に実行することができる。 TSNPEが確立したベンチマークタスクにおいて,従来の手法と同等に動作することを示す。 その後,神経科学の課題である2つの課題にtsnpeを適用し,tsnpeが後方分布の獲得に成功できることを示した。 以上の結果から,TSNPEは科学的モデルにスケール可能な,効率的で正確かつ堅牢な推論手法であることが示された。

Simulation-based inference (SBI) solves statistical inverse problems by repeatedly running a stochastic simulator and inferring posterior distributions from model-simulations. To improve simulation efficiency, several inference methods take a sequential approach and iteratively adapt the proposal distributions from which model simulations are generated. However, many of these sequential methods are difficult to use in practice, both because the resulting optimisation problems can be challenging and efficient diagnostic tools are lacking. To overcome these issues, we present Truncated Sequential Neural Posterior Estimation (TSNPE). TSNPE performs sequential inference with truncated proposals, sidestepping the optimisation issues of alternative approaches. In addition, TSNPE allows to efficiently perform coverage tests that can scale to complex models with many parameters. We demonstrate that TSNPE performs on par with previous methods on established benchmark tasks. We then apply TSNPE to two challenging problems from neuroscience and show that TSNPE can successfully obtain the posterior distributions, whereas previous methods fail. Overall, our results demonstrate that TSNPE is an efficient, accurate, and robust inference method that can scale to challenging scientific models.
翻訳日:2022-10-11 15:24:51 公開日:2022-10-10
# 逐次ニューラルスコア推定:条件付きスコアに基づく拡散モデルによる自由推論

Sequential Neural Score Estimation: Likelihood-Free Inference with Conditional Score Based Diffusion Models ( http://arxiv.org/abs/2210.04872v1 )

ライセンス: Link先を確認
Louis Sharrock, Jack Simons, Song Liu, Mark Beaumont(参考訳) シミュレーションモデルにおけるベイズ推定のための2つの新しいスコアベース手法であるシーケンシャル・ニューラル・リアス・スコア推定(snpse)とシーケンシャル・ニューラル・ラバース・スコア推定(snlse)を導入する。 本手法は,生成モデルにおけるスコアベース手法の成功に触発され,条件付きスコアベース拡散モデルを用いて興味の後方分布からサンプルを生成する。 これらのモデルは2つの目的関数のうちの1つを使って訓練することができ、そのうちの1つは難解な可能性のスコアを近似し、もう1つは後方のスコアを直接推定する。 我々はこれらのモデルを逐次訓練手順に組み込み、関心の観測時に後部の現在の近似を用いてシミュレーションを誘導し、シミュレーションコストを低減させる。 提案手法は, 逐次的ニューラルネットワーク後推定法 (SNPE) や逐次的ニューラルネットワーク類似度推定法 (SNLE) など, 既存の最先端手法に匹敵する, あるいは優れた性能を示す数値例で検証する。

We introduce Sequential Neural Posterior Score Estimation (SNPSE) and Sequential Neural Likelihood Score Estimation (SNLSE), two new score-based methods for Bayesian inference in simulator-based models. Our methods, inspired by the success of score-based methods in generative modelling, leverage conditional score-based diffusion models to generate samples from the posterior distribution of interest. These models can be trained using one of two possible objective functions, one of which approximates the score of the intractable likelihood, while the other directly estimates the score of the posterior. We embed these models into a sequential training procedure, which guides simulations using the current approximation of the posterior at the observation of interest, thereby reducing the simulation cost. We validate our methods, as well as their amortised, non-sequential variants, on several numerical examples, demonstrating comparable or superior performance to existing state-of-the-art methods such as Sequential Neural Posterior Estimation (SNPE) and Sequential Neural Likelihood Estimation (SNLE).
翻訳日:2022-10-11 15:24:33 公開日:2022-10-10
# Kullback-Leibler分散を用いた連続学習における追跡変化

Tracking changes using Kullback-Leibler divergence for the continual learning ( http://arxiv.org/abs/2210.04865v1 )

ライセンス: Link先を確認
Sebasti\'an Basterrech and Michal Wo\'zniak(参考訳) 近年,継続的な学習が注目されている。 重要な問題の1つは、入ってくるデータの確率的特性を変化させる「emph{concept drift}」の発生である。 分類タスクの場合、この現象はモデルの性能を不安定化し、達成された予測品質に悪影響を及ぼす。 現在のほとんどの方法は、生データに対して統計的学習と類似性分析を適用する。 しかし、ストリーミングデータの類似性分析は、時間制限、非精度値、高速な意思決定速度、スケーラビリティなど、複雑な問題である。 本稿では,多次元データストリームの確率分布の変化をモニタリングする新しい手法を提案する。 変化の速さの尺度として,一般的なkullback-leiblerダイバージェンスを解析した。 実験では,この指標を用いて,コンセプトドリフトの発生を予測し,その性質を理解する方法を示す。 得られた結果は,今後の概念ドリフトの出現予測が予測維持など重要な役割を果たす実作業における提案手法とその適用について,さらなる研究を奨励する。

Recently, continual learning has received a lot of attention. One of the significant problems is the occurrence of \emph{concept drift}, which consists of changing probabilistic characteristics of the incoming data. In the case of the classification task, this phenomenon destabilizes the model's performance and negatively affects the achieved prediction quality. Most current methods apply statistical learning and similarity analysis over the raw data. However, similarity analysis in streaming data remains a complex problem due to time limitation, non-precise values, fast decision speed, scalability, etc. This article introduces a novel method for monitoring changes in the probabilistic distribution of multi-dimensional data streams. As a measure of the rapidity of changes, we analyze the popular Kullback-Leibler divergence. During the experimental study, we show how to use this metric to predict the concept drift occurrence and understand its nature. The obtained results encourage further work on the proposed methods and its application in the real tasks where the prediction of the future appearance of concept drift plays a crucial role, such as predictive maintenance.
翻訳日:2022-10-11 15:16:23 公開日:2022-10-10
# 潜在変数蒸留による確率回路のスケールアップ

Scaling Up Probabilistic Circuits by Latent Variable Distillation ( http://arxiv.org/abs/2210.04398v1 )

ライセンス: Link先を確認
Anji Liu and Honghua Zhang and Guy Van den Broeck(参考訳) 確率回路(英: Probabilistic Circuits、PC)は、様々な確率的クエリ(例えば限界確率)の効率的な計算をサポートする、トラクタブル確率モデルのための統一的なフレームワークである。 重要な課題の1つは、大規模かつ高次元の現実世界のデータセットをモデル化するためにpcをスケールすることである。 この現象は、既存のオプティマイザが大きなPCの完全な表現力を利用することができないことを示唆している。 我々は,PCの潜伏変数に対する余分な監督を提供するために,低トラクタブルで表現力に富んだ深層生成モデルを活用することを提案する。 具体的には,pcの潜在変数に値を割り当てるためにトランスフォーマティブ型生成モデルから情報を抽出し,pcオプティマイザへのガイダンスを提供する。 画像および言語モデリングベンチマーク(例えば ImageNet と WikiText-2)の実験では、潜伏変数の蒸留は潜伏変数の蒸留を行わないものに比べて大きなPCの性能を大幅に向上させることが示された。 特にイメージモデリングベンチマークでは、変分オートエンコーダやフローベースのモデルなど、広く使われているディープジェネレーティブモデルとpcが競合するパフォーマンスを達成し、扱いやすいジェネレーティブモデリングのための新しい道を開く。

Probabilistic Circuits (PCs) are a unified framework for tractable probabilistic models that support efficient computation of various probabilistic queries (e.g., marginal probabilities). One key challenge is to scale PCs to model large and high-dimensional real-world datasets: we observe that as the number of parameters in PCs increases, their performance immediately plateaus. This phenomenon suggests that the existing optimizers fail to exploit the full expressive power of large PCs. We propose to overcome such bottleneck by latent variable distillation: we leverage the less tractable but more expressive deep generative models to provide extra supervision over the latent variables of PCs. Specifically, we extract information from Transformer-based generative models to assign values to latent variables of PCs, providing guidance to PC optimizers. Experiments on both image and language modeling benchmarks (e.g., ImageNet and WikiText-2) show that latent variable distillation substantially boosts the performance of large PCs compared to their counterparts without latent variable distillation. In particular, on the image modeling benchmarks, PCs achieve competitive performance against some of the widely-used deep generative models, including variational autoencoders and flow-based models, opening up new avenues for tractable generative modeling.
翻訳日:2022-10-11 15:05:45 公開日:2022-10-10
# 機械学習モデルのための局所解釈可能なモデル非依存型シェープ説明

Local Interpretable Model Agnostic Shap Explanations for machine learning models ( http://arxiv.org/abs/2210.04533v1 )

ライセンス: Link先を確認
P. Sai Ram Aditya, Mayukha Pal(参考訳) 人工知能(AI)ベースのソリューションと分析計算エンジンの進歩により、機械学習(ML)モデルは日に日に日に複雑になっています。 これらのモデルの多くは、一般にユーザ解釈不能なブラックボックスとして使用される。 このような複雑なMLモデルは、予測を理解したり、信頼したりするのを難しくする。 MLモデルの説明可能性と解釈可能性を示すために、説明可能なAI(XAI)メソッドを使用して、予測をより信頼できるものにするために、さまざまなフレームワークがある。 そこで本論文では,局所解釈可能なモデルアグノスティックシェイプ記述法 (LIMASE) として定義する方法論を提案する。 このML説明手法は, LIMEパラダイムの下でシェープリー値を用いて, 以下のことを実現する。 (a)木説明者がシェープ値の計算や視覚的に解釈可能な説明を行う際に使用する局所的忠実かつ解釈可能な決定木モデルを用いて、任意のモデルの予測を説明する。 b)複数のデータポイントの局所的な説明をプロットすることにより、視覚的に解釈可能なグローバルな説明を提供する。 (c)部分モジュラー最適化問題の解を示す。 (d)地域解釈にも洞察をもたらす e) カーネル説明器よりも高速な計算。

With the advancement of technology for artificial intelligence (AI) based solutions and analytics compute engines, machine learning (ML) models are getting more complex day by day. Most of these models are generally used as a black box without user interpretability. Such complex ML models make it more difficult for people to understand or trust their predictions. There are variety of frameworks using explainable AI (XAI) methods to demonstrate explainability and interpretability of ML models to make their predictions more trustworthy. In this manuscript, we propose a methodology that we define as Local Interpretable Model Agnostic Shap Explanations (LIMASE). This proposed ML explanation technique uses Shapley values under the LIME paradigm to achieve the following (a) explain prediction of any model by using a locally faithful and interpretable decision tree model on which the Tree Explainer is used to calculate the shapley values and give visually interpretable explanations. (b) provide visually interpretable global explanations by plotting local explanations of several data points. (c) demonstrate solution for the submodular optimization problem. (d) also bring insight into regional interpretation e) faster computation compared to use of kernel explainer.
翻訳日:2022-10-11 15:05:21 公開日:2022-10-10
# リモートセンシングにおける視覚的質問応答のためのマルチモーダル核融合トランス

Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing ( http://arxiv.org/abs/2210.04510v1 )

ライセンス: Link先を確認
Tim Siebert, Kai Norman Clasen, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) 次世代の衛星技術により、リモートセンシング(RS)画像のアーカイブは非常に急速に成長している。 各RS画像の固有情報を容易にアクセスできるようにするために、RSに視覚質問応答(VQA)を導入している。 VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、汎用情報を抽出することを可能にする。 入力モード(画像とテキスト)の融合がVQAシステムの性能に不可欠であることが示されている。 現在の融合アプローチのほとんどは、合同表現学習の代わりに、融合モジュール内のモジュラリティ固有の表現を使用する。 しかし、画像と質問のモダリティの両方の基盤となる関係を発見するためには、モデルが単にモダリティ固有の表現(例えば、連結、加算、乗算)を組み合わせるのではなく、共同表現を学ぶ必要がある。 本稿では,この問題を克服するためのマルチモーダルトランスフォーマティブアーキテクチャを提案する。 提案するアーキテクチャは,3つの主要モジュールから構成される。 一 モダリティに特有な特徴を抽出するための特徴抽出モジュール 二 ユーザ定義のVisualBERTモデル(VB)のマルチモーダルトランスフォーマーレイヤの数を利用した融合モジュール及び 三 答を得るための分類モジュール RSVQAxBENとRSVQA-LRデータセット(Sentinel-2画像のRGBバンドで構成されている)で得られた実験結果は、RSにおけるVQAタスクに対するVBFusionの有効性を示す。 VQAのフレームワークにおいて、RS画像の複雑な内容を記述するために、他のスペクトル帯域を使用することの重要性を分析するために、RSQQAxBENデータセットを拡張し、10mと20mの空間分解能を持つSentinel-2画像のスペクトル帯域をすべて含むようにした。

With the new generation of satellite technologies, the archives of remote sensing (RS) images are growing very fast. To make the intrinsic information of each RS image easily accessible, visual question answering (VQA) has been introduced in RS. VQA allows a user to formulate a free-form question concerning the content of RS images to extract generic information. It has been shown that the fusion of the input modalities (i.e., image and text) is crucial for the performance of VQA systems. Most of the current fusion approaches use modality-specific representations in their fusion modules instead of joint representation learning. However, to discover the underlying relation between both the image and question modality, the model is required to learn the joint representation instead of simply combining (e.g., concatenating, adding, or multiplying) the modality-specific representations. We propose a multi-modal transformer-based architecture to overcome this issue. Our proposed architecture consists of three main modules: i) the feature extraction module for extracting the modality-specific features; ii) the fusion module, which leverages a user-defined number of multi-modal transformer layers of the VisualBERT model (VB); and iii) the classification module to obtain the answer. Experimental results obtained on the RSVQAxBEN and RSVQA-LR datasets (which are made up of RGB bands of Sentinel-2 images) demonstrate the effectiveness of VBFusion for VQA tasks in RS. To analyze the importance of using other spectral bands for the description of the complex content of RS images in the framework of VQA, we extend the RSVQAxBEN dataset to include all the spectral bands of Sentinel-2 images with 10m and 20m spatial resolution.
翻訳日:2022-10-11 14:59:11 公開日:2022-10-10
# 視覚強化学習におけるデータ強化の包括的調査

A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning ( http://arxiv.org/abs/2210.04561v1 )

ライセンス: Link先を確認
Guozheng Ma, Zhen Wang, Zhecheng Yuan, Xueqian Wang, Bo Yuan, Dacheng Tao(参考訳) 高次元視覚入力から直接決定を行う視覚強化学習(RL)は、様々な領域において有意な可能性を示している。 しかし, サンプル効率が低く, 一般化のギャップが大きいため, 実世界における視覚的RL技術の展開は依然として困難である。 これらの障害に対処するために、データ拡張(DA)は、トレーニングデータを多様化することにより、サンプル効率と一般化可能なポリシーを取得する視覚的RLにおいて広く使われている技術となっている。 本調査は,この分野での繁栄を鑑みて,視覚的RLにおけるDA手法のタイムリーかつ本質的なレビューを行うことを目的とする。 特に,視覚的RLを分析し,DAの役割を理解するための統一的なフレームワークを提案する。 次に、視覚的RLで使用される既存の拡張技法の原則的な分類法を提案し、異なるシナリオにおける拡張データをどのように活用するかを詳細に議論する。 さらに,視覚rlにおけるdaベース手法の系統的実証評価を行い,今後の研究の方向性を強調して結論づける。 視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。

Visual reinforcement learning (RL), which makes decisions directly from high-dimensional visual inputs, has demonstrated significant potential in various domains. However, deploying visual RL techniques in the real world remains challenging due to their low sample efficiency and large generalization gaps. To tackle these obstacles, data augmentation (DA) has become a widely used technique in visual RL for acquiring sample-efficient and generalizable policies by diversifying the training data. This survey aims to provide a timely and essential review of DA techniques in visual RL in recognition of the thriving development in this field. In particular, we propose a unified framework for analyzing visual RL and understanding the role of DA in it. We then present a principled taxonomy of the existing augmentation techniques used in visual RL and conduct an in-depth discussion on how to better leverage augmented data in different scenarios. Moreover, we report a systematic empirical evaluation of DA-based techniques in visual RL and conclude by highlighting the directions for future research. As the first comprehensive survey of DA in visual RL, this work is expected to offer valuable guidance to this emerging field.
翻訳日:2022-10-11 14:58:42 公開日:2022-10-10
# ユビキタスな視覚的質問応答に向けて:コントラスト学習によるバイアス付きサンプルの活用

Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning ( http://arxiv.org/abs/2210.04563v1 )

ライセンス: Link先を確認
Qingyi Si, Yuanxin Liu, Fandong Meng, Zheng Lin, Peng Fu, Yanan Cao, Weiping Wang and Jie Zhou(参考訳) VQA(Visual Question Answering)のモデルは、しばしば、訓練セットの偏りのあるサンプルに現れる言語先行という、突発的な相関、すなわち、アウト・オブ・ディストリビューション(OOD)テストデータに対する脆さに依存する。 近年,偏りのあるサンプルがモデル学習に与える影響を低減し,この問題を克服する有望な進歩を遂げている。 しかし、これらのモデルでは、OODデータの改善により、(偏りのあるサンプルが支配する)IDデータの性能が著しく低下する、というトレードオフが明らかになっている。 そこで本研究では,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。 具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築し、構築した正のサンプルをトレーニングに利用するためのいくつかの戦略を探求する。 モデルトレーニングにおけるバイアス付きサンプルの重要性を損なうのではなく、我々のアプローチは、推論に寄与するバイアス付きサンプルを正確に活用する。 提案手法は様々なVQAバックボーンと互換性がある。 我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。

Models for Visual Question Answering (VQA) often rely on the spurious correlations, i.e., the language priors, that appear in the biased samples of training set, which make them brittle against the out-of-distribution (OOD) test data. Recent methods have achieved promising progress in overcoming this problem by reducing the impact of biased samples on model training. However, these models reveal a trade-off that the improvements on OOD data severely sacrifice the performance on the in-distribution (ID) data (which is dominated by the biased samples). Therefore, we propose a novel contrastive learning approach, MMBS, for building robust VQA models by Making the Most of Biased Samples. Specifically, we construct positive samples for contrastive learning by eliminating the information related to spurious correlation from the original training samples and explore several strategies to use the constructed positive samples for training. Instead of undermining the importance of biased samples in model training, our approach precisely exploits the biased samples for unbiased information that contributes to reasoning. The proposed method is compatible with various VQA backbones. We validate our contributions by achieving competitive performance on the OOD dataset VQA-CP v2 while preserving robust performance on the ID dataset VQA v2.
翻訳日:2022-10-11 14:58:24 公開日:2022-10-10
# FS-DETR-Few-Shot Detection TRansformer の高速化と再トレーニングなし

FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training ( http://arxiv.org/abs/2210.04845v1 )

ライセンス: Link先を確認
Adrian Bulat and Ricardo Guerrero and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿では,Few-Shot Object Detection (FSOD) について述べる。Few-Shot Object Detection (FSOD) には,新しいクラス(トレーニング中は見えない)を描写したテンプレート(サンプル)がいくつか用意されている。 実用的な観点からは、fsodシステムは以下のデシデラタを満たす必要がある。 (a)テスト時に微調整を必要とせず、そのまま使用しなければならない。 (b)各クラスから任意の数の例をサポートしながら、任意の数の新規オブジェクトを同時に処理できなければならない。 (c) クローズドシステムに匹敵する精度を達成する必要がある。 比較的)サポートしているシステムはほとんどありませんが (a)私たちの知る限りでは、システムのサポートはありません (b) (c)。 本研究では, 両デシダラタに対処可能な, 単純かつ強力かつ少数ショット検出変換器 (FS-DETR) を初めて紹介する。 (a)及び (b) このシステムはdetrフレームワークを基盤として,(1)新規クラスの提供されたビジュアルテンプレートをテスト時間内に視覚的にプロンプトとして与える,(2)疑似クラス埋め込みでこれらのプロンプトを ``stamp''' としてデコーダの出力で予測する,という2つの重要なアイデアに基づいて拡張する。 重要なのは,我々のシステムは既存の手法よりも柔軟であるだけでなく,デシデラタムを満たすための一歩を踏み出していることである。 (c) fsodの最も確立されたベンチマーク (pascal voc & mscoco) では,現在の最先端技術よりも精度が高く,パフォーマンスが向上している。 コードは利用可能になる。

This paper is on Few-Shot Object Detection (FSOD), where given a few templates (examples) depicting a novel class (not seen during training), the goal is to detect all of its occurrences within a set of images. From a practical perspective, an FSOD system must fulfil the following desiderata: (a) it must be used as is, without requiring any fine-tuning at test time, (b) it must be able to process an arbitrary number of novel objects concurrently while supporting an arbitrary number of examples from each class and (c) it must achieve accuracy comparable to a closed system. While there are (relatively) few systems that support (a), to our knowledge, there is no system supporting (b) and (c). In this work, we make the following contributions: We introduce, for the first time, a simple, yet powerful, few-shot detection transformer (FS-DETR) that can address both desiderata (a) and (b). Our system builds upon the DETR framework, extending it based on two key ideas: (1) feed the provided visual templates of the novel classes as visual prompts during test time, and (2) ``stamp'' these prompts with pseudo-class embeddings, which are then predicted at the output of the decoder. Importantly, we show that our system is not only more flexible than existing methods, but also, making a step towards satisfying desideratum (c), it is more accurate, matching and outperforming the current state-of-the-art on the most well-established benchmarks (PASCAL VOC & MSCOCO) for FSOD. Code will be made available.
翻訳日:2022-10-11 14:58:00 公開日:2022-10-10
# 文法誘導型遺伝的プログラミングのためのよりエルゴノミックなフロントエンドとしてのデータ型

Data types as a more ergonomic frontend for Grammar-Guided Genetic Programming ( http://arxiv.org/abs/2210.04826v1 )

ライセンス: Link先を確認
Guilherme Espada, Leon Ingelse, Paulo Canelas, Pedro Barbosa, Alcides Fonseca(参考訳) 遺伝的プログラミング(GP)は、多くの機械学習、最適化、エンジニアリング問題に適用可能なヒューリスティックな手法である。 特に、テストケース生成のためのソフトウェアエンジニアリング、プログラム合成およびソフトウェアの改善(GI)で広く使われている。 Grammar-Guided Genetic Programming (GGGP)アプローチにより、ユーザは有効なプログラムソリューションのドメインを洗練できる。 Backus Normal Form は GGGP 用の Context-Free Grammars (CFG) を記述するための最も一般的なインタフェースである。 BNFとその誘導体は、プログラムの文法言語とターゲット言語をインターリーブする欠点がある。 我々は、文法をフレームワークのホスト言語に内部ドメイン固有言語として組み込むことを提案する。 このアプローチはbnfやebnfと同じ表現力を持ち、ホスト言語型システムを使用して既存のツール、linter、formters、type-checker、autocomplete、レガシーコードのサポートをすべて活用している。 これらのツールはソフトウェア全般、特にGPシステムの設計において実用性を持っている。 木生成システムのユーザ定義オーバーライドであるメタハンドラーも提示する。 この手法は、既存のCFGアプローチよりも実践性が高く表現力の高いオブジェクト指向符号化を拡張し、Attribute Grammarsと同じ表現力を実現するが、文法対ターゲット言語双対性はない。 さらに、このアプローチが実現可能であることを証明し、python実装の例を証明した。 また,表現力とエルゴノミクスのテキストBNF表現に対するアプローチを比較した。 これらの利点は、PonyGE2に対するサンプル実装の5つのベンチマークの実証的な評価で示されているように、パフォーマンスのコストでは得られない。 提案手法は,文章BNFに基づく文法符号化において,同じ表現力と性能のエルゴノミクスを持つ。

Genetic Programming (GP) is an heuristic method that can be applied to many Machine Learning, Optimization and Engineering problems. In particular, it has been widely used in Software Engineering for Test-case generation, Program Synthesis and Improvement of Software (GI). Grammar-Guided Genetic Programming (GGGP) approaches allow the user to refine the domain of valid program solutions. Backus Normal Form is the most popular interface for describing Context-Free Grammars (CFG) for GGGP. BNF and its derivatives have the disadvantage of interleaving the grammar language and the target language of the program. We propose to embed the grammar as an internal Domain-Specific Language in the host language of the framework. This approach has the same expressive power as BNF and EBNF while using the host language type-system to take advantage of all the existing tooling: linters, formatters, type-checkers, autocomplete, and legacy code support. These tools have a practical utility in designing software in general, and GP systems in particular. We also present Meta-Handlers, user-defined overrides of the tree-generation system. This technique extends our object-oriented encoding with more practicability and expressive power than existing CFG approaches, achieving the same expressive power of Attribute Grammars, but without the grammar vs target language duality. Furthermore, we evidence that this approach is feasible, showing an example Python implementation as proof. We also compare our approach against textual BNF-representations w.r.t. expressive power and ergonomics. These advantages do not come at the cost of performance, as shown by our empirical evaluation on 5 benchmarks of our example implementation against PonyGE2. We conclude that our approach has better ergonomics with the same expressive power and performance of textual BNF-based grammar encodings.
翻訳日:2022-10-11 14:50:56 公開日:2022-10-10
# xprompt: プロンプトチューニングの極端を探求する

XPrompt: Exploring the Extreme of Prompt Tuning ( http://arxiv.org/abs/2210.04457v1 )

ライセンス: Link先を確認
Fang Ma, Chen Zhang, Lei Ren, Jingang Wang, Qifan Wang, Wei Wu, Xiaojun Quan, Dawei Song(参考訳) プロンプトチューニングは、パラメータ効率の良い方法で下流タスクを実行するための条件付き事前学習言語モデル(plm)にソフトプロンプトを学習する。 モデル規模が大きくなるにつれて、プロンプトチューニングは徐々に微調整のパフォーマンスレベルに達しているが、中小規模のモデル(典型的には11b未満のパラメータ)では、プロンプトチューニングと微調整の間には大きなパフォーマンスギャップがある。 本稿では,訓練されたプロンプトトークンが下流タスクに負の影響を及ぼし,性能を低下させることを実証的に示す。 そこで我々は,このギャップを埋めるため,抽選券仮説の下で,非常に小さなスケール (xprompt) を持つ新しいプロンプトチューニングモデルを提案する。 具体的には、XPromptは階層的な構造化プルーニングによって異なる粒度の負のプロンプトトークンを排除し、よりパラメータ効率の良いプロンプトを競合性能で得る。 SuperGLUEタスクの総合的な実験を行い、XPromptはより小さなモデルスケールで性能ギャップを埋めることができることを示す。

Prompt tuning learns soft prompts to condition frozen Pre-trained Language Models (PLMs) for performing downstream tasks in a parameter-efficient manner. While prompt tuning has gradually reached the performance level of fine-tuning as the model scale increases, there is still a large performance gap between prompt tuning and fine-tuning for models of moderate and small scales (typically less than 11B parameters). In this paper, we empirically show that the trained prompt tokens can have a negative impact on a downstream task and thus degrade its performance. To bridge the gap, we propose a novel Prompt tuning model with an eXtremely small scale (XPrompt) under the regime of lottery tickets hypothesis. Specifically, XPrompt eliminates the negative prompt tokens at different granularity levels through a hierarchical structured pruning, yielding a more parameter-efficient prompt yet with a competitive performance. Comprehensive experiments are carried out on SuperGLUE tasks, and the extensive results indicate that XPrompt is able to close the performance gap at smaller model scales.
翻訳日:2022-10-11 14:48:34 公開日:2022-10-10
# HumSet:人道危機対応のための多言語情報抽出と分類のデータセット

HumSet: Dataset of Multilingual Information Extraction and Classification for Humanitarian Crisis Response ( http://arxiv.org/abs/2210.04573v1 )

ライセンス: Link先を確認
Selim Fekih, Nicol\`o Tamagnone, Benjamin Minixhofer, Ranjan Shrestha, Ximena Contla, Ewan Oglethorpe, Navid Rekabsaz(参考訳) 人道的危機に対するタイムリーで効果的な対応には、大量のテキストデータの迅速かつ正確な分析が必要である。 このようなNLPシステムの構築を可能にするため,ヒュームセット (HumSet) は人道支援コミュニティの専門家が注釈した人道対応文書の多言語データセットである。 このデータセットは3つの言語(英語、フランス語、スペイン語)で文書を提供し、2018年から2021年までのさまざまな人道的危機をカバーしている。 それぞれのドキュメントに対して、humsetは選択されたスニペット(エントリ)と、共通の人道的情報分析フレームワークを使用してアノテートされた各エントリに割り当てられたクラスを提供する。 HumSetはまた、新規で挑戦的なエントリ抽出とマルチラベルエントリ分類タスクも提供する。 本稿では,これらの課題にアプローチするための第一歩として,事前学習言語モデル(PLM)の一連の実験を行い,今後の研究の基盤を固める。 データセットは、 https: //blog.thedeep.io/humset/で利用可能である。

Timely and effective response to humanitarian crises requires quick and accurate analysis of large amounts of text data - a process that can highly benefit from expert - assisted NLP systems trained on validated and annotated data in the humanitarian response domain. To enable creation of such NLP systems, we introduce and release HumSet, a novel and rich multilingual dataset of humanitarian response documents annotated by experts in the humanitarian response community. The dataset provides documents in three languages (English, French, Spanish) and covers a variety of humanitarian crises from 2018 to 2021 across the globe. For each document, HumSet provides selected snippets (entries) as well as assigned classes to each entry annotated using common humanitarian information analysis frameworks. HumSet also provides novel and challenging entry extraction and multi-label entry classification tasks. In this paper, we take a first step towards approaching these tasks and conduct a set of experiments on Pre-trained Language Models (PLM) to establish strong baselines for future research in this domain. The dataset is available at The dataset is available at https: //blog.thedeep.io/humset/.
翻訳日:2022-10-11 14:48:12 公開日:2022-10-10
# 子どものテキストは常識知識の鍵を握っているか?

Do Children Texts Hold The Key To Commonsense Knowledge? ( http://arxiv.org/abs/2210.04530v1 )

ライセンス: Link先を確認
Julien Romero and Simon Razniewski(参考訳) 常識知識の包括的なリポジトリをコンパイルすることは、AIの長年の問題である。 多くの懸念は、レポートバイアスの問題、すなわち、テキストソースの頻度が関連性や真理のよいプロキシではないという問題に反する。 本稿では,子どもの文章が,読者の知識に対する仮定が少ないという仮説に基づいて,常識知識の編纂の鍵を握っているかどうかを考察する。 いくつかのコーパスによる分析では、子供の文章は確かにより多く、より典型的な常識的主張を含んでいる。 さらに、この利点は、少数の児童テキスト(子BERT)のタスク非特異な微調整が既に大幅に改善されている、一般的な言語モデルに基づくコモンセンス知識抽出設定で活用できることを示す。 これは、より大きなモデルやコーパスから進歩を引き出す一般的な傾向とは異なる、リフレッシュな視点を提供する。

Compiling comprehensive repositories of commonsense knowledge is a long-standing problem in AI. Many concerns revolve around the issue of reporting bias, i.e., that frequency in text sources is not a good proxy for relevance or truth. This paper explores whether children's texts hold the key to commonsense knowledge compilation, based on the hypothesis that such content makes fewer assumptions on the reader's knowledge, and therefore spells out commonsense more explicitly. An analysis with several corpora shows that children's texts indeed contain much more, and more typical commonsense assertions. Moreover, experiments show that this advantage can be leveraged in popular language-model-based commonsense knowledge extraction settings, where task-unspecific fine-tuning on small amounts of children texts (childBERT) already yields significant improvements. This provides a refreshing perspective different from the common trend of deriving progress from ever larger models and corpora.
翻訳日:2022-10-11 14:41:15 公開日:2022-10-10
# ディープラーニングに基づく自然言語処理におけるクラス不均衡解消手法の検討

A Survey of Methods for Addressing Class Imbalance in Deep-Learning Based Natural Language Processing ( http://arxiv.org/abs/2210.04675v1 )

ライセンス: Link先を確認
Sophie Henning, William H. Beluch, Alexander Fraser, Annemarie Friedrich(参考訳) 多くの自然言語処理(NLP)タスクは、現実世界の他のタスクよりもはるかに頻繁に発生するため、自然に不均衡である。 このようなシナリオでは、現在のNLPモデルは、あまり頻度の低いクラスではパフォーマンスが良くない傾向にある。 NLPにおけるクラス不均衡に対処することは活発な研究課題であるが、特定のタスクに適したアプローチを見つけることは困難である。 本調査では,深層学習に基づくNLPにおける授業不均衡に関する第1報として,NLPの研究者や実践者が不均衡データを扱うためのガイダンスを提供する。 まず,様々な種類の制御型および実世界のクラス不均衡について論じる。 そこで本研究では,NLPタスクのクラス不均衡化や,コンピュータビジョンコミュニティを起源とする手法について検討した。 提案手法は,サンプリング,データ拡張,損失関数の選択,段階学習,モデル設計に基づいて構成する。 最後に,マルチラベルシナリオを扱うようなオープンな問題について議論し,この問題をコミュニティとして前進させるために,体系的なベンチマークとレポートを提案する。

Many natural language processing (NLP) tasks are naturally imbalanced, as some target categories occur much more frequently than others in the real world. In such scenarios, current NLP models still tend to perform poorly on less frequent classes. Addressing class imbalance in NLP is an active research topic, yet, finding a good approach for a particular task and imbalance scenario is difficult. With this survey, the first overview on class imbalance in deep-learning based NLP, we provide guidance for NLP researchers and practitioners dealing with imbalanced data. We first discuss various types of controlled and real-world class imbalance. Our survey then covers approaches that have been explicitly proposed for class-imbalanced NLP tasks or, originating in the computer vision community, have been evaluated on them. We organize the methods by whether they are based on sampling, data augmentation, choice of loss function, staged learning, or model design. Finally, we discuss open problems such as dealing with multi-label scenarios, and propose systematic benchmarking and reporting in order to move forward on this problem as a community.
翻訳日:2022-10-11 14:40:57 公開日:2022-10-10
# o"の学習はもっと学ぶのに役立つ:クラスインクリメンタル・ナーのための隠されたエンティティの扱い

Learning "O" Helps for Learning More: Handling the Concealed Entity Problem for Class-incremental NER ( http://arxiv.org/abs/2210.04676v1 )

ライセンス: Link先を確認
Ruotian Ma, Xuanting Chen, Lin Zhang, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 名前付きエンティティのカテゴリが現実世界のアプリケーションで急速に増加するにつれて、NERのためのクラスインクリメンタルラーニングが要求され、古い知識を維持しながら新しいエンティティクラスを継続的に学習する。 プライバシの懸念とストレージの制約のため、モデルは古いエンティティクラスのアノテーションなしで更新する必要がある。 しかし、ストリーミングデータの各ステップでは、各ステップの"O"クラスは、古いクラスからのラベル付けされていないエンティティや、入ってくるクラスからの潜在的なエンティティを含むかもしれない。 本研究ではまず,クラスインクリメンタルNERにおける隠蔽実体問題に対する実証的研究を行う。 O" によるトレーニングは "O" と隠蔽されたエンティティクラスを著しく混乱させ,潜在的なクラスの分離性を損なうことが判明した。 この発見に基づき、古いエンティティクラスと潜在的なエンティティクラスの"o"クラスを適切に学習するためのリハーサルベースの表現学習手法を設計する。 さらに、各ステップに複数のカテゴリを導入するクラスインクリメンタルnerの、より現実的で挑戦的なベンチマークも提供しています。 実験により, 提案手法の有効性を検証し, 提案手法の有効性を検証した。

As the categories of named entities rapidly increase in real-world applications, class-incremental learning for NER is in demand, which continually learns new entity classes while maintaining the old knowledge. Due to privacy concerns and storage constraints, the model is required to update without any annotations of the old entity classes. However, in each step on streaming data, the "O" class in each step might contain unlabeled entities from the old classes, or potential entities from the incoming classes. In this work, we first carry out an empirical study to investigate the concealed entity problem in class-incremental NER. We find that training with "O" leads to severe confusion of "O" and concealed entity classes, and harms the separability of potential classes. Based on this discovery, we design a rehearsal-based representation learning approach for appropriately learning the "O" class for both old and potential entity classes. Additionally, we provide a more realistic and challenging benchmark for class-incremental NER which introduces multiple categories in each step. Experimental results verify our findings and show the effectiveness of the proposed method on the new benchmark.
翻訳日:2022-10-11 14:40:39 公開日:2022-10-10
# 知識蒸留トランスファーセットと下流NLU課題への影響

Knowledge Distillation Transfer Sets and their Impact on Downstream NLU Tasks ( http://arxiv.org/abs/2210.04834v1 )

ライセンス: Link先を確認
Charith Peris, Lizhen Tan, Thomas Gueudre, Turan Gojayev, Vivi Wei, Gokmen Oz(参考訳) 教師の知識蒸留は、今日の一般的な大きな言語モデルを低レイテンシダウンストリームアプリケーションに適合する管理可能なサイズに圧縮する一般的な手法である。 教師と蒸留に使用するトランスファーセットの選択は、高品質の学生を作る上で重要な要素である。 しかし、教師と下流ターゲットドメインに関連するコーパスの事前訓練に使用されるジェネリックコーパスは、しばしば大きな違いがあるため、学生をジェネリックコーパス上で蒸留し、高品質の教師予測から学ぶか、下流タスクコーパスで微調整と整合させるかという自然な疑問が生じる。 本研究では,ドメイン分類(DC)とICNER(Intent Classification/Named Entity Recognition)を下流タスクとして利用する。 汎用およびタスク固有のデータセットの比率が異なる大規模多言語LMから複数の学生を蒸留し,DCとICNERを微調整した後にその性能を報告する。 タスク固有のコーパスのみを使用する場合、タスクとテストセット間で大幅な改善が観察される。 また,タスク特化データとタスク特化データとの類似性から,タスク特化データの追加の影響についても報告する。 以上の結果から,総称lmの蒸留はダウンストリームタスクに有利であるが,noisier teacher predictionsの値でも,対象ドメインデータを用いた学習が向上することが示唆された。 言い換えれば、ターゲットドメインデータはまだ教師の知識を損なう。

Teacher-student knowledge distillation is a popular technique for compressing today's prevailing large language models into manageable sizes that fit low-latency downstream applications. Both the teacher and the choice of transfer set used for distillation are crucial ingredients in creating a high quality student. Yet, the generic corpora used to pretrain the teacher and the corpora associated with the downstream target domain are often significantly different, which raises a natural question: should the student be distilled over the generic corpora, so as to learn from high-quality teacher predictions, or over the downstream task corpora to align with finetuning? Our study investigates this trade-off using Domain Classification (DC) and Intent Classification/Named Entity Recognition (ICNER) as downstream tasks. We distill several multilingual students from a larger multilingual LM with varying proportions of generic and task-specific datasets, and report their performance after finetuning on DC and ICNER. We observe significant improvements across tasks and test sets when only task-specific corpora is used. We also report on how the impact of adding task-specific data to the transfer set correlates with the similarity between generic and task-specific data. Our results clearly indicate that, while distillation from a generic LM benefits downstream tasks, students learn better using target domain data even if it comes at the price of noisier teacher predictions. In other words, target domain data still trumps teacher knowledge.
翻訳日:2022-10-11 14:40:19 公開日:2022-10-10
# SMiLE:知識グラフリンク予測のためのスキーマ強化マルチレベルコントラスト学習

SMiLE: Schema-augmented Multi-level Contrastive Learning for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2210.04870v1 )

ライセンス: Link先を確認
Miao Peng, Ben Liu, Qianqian Xie, Wenjie Xu, Hua Wang, Min Peng(参考訳) リンク予測は知識グラフにおけるエンティティ間の欠落リンクを推測するタスクである。 埋め込みに基づく手法は三重項間の関係パターンをモデル化することでこの問題に対処する効果を示した。 しかし、リンク予測タスクはエンティティの近傍でコンテキスト情報を必要とすることが多いが、既存の埋め込み方式ではそれを捕捉できない。 さらに、異なる文脈における実体表現の多様性にはほとんど注意が払われず、しばしば誤った予測結果をもたらす。 このような状況下では,知識グラフのスキーマには特定の文脈情報が含まれており,文脈間のエンティティの一貫性を保つのに有用であると考えられる。 本稿では,知識グラフリンク予測を行うためのスキーマ拡張型マルチレベルコントラスト学習フレームワーク(SMiLE)を提案する。 具体的には,まずネットワークスキーマを事前の制約として活用し,事前のスキーマ情報と文脈情報の両方を得るための多レベルコントラスト学習手法を用いて,事前学習を行った。 次に、各トリプルの監督の下でモデルを微調整し、リンク予測のための微妙な表現を学習する。 各コンポーネントを徹底的に分析した4つの知識グラフデータセットの大規模な実験結果から,提案手法の有効性が示された。

Link prediction is the task of inferring missing links between entities in knowledge graphs. Embedding-based methods have shown effectiveness in addressing this problem by modeling relational patterns in triples. However, the link prediction task often requires contextual information in entity neighborhoods, while most existing embedding-based methods fail to capture it. Additionally, little attention is paid to the diversity of entity representations in different contexts, which often leads to false prediction results. In this situation, we consider that the schema of knowledge graph contains the specific contextual information, and it is beneficial for preserving the consistency of entities across contexts. In this paper, we propose a novel schema-augmented multi-level contrastive learning framework (SMiLE) to conduct knowledge graph link prediction. Specifically, we first exploit network schema as the prior constraint to sample negatives and pre-train our model by employing a multi-level contrastive learning method to yield both prior schema and contextual information. Then we fine-tune our model under the supervision of individual triples to learn subtler representations for link prediction. Extensive experimental results on four knowledge graph datasets with thorough analysis of each component demonstrate the effectiveness of our proposed framework against state-of-the-art baselines.
翻訳日:2022-10-11 14:39:53 公開日:2022-10-10
# aucメトリックの故障モードの検討と安全クリティカル応用におけるシステム評価の代替方法の検討

Investigating the Failure Modes of the AUC metric and Exploring Alternatives for Evaluating Systems in Safety Critical Applications ( http://arxiv.org/abs/2210.04466v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar, Chitta Baral(参考訳) ブラックボックスモデルの使用に伴う安全性要件の重要性が高まっているため、モデルの選択解答能力の評価が重要になっている。 曲線下面積(AUC)はこの目的のためにメートル法として使用される。 例えば、より高いAUCを持つモデルは、選択的な回答を行う上で常に優れているとは限らない。 特定された制限を修正するための3つの代替指標を提案する。 10種類のモデルを用いて実験した結果, より新しい, より大規模な事前学習モデルでは, 選択解法の性能が必ずしも向上しないことがわかった。 私たちの洞察が、安全クリティカルなアプリケーションに適したモデルの開発に役立つことを願っています。

With the increasing importance of safety requirements associated with the use of black box models, evaluation of selective answering capability of models has been critical. Area under the curve (AUC) is used as a metric for this purpose. We find limitations in AUC; e.g., a model having higher AUC is not always better in performing selective answering. We propose three alternate metrics that fix the identified limitations. On experimenting with ten models, our results using the new metrics show that newer and larger pre-trained models do not necessarily show better performance in selective answering. We hope our insights will help develop better models tailored for safety-critical applications.
翻訳日:2022-10-11 14:38:58 公開日:2022-10-10
# 外部百科事典知識を用いた画像キャプションの生成

Generating image captions with external encyclopedic knowledge ( http://arxiv.org/abs/2210.04806v1 )

ライセンス: Link先を確認
Sofia Nikiforova, Tejaswini Deoskar, Denis Paperno, Yoad Winter(参考訳) 画像に写っているオブジェクトを正確に報告することは、自動キャプション生成において主に解決された問題である。 真の人間的なキャプションへの道のりにおける次の大きな課題は、画像のコンテキストと関連する現実世界の知識を組み込むことだ。 我々は,画像固有百科事典データを利用したエンドツーエンドキャプション生成システムを構築することで,この課題に取り組む。 提案手法は,外部知識ベースにおける関連するオープンドメイン事実を画像位置から識別する新しい手法と,エンコードとデコードの両方の段階でキャプションパイプラインに統合する手法を含む。 本システムは,自然に生成した知識豊富なキャプションを持つ新しいデータセット上で訓練およびテストを行い,複数のベースラインに対して大幅な改善を実現する。 提案手法は,事実的正確かつ関連性の高い百科事典知識を持つ文脈的キャプションを生成するのに有効であることを示す。

Accurately reporting what objects are depicted in an image is largely a solved problem in automatic caption generation. The next big challenge on the way to truly humanlike captioning is being able to incorporate the context of the image and related real world knowledge. We tackle this challenge by creating an end-to-end caption generation system that makes extensive use of image-specific encyclopedic data. Our approach includes a novel way of using image location to identify relevant open-domain facts in an external knowledge base, with their subsequent integration into the captioning pipeline at both the encoding and decoding stages. Our system is trained and tested on a new dataset with naturally produced knowledge-rich captions, and achieves significant improvements over multiple baselines. We empirically demonstrate that our approach is effective for generating contextualized captions with encyclopedic knowledge that is both factually accurate and relevant to the image.
翻訳日:2022-10-11 14:38:48 公開日:2022-10-10
# DAAM: 交差注意を用いた安定拡散の解釈

What the DAAM: Interpreting Stable Diffusion Using Cross Attention ( http://arxiv.org/abs/2210.04885v1 )

ライセンス: Link先を確認
Raphael Tang, Akshat Pandey, Zhiying Jiang, Gefei Yang, Karun Kumar, Jimmy Lin, Ferhan Ture(参考訳) 大規模拡散ニューラルネットワークは、テキストから画像への生成において重要なマイルストーンであり、人間の評価で実際の写真と類似したパフォーマンスを示すものもある。 しかし、説明可能性や解釈可能性の欠如は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。 本稿では,最近オープンソース化された大規模拡散モデルであるstable diffusionに関するテキスト画像アトリビューション解析を行う。 ピクセルレベルアトリビューションマップを作成するために,潜在デノイジングサブネットワークにおけるクロスアトリビューションアクティベーションのスケールアップと集約に基づく新しい手法daamを提案する。 我々は,教師付きセグメンテーションモデルと比較して,教師なしのインスタンスセグメンテーション品質を自己生成画像上で評価することにより,その正確性を支持する。 DAAMはCOCOキャプション生成画像に強く依存し,平均精度(AP)は61.0であり,全語彙区切りにおける教師モデルよりも51.5。 さらに, 句読点や連接点など, 音声の特定の部分が生成した画像に最も影響を与え, 先行文献と一致しているのに対し, 決定者や数字は最小であり, ニュマ性に乏しいことを示唆する。 私たちの知識では,大規模テキストから画像への拡散モデルに対して,ワード・ピクセルの帰属を初めて提案し,研究する。 私たちのコードとデータはhttps://github.com/castorini/daamにある。

Large-scale diffusion neural networks represent a substantial milestone in text-to-image generation, with some performing similar to real photographs in human evaluation. However, they remain poorly understood, lacking explainability and interpretability analyses, largely due to their proprietary, closed-source nature. In this paper, to shine some much-needed light on text-to-image diffusion models, we perform a text-image attribution analysis on Stable Diffusion, a recently open-sourced large diffusion model. To produce pixel-level attribution maps, we propose DAAM, a novel method based on upscaling and aggregating cross-attention activations in the latent denoising subnetwork. We support its correctness by evaluating its unsupervised instance segmentation quality on its own generated imagery, compared to supervised segmentation models. We show that DAAM performs strongly on COCO caption-generated images, achieving an average precision (AP) of 61.0, and it outperforms supervised models on full-vocabulary segmentation, for an AP of 51.5. We further find that certain parts of speech, like punctuation and conjunctions, influence the generated imagery most, which agrees with the prior literature, while determiners and numerals the least, suggesting poor numeracy. To our knowledge, we are the first to propose and study word--pixel attribution for large-scale text-to-image diffusion models. Our code and data are at https://github.com/castorini/daam
翻訳日:2022-10-11 14:38:32 公開日:2022-10-10
# SCAM! セマンティッククロスアテンション変調による画像間の人間移動

SCAM! Transferring humans between images with Semantic Cross Attention Modulation ( http://arxiv.org/abs/2210.04883v1 )

ライセンス: Link先を確認
Nicolas Dufour, David Picard, Vicky Kalogeiton(参考訳) 最近の作業対象は、意味的条件付き画像生成である。 このような方法のほとんどは、ポーズの移動の狭いタスクに焦点をあて、ポーズだけでなく、外観や背景も移すという、より困難な主題の移動のタスクを無視する。 本研究では,画像の各意味領域(前景と背景を含む)にリッチで多様な情報をエンコードするシステムであるscam(semantic cross attention modulation)を導入する。 これは、各セマンティクス領域に対して複数の潜在ベクトルを抽出するセマンティクスアテンショントランスフォーマーエンコーダと、セマンティクスクロスアテンション変調を用いてこれら複数の潜在ベクトルを利用する対応するジェネレータによって実現される。 サブジェクト転送はテスト時に行われるが、リコンストラクション設定のみを使用してトレーニングされる。 分析の結果,提案アーキテクチャは各意味領域における外観の多様性を符号化することに成功した。 idesignerとcelebamask-hdデータセットに関する広範囲な実験により、スカムはショーンとスペードよりも優れており、さらに被写体転送に関する新しい技術が設定されている。

A large body of recent work targets semantically conditioned image generation. Most such methods focus on the narrower task of pose transfer and ignore the more challenging task of subject transfer that consists in not only transferring the pose but also the appearance and background. In this work, we introduce SCAM (Semantic Cross Attention Modulation), a system that encodes rich and diverse information in each semantic region of the image (including foreground and background), thus achieving precise generation with emphasis on fine details. This is enabled by the Semantic Attention Transformer Encoder that extracts multiple latent vectors for each semantic region, and the corresponding generator that exploits these multiple latents by using semantic cross attention modulation. It is trained only using a reconstruction setup, while subject transfer is performed at test time. Our analysis shows that our proposed architecture is successful at encoding the diversity of appearance in each semantic region. Extensive experiments on the iDesigner and CelebAMask-HD datasets show that SCAM outperforms SEAN and SPADE; moreover, it sets the new state of the art on subject transfer.
翻訳日:2022-10-11 14:32:25 公開日:2022-10-10
# SimSCOOD:ソースコードモデルの配布外挙動の系統解析

SimSCOOD: Systematic Analysis of Out-of-Distribution Behavior of Source Code Models ( http://arxiv.org/abs/2210.04802v1 )

ライセンス: Link先を確認
Hossein Hajipour, Ning Yu, Cristian-Alexandru Staicu, Mario Fritz(参考訳) 近年、大規模なコードデータセットが利用可能になっているが、コードの構成的性質とソフトウェアの複雑さのため、一般的なコード分布を網羅した代表的トレーニングデータを取得することは依然として困難である。 これは、まだ体系的に研究されていない予期せぬモデル推論行動の分散(ood)問題につながる。 我々は、データ特性の異なる次元に沿って様々なOODシナリオをシミュレートする最初の体系的なアプローチに貢献し、そのようなシナリオにおけるモデル挙動を調査する。 3つのコード生成タスクのための6つの最先端モデルに関する広範な研究により、分散問題に起因する複数の障害モードが明らかになった。 これにより、ソースコードモデルの一般化、堅牢性、帰納的バイアスの観点から、将来の研究に洞察と光を提供する。

While large code datasets have become available in recent years, acquiring representative training data with full coverage of general code distribution remains challenging due to the compositional nature of code and the complexity of software. This leads to the out-of-distribution (OOD) issues with unexpected model inference behaviors that have not been systematically studied yet. We contribute the first systematic approach that simulates various OOD scenarios along different dimensions of data properties and investigates the model behaviors in such scenarios. Our extensive studies on six state-of-the-art models for three code generation tasks expose several failure modes caused by the out-of-distribution issues. It thereby provides insights and sheds light for future research in terms of generalization, robustness, and inductive biases of source code models.
翻訳日:2022-10-11 14:31:58 公開日:2022-10-10
# 高速モータ適応による手内物体回転

In-Hand Object Rotation via Rapid Motor Adaptation ( http://arxiv.org/abs/2210.04887v1 )

ライセンス: Link先を確認
Haozhi Qi, Ashish Kumar, Roberto Calandra, Yi Ma, Jitendra Malik(参考訳) 一般的な手動操作は、長い間ロボット工学の未解決課題だった。 この大目標に向けての小さなステップとして、指先だけで手動物体の回転を実現するためのシンプルな適応制御器の設計と学習方法を示す。 コントローラーは、筒状の物体のみをシミュレーションして完全に訓練され、細かいチューニングをすることなく、実際のロボットハンドに直接配置して、z軸上でさまざまな大きさ、形状、重みを持つ数十もの物体を回転させることができる。 これは、プロプリセプション履歴のみを使用して、コントローラのオブジェクトプロパティへの迅速なオンライン適応によって達成される。 さらに、強化学習による制御方針の訓練から自然及び安定指歩行が自動的に出現する。 コードとビデオはhttps://haozhi.io/horaで入手できる。

Generalized in-hand manipulation has long been an unsolved challenge of robotics. As a small step towards this grand goal, we demonstrate how to design and learn a simple adaptive controller to achieve in-hand object rotation using only fingertips. The controller is trained entirely in simulation on only cylindrical objects, which then - without any fine-tuning - can be directly deployed to a real robot hand to rotate dozens of objects with diverse sizes, shapes, and weights over the z-axis. This is achieved via rapid online adaptation of the controller to the object properties using only proprioception history. Furthermore, natural and stable finger gaits automatically emerge from training the control policy via reinforcement learning. Code and more videos are available at https://haozhi.io/hora
翻訳日:2022-10-11 14:23:06 公開日:2022-10-10
# OGC: 点雲の剛体ダイナミクスによる教師なし3次元オブジェクトセグメンテーション

OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds ( http://arxiv.org/abs/2210.04458v1 )

ライセンス: Link先を確認
Ziyang Song, Bo Yang(参考訳) 本稿では,原点雲からの3次元物体分割の問題について検討する。 完全管理のために大量の人的アノテーションを必要とする既存の方法とは違って,本研究では,人的アノテーションを必要とせずに,単一の前方通過で複数の3Dオブジェクトを同時に識別する,OGCと呼ばれる最初の教師なし手法を提案する。 我々のアプローチの鍵は、厳格な物体を自動的に発見するための監視信号として、シーケンシャルな点雲上の動的動きパターンを完全に活用することである。 提案手法は3つの主成分からなる。 1)オブジェクトセグメンテーションネットワークは、単一点のクラウドフレームから直接マルチオブジェクトマスクを推定する。 2)補助的自己監督型シーンフロー推定装置、及び 3) コアオブジェクトの幾何整合性コンポーネント。 一連の損失関数を慎重に設計することにより、時間的・空間的スケールの多目的剛性と物体形状の不変性を効果的に考慮する。 これによりアノテーションがなくてもオブジェクトの幾何学を真に見つけることができる。 提案手法を5つのデータセットで広範囲に評価し,室内および屋外のシナリオにおいて,オブジェクト部分インスタンスのセグメンテーションと一般オブジェクトセグメンテーションの優れた性能を示す。

In this paper, we study the problem of 3D object segmentation from raw point clouds. Unlike all existing methods which usually require a large amount of human annotations for full supervision, we propose the first unsupervised method, called OGC, to simultaneously identify multiple 3D objects in a single forward pass, without needing any type of human annotations. The key to our approach is to fully leverage the dynamic motion patterns over sequential point clouds as supervision signals to automatically discover rigid objects. Our method consists of three major components, 1) the object segmentation network to directly estimate multi-object masks from a single point cloud frame, 2) the auxiliary self-supervised scene flow estimator, and 3) our core object geometry consistency component. By carefully designing a series of loss functions, we effectively take into account the multi-object rigid consistency and the object shape invariance in both temporal and spatial scales. This allows our method to truly discover the object geometry even in the absence of annotations. We extensively evaluate our method on five datasets, demonstrating the superior performance for object part instance segmentation and general object segmentation in both indoor and the challenging outdoor scenarios.
翻訳日:2022-10-11 14:20:35 公開日:2022-10-10
# 特殊トークン適応によるパラメータ効率のチューニング

Parameter-Efficient Tuning with Special Token Adaptation ( http://arxiv.org/abs/2210.04382v1 )

ライセンス: Link先を確認
Xiaoocong Yang, James Y. Huang, Wenxuan Zhou, Muhao Chen(参考訳) パラメータ効率のよいチューニングは、トレーニング済みモデルをダウンストリームタスクに適応する際に、パラメータの小さなサブセットのみを更新することを目的としている。 本稿では,Transformer ベースモデルの各レイヤにおける自己保持モジュールの前に,特別なトークン表現(BERT の [SEP] や [CLS) など)を修正した PASTA を紹介する。 PASTAは、テキスト分類やNERを含む自然言語理解タスクの微調整に匹敵するパフォーマンスを達成し、トレーニングされた全パラメータの0.029%しか持たない。 これは、複数のタスクに微調整されたモデルをデプロイする際に、幅広い実用的なアプリケーションを持つだけでなく、事前訓練された言語モデルにおける特別なトークンの役割を実証するものです。

Parameter-efficient tuning aims at updating only a small subset of parameters when adapting a pretrained model to downstream tasks. In this work, we introduce PASTA, in which we only modify the special token representations (e.g., [SEP] and [CLS] in BERT) before the self-attention module at each layer in Transformer-based models. PASTA achieves comparable performance to fine-tuning in natural language understanding tasks including text classification and NER with up to only 0.029% of total parameters trained. Our work not only provides a simple yet effective way of parameter-efficient tuning, which has a wide range of practical applications when deploying finetuned models for multiple tasks, but also demonstrates the pivotal role of special tokens in pretrained language models.
翻訳日:2022-10-11 14:13:59 公開日:2022-10-10
# 教師をコピーしない: 身体的対話におけるデータとモデル課題

Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue ( http://arxiv.org/abs/2210.04443v1 )

ライセンス: Link先を確認
So Yeon Min, Hao Zhu, Ruslan Salakhutdinov and Yonatan Bisk(参考訳) 後続の対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。 最近のベンチマーク(padmakumar et al., 2022)の導入は、このマルチターン、マルチエージェント、ロングホリゾンタスクのモデルのトレーニングと評価に最適な方法に関する疑問を提起している。 本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と整合せず,進歩を阻害する可能性があるとして,この会話に寄与する。 本稿では,メトリクスの実証的な比較,3つのモデルの解析,そしてフィールドがいかに最も進展するかを提案する。 まず、ilで訓練されたモデルが評価中にスプリアスな行動を取るのを観察します。 第2に,既存のモデルではクエリ発話のグラウンド化に失敗しており,これはタスク補完に不可欠である。 第三に、評価はより高いレベルの意味的目標に焦点を当てるべきである。

Embodied dialogue instruction following requires an agent to complete a complex sequence of tasks from a natural language exchange. The recent introduction of benchmarks (Padmakumar et al., 2022) raises the question of how best to train and evaluate models for this multi-turn, multi-agent, long-horizon task. This paper contributes to that conversation, by arguing that imitation learning (IL) and related low-level metrics are actually misleading and do not align with the goals of embodied dialogue research and may hinder progress. We provide empirical comparisons of metrics, analysis of three models, and make suggestions for how the field might best progress. First, we observe that models trained with IL take spurious actions during evaluation. Second, we find that existing models fail to ground query utterances, which are essential for task completion. Third, we argue evaluation should focus on higher-level semantic goals.
翻訳日:2022-10-11 14:13:43 公開日:2022-10-10
# 推論時間適応最適化による言語生成における統一的デトキサイゼーションとデバイアス

Unified Detoxifying and Debiasing in Language Generation via Inference-time Adaptive Optimization ( http://arxiv.org/abs/2210.04492v1 )

ライセンス: Link先を確認
Zonghan Yang, Xiaoyuan Yi, Peng Li, Yang Liu, Xing Xie(参考訳) 警告: 本論文は攻撃性とバイアスを示すモデル出力を含む。 近年,学習済みの言語モデル (PLM) は, 様々な自然言語生成(NLG)タスクにおいて, かなり流用なテキストを生成する能力に長けている。 それにもかかわらず、これらのモデルは、通常有毒な言語と社会的バイアスであるコーパスの訓練において有害なコンテンツを捕獲し、再現することが観察され、厳しい道徳的問題を引き起こしている。 倫理的NLGに関する以前の研究は、脱毒と脱湿を別々に取り組んだが、これは、脱酸したモデルが依然として毒性を示し、脱酸したモデルがさらにバイアスを悪化させることから問題となる。 このような課題に対処するため,我々はuddiaと呼ばれるデトックス化・デバイアス化の最初の統一フレームワークを提案し,この2つの問題を出力空間の整流化として定式化する。 重み付き属性を混合したテキスト分布を学習するフレームワークを理論的に解釈する。 さらに、UDDIAは、トレーニングデータなしでパラメータ効率のよいチューニングスキーマに基づいて、デコード中に少数のパラメータのみを適応的に最適化する。 これにより、生成品質の損失が最小限に抑えられ、計算コストを許容して修正性能が向上する。 実験結果から, UDDIAは, いくつかの強いベースラインと比較して, 同時に脱ベン・消毒を達成し, 効率と効率のバランスを良くし, 実用的倫理的NLGへのさらなる一歩を踏み出した。

Warning: this paper contains model outputs exhibiting offensiveness and biases. Recently pre-trained language models (PLMs) have prospered in various natural language generation (NLG) tasks due to their ability to generate fairly fluent text. Nevertheless, these models are observed to capture and reproduce harmful contents in training corpora, typically toxic language and social biases, raising severe moral issues. Prior works on ethical NLG tackle detoxifying and debiasing separately, which is problematic since we find debiased models still exhibit toxicity while detoxified ones even exacerbate biases. To address such a challenge, we propose the first unified framework of detoxifying and debiasing called UDDIA, which jointly formalizes these two problems as rectifying the output space. We theoretically interpret our framework as learning a text distribution mixing weighted attributes. Besides, UDDIA conducts adaptive optimization of only a few parameters during decoding based on a parameter-efficient tuning schema without any training data. This leads to minimal generation quality loss and improved rectification performance with acceptable computational cost. Experimental results demonstrate that compared to several strong baselines, UDDIA achieves debiasing and detoxifying simultaneously and better balances efficiency and effectiveness, taking a further step towards practical ethical NLG.
翻訳日:2022-10-11 14:13:27 公開日:2022-10-10
# 知識のプロンプト:ソフトプロンプトによる言語モデルへの世界知識の注入

Knowledge Prompts: Injecting World Knowledge into Language Models through Soft Prompts ( http://arxiv.org/abs/2210.04726v1 )

ライセンス: Link先を確認
Cicero Nogueira dos Santos, Zhe Dong, Daniel Cer, John Nham, Siamak Shakeri, Jianmo Ni, Yun-hsuan Sung(参考訳) ソフトプロンプトは、最近、大きな凍結言語モデル(lms)を新しいタスクに適応させるツールとして提案されている。 本研究では,世界知識をLMに注入する作業に対してソフトプロンプトを再利用する。 本稿では,知識ベースからのデータを自己教師付き学習することで,ソフトプロンプトの学習方法を提案する。 結果として生じるソフトナレッジプロンプト(KP)はタスク独立であり、LMの外部メモリとして機能する。 定性的かつ定量的な実験を行い、(1)KPはトレーニングデータの構造を効果的にモデル化し、(2)KPは異なる知識集約タスクにおけるLMの性能を向上させるために使用できることを示した。

Soft prompts have been recently proposed as a tool for adapting large frozen language models (LMs) to new tasks. In this work, we repurpose soft prompts to the task of injecting world knowledge into LMs. We introduce a method to train soft prompts via self-supervised learning on data from knowledge bases. The resulting soft knowledge prompts (KPs) are task independent and work as an external memory of the LMs. We perform qualitative and quantitative experiments and demonstrate that: (1) KPs can effectively model the structure of the training data; (2) KPs can be used to improve the performance of LMs in different knowledge intensive tasks.
翻訳日:2022-10-11 14:13:03 公開日:2022-10-10
# ロバストコントラスト事前学習による実世界の騒音に対する多言語モデルのロバスト化

Robustification of Multilingual Language Models to Real-world Noise with Robust Contrastive Pretraining ( http://arxiv.org/abs/2210.04782v1 )

ライセンス: Link先を確認
Asa Cooper Stickland, Sailik Sengupta, Jason Krone, Saab Mansour, He He(参考訳) ニューラルモデリングの進歩は、パブリック自然言語処理(NLP)ベンチマークにおける最先端(SOTA)の結果を達成している。 しかし、公開ベンチマークと実際のアプリケーションの間には、タイプミスや文法上のミスなどのノイズが豊富にあるため、パフォーマンスが低下する、というギャップがある。 残念ながら、ノイズデータに対する神経モデルのロバスト性を評価し、改善を示唆する研究は英語に限定されている。 異なる言語でノイズを分析すると、ノイズの種類は言語によって異なるため、独自の調査が必要となる。 したがって,事前学習された多言語モデルの性能をベンチマークするために,5つの言語と4つのnlpタスクをカバーする騒がしいデータセットを構築する。 クリーンデータとノイズデータのパフォーマンスのギャップが見られます。 多言語プレトレーニングモデルのゼロショットクロスリンガルロバスト性を向上させる方法について検討した後,ロバストコントラストプレトレーニング(rcp)を提案する。 RCPは、事前訓練段階でデータ拡張と対照的な損失項を結合し、2つの文レベルの分類(+3.2%)と2つのシーケンスラベル(+10 F1スコア)の多言語タスクでノイズ(および元のテストデータ)を大幅に改善する。

Advances in neural modeling have achieved state-of-the-art (SOTA) results on public natural language processing (NLP) benchmarks, at times surpassing human performance. However, there is a gap between public benchmarks and real-world applications where noise such as typos or grammatical mistakes is abundant, resulting in degraded performance. Unfortunately, works that assess the robustness of neural models on noisy data and suggest improvements are limited to the English language. Upon analyzing noise in different languages, we observe that noise types vary across languages and thus require their own investigation. Thus, to benchmark the performance of pretrained multilingual models, we construct noisy datasets covering five languages and four NLP tasks. We see a gap in performance between clean and noisy data. After investigating ways to boost the zero-shot cross-lingual robustness of multilingual pretrained models, we propose Robust Contrastive Pretraining (RCP). RCP combines data augmentation with a contrastive loss term at the pretraining stage and achieves large improvements on noisy (& original test data) across two sentence-level classification (+3.2%) and two sequence-labeling (+10 F1-score) multilingual tasks.
翻訳日:2022-10-11 14:12:51 公開日:2022-10-10
# translate firstorder later: using monotonicity in semantic parsing (英語)

Translate First Reorder Later: Leveraging Monotonicity in Semantic Parsing ( http://arxiv.org/abs/2210.04878v1 )

ライセンス: Link先を確認
Francesco Cazzaro, Davide Locatelli, Ariadna Quattoni, Xavier Carreras(参考訳) 意味解析における先行研究は、従来のseq2seqモデルは合成一般化タスクでは失敗することを示した。 この制限により、文とその対応する意味表現間のアライメントをモデル化するメソッドが復活した。 まず、入力文を単調に翻訳し、それから正しい出力を得るために再順序付けを行う2段階のアプローチであるtpolを提案する。 これはTranslatorとReordererコンポーネントからなるモジュラーフレームワークで実現されている。 2つの一般的なセマンティックパーシングデータセットでアプローチをテストする。 実験の結果,tpolは一調翻訳によって,アライメントデータから信頼性の高い語彙論理パターンを学習でき,従来のseq2seqモデルと,最近提案されたゴールドアライメントを利用するアプローチの両方において,合成一般化を大幅に改善できることがわかった。

Prior work in semantic parsing has shown that conventional seq2seq models fail at compositional generalization tasks. This limitation led to a resurgence of methods that model alignments between sentences and their corresponding meaning representations, either implicitly through latent variables or explicitly by taking advantage of alignment annotations. We take the second direction and propose TPol, a two-step approach that first translates input sentences monotonically and then reorders them to obtain the correct output. This is achieved with a modular framework comprising a Translator and a Reorderer component. We test our approach on two popular semantic parsing datasets. Our experiments show that by means of the monotonic translations, TPol can learn reliable lexico-logical patterns from aligned data, significantly improving compositional generalization both over conventional seq2seq models, as well as over a recently proposed approach that exploits gold alignments.
翻訳日:2022-10-11 14:12:28 公開日:2022-10-10
# 事前学習言語モデルによる不確かさの定量化:大規模実証分析

Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis ( http://arxiv.org/abs/2210.04714v1 )

ライセンス: Link先を確認
Yuxin Xiao, Paul Pu Liang, Umang Bhatt, Willie Neiswanger, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 各種自然言語処理(NLP)タスクにおいて,予測性能の向上により,事前学習型言語モデル(PLM)が人気を博している。 NLPタスクのためのPLMベースの予測パイプラインを定式化する場合、特に安全クリティカルなアプリケーションにおいて、パイプラインが校正誤差を最小限に抑えることが重要である。 つまり、パイプラインはその予測をいつ信頼できるかを確実に示すべきです。 特に、パイプラインの背景には、(1)PLMの選択と(2)サイズ、(3)不確実性定量化器の選択、(4)微調整損失の選択など、さまざまな考慮事項がある。 先行研究はこれらの考察のいくつかを考察しているが、通常は実験研究の限られた範囲に基づいて結論を導き出す。 PLMベースの予測パイプラインを適切に校正する方法についての総合的な分析はいまだに欠けている。 この空白を埋めるために、我々は3つの一般的なNLP分類タスクとドメインシフトの設定に基づいて、各考慮に対する幅広い人気オプションを比較した。 1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。

Pre-trained language models (PLMs) have gained increasing popularity due to their compelling prediction performance in diverse natural language processing (NLP) tasks. When formulating a PLM-based prediction pipeline for NLP tasks, it is also crucial for the pipeline to minimize the calibration error, especially in safety-critical applications. That is, the pipeline should reliably indicate when we can trust its predictions. In particular, there are various considerations behind the pipeline: (1) the choice and (2) the size of PLM, (3) the choice of uncertainty quantifier, (4) the choice of fine-tuning loss, and many more. Although prior work has looked into some of these considerations, they usually draw conclusions based on a limited scope of empirical studies. There still lacks a holistic analysis on how to compose a well-calibrated PLM-based prediction pipeline. To fill this void, we compare a wide range of popular options for each consideration based on three prevalent NLP classification tasks and the setting of domain shift. In response, we recommend the following: (1) use ELECTRA for PLM encoding, (2) use larger PLMs if possible, (3) use Temp Scaling as the uncertainty quantifier, and (4) use Focal Loss for fine-tuning.
翻訳日:2022-10-11 14:12:10 公開日:2022-10-10
# 多様な環境軌道生成装置の事前発見によるロコモーションスキルの効率的な学習

Efficient Learning of Locomotion Skills through the Discovery of Diverse Environmental Trajectory Generator Priors ( http://arxiv.org/abs/2210.04819v1 )

ライセンス: Link先を確認
Shikha Surana, Bryan Lim, Antoine Cully(参考訳) データ駆動学習に基づく手法は最近、様々な非構造化地形に対するロコモーションコントローラの学習に特に成功している。 従来の研究は、軌道生成器(TG)の形で良好な移動先を組み込むことが、複雑な移動スキルを効率的に学習する上で有効であることが示されている。 しかしながら、タスク/環境がますます複雑になるにつれて、良いシングルtgを定義することは、広範なチューニングと、以前の効果を低下させるリスクを必要とするため、依然として困難な問題である。 本稿では,tgアーキテクチャを変調するポリシー内で単一のポリシーを維持しつつ,品質多様性アルゴリズムを用いて多様な特定ロコモーション前処理を学習する手法である環境軌道生成器(eetg)について述べる。 以上の結果から,4足歩行ロボットは斜面,階段,荒地,平均台などの広い範囲の環境を乗り越えることができることがわかった。 実験の結果,多種多様なTG事前学習は,幅広い環境を扱う場合において,単一の固定された事前学習よりも有意に(5倍)効率が高いことがわかった。

Data-driven learning based methods have recently been particularly successful at learning robust locomotion controllers for a variety of unstructured terrains. Prior work has shown that incorporating good locomotion priors in the form of trajectory generators (TGs) is effective at efficiently learning complex locomotion skills. However, defining a good, single TG as tasks/environments become increasingly more complex remains a challenging problem as it requires extensive tuning and risks reducing the effectiveness of the prior. In this paper, we present Evolved Environmental Trajectory Generators (EETG), a method that learns a diverse set of specialised locomotion priors using Quality-Diversity algorithms while maintaining a single policy within the Policies Modulating TG (PMTG) architecture. The results demonstrate that EETG enables a quadruped robot to successfully traverse a wide range of environments, such as slopes, stairs, rough terrain, and balance beams. Our experiments show that learning a diverse set of specialized TG priors is significantly (5 times) more efficient than using a single, fixed prior when dealing with a wide range of environments.
翻訳日:2022-10-11 14:03:02 公開日:2022-10-10
# 大規模事前学習による体操ダイアログからのトランスフォーマーに基づく局所化

Transformer-based Localization from Embodied Dialog with Large-scale Pre-training ( http://arxiv.org/abs/2210.04864v1 )

ライセンス: Link先を確認
Meera Hahn, James M. Rehg(参考訳) Embodied Dialog (LED) による局所化の課題に対処する。 未知の環境をナビゲートするオブザーバと、オブザーバの位置を特定しようとするロケータの2つのエージェントからのダイアログが与えられた場合、その目標は、オブザーバの最終位置を地図上で予測することである。 我々は新しいLED-Bertアーキテクチャを開発し、効果的な事前学習戦略を提案する。 グラフに基づくシーン表現は,先行研究で使用されるトップダウン2Dマップよりも効果的であることを示す。 我々のアプローチは以前の基準より優れている。

We address the challenging task of Localization via Embodied Dialog (LED). Given a dialog from two agents, an Observer navigating through an unknown environment and a Locator who is attempting to identify the Observer's location, the goal is to predict the Observer's final location in a map. We develop a novel LED-Bert architecture and present an effective pretraining strategy. We show that a graph-based scene representation is more effective than the top-down 2D maps used in prior works. Our approach outperforms previous baselines.
翻訳日:2022-10-11 14:02:43 公開日:2022-10-10
# grape: オープンドメイン質問応答のための知識グラフ拡張パッセージリーダ

Grape: Knowledge Graph Enhanced Passage Reader for Open-domain Question Answering ( http://arxiv.org/abs/2210.02933v2 )

ライセンス: Link先を確認
Mingxuan Ju, Wenhao Yu, Tong Zhao, Chuxu Zhang, Yanfang Ye(参考訳) open-domain question answering (qa) モデルの一般的なスレッドは、wikipediaから関連する一握りの節を最初に取り出して、その節を熟読して回答を生成する、レトリバー-リーダーパイプラインを使用している。 しかし、最先端の読者でさえ、質問や検索文に現れるエンティティ間の複雑な関係を捉えられず、事実と矛盾する回答に繋がる。 そこで本研究では,オープンドメインqaの読取性能を向上させるために,新しい知識グラフ拡張パッセージリーダであるgrapeを提案する。 具体的には、質問文と検索文のペアごとに、まず、読者モデルの中間層から抽出されたエンティティ埋め込みによって引き起こされる局所化された二部グラフを構築する。 そして、グラフニューラルネットワークは、グラフと文脈表現を読み取りモデルの隠れ状態に融合させながら、関係知識を学習する。 3つのオープンドメインのQAベンチマークの実験では、Grapeは最大2.2の正確な一致スコアと無視できるオーバーヘッド増加、同じレトリバーと検索パスで、最先端のパフォーマンスを向上させることができる。 私たちのコードはhttps://github.com/jumxglhf/GRAPEで公開されています。

A common thread of open-domain question answering (QA) models employs a retriever-reader pipeline that first retrieves a handful of relevant passages from Wikipedia and then peruses the passages to produce an answer. However, even state-of-the-art readers fail to capture the complex relationships between entities appearing in questions and retrieved passages, leading to answers that contradict the facts. In light of this, we propose a novel knowledge Graph enhanced passage reader, namely Grape, to improve the reader performance for open-domain QA. Specifically, for each pair of question and retrieved passage, we first construct a localized bipartite graph, attributed to entity embeddings extracted from the intermediate layer of the reader model. Then, a graph neural network learns relational knowledge while fusing graph and contextual representations into the hidden states of the reader model. Experiments on three open-domain QA benchmarks show Grape can improve the state-of-the-art performance by up to 2.2 exact match score with a negligible overhead increase, with the same retriever and retrieved passages. Our code is publicly available at https://github.com/jumxglhf/GRAPE.
翻訳日:2022-10-11 11:53:10 公開日:2022-10-10
# nlpにおける最新技術一般化研究:分類とレビュー

State-of-the-art generalisation research in NLP: a taxonomy and review ( http://arxiv.org/abs/2210.03050v2 )

ライセンス: Link先を確認
Dieuwke Hupkes, Mario Giulianelli, Verna Dankers, Mikel Artetxe, Yanai Elazar, Tiago Pimentel, Christos Christodoulopoulos, Karim Lasri, Naomi Saphra, Arabella Sinclair, Dennis Ulmer, Florian Schottmann, Khuyagbaatar Batsuren, Kaiser Sun, Koustuv Sinha, Leila Khalatbari, Maria Ryskina, Rita Frieske, Ryan Cotterell, Zhijing Jin(参考訳) 良く一般化する能力は自然言語処理(NLP)の主要なデシラタの一つである。 しかし、「良い一般化」とは何か、どのように評価されるべきなのかはよく理解されておらず、評価する共通の基準もない。 本稿では,これら2つの課題を改善するための土台を整備することを目的としている。 我々は,nlpにおける一般化研究を特徴付け,理解するための分類法を提示し,その分類法を用いて一般化研究の包括的な地図を提示し,今後注目すべき分野を推薦する。 我々の分類学は、一般化研究の広範な文献レビューに基づいており、研究内容に違いがある5つの軸を含む:彼らの主な動機、解決しようとする一般化の種類、彼らが考えるデータシフトの種類、このデータシフトが得られた源、モデリングパイプライン内のシフトの軌跡。 分類学を用いて、一般化をテストする400以上の以前の論文を分類し、合計600以上の実験を行った。 本研究の結果を踏まえ,NLPにおける一般化研究の現状を詳細に分析し,今後の課題について提言する。 本稿では,本論文とともに,レビューの結果を動的に探索できるWebページを公開し,新たなNLP一般化研究の公開とともに最新化を目指す。 本研究は,NLPにおける新しいステータスクオを最先端の一般化テストに活用することを目的としている。

The ability to generalise well is one of the primary desiderata of natural language processing (NLP). Yet, what `good generalisation' entails and how it should be evaluated is not well understood, nor are there any common standards to evaluate it. In this paper, we aim to lay the ground-work to improve both of these issues. We present a taxonomy for characterising and understanding generalisation research in NLP, we use that taxonomy to present a comprehensive map of published generalisation studies, and we make recommendations for which areas might deserve attention in the future. Our taxonomy is based on an extensive literature review of generalisation research, and contains five axes along which studies can differ: their main motivation, the type of generalisation they aim to solve, the type of data shift they consider, the source by which this data shift is obtained, and the locus of the shift within the modelling pipeline. We use our taxonomy to classify over 400 previous papers that test generalisation, for a total of more than 600 individual experiments. Considering the results of this review, we present an in-depth analysis of the current state of generalisation research in NLP, and make recommendations for the future. Along with this paper, we release a webpage where the results of our review can be dynamically explored, and which we intend to up-date as new NLP generalisation studies are published. With this work, we aim to make steps towards making state-of-the-art generalisation testing the new status quo in NLP.
翻訳日:2022-10-11 11:52:47 公開日:2022-10-10
# 人体ポーズの時空間的傾向推論と映像からの形状推定

Spatio-temporal Tendency Reasoning for Human Body Pose and Shape Estimation from Videos ( http://arxiv.org/abs/2210.03659v2 )

ライセンス: Link先を確認
Boyang Zhang, SuPing Wu, Hu Cao, Kehua Ma, Pan Li, Lei Lin(参考訳) 本稿では,ビデオから人体のポーズや形状を復元する時空間傾向推論(STR)ネットワークを提案する。 従来のアプローチでは、正確性と時間的平滑化を促進するために、人間の3Dデータセットと時間に基づく学習をどのように拡張するかに焦点が当てられていた。 これらと異なるのは,時間的・空間的傾向を通じて制約のない環境下での正確な自然な動きのシーケンスを学習し,既存の映像データの時空間的特徴を十分に抽出することである。 この目的のために,我々は時間次元と空間次元のそれぞれの特徴の表現を学習し,時空間的特徴のより強固な表現に集中する。 具体的には、効率的な時間的モデリングのために、まず時間的傾向推論(TTR)モジュールを提案する。 TTRはビデオシーケンス内に時間次元の階層的残差接続表現を構築し、時間的シーケンスの傾向を効果的に推論し、人間の情報の効果的な拡散を維持する。 一方、空間表現の強化のために、人間の動き情報表現において空間的時間周波数領域に敏感な特徴を励起する空間傾向強調(STE)モジュールを設計する。 最後に,時空間的特徴表現の統合と洗練のために統合戦略を導入する。 大規模な公開データセットに関する大規模な実験結果によると、STRは3つのデータセットの最先端と競争力を維持しています。 私たちのコードはhttps://github.com/changboyang/str.gitで入手できる。

In this paper, we present a spatio-temporal tendency reasoning (STR) network for recovering human body pose and shape from videos. Previous approaches have focused on how to extend 3D human datasets and temporal-based learning to promote accuracy and temporal smoothing. Different from them, our STR aims to learn accurate and natural motion sequences in an unconstrained environment through temporal and spatial tendency and to fully excavate the spatio-temporal features of existing video data. To this end, our STR learns the representation of features in the temporal and spatial dimensions respectively, to concentrate on a more robust representation of spatio-temporal features. More specifically, for efficient temporal modeling, we first propose a temporal tendency reasoning (TTR) module. TTR constructs a time-dimensional hierarchical residual connection representation within a video sequence to effectively reason temporal sequences' tendencies and retain effective dissemination of human information. Meanwhile, for enhancing the spatial representation, we design a spatial tendency enhancing (STE) module to further learns to excite spatially time-frequency domain sensitive features in human motion information representations. Finally, we introduce integration strategies to integrate and refine the spatio-temporal feature representations. Extensive experimental findings on large-scale publically available datasets reveal that our STR remains competitive with the state-of-the-art on three datasets. Our code are available at https://github.com/Changboyang/STR.git.
翻訳日:2022-10-11 11:52:24 公開日:2022-10-10
# アウト・オブ・ディストリビューション対応ロバストネスに向けて

Towards Out-of-Distribution Adversarial Robustness ( http://arxiv.org/abs/2210.03150v2 )

ライセンス: Link先を確認
Adam Ibrahim, Charles Guille-Escuret, Ioannis Mitliagkas, Irina Rish, David Krueger, Pouya Bashivan(参考訳) 敵対的堅牢性は、深層学習の大きな課題であり続けている。 核となる問題は、あるタイプの攻撃に対する堅牢性は、しばしば他の攻撃への転送に失敗することである。 先行研究は、異なる$L_p$ノルムに対するロバスト性の理論的なトレードオフを確立する一方で、ドメイン一般化アプローチを採用することで、多くの一般的な攻撃に対する改善の可能性を示す。 具体的には、各攻撃をドメインとして扱い、全ての訓練攻撃に対して同様のロバスト性を促進するリスク外挿法(REx)を適用する。 既存の手法と比較して,訓練中に見られた攻撃に対して,同様の,あるいは優れた対向性が得られる。 さらに,家族の優れたパフォーマンスや,テスト時にのみ遭遇する攻撃のチューニングを実現する。 攻撃のアンサンブルでは,MNISTでは3.4%,MNISTでは25.9%,CIFAR10では16.9%から23.5%に精度が向上した。

Adversarial robustness continues to be a major challenge for deep learning. A core issue is that robustness to one type of attack often fails to transfer to other attacks. While prior work establishes a theoretical trade-off in robustness against different $L_p$ norms, we show that there is potential for improvement against many commonly used attacks by adopting a domain generalisation approach. Concretely, we treat each type of attack as a domain, and apply the Risk Extrapolation method (REx), which promotes similar levels of robustness against all training attacks. Compared to existing methods, we obtain similar or superior worst-case adversarial robustness on attacks seen during training. Moreover, we achieve superior performance on families or tunings of attacks only encountered at test time. On ensembles of attacks, our approach improves the accuracy from 3.4% the best existing baseline to 25.9% on MNIST, and from 16.9% to 23.5% on CIFAR10.
翻訳日:2022-10-11 11:51:46 公開日:2022-10-10
# 時間分布シフトを有する時系列のkoopmanニューラル予測器

Koopman Neural Forecaster for Time Series with Temporal Distribution Shifts ( http://arxiv.org/abs/2210.03675v2 )

ライセンス: Link先を確認
Rui Wang, Yihe Dong, Sercan \"O. Arik, Rose Yu(参考訳) 時間的変動に基づく時間的分散シフトは、実世界の時系列で頻繁に発生し、ディープニューラルネットワーク(DNN)に根本的な課題をもたらす。 本稿では, 時系列予測のためのクープマン理論に基づく新しいディープシークエンスモデルを提案する: 線形クープマン空間と選択された測定関数の係数を学習するためにDNNを利用するクープマンニューラルフォアキャスタ(KNF)。 knfは、分散シフトに対するロバスト性を改善するために適切な帰納的バイアスを課し、共有特性を学習するためのグローバルオペレータと、変化するダイナミクスをキャプチャするローカルオペレータの両方と、急速に変化する行動のために学習演算子を継続的に更新する特別に設計されたフィードバックループを使用する。 我々の知る限りでは、クープマン理論が既知の統治法則のない実世界のカオス時系列に適用されたのはこれが初めてである。 我々は、KNFが、分散シフトに悩まされていることを示す複数の時系列データセットにおいて、代替よりも優れた性能を達成することを示した。

Temporal distributional shifts, with underlying dynamics changing over time, frequently occur in real-world time series, and pose a fundamental challenge for deep neural networks (DNNs). In this paper, we propose a novel deep sequence model based on the Koopman theory for time series forecasting: Koopman Neural Forecaster (KNF) that leverages DNNs to learn the linear Koopman space and the coefficients of chosen measurement functions. KNF imposes appropriate inductive biases for improved robustness against distributional shifts, employing both a global operator to learn shared characteristics, and a local operator to capture changing dynamics, as well as a specially-designed feedback loop to continuously update the learnt operators over time for rapidly varying behaviors. To the best of our knowledge, this is the first time that Koopman theory is applied to real-world chaotic time series without known governing laws. We demonstrate that KNF achieves the superior performance compared to the alternatives, on multiple time series datasets that are shown to suffer from distribution shifts.
翻訳日:2022-10-11 11:51:27 公開日:2022-10-10
# プライバシ保護機械学習のための合成データセット生成

Synthetic Dataset Generation for Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2210.03205v2 )

ライセンス: Link先を確認
Efstathia Soufleri, Gobinda Saha, Kaushik Roy(参考訳) 機械学習(ML)は、コンピュータビジョン、音声認識、オブジェクト検出といった様々な問題を解決することで、大きな成功を収めている。 この成功の主な理由は、ディープニューラルネットワーク(DNN)をトレーニングするための巨大なデータセットが利用可能になったことだ。 しかし、医療記録などの機密情報を含むデータセットは公開されず、データのプライバシが大きな関心事となる。 暗号化メソッドは可能なソリューションだが、MLアプリケーションへのデプロイは、分類精度に深刻な影響を与え、計算オーバーヘッドが大幅に増加する。 あるいは、難読化テクニックを使うこともできるが、視覚的プライバシと精度のトレードオフを維持することは難しい。 本稿では,元のプライベートデータセットからセキュアな合成データセットを生成する手法を提案する。 バッチ正規化(BN)層を持つネットワークが元のデータセットで事前訓練された場合、まずクラスワイズBN層統計を記録する。 次に、合成データが原画像の層別統計分布と一致するようにランダムノイズを最適化して合成データセットを生成する。 本研究では,画像分類データセット (CIFAR10, ImageNet) について評価し,CIFAR10/ImageNetデータの代わりに合成データをスクラッチからトレーニングし,同等の分類性能が得られることを示す。 さらに,本手法による視覚プライバシの分析には,画像品質指標を用い,オリジナル画像と合成画像との視覚的類似度を高く評価する。 さらに,本提案手法は,グラディエントマッチング攻撃,モデル記憶攻撃,GANベースの攻撃など,様々なプライバシー侵害攻撃の下でデータプライバシを保持する。

Machine Learning (ML) has achieved enormous success in solving a variety of problems in computer vision, speech recognition, object detection, to name a few. The principal reason for this success is the availability of huge datasets for training deep neural networks (DNNs). However, datasets cannot be publicly released if they contain sensitive information such as medical records, and data privacy becomes a major concern. Encryption methods could be a possible solution, however their deployment on ML applications seriously impacts classification accuracy and results in substantial computational overhead. Alternatively, obfuscation techniques could be used, but maintaining a good trade-off between visual privacy and accuracy is challenging. In this paper, we propose a method to generate secure synthetic datasets from the original private datasets. Given a network with Batch Normalization (BN) layers pretrained on the original dataset, we first record the class-wise BN layer statistics. Next, we generate the synthetic dataset by optimizing random noise such that the synthetic data match the layer-wise statistical distribution of original images. We evaluate our method on image classification datasets (CIFAR10, ImageNet) and show that synthetic data can be used in place of the original CIFAR10/ImageNet data for training networks from scratch, producing comparable classification performance. Further, to analyze visual privacy provided by our method, we use Image Quality Metrics and show high degree of visual dissimilarity between the original and synthetic images. Moreover, we show that our proposed method preserves data-privacy under various privacy-leakage attacks including Gradient Matching Attack, Model Memorization Attack, and GAN-based Attack.
翻訳日:2022-10-11 11:44:57 公開日:2022-10-10