このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221205となっている論文です。

PDF登録状況(公開日: 20221205)

TitleAuthorsAbstract論文公表日・翻訳日
# カットオフを持つ非有界ハミルトニアンの量子断熱定理とその超伝導回路への応用

Quantum adiabatic theorem for unbounded Hamiltonians with a cutoff and its application to superconducting circuits ( http://arxiv.org/abs/2011.08116v2 )

ライセンス: Link先を確認
Evgeny Mozgunov, Daniel A. Lidar(参考訳) 本論では,非有界ハミルトニアンによって記述されたものを含む,様々な系に対する断熱時間スケールを厳密に拘束できる新しい量子断熱定理を提案する。 我々の境界は超伝導回路の量子ビット近似に向けられ、$n$ qubitsの回路モデルの2^n$次元の量子ビット部分空間に残るのに十分な条件が提示される。 このアディバティック定理の新規性は、以前の厳密な結果とは異なり、これはアディバティック時間スケールの因子として2^n$を含まず、回路ハミルトンの無限次元ヒルベルト空間の切断とは無関係に、アディバティック時間スケールの式を得ることができることである。 応用として、超伝導束量子ビットの回路パラメータに対するこの時間スケールの明示的な依存性を示し、量子アニールの端にトンネル障壁が上昇するにつれて、量子ビット部分空間からの漏れは避けられないことを示す。 また、回路制御パラメータがゆっくりと変化することによって引き起こされる真のダイナミクスを最も近似する2^n\times 2^n$ effective hamiltonianを得る方法についても検討する。

We present a new quantum adiabatic theorem that allows one to rigorously bound the adiabatic timescale for a variety of systems, including those described by unbounded Hamiltonians. Our bound is geared towards the qubit approximation of superconducting circuits, and presents a sufficient condition for remaining within the $2^n$-dimensional qubit subspace of a circuit model of $n$ qubits. The novelty of this adiabatic theorem is that unlike previous rigorous results, it does not contain $2^n$ as a factor in the adiabatic timescale, and it allows one to obtain an expression for the adiabatic timescale independent of the cutoff of the infinite-dimensional Hilbert space of the circuit Hamiltonian. As an application, we present an explicit dependence of this timescale on circuit parameters for a superconducting flux qubit, and demonstrate that leakage out of the qubit subspace is inevitable as the tunnelling barrier is raised towards the end of a quantum anneal. We also discuss a method of obtaining a $2^n\times 2^n$ effective Hamiltonian that best approximates the true dynamics induced by slowly changing circuit control parameters.
翻訳日:2023-04-23 23:43:36 公開日:2022-12-05
# 超希薄ガス透過率再訪

Ultra-diluted gas transmittance revisited ( http://arxiv.org/abs/2105.05057v3 )

ライセンス: Link先を確認
Jakub Marek Ratajczak(参考訳) 自由粒子に対するシュリンガー方程式の解法から導かれる気体粒子の非局在性とそれらの波動関数の量子効果を考慮した超希薄気体の光透過率モデルの解析を行った。 この解析は波動関数の特定の形式に依存しないが、波動関数の現実を仮定する。 特に,保存されたガス雲は,従来の透過率法で予測されるよりもかなり透明になる可能性がある。 この予期せぬ現象は、質量保存が確率の和によって支配されるのに対して、マルコフ連鎖の確率の積が伝達を制御するためである。 さらに, 閉系透過率の上限を解析的に導出し, 境界のないオープンガス雲透過率を100%まで増大させることを示した。 最後に、量子力学の解釈への影響を示す。 このモデルは、環境が疎い深宇宙条件に自然に適用できる。 さらに、モデルはダークマターの要求に応答する。

The paper analyzes a model of optical transmittance of ultra-diluted gas, considering gas particles' non-locality and the quantum effect of their wave function spreading derived from solving the Schr\"odinger equation for a free particle. The analysis does not depend on a particular form of the wave function, but it assumes the reality of wave function. Among others, we show conserved mass gas clouds may become significantly more transparent than predicted by classic transmittance laws. This unexpected phenomenon is possible because mass conservation is governed by the sum of probabilities, while the Markov chain's product of probabilities controls the transmittance. Furthermore, we analytically derive the upper limit the closed system transmittance may grow and demonstrate a boundless, open gas cloud transmittance may grow up to 100%. Finally, we show the impact on interpretations of quantum mechanics. The model is naturally applicable in deep space conditions, where the environment is sparse. Furthermore, the model responds to dark matter requirements.
翻訳日:2023-03-31 23:03:11 公開日:2022-12-05
# 超局所$\varphi^4_2$のスケールアフィン量子化 : カノニカル量子化を用いたモンテカルロ法による比較パス積分

Scaled Affine Quantization of Ultralocal $\varphi^4_2$ a comparative Path Integral Monte Carlo study with Canonical Quantization ( http://arxiv.org/abs/2109.13447v4 )

ライセンス: Link先を確認
Riccardo Fantoni and John R. Klauder(参考訳) After the success of affine quantization in proving through Monte Carlo analysis that the covariant euclidean scalar field theory, $\varphi^r_n$, where $r$ denotes the power of the interaction term and $n = s + 1$ with $s$ the spatial dimension and $1$ adds imaginary time, such that $r \geq 2n/(n-2)$ can be acceptably quantized and the resulting theory is nontrivial, unlike what happens using canonical quantization, we show here that the same has to be expected for $r>2$ and any $n$ even for the ultralocal field theory. 特に、超局所的な$\varphi^4_2$モデルを検討し、スケールされた正準量子化バージョンとスケールされたアフィン量子化バージョンの両方に対して経路積分モンテカルロを通してその再正規化特性を研究する。

After the success of affine quantization in proving through Monte Carlo analysis that the covariant euclidean scalar field theory, $\varphi^r_n$, where $r$ denotes the power of the interaction term and $n = s + 1$ with $s$ the spatial dimension and $1$ adds imaginary time, such that $r \geq 2n/(n-2)$ can be acceptably quantized and the resulting theory is nontrivial, unlike what happens using canonical quantization, we show here that the same has to be expected for $r>2$ and any $n$ even for the ultralocal field theory. In particular we consider the ultralocal $\varphi^4_2$ model and study its renormalized properties for both the scaled canonical quantization version and the scaled affine quantization version through path integral Monte Carlo.
翻訳日:2023-03-13 07:54:41 公開日:2022-12-05
# キラル相転移の量子シミュレーション

Quantum Simulation of Chiral Phase Transitions ( http://arxiv.org/abs/2112.03944v2 )

ライセンス: Link先を確認
Alexander M. Czajka, Zhong-Bo Kang, Henry Ma, Fanyi Zhao(参考訳) ナムブ・ジョナ・ラシニオモデル(NJL)は強く相互作用する物質のキラル相構造を研究するために広く研究されている。 格子場理論の枠組みにおける場の理論の熱力学の研究は、有限化学ポテンシャルにおける函数積分のモンテカルロ評価を阻止する符号問題によって制限される。 qite(quantum imaginary time evolution)アルゴリズムを用いて、有限温度および有限化学ポテンシャルにおける1+1)$ 次元njlモデルのための量子シミュレーションを構築する。 ディジタル量子シミュレーション,厳密対角化,解析解間の一貫性を観察し,qcd熱力学シミュレーションにおける量子コンピューティングのさらなる応用を示唆する。

The Nambu-Jona-Lasinio (NJL) model has been widely studied for investigating the chiral phase structure of strongly interacting matter. The study of the thermodynamics of field theories within the framework of Lattice Field Theory is limited by the sign problem, which prevents Monte Carlo evaluation of the functional integral at a finite chemical potential. Using the quantum imaginary time evolution (QITE) algorithm, we construct a quantum simulation for the $(1+1)$ dimensional NJL model at finite temperature and finite chemical potential. We observe consistency among digital quantum simulation, exact diagonalization, and analytical solution, indicating further applications of quantum computing in simulating QCD thermodynamics.
翻訳日:2023-03-05 07:29:48 公開日:2022-12-05
# スピンガラス臨界による絡み合い相転移

Entanglement phase transition with spin glass criticality ( http://arxiv.org/abs/2112.06939v2 )

ライセンス: Link先を確認
Jeremy C\^ot\'e, Stefanos Kourtis(参考訳) 出力状態が2つの体積法相間の絡み合った位相遷移を受けるランダムなクリフォード量子回路のアンサンブルを測定速度の関数として定義する。 我々の設定は、スピングラスモデルの基底空間に出力状態を正確にマッピングする。 量子チップ上でアクセス可能な順序パラメータを用いて、絡み合い位相を同定する。 遷移点を見つけ、臨界指数を評価し、スピングラス臨界性を明らかにする。 我々の研究は、絡み合い相転移の正確な統計力学理論を確立する。

We define an ensemble of random Clifford quantum circuits whose output state undergoes an entanglement phase transition between two volume-law phases as a function of measurement rate. Our setup maps exactly the output state to the ground space of a spin glass model. We identify the entanglement phases using an order parameter that is accessible on a quantum chip. We locate the transition point and evaluate a critical exponent, revealing spin glass criticality. Our work establishes an exact statistical mechanics theory of an entanglement phase transition.
翻訳日:2023-03-04 16:23:08 公開日:2022-12-05
# 1次元散乱状態のorthonormalityとスペクトルについて

On the Orthonormality and Spectrum of 1D Scattering States ( http://arxiv.org/abs/2112.09108v4 )

ライセンス: Link先を確認
Chris L. Lin(参考訳) 散乱状態の正規化は、(境界状態セクターで行われているように)期待値を計算するためのロートステップとは程遠いが、散乱スペクトルの密度に関する重要な情報を含む(有用な境界状態情報とともに)。 多くのアプリケーションでは、この情報は実際の波動関数自身よりも有用である。 1d の最も単純な系でさえも非自明な正規化を持つ。 本稿では、この正規化/密度対応が完全性関係の結果であり、このスペクトルを1次元有限範囲対称ポテンシャルに対して計算するための式を示す。 次に、この公式をデルタポテンシャルと正方形井戸に適用し、対応するスペクトルをプロットする。 さらに, 希薄極限におけるyang-gaudinガスの熱力学を計算するために, 正規化が知られると, どれだけ単純かを示すことで, 解析の有用性を実証する。

The normalization of scattering states, far from being a rote step on the way to calculating expectation values (as is done in the bound state sector), contains important information regarding the density of the scattering spectrum (along with useful bound state information). For many applications, this information is more useful than the actual wavefunctions themselves. Even the simplest systems in 1D have nontrivial normalizations. In this paper we show that this normalization/density correspondence is a consequence of the completeness relation, and present formulas for calculating this spectrum for 1D, finite-range symmetric potentials. We then apply the formulas to the delta potential and the square well, and plot the corresponding spectrums. We further demonstrate the utility of such an analysis by showing how simple it is, once the normalization is known, to calculate the thermodynamics of a Yang-Gaudin gas in the dilute limit.
翻訳日:2023-03-04 09:21:58 公開日:2022-12-05
# 非ガウス量子ステアリングのホモダイン検出

Homodyne detection of non-Gaussian quantum steering ( http://arxiv.org/abs/2201.11439v2 )

ライセンス: Link先を確認
Carlos E. Lopetegui, Manuel Gessner, Matteo Fadel, Nicolas Treps, Mattia Walschaers(参考訳) 量子相関は、量子技術の現在の発展の核である。 連続変数の非ガウス状態に適したエンタングルメントとステアリングの認証プロトコルは、実験的な観点からは少なく、一般的に非常に要求される。 本稿では,ホモダイン検出を通し,連続変数2成分状態のステアリングを目撃するためのフィッシャー情報に基づくプロトコルを提案する。 共分散行列のようなガウス的特徴に基づく目撃者が失敗するシナリオにおいて、非ガウス的ステアリングの検出に関係があることが証明されている。

Quantum correlations are at the core of current developments in quantum technologies. Certification protocols of entanglement and steering, suitable for continuous-variable non-Gaussian states are scarce and generally highly demanding from an experimental point of view. We propose a protocol based on Fisher information for witnessing steering in general continuous-variable bipartite states, through homodyne detection. It proves to be relevant for the detection of non-Gaussian steering in scenarios where witnesses based on Gaussian features like the covariance matrix are shown to fail.
翻訳日:2023-02-27 18:30:11 公開日:2022-12-05
# 最適回路深さによる量子状態生成:実装と応用

Quantum State Preparation with Optimal Circuit Depth: Implementations and Applications ( http://arxiv.org/abs/2201.11495v3 )

ライセンス: Link先を確認
Xiao-Ming Zhang, Tongyang Li and Xiao Yuan(参考訳) 量子状態準備は量子コンピューティングの重要なサブルーチンである。 我々は、n$ 量子ビットの量子状態は、1 と 2 つの量子ビットゲートのみを使用して$\theta(n)$-depth回路で作成できることを示した。 一方、$d\geqslant2$ non-zeroエントリを持つスパース量子状態の場合、回路の深さを$o(nd\log d)$ ancillary qubits で$\theta(\log(nd))$にする。 スパース状態のアルゴリズムは最もよく知られた結果よりも指数関数的に高速であり、補助量子ビットの数はほぼ最適であり、システムサイズとともに多項式的に増加する。 本稿では,ハミルトニアンシミュレーション,方程式の線形系解法,量子ランダムアクセスメモリの実現など,様々な量子コンピューティングタスクにおける結果の応用について検討し,これら3つのタスクの回路深度を指数関数的に減少させる場合について考察する。 特に,量子量子化アルゴリズムや古典的解量化アルゴリズムに比べれば,指数関数的な高速化を享受する線形系の類型を見出した。

Quantum state preparation is an important subroutine for quantum computing. We show that any $n$-qubit quantum state can be prepared with a $\Theta(n)$-depth circuit using only single- and two-qubit gates, although with a cost of an exponential amount of ancillary qubits. On the other hand, for sparse quantum states with $d\geqslant2$ non-zero entries, we can reduce the circuit depth to $\Theta(\log(nd))$ with $O(nd\log d)$ ancillary qubits. The algorithm for sparse states is exponentially faster than best-known results and the number of ancillary qubits is nearly optimal and only increases polynomially with the system size. We discuss applications of the results in different quantum computing tasks, such as Hamiltonian simulation, solving linear systems of equations, and realizing quantum random access memories, and find cases with exponential reductions of the circuit depth for all these three tasks. In particular, using our algorithm, we find a family of linear system solving problems enjoying exponential speedups, even compared to the best-known quantum and classical dequantization algorithms.
翻訳日:2023-02-27 18:18:51 公開日:2022-12-05
# 量子空間重ね合わせと超光シグナルの可能性

Quantum spatial superpositions and the possibility of superluminal signaling ( http://arxiv.org/abs/2204.01190v2 )

ライセンス: Link先を確認
P. \'Avila, E. Okon, D. Sudarsky and M. Wiedemann(参考訳) 最近提案された2つの物体間の(重力的または電磁的)相互作用に関するゲダンケン実験は、2つの位置の量子重ね合わせ状態に置かれた。 しかし、媒体場に量子的性質が与えられた場合、超光信号の可能性が完全に回避されていると論じられている。 さらに、重力の場合、この結論は重力場が量子化されなければならないという見解を論じるために用いられる。 本稿では,この問題と関連する評価について,様々な制約を指摘し,システム全体での絡み合いの広がり方を考えることで,この環境における超光通信の可逆性が説明できることを示す。

A recently proposed gedankenexperiment involving the (gravitational or electromagnetic) interaction between two objects -- one placed in a state of quantum superposition of two locations -- seems to allow for faster-than-light communication. However, it has been argued that, if the mediating fields are endowed with quantum properties, then the possibility for superluminal signaling is fully avoided. Moreover, in the gravitational case, this conclusion has been used to argue for the view that the gravitational field must be quantized. In this work, we point out various limitations to this and related assessments and we show that consideration of the way in which entanglement spreads across the system explains how superluminal communication is averted in this and related settings.
翻訳日:2023-02-18 08:10:24 公開日:2022-12-05
# ノイズメソスコピック系におけるコヒーレント変動, オープン量子SSEPと自由確率

Coherent Fluctuations in Noisy Mesoscopic Systems, the Open Quantum SSEP and Free Probability ( http://arxiv.org/abs/2204.11680v3 )

ライセンス: Link先を確認
Ludwig Hruza and Denis Bernard(参考訳) 量子コヒーレンス(quantum coherences)は、特定の距離内で量子力学的に干渉する粒子の能力を特徴付ける。 ノイズの多い多体量子系では、これらのコヒーレンスは変動する。 このような揺らぎを平衡外条件で研究するための単純な玩具モデルとして、開量子対称単純排他過程 (Q-SSEP) があり、これは2つの貯水池の間にランダムな振幅を持つ近傍の部位に1次元のスピンレスフェルミオンをホッピングするものである。 ここで、q-ssepにおけるコヒーレンスのゆらぎのダイナミクスは、自由確率論の概念である自由積として自然解釈を持つことを示す。 この知見に基づいて、ノイズが粗い記述から現れる一般的なメソスコピック系におけるコヒーレントゆらぎを記述するのに、自由確率理論が適切な枠組みであると期待するヒューリスティックな議論を与える。 Q-SSEPの場合、コヒーレンスの連結なゆらぎの時間発展と単純な定常解を導出するために、自由確率理論へのリンクをどのように利用できるかを示す。

Quantum coherences characterise the ability of particles to quantum mechanically interfere within some given distances. In the context of noisy many-body quantum systems these coherences can fluctuate. A simple toy model to study such fluctuations in an out-of-equilibrium setting is the open quantum symmetric simple exclusion process (Q-SSEP) which describes spinless fermions in one dimension hopping to neighbouring sites with random amplitudes coupled between two reservoirs. Here we show that the dynamics of fluctuations of coherences in Q-SSEP have a natural interpretation as free cumulants, a concept from free probability theory. Based on this insight we provide heuristic arguments why we expect free probability theory to be an appropriate framework to describe coherent fluctuations in generic mesoscopic systems where the noise emerges from a coarse-grained description. In the case of Q-SSEP we show how the link to free probability theory can be used to derive the time evolution of connected fluctuations of coherences as well as a simple steady state solution.
翻訳日:2023-02-15 17:49:45 公開日:2022-12-05
# 時間反転のない局所測定によるロングランジベル状態と多体テレポーテーション

Long-Range Bell States from Local Measurements and Many-Body Teleportation without Time-Reversal ( http://arxiv.org/abs/2205.02782v3 )

ライセンス: Link先を確認
Lakshya Agarwal, Christopher M. Langlett, Shenglong Xu(参考訳) 本研究では,1つの量子ビットが強い相互作用を持つ量子システムを通じてテレポートされる量子多体テレポーテーションの研究を行う。 通常、多体テレポーテーションプロトコルはシステムの2倍のコピーを必要とし、後向きの時間発展は、これらの制約なしに2次元スピン-1/2$ xyモデルでテレポーテーションが可能であることを実証する。 テレポーテーションに必要な長距離エンタングルメントは、虹の傷として知られる特別な固有状態をホストするモデルから生成される。 製品状態を進化させ,フィードバック制御を行う2つのキュービットで反復測定を行うことで,この高度に絡み合った状態を作成するための特定のプロトコルを概説する。

In this work, we study quantum many-body teleportation, where a single qubit is teleported through a strongly-interacting quantum system, as a result of a scrambling unitary and local measurements on a few qubits. Usual many-body teleportation protocols require a double copy of the system, and backward time evolution, we demonstrate that teleportation is possible in the 2D spin-$1/2$ XY model, without these constraints. The necessary long-range entanglement for teleportation is generated from the model hosting special eigenstates known as rainbow scars. We outline a specific protocol for preparing this highly entangled state by evolving a product state and performing iterative measurements on only two qubits with feedback control.
翻訳日:2023-02-14 06:11:32 公開日:2022-12-05
# 量子相対エントロピー:完全正の線型写像の下での一般収束基準と収束の保存

Quantum relative entropy: general convergence criterion and preservation of convergence under completely positive linear maps ( http://arxiv.org/abs/2205.10341v3 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 量子相対エントロピーの収束(局所連続性)の基準と必要条件を求める。 これらの結果の応用について考察する。 特に、完全正の線型写像の下での量子相対エントロピーの局所連続性の保存が確立される。

A criterion and necessary conditions for convergence (local continuity) of the quantum relative entropy are obtained. Some applications of these results are considered. In particular, the preservation of local continuity of the quantum relative entropy under completely positive linear maps is established.
翻訳日:2023-02-12 07:56:47 公開日:2022-12-05
# 超伝導量子ビットアレイによる単一マイクロ波光子の非変性検出の量子電気力学

Quantum electrodynamics of non-demolition detection of single microwave photon by superconducting qubit array ( http://arxiv.org/abs/2205.14490v2 )

ライセンス: Link先を確認
P. Navez, A. G. Balanov, S. E. Savel'ev, A. M. Zagoskin(参考訳) 量子電磁力学の形式性を一貫して適用することにより、単一マイクロ波光子と導波共振器共振器内の超伝導量子ビットの配列との相互作用を記述する包括的理論的枠組みを開発した。 特に、共振器を励起する弱いプローブ信号に対するアレー応答に対するマイクロ波光子の影響を解析した。 この研究により、高品質な因子キャビティは応答のスペクトル分解能が向上するのに対し、適度な品質のキャビティは単一光子検出の感度が向上することが明らかとなった。 また,本分析の結果から,単一光子信号は空洞内の唯一の量子ビットでも,現実的なシステムパラメータの範囲で検出できることが判明した。 また、共振器の光子の量子的性質と電気力学的性質が量子ビットアレイの応答に与える影響についても論じる。 提案手法は,量子ビットの配列からなる量子デバイスの開発,設計,特に透過や反射の明示的な表現を必要とする空洞を用いた場合において,効率的な理論的背景を提供する。

By consistently applying the formalism of quantum electrodynamics we developed a comprehensive theoretical framework describing the interaction of single microwave photons with an array of superconducting transmon qubits in a wave guide cavity resonator. In particular, we analyze the effects of microwave photons on the arrays response to a weak probe signal exciting the resonator. The study reveals that a high quality factor cavities provide better spectral resolution of the response, while cavities with moderate quality factor allow better sensitivity for a single photon detection. Remarkably, our analysis showed that a single-photon signal can be detected by even a sole qubit in cavity under the realistic range of system parameters. We also discuss how quantum properties of the photons and electrodynamical properties of resonators affect the response of qubits array. Our results provide an efficient theoretical background for informing the development and design of quantum devices consisting of arrays of qubits, especially for those using a cavity where an explicit expression for the transmission or reflection is required.
翻訳日:2023-02-11 11:29:36 公開日:2022-12-05
# 分子の量子相関:量子再ソーシングから化学結合へ

Quantum correlations in molecules: from quantum resourcing to chemical bonding ( http://arxiv.org/abs/2205.15881v2 )

ライセンス: Link先を確認
Lexin Ding, Stefan Knecht, Zolt\'an Zimbor\'as, Christian Schilling(参考訳) 第2の量子革命は、原子と分子の量子の性質を利用して量子情報処理タスクを実行することである。 この発展を支援するために、量子化学の重要な役割を期待することで、量子化学系における相関効果を体系的に探索し、定量化し、分離するためのツールボックスを確立する。 量子状態の幾何学的図を用いて、分子基底状態におけるトータル、量子、古典的相関と絡み合いを統一的に、かつ操作的に有意義な方法で比較する。 分子の量子情報資源性を最大化するために、軌道最適化スキームが提供され、パラダイムシフトの洞察がもたらされる。 この新しい、より汎用的な電子構造観は原子価結合理論の一般化を示唆し、現代の化学結合理論の欠点を克服している。

The second quantum revolution is all about exploiting the quantum nature of atoms and molecules to execute quantum information processing tasks. To support this growing endeavor and by anticipating the key role of quantum chemistry therein, our work establishes a toolbox for systematically exploring, quantifying and dissecting correlation effects in quantum chemical systems. By utilizing the geometric picture of quantum states we compare -- on a unified basis and in an operationally meaningful way -- total, quantum and classical correlation and entanglement in molecular ground states. To maximize the quantum informational resourcefulness of molecules an orbital optimization scheme is provided, leading to a paradigm-shifting insight: A single covalent bond equates to the entanglement $2\ln(2)$. This novel and more versatile perspective on electronic structure suggests a generalization of valence bond theory, overcoming deficiencies of modern chemical bonding theories.
翻訳日:2023-02-11 04:01:04 公開日:2022-12-05
# 共変パウリチャネルの容量

Capacities of the covariant Pauli channel ( http://arxiv.org/abs/2206.06106v5 )

ライセンス: Link先を確認
Abbas Poshtvan, Vahid Karimipour(参考訳) クアビットパウリチャネルの2パラメータファミリーの4つのよく知られた容量について検討する。 これらはSO(2)群の下で共変し、特別な場合として脱分極チャネルを含むチャネルである。 古典的容量と絡み合い支援容量の正確な表現を見つけ、チャネルの量子容量が消滅する領域を解析的に決定する。 次に、フラグ拡張を用いて、パラメータ空間の全領域におけるこれらのチャネルの量子容量とプライベート容量の上限を求めるとともに、単一ショットの量子容量を数値的に計算することで量子容量の上限を求める。 脱分極チャネルに関する以前の結果と合わせて、この結果は完全なパウリチャネルの容量を決定するための一歩前進である。

We study the four well-known capacities of a two-parameter family of qubit Pauli channels. These are the channels which are covariant under the SO(2) group and contain the depolarizing channel as a special case. We find exact expressions for the classical capacity and entanglement assisted capacities, and analytically determine the regions where the quantum capacity of the channel vanishes. We then use a flag extension to find upper bound for the quantum capacity and private capacity of these channels in the entire region of parameter space and also obtain the lower bound for the quantum capacity by calculating the single shot quantum capacity numerically. In conjunction with previous results on depolarizing channels, our result is one step forward for determining the capacities of the full Pauli channel.
翻訳日:2023-02-09 12:48:34 公開日:2022-12-05
# キラル導波路qedの高次平均場理論

Higher-order mean-field theory of chiral waveguide QED ( http://arxiv.org/abs/2207.10439v2 )

ライセンス: Link先を確認
Kasper J. Kusmierek, Sahand Mahmoodian, Martin Cordier, Jakob Hinney, Arno Rauschenbeutel, Max Schemmer, Philipp Schneeweiss, J\"urgen Volz, Klemens Hammerer(参考訳) 低温原子を持つ導波管QEDは、非平衡、多体および開系量子力学の研究のための強力なプラットフォームを提供する。 弱いカップリングと強い光子損失であっても、光-原子相互作用の集合的な増強は、最近の実験で示されているように、透過によって生じる光子の強い相関をもたらす。 ここでは,高次累積展開に基づく改良平均場理論を適用し,理論上は弱いカップリングと大きなアンサンブルの強い駆動のレジームを記述する。 送信電力, スクイーズスペクトルおよび2次コヒーレンス度を判定し, 数粒子相関の累積を次々に減少させる展開を比較することにより, 結果の収束度を体系的に検証する。 これは、安定状態における原子間の多体および長距離相関の重要な役割を明らかにする。 提案手法は, 従来はアクセス不能なパラメータ状態において, アンチバンキングと出力パワーのトレードオフを定量化する。 計算されたスクイーズスペクトルは、ここで示すように、測定データとよく一致している。

Waveguide QED with cold atoms provides a potent platform for the study of non-equilibrium, many-body, and open-system quantum dynamics. Even with weak coupling and strong photon loss, the collective enhancement of light-atom interactions leads to strong correlations of photons arising in transmission, as shown in recent experiments. Here we apply an improved mean-field theory based on higher-order cumulant expansions to describe the experimentally relevant, but theoretically elusive, regime of weak coupling and strong driving of large ensembles. We determine the transmitted power, squeezing spectra and the degree of second-order coherence, and systematically check the convergence of the results by comparing expansions that truncate cumulants of few-particle correlations at increasing order. This reveals the important role of many-body and long-range correlations between atoms in steady state. Our approach allows to quantify the trade-off between anti-bunching and output power in previously inaccessible parameter regimes. Calculated squeezing spectra show good agreement with measured data, as we present here.
翻訳日:2023-02-04 05:32:57 公開日:2022-12-05
# 量子シミュレータにおける量子ビットの振動と絡み合い臨界性

Qubit Vitrification and Entanglement Criticality on a Quantum Simulator ( http://arxiv.org/abs/2207.13640v2 )

ライセンス: Link先を確認
Jeremy C\^ot\'e and Stefanos Kourtis(参考訳) 多くの不可解な量子現象は、量子系とその古典的環境との相互作用から生じる。 量子シミュレータは計測操作を用いてこの相互作用をプログラムできる。 測定は一般的に、シミュレータ内のキュービット間で構築された量子絡み合いの一部を取り除く。 単純な場合、量子ビットを1つずつ測定すると、絡み合いは一定の速度で消えることがあるが、与えられた量子状態のクラスの測定による絡み合いの進化は一般的には未知である。 ここでは、量子シミュレータにおける量子ビットの連続的な測定が臨界性をもたらし、絡み合いの2つの相を分離することを示す。 古典的スピンモデルに対する基底状態の絡み合った重ね合わせを作成し,量子ビットを漸進的に測定することでシミュレータを絡み合うスピングラス相へと導くことを示す。 この方法で最大48キュービットのエンタングルと測定を行うことで、スピングラス理論を正確に従う振動点とその臨界指数を決定する。 また,古典的環境への結合により,より一般的な量子状態における臨界現象が促進される可能性が示唆された。

Many elusive quantum phenomena emerge from the interaction of a quantum system with its classical environment. Quantum simulators enable us to program this interaction by using measurement operations. Measurements generally remove part of the quantum entanglement built between the qubits inside a simulator. While in simple cases entanglement may disappear at a constant rate as we measure qubits one by one, the evolution of entanglement under measurements for a given class of quantum states is generally unknown. Here, we show that consecutive measurements of the qubits in a quantum simulator can lead to criticality, separating two phases of entanglement. We prepare an entangled superposition of ground states to a classical spin model and show that progressively measuring the qubits drives the simulator into a spin glass phase of entanglement. By entangling and measuring up to 48 qubits in this fashion, we determine the vitrification point and its critical exponent, which obey spin glass theory exactly. Our findings show that measurements alone can trigger entanglement criticality and suggest that coupling to a classical environment can drive critical phenomena in more general quantum states.
翻訳日:2023-02-03 07:39:23 公開日:2022-12-05
# 暗路ホロノミックqudit計算

Dark path holonomic qudit computation ( http://arxiv.org/abs/2208.03057v2 )

ライセンス: Link先を確認
Tomas Andr\'e, Erik Sj\"oqvist(参考訳) 非断熱ホロノミック量子計算(non-adiabatic holonomic quantum computation)は、状態空間の経路に付随する非可換幾何位相を持つ高速量子ゲートを実装する方法である。 ノイズ耐性のため、これらの位相は誤差耐性量子ゲートを構築するのに使用できる。 ホロノミックダークパス量子ビットスキームを [m] で拡張する。 -Z。 など。 ファンダム(fundam)。 Res! bf 2}, 661 (2022)] から qudits へ。 具体的には,暗路法を用いて1・2次元の普遍性を示す。 明示的な qutrit (d=3$) ゲートが示され、次元 $d$ のループの数のスケーリングが解決される。 このスケーリングは線形であり、任意の対角quditゲートがどんな次元でも効率的に実装できることを示す。

Non-adiabatic holonomic quantum computation is a method used to implement high-speed quantum gates with non-Abelian geometric phases associated with paths in state space. Due to their noise tolerance, these phases can be used to construct error resilient quantum gates. We extend the holonomic dark path qubit scheme in [M.-Z. Ai {\t et al.}, Fundam. Res. {\bf 2}, 661 (2022)] to qudits. Specifically, we demonstrate one- and two-qudit universality by using the dark path technique. Explicit qutrit ($d=3$) gates are demonstrated and the scaling of the number of loops with the dimension $d$ is addressed. This scaling is linear and we show how any diagonal qudit gate can be implemented efficiently in any dimension.
翻訳日:2023-02-02 04:55:49 公開日:2022-12-05
# 完全に量子相関によるヒートポンプ

Heat pump driven entirely by quantum correlation ( http://arxiv.org/abs/2208.07440v3 )

ライセンス: Link先を確認
Tharon Holdsworth and Ryoichi Kawai (Department of Physics, University of Alabama at Birmingham)(参考訳) 熱力学の第2法則は、寒さから熱い体への自然熱を禁止している。 しかし、理論上、実験上、体が最初に相関していれば、熱い体から熱い体へエネルギーが流れることが示されている。 最初に絡み合っていた散逸のない量子系間の電子エネルギー交換について検討した。 次に,このモデルを拡張して,冷媒から高温体へ<emph{anomalous heat} を示す散布を行った。 これらのモデルに基づいて, 完全量子相関を燃料とするヒートポンプを構築し, 数値シミュレーションによる性能評価を行った。 近年提案された相互情報に基づく効率の定義を用いて, ポンプの性能は熱力学の第2法則と一致していることがわかった。

The second law of thermodynamics prohibits spontaneous heat from a cold to a hot body. However, it has been theoretically and experimentally shown that energy can flow from a cold to a hot body if the bodies are initially correlated. We investigated the \emph{anomalous energy exchange} between dissipation-less quantum systems that are initially entangled. Then, we extended this model to include dissipation demonstrating \emph{anomalous heat} from a cold to a hot body. Based on these models, we constructed a heat pump driven entirely by quantum correlation as fuel and investigated its performance with numerical simulations. Using the recently proposed definition of efficiency based on mutual information, the performance of the pump is found to be consistent with the second law of thermodynamics.
翻訳日:2023-01-31 01:21:02 公開日:2022-12-05
# 高絡み合った二光子状態のフルタイム依存計数統計

Full time-dependent counting statistics of highly entangled biphoton states ( http://arxiv.org/abs/2209.03780v2 )

ライセンス: Link先を確認
Julian K. Nauth(参考訳) 自発的なパラメトリック過程によって生成される強い絡み合った双光子状態は、多くの実験的実現において幅広い応用を見出す。 時間依存検出の正確な予測に対する需要が高まっている。 これまでに現れたアプローチとは違って, 計算可能な計算式を用いて, 時間依存のカウント統計量を提供し, 幅広い絡み合いと任意の相互作用時間に有効であることを示す。 一般空間モードは自由空間とファイバー伝搬を記述するために考慮される。 統計に対応する時間間隔は、その幅に応じて分類される。 時間的相関幅と比較して大きな幅と小さな幅は別として、中間間隔幅は分離した時間間隔間の偶然の相関にアクセスできる。 さらに、この手法は任意の光学部品のモジュラーアレイや外部の影響に容易に適用できる。 これは、フランソン干渉に影響を及ぼす干渉計のデチューニングを調べる位相時間符号化で実証される。 鍵のセキュリティが損なわれないように、デチューニングの許容範囲を推定する。

Highly entangled biphoton states, generated by spontaneous parametric processes, find wide applications in many experimental realizations. There is an increasing demand for accurate prediction of their time-dependent detection. Unlike approaches that have emerged so far, this paper presents an approach providing full time-dependent counting statistics in terms of efficiently computable formulas, valid for a wide range of entanglement and arbitrary interaction times. General spatial modes are taken into account to describe free space and fiber propagation. The time intervals that correspond to the statistics are classified according to their widths. Apart from large and small widths compared to the temporal correlation width, intermediate interval widths give access to accidental correlations between separated time intervals. Moreover, the approach is easily applicable to a modular array of arbitrary optical components and external influences. This is demonstrated on phase-time coding, where the detuning of the interferometers affecting Franson interference is investigated. An acceptable range for the detuning is estimated, such that the security of the key is not compromised.
翻訳日:2023-01-27 08:03:38 公開日:2022-12-05
# 炭素注入によるダイヤモンド中の分光安定窒素空孔中心の微細構造形成

Spectrally stable nitrogen-vacancy centers in diamond formed by carbon implantation into thin microstructures ( http://arxiv.org/abs/2209.08111v2 )

ライセンス: Link先を確認
V. Yurgens, A. Corazza, J. A. Zuber, M. Gruet, M. Kasperczyk, B. J. Shields, R. J. Warburton, Y. Fontana, P. Maletinsky(参考訳) ダイヤモンド中の窒素空孔中心(NV)は、例外的なスピンコヒーレンスと光スピン初期化と読み出しの利便性を持ち、量子センサや量子ネットワークのビルディングブロックとしてますます使われている。 これらの用途で光子収集効率を最大化するためにフォトニック構造を用いると、通常は窒素イオン注入によって生成されるエミッターの光線幅が拡大する。 天然の窒素原子だけが光学的にコヒーレントなNVに寄与することを示す研究により、自然の結論は、移植を完全に避けるか、空洞形成への代替アプローチによって窒素の注入を代替するかである。 ここでは, 炭素イオンの注入は窒素イオンの注入と同等のnv密度を生じさせ, 薄いダイヤモンド微細構造においても, 狭い光線幅と低い電荷-ノイズレベルを持つnv集団を生じさせることを示した。 我々は5$\mu$mより薄い構造に対して150MHzのNV線幅を測定するが、1.9$\mu$mの最も薄い構造に線幅を拡大する傾向はない。 本報告では, ダイヤモンド製造プロセスに代えて, 埋設後のNV生成手順を改良し, 異なるイオンエネルギーとフレンスを注入した複数の試料で確認する。

The nitrogen-vacancy center (NV) in diamond, with its exceptional spin coherence and convenience in optical spin initialization and readout, is increasingly used both as a quantum sensor and as a building block for quantum networks. Employing photonic structures for maximizing the photon collection efficiency in these applications typically leads to broadened optical linewidths for the emitters, which are commonly created via nitrogen ion implantation. With studies showing that only native nitrogen atoms contribute to optically coherent NVs, a natural conclusion is to either avoid implantation completely, or substitute nitrogen implantation by an alternative approach to vacancy creation. Here, we demonstrate that implantation of carbon ions yields a comparable density of NVs as implantation of nitrogen ions, and that it results in NV populations with narrow optical linewidths and low charge-noise levels even in thin diamond microstructures. We measure a median NV linewidth of 150 MHz for structures thinner than 5 $\mu$m, with no trend of increasing linewidths down to the thinnest measured structure of 1.9 $\mu$m. We propose a modified NV creation procedure in which the implantation is carried out after instead of before the diamond fabrication processes, and confirm our results in multiple samples implanted with different ion energies and fluences.
翻訳日:2023-01-26 09:15:29 公開日:2022-12-05
# 多部開量子力学の衝突モデルへの簡単な旅

A brief journey through collision models for multipartite open quantum dynamics ( http://arxiv.org/abs/2209.15476v2 )

ライセンス: Link先を確認
Marco Cattaneo, Gian Luca Giorgi, Roberta Zambrini and Sabrina Maniscalco(参考訳) 量子衝突モデル(quantum collision model)は、システムと環境のいくつかの粒子との繰り返し相互作用によって、開量子システムのダイナミクスを記述するのに有用な方法である。 本稿では,複数のサブシステムから構成される多部開量子系の力学に対する主衝突モデルについて概説する。 特に、サブシステムとアンシラの間の初等衝突に基づくモデルに興味を持ち、無限小時間ステップの極限において大域および/または局所マルコフマスター方程式をシミュレートする。 一般の衝突に基づくマスター方程式の導出に関する数学的詳細を議論した後、多粒子系の衝突モデルに基づく一般的なアイデアを提供し、それらの強みと限界について議論し、量子コンピュータ上でどのようにシミュレートされるかを示す。 さらに,絡み合ったアンシラスに基づく衝突モデルのいくつかの特性を分析し,小さな時間ステップで生成するマスター方程式を導出し,このマスター方程式の係数が一般性を制限する制約下にあることを証明した。 最後に,2モードの圧縮熱状態に絡み合った2つのボソニックアンシラによる衝突モデルの例を示す。

The quantum collision models are a useful method to describe the dynamics of an open quantum system by means of repeated interactions between the system and some particles of the environment, which are usually termed "ancillas". In this paper, we review the main collision models for the dynamics of multipartite open quantum systems, which are composed of several subsystems. In particular, we are interested in models that are based on elementary collisions between the subsystems and the ancillas, and that simulate global and/or local Markovian master equations in the limit of infinitesimal timestep. After discussing the mathematical details of the derivation of a generic collision-based master equation, we provide the general ideas at the basis of the collision models for multipartite systems, we discuss their strengths and limitations, and we show how they may be simulated on a quantum computer. Moreover, we analyze some properties of a collision model based on entangled ancillas, derive the master equation it generates for small timesteps, and prove that the coefficients of this master equation are subject to a constraint that limits their generality. Finally, we present an example of this collision model with two bosonic ancillas entangled in a two-mode squeezed thermal state.
翻訳日:2023-01-24 07:39:22 公開日:2022-12-05
# 指向性ラカダシカル量子ウォークにおける量子アドバンテージのチューニング

Tuning for Quantum Advantage in Directed Lackadaisical Quantum Walks ( http://arxiv.org/abs/2211.06167v2 )

ライセンス: Link先を確認
Pranay Naredi, J. Bharathi Kannan, and M. S. Santhanam(参考訳) 量子ウォークは、量子アルゴリズムと情報処理タスクを設計するための重要なツールである。 不十分な歩行では、ノードから移動する可能性に加えて、ウォーカーはある程度の確率で同じノードに留まることができる。 これは、自己ループ強度$l$によってパラメータ化された自己ループを導入することで実現され、大きな$l$は、ウォーカーがノードに閉じ込められる可能性が高くなることを意味する。 このモデルにより,2次元グリッド上での探索アルゴリズムの性能向上が図られた。 この研究では、$\textit{directed}$, lackadaisical quantum walkが研究されている。 l$ によっては、2つのレジームが存在することが示され、一つは古典的ウォーカーが支配し、もう一つは量子優位が実現される。 さらに後者のレジームは、$l$の2つの異なるスケーリングレジームを示している。 量子優位性は初期状態と$l$を変更することで調整できる。 驚くべきことに、量子誘導の大幅なスピードアップは、大きな$l$で実現される。 初期状態を調整することで、量子優位性の程度を軽度から指数的に修正することができる。 これは2つの離散トポロジー(直線と二分木)で明確に示される。

Quantum walks constitute an important tool for designing quantum algorithms and information processing tasks. In a lackadaisical walk, in addition to the possibility of moving out of a node, the walker can remain on the same node with some probability. This is achieved by introducing self-loops, parameterized by self-loop strength $l$, attached to the nodes such that large $l$ implies a higher likelihood for the walker to be trapped at the node. This model was shown to improve the performance of algorithms for search on a two-dimensional grid. In this work, $\textit{directed}$, lackadaisical quantum walks is studied. Depending on $l$, two regimes are shown to exist -- one in which classical walker dominates and another in which quantum advantage is realized. Further, the latter regime shows two distinct scaling regimes with $l$. The quantum advantage can be tuned by varying the initial state and $l$. Surprisingly, a significant quantum-induced speedup is realized for large $l$. By tuning the initial state, the extent of quantum advantage can be modified -- from mild to exponential. This is explicitly demonstrated on two discrete topologies: a line and a binary tree.
翻訳日:2023-01-19 18:27:12 公開日:2022-12-05
# 並列量子コンピューティングのためのソフトウェア

Software for Massively Parallel Quantum Computing ( http://arxiv.org/abs/2211.13355v2 )

ライセンス: Link先を確認
Thien Nguyen, Daanish Arya, Marcus Doherty, Nils Herrmann, Johannes Kuhlmann, Florian Preis, Pat Scott, and Simon Yin(参考訳) 量子コンピューティングは、従来のコンピューティングよりも大きな計算上の利点を提供する可能性がある。 量子コンピューティングハードウェアとアルゴリズムの最近の進歩により、古典的に並列な量子ワークロードのクラスが可能となり、個々の量子回路は多くの量子処理ユニットで独立に実行することができる。 本稿では,ハイブリッド量子ワークロードのためのマルチモーダル並列化を実現するため,quantum brillianceで開発されたフルスタックソフトウェアフレームワークを提案する。 当社のソフトウェアは、ローカルネットワーククラスタのノードがホストする複数の量子アクセラレータに量子ワークロードを分散したり、業界標準のmpi(message passing interface)プロトコルを使用してワークロードを多数のクラウドホスト型量子アクセラレータに分散する機能を提供する。

Quantum computing has the potential to offer substantial computational advantages over conventional computing. Recent advances in quantum computing hardware and algorithms have enabled a class of classically parallel quantum workloads, whereby individual quantum circuits can execute independently on many quantum processing units. Here, we present the full-stack software framework developed at Quantum Brilliance to enable multi-modal parallelism for hybrid quantum workloads. Our software provides the capability to distribute quantum workloads across multiple quantum accelerators hosted by nodes of a locally-networked cluster, via the industry-standard MPI (Message Passing Interface) protocol, or to distribute workloads across a large number of cloud-hosted quantum accelerators.
翻訳日:2023-01-19 01:14:32 公開日:2022-12-05
# 量子コンピュータの状態形成のための投影アルゴリズム

Projection algorithm for state preparation on quantum computers ( http://arxiv.org/abs/2211.10545v2 )

ライセンス: Link先を確認
I. Stetcu, A. Baroni, and J. Carlson(参考訳) 本稿では,量子ハードウェア上で多体系の状態を作り,まず個々の量子数を分離し,次に時間発展を用いてエネルギーを分離する効率的な方法を提案する。 最も単純な形式では、補助キュービットを1つ追加するだけでよい。 正確な解法のために進化した総時間は、試験状態のスペクトル範囲と最低励起状態とのギャップの比に比例し、時間とともに指数関数的に精度が上昇する。 量子数の分離は既知の固有値のため効率的であり、ギャップを増加させることで伝播時間を短縮できる。 アルゴリズムの成功率(または所望の状態を生成する確率)は、測定時間と位相の単純な関数であり、元の状態と所望の状態との2乗重なりによって支配される。 本稿では核シェルモデルとハイゼンベルク模型の例を示す。 我々は,このアルゴリズムと先行アルゴリズムを比較し,さらなる改善の可能性について議論する。

We present an efficient method to prepare states of a many-body system on quantum hardware, first isolating individual quantum numbers and then using time evolution to isolate the energy. Our method in its simplest form requires only one additional auxiliary qubit. The total time evolved for an accurate solution is proportional to the ratio of the spectrum range of the trial state to the gap to the lowest excited state, and the accuracy increases exponentially with the time evolved. Isolating the quantum numbers is efficient because of the known eigenvalues, and increases the gap thus shortening the propagation time required. The success rate of the algorithm, or the probability of producing the desired state, is a simple function of measurement times and phases and is dominated by the square overlap of the original state to the desired state. We present examples from the nuclear shell model and the Heisenberg model. We compare this algorithm to previous algorithms for short evolution times and discuss potential further improvements.
翻訳日:2023-01-18 02:04:11 公開日:2022-12-05
# Representation Internal-Manipulation (RIM) : 神経刺激による意識の計算理論

Representation Internal-Manipulation (RIM): A Neuro-Inspired Computational Theory of Consciousness ( http://arxiv.org/abs/1912.13490v2 )

ライセンス: Link先を確認
Gianluca Baldassarre and Giovanni Granato(参考訳) 神経科学的、心理学的実証的証拠と計算的概念に基づく多くの理論は、中枢神経系における意識の出現を説明するために精巧に説明されてきた。 これらの理論は意識を説明する重要な基本的なメカニズムを提案するが、そのメカニズムを意識の機能的かつ適応的な役割と部分的に結びつけるだけである。 最近、認知的・神経科学的モデルによっては、哺乳類が挑戦的な環境で柔軟に行動できる中心的な認知プロセスである、目標指向行動の様々な側面に意識をリンクさせることによって、このギャップを解決しようとしている。 本稿では,意識論の主要な要素を目標指向行動の構成要素と機能に結びつけ,意識の中心的な役割と目標指向的内的表現操作を規定する「意識の表象内マニピュレーション(rim)理論」を提案する。 この操作は、4つの特定の計算操作に依存し、対象の表現から目標、行動、計画まで、目標指向計算の全ての重要な要素を柔軟に内部的に適応させる。 最後に,エージェントの感覚と表現の内的操作を関連づけた「マニピュレーション・エージェンシー」の概念を提案する。 これにより、意識の主観的体験が人間の能力と結びつき、外界に取り組むのと同じ知覚的・感情的なメカニズムを通じて、視覚的に知覚され、知覚される模擬内的現実を創造し、制御することを提案する。

Many theories, based on neuroscientific and psychological empirical evidence and on computational concepts, have been elaborated to explain the emergence of consciousness in the central nervous system. These theories propose key fundamental mechanisms to explain consciousness, but they only partially connect such mechanisms to the possible functional and adaptive role of consciousness. Recently, some cognitive and neuroscientific models try to solve this gap by linking consciousness to various aspects of goal-directed behaviour, the pivotal cognitive process that allows mammals to flexibly act in challenging environments. Here we propose the Representation Internal-Manipulation (RIM) theory of consciousness, a theory that links the main elements of consciousness theories to components and functions of goal-directed behaviour, ascribing a central role for consciousness to the goal-directed manipulation of internal representations. This manipulation relies on four specific computational operations to perform the flexible internal adaptation of all key elements of goal-directed computation, from the representations of objects to those of goals, actions, and plans. Finally, we propose the concept of `manipulation agency' relating the sense of agency to the internal manipulation of representations. This allows us to propose that the subjective experience of consciousness is associated to the human capacity to generate and control a simulated internal reality that is vividly perceived and felt through the same perceptual and emotional mechanisms used to tackle the external world.
翻訳日:2023-01-16 20:07:44 公開日:2022-12-05
# 代数的減衰密度-密度相互作用をもつボソニック格子モデルにおける結晶相の系統的解析

Systematic Analysis of Crystalline Phases in Bosonic Lattice Models with Algebraically Decaying Density-Density Interactions ( http://arxiv.org/abs/2212.02091v1 )

ライセンス: Link先を確認
J.A. Koziol, A. Duft, G. Morigi, K.P. Schmidt(参考訳) 任意の格子上の代数的に減衰する密度-密度相互作用を持つボソニック格子モデルにおける対角秩序パターンの解析方法を提案する。 鍵となるアイデアは、格子のすべての単位セルのエネルギー的に最善の順序を与えられた範囲まで体系的に探索することである。 再合成結合を用いて有限単位セルを用いて熱力学的極限における秩序パターンのエネルギーを評価する。 三角格子上の拡張ボース・ハバード模型の原子限界に対して, 提案手法を適用して, $f=1/2$ および $f=1$ を満たす。 三角格子上での反強磁性長距離Isingモデルの基底状態特性について検討し, 有限減衰指数の基底状態である6重縮退平ストライプ位相を決定する。 また、Rydberg 原子配列を記述する Fendley-Sengupta-Sachdev モデルの古典的極限を探索する。 我々は、カゴメ格子のサイトやリンク上に原子が配置されている配置に焦点を当てる。

We propose a general approach to analyse diagonal ordering patterns in bosonic lattice models with algebraically decaying density-density interactions on arbitrary lattices. The key idea is a systematic search for the energetically best order on all unit cells of the lattice up to a given extent. Using resummed couplings we evaluate the energy of the ordering patterns in the thermodynamic limit using finite unit cells. We apply the proposed approach to the atomic limit of the extended Bose-Hubbard model on the triangular lattice at fillings $f=1/2$ and $f=1$. We investigate the ground-state properties of the antiferromagnetic long-range Ising model on the triangular lattice and determine a six-fold degenerate plain-stripe phase to be the ground state for finite decay exponents. We also probe the classical limit of the Fendley-Sengupta-Sachdev model describing Rydberg atom arrays. We focus on arrangements where the atoms are placed on the sites or links of the Kagome lattice.
翻訳日:2023-01-09 22:58:24 公開日:2022-12-05
# ミリケルビン温度におけるナノメートルYIG薄膜のスピン波分光

Propagating spin-wave spectroscopy in nanometer-thick YIG films at millikelvin temperatures ( http://arxiv.org/abs/2212.02257v1 )

ライセンス: Link先を確認
Sebastian Knauer, Krist\'yna Dav\'idkov\'a, David Schmoll, Rostyslav O. Serha, Andrey Voronov, Qi Wang, Morris Lindner, Timmy Reimann, Carsten Dubs, Michal Urb\'anek, Andrii Chumak(参考訳) ミリケルビン温度における薄膜の伝搬スピン波分光は、量子応用のための大規模集積マグノン回路の実現に向けた次のステップである。 ここでは100,\mathrm{nm}$-thick yttrium-iron-garnet薄膜において,YIG表面上に堆積したストリップ状ナノアンテナを用いて,温度を45,\mathrm{mK}$とするスピン波伝搬を実証する。 10\,\mu \mathrm{m}$の距離における明瞭な透過特性を測定し、減算されたスピン波群速度とyig飽和磁化は理論値とよく一致する。 ガドリニウム-ガリウム-ガリウム-ガーネット基板は、印加磁場が75\,\mathrm{mt}$を超える場合にのみスピン波伝播特性に影響を及ぼすことが示され、ggg磁化により447 \,\mathrm{ka/m}$が45 \,\mathrm{mk}$となることが示されている。 以上の結果から, 製造・測定手法によりミリケルビン温度におけるマグノニック量子ナノテクノロジーの集積化が可能となった。

Performing propagating spin-wave spectroscopy of thin films at millikelvin temperatures is the next step towards the realisation of large-scale integrated magnonic circuits for quantum applications. Here we demonstrate spin-wave propagation in a $100\,\mathrm{nm}$-thick yttrium-iron-garnet film at the temperatures down to $45 \,\mathrm{mK}$, using stripline nanoantennas deposited on YIG surface for the electrical excitation and detection. The clear transmission characteristics over the distance of $10\,\mu \mathrm{m}$ are measured and the subtracted spin-wave group velocity and the YIG saturation magnetisation agree well with the theoretical values. We show that the gadolinium-gallium-garnet substrate influences the spin-wave propagation characteristics only for the applied magnetic fields beyond $75\,\mathrm{mT}$, originating from a GGG magnetisation up to $47 \,\mathrm{kA/m}$ at $45 \,\mathrm{mK}$. Our results show that the developed fabrication and measurement methodologies enable the realisation of integrated magnonic quantum nanotechnologies at millikelvin temperatures.
翻訳日:2023-01-09 22:57:39 公開日:2022-12-05
# ハドロン化のためのハイブリッド古典/ライドバーグシミュレータ(QuPYTH)へのプロレグメナ

Prolegomena to a hybrid Classical/Rydberg simulator for hadronization (QuPYTH) ( http://arxiv.org/abs/2212.02476v1 )

ライセンス: Link先を確認
Kenneth Heitritter, Yannick Meurice, Stephen Mrenna(参考訳) PYTHIAイベントジェネレータを用いた中性リドバーグ原子の2脚ラグ構成に基づいて,古典的にシミュレートされたハドロン化モデルの統合を提案する。 2脚のはしごディスプレイ上の1つの中心励起のリアルタイム進化は、ハドロン化のためにPYTHIAで使用される現在のLund文字列の断片化モデルに類似している。 最大26個の原子を持つRydbergシミュレータのリアルタイム進化を古典的に計算する。 サイトを増加させる行動は、モデルが現在のqueraハードウェアを使って現実的なハドロン多重性に近づいていることを示唆している。

We present the classically simulated integration of a hadronization model, based on a two-leg ladder configuration of neutral Rydberg atoms, with the PYTHIA event generator. The real-time evolution of a single central excitation, interpreted as a charge-anticharge, on the two-leg ladder displays features similar to string-breaking reminiscent of the current Lund string fragmentation model used in PYTHIA for hadronization. We calculate the real-time evolution classically for a Rydberg simulator with up to 26 atoms. The behavior for increasing sites suggests that the model would be approaching realistic hadron multiplicities using current QuEra hardware.
翻訳日:2023-01-09 22:56:23 公開日:2022-12-05
# アナログ量子シミュレータにおける創発的状態設計からのシャドウトモグラフィー

Shadow tomography from emergent state designs in analog quantum simulators ( http://arxiv.org/abs/2212.02543v1 )

ライセンス: Link先を確認
Max McGinley, Michele Fava(参考訳) 本稿では,自由度に対する大域的な制御のみを用いて,r\'enyiエントロピーなどの非線形関数を含む量子状態の多くの性質を推定する手法を提案する。 このプロトコルでは、興味のある状態は、射影測定を行う前に、まず、固定されたグローバルなユニタリの下で一連のアンシラと絡み合わされる。 我々は、ユニタリが十分に絡み合っているとき、状態の測定結果の統計と状態の性質の普遍的な関係が出現し、カオス系における創発的量子状態設計の最近発見された現象に結びつくことを示した。 この関係により、任意の観測可能なものは、古典的なシャドウトモグラフィー(Huang et al., Nat. Phys. 16, 1050 (2020)))で必要とされる同じ数の実験的な繰り返しを使って再構成することができる。 従来のシャドウトモグラフィー法とは異なり、このプロトコルは量子ビット選択論理ゲートとは対照的に大域的な操作だけで実装できるため、光学格子中の超低温原子やライドバーグ原子の配列を含むアナログ量子シミュレータに特に適している。

We introduce a method that allows one to infer many properties of a quantum state -- including nonlinear functions such as R\'enyi entropies -- using only global control over the constituent degrees of freedom. In this protocol, the state of interest is first entangled with a set of ancillas under a fixed global unitary, before projective measurements are made. We show that when the unitary is sufficiently entangling, a universal relationship between the statistics of the measurement outcomes and properties of the state emerges, which can be connected to the recently discovered phenomenon of emergent quantum state designs in chaotic systems. Thanks to this relationship, arbitrary observables can be reconstructed using the same number of experimental repetitions that would be required in classical shadow tomography [Huang et al., Nat. Phys. 16, 1050 (2020)]. Unlike previous approaches to shadow tomography, our protocol can be implemented using only global operations, as opposed to qubit-selective logic gates, which makes it particularly well-suited to analog quantum simulators, including ultracold atoms in optical lattices and arrays of Rydberg atoms.
翻訳日:2023-01-09 22:56:10 公開日:2022-12-05
# 量子力学実験モデルにおける状態の進化について

On the Evolution of States in a Quantum-Mechanical Model of Experiments ( http://arxiv.org/abs/2212.02599v1 )

ライセンス: Link先を確認
J\"urg Fr\"ohlich, Zhou Gang(参考訳) 量子力学における測定に関するフォン・ノイマンとl\"udersの仮定は、ギシンが提案した単純なモデルの文脈で議論され、批判されている。 本論文の目的は,そのモデルの数学的側面を分析し,量子力学におけるいわゆる「測定問題」に関する一般的な教訓を引き出すことであり,個々の物理系の状態の確率的時間発展に関する法則を決定する一般原理の導入の必要性を指摘した。

The postulates of von Neumann and L\"uders concerning measurements in quantum mechanics are discussed and criticized in the context of a simple model proposed by Gisin. The main purpose of our paper is to analyze some mathematical aspects of that model and to draw some general lessons on the so-called ``measurement problem'' in quantum mechanics pointing towards the need to introduce general principles that determine the law for the stochastic time evolution of states of individual physical systems.
翻訳日:2023-01-09 22:55:48 公開日:2022-12-05
# $^{133}$Ba$^+$における刺激されたラマン誘導論理ゲートの誤差

Errors in stimulated-Raman-induced logic gates in $^{133}$Ba$^+$ ( http://arxiv.org/abs/2212.02608v1 )

ライセンス: Link先を確認
Matthew J. Boguslawski and Zachary J. Wall and Samuel R. Vizvary and Isam Daniel Moore and Michael Bareian and David T. C. Allcock and David J. Wineland and Eric R. Hudson and Wesley C. Campbell(参考訳) {}^{133}\mathrm{ba}^+$ は光学遷移から遠く離れたレーザーによって照らされ、結果として自発的なラマン散乱速度が測定される。 観測された散乱速度は、以前の理論的推定よりも低い。 相違の大部分は、状態の散乱光子密度をより正確に処理することで説明される。 この研究は、以前のモデルとは異なり、レーザー誘起ラマン散乱によるレーザー駆動量子ゲートに根本的な制限はないことを証明している。

${}^{133}\mathrm{Ba}^+$ is illuminated by a laser that is far-detuned from optical transitions, and the resulting spontaneous Raman scattering rate is measured. The observed scattering rate is lower than previous theoretical estimates. The majority of the discrepancy is explained by a more accurate treatment of the scattered photon density of states. This work establishes that, contrary to previous models, there is no fundamental limit to laser-driven quantum gates from laser-induced spontaneous Raman scattering.
翻訳日:2023-01-09 22:30:31 公開日:2022-12-05
# デコヒーレンスは測定問題を解決できるか?

Can Decoherence Solve the Measurement Problem? ( http://arxiv.org/abs/2301.01207v1 )

ライセンス: Link先を確認
Mani L. Bhaumik(参考訳) 量子デコヒーレンスプログラムは、長年の量子測定問題に対する許容可能な解決策を提供することで、より魅力的になっている。 量子の絡み合いによるデコヒーレンスは、検出器を含む環境と量子システムを絡み合わせるために非常に早く起こる。 しかし、測定の最終段階では、絡み合っていないポインタ状態を取得することが問題となる。 量子エンタングルメントの破壊におけるユビキタス量子真空ゆらぎの効果に関する最近の実験的観察は、解を与えるものと思われる。

The quantum decoherence program has become more attractive in providing an acceptable solution for the long-standing quantum measurement problem. Decoherence by quantum entanglement happens very quickly to entangle the quantum system with the environment including the detector. But in the final stage of measurement, acquiring the unentangled pointer states poses some problems. Recent experimental observations of the effect of the ubiquitous quantum vacuum fluctuations in destroying quantum entanglement appears to provide a solution.
翻訳日:2023-01-09 22:29:52 公開日:2022-12-05
# 導波路qedにおける集合崩壊の発生に及ぼす環境相関の影響

Effects of environment correlations on the onset of collective decay in waveguide QED ( http://arxiv.org/abs/2212.01972v1 )

ライセンス: Link先を確認
Alberto Del \'Angel, P. Solano and P. Barberis-Blostein(参考訳) 光学ナノファイバー近傍の電磁真空場と相互作用する1と2つの2レベルの原子の動力学をボルン近似とマルコフ近似のいずれかを作らずに計算する。 定誘電率関数とドルーデ・ローレンツモデルを用いて、標準超および準ラジカル崩壊からの偏差を観測する。 非自明な環境相関にもかかわらず、ガイドフィールドの群速度に対する原子-原子間通信の速度を近似する妥当性について論じる。 本研究は、導波路qedの文脈における量子光学応用のための最近のプラットフォームにおける一般的な近似の有効性をより深く理解するものである。

We calculate the dynamics of one and two two-level atoms interacting with the electromagnetic vacuum field in the vicinity of an optical nanofiber without making either the Born or the Markov approximations. We use a constant dielectric function and the Drude-Lorentz model, observing deviations from the standard super- and sub-radiant decays. Despite the non-trivial environment correlations, we discuss the validity of approximating the speed of atom-atom communication to the group velocity of the guided field. Our work presents a deeper understanding of the validity of commonly used approximations in recent platforms for quantum optics applications in the context of waveguide QED.
翻訳日:2023-01-09 20:21:18 公開日:2022-12-05
# $^{171}$Yb固体量子ビットのためのハイブリッド量子フォトニックインタフェース

A hybrid quantum photonic interface for $^{171}$Yb solid-state qubits ( http://arxiv.org/abs/2212.01994v1 )

ライセンス: Link先を確認
Chun-Ju Wu, Daniel Riedel, Andrei Ruskuc, Ding Zhong, Hyounghan Kwon, Andrei Faraon(参考訳) yvo$_4$の$^{171}$yb$^{3+}$は、優れた光アドレス性、優れたスピン特性、二次核スピン量子レジスタを備えた量子ネットワークを構築する有望な候補である。 しかし、関連する長い光寿命は単一光子の放出を速くするために光共振器との結合を必要とし、単一の$^{171}$Ybイオンの制御を容易にする。 以前は、単一の$^{171}$Ybイオンは、長めの集束イオンビームミリングによって製造されたモノリシックフォトニック結晶キャビティと結合することで対処されていた。 ここでは,gaasフォトニック結晶キャビティのエバネッセント崩壊場に結合したイオンに基づくハイブリッドプラットフォームを設計し,作製する。 我々は、単一$^{171}$Ybイオンのコヒーレント光制御を実験的に検出し、実証した。 最も強く結合したイオンでは、寿命は64倍に減少する。 その結果、高度にスケーラブルなプラットフォームを使用して、$^{171}$Yb:YVO$_4$で量子ネットワークへの有望なルートを示す。

$^{171}$Yb$^{3+}$ in YVO$_4$ is a promising candidate for building quantum networks with good optical addressability, excellent spin properties and a secondary nuclear-spin quantum register. However, the associated long optical lifetime necessitates coupling to optical resonators for faster emission of single photons and to facilitate control of single $^{171}$Yb ions. Previously, single $^{171}$Yb ions were addressed by coupling them to monolithic photonic crystal cavities fabricated via lengthy focused ion beam milling. Here, we design and fabricate a hybrid platform based on ions coupled to the evanescently decaying field of a GaAs photonic crystal cavity. We experimentally detect and demonstrate coherent optical control of single $^{171}$Yb ions. For the most strongly coupled ions, we find a 64 fold reduction in lifetime. The results show a promising route towards a quantum network with $^{171}$Yb:YVO$_4$ using a highly scalable platform.
翻訳日:2023-01-09 20:21:08 公開日:2022-12-05
# ホーキング効果は物理的に到達不能な真の三部体非局所性を生み出す

Hawking effect can generate physically inaccessible genuine tripartite nonlocality ( http://arxiv.org/abs/2212.02245v1 )

ライセンス: Link先を確認
Tinggui Zhang, Xin Wang and Shao-Ming Fei(参考訳) 真空場に結合した1つまたは2つの加速検出器の真の三分極非局所性(GTN)に対する加速効果について検討した。 ホーキング放射は、特定の臨界ホーキング温度で「鈍い死」に苦しむ物理的にアクセス可能なgtnを劣化させる。 ホーキング効果が、曲面時空におけるフェルミオン場に対する物理的に到達不能な gtn、物理的に到達不能な gtn を生成できるという新しい現象が初めて観測された。 この結果は、GTNが特定の混合初期状態に対してブラックホールの事象水平線を通過可能であることを示している。 また,ホーキング効果の影響により,gte(real tripartite entanglement)と量子コヒーレンス(quantum coherence)のトレードオフ関係を解析的に導出した。

We explore the acceleration effect on the genuine tripartite nonlocality (GTN) for one or two accelerated detector(s) coupled to the vacuum field with initial mixed tripartite states. We show that the Hawking radiation degrades the physically accessible GTN, which suffers from "sudden death" at certain critical Hawking temperature. An novel phenomenon has been observed first time that the Hawking effect can generate the physically inaccessible GTN for fermion fields in curved spacetime, the "sudden birth" of the physically inaccessible GTN. This result shows that the GTN can pass through the event horizon of black hole for certain mixed initial states. We also derived analytically the tradeoff relations of genuine tripartite entanglement (GTE) and quantum coherence under the influence of Hawking effect.
翻訳日:2023-01-09 20:20:50 公開日:2022-12-05
# symQV:量子プログラムのシンボリック検証の自動化

symQV: Automated Symbolic Verification of Quantum Programs ( http://arxiv.org/abs/2212.02267v1 )

ライセンス: Link先を確認
Fabian Bauer-Marquart, Stefan Leue, Christian Schilling(参考訳) 量子回路モデルで量子計算を記述・検証するためのシンボリック実行フレームワークであるsymqvを提案する。 symQVは、量子プログラムが一階の仕様に準拠していることを自動的に検証することができる。 我々は正式に記号量子プログラムモデルを導入する。 これにより、検証問題をSMT式にエンコードし、デルタ完全決定手順でチェックすることができる。 また,検証プロセスを高速化するための抽象化手法を提案する。 実験結果から,24量子ビット(2^24次元状態空間)の量子プログラムに対して,symQVのスケーラビリティを桁違いに向上することが示された。

We present symQV, a symbolic execution framework for writing and verifying quantum computations in the quantum circuit model. symQV can automatically verify that a quantum program complies with a first-order specification. We formally introduce a symbolic quantum program model. This allows to encode the verification problem in an SMT formula, which can then be checked with a delta-complete decision procedure. We also propose an abstraction technique to speed up the verification process. Experimental results show that the abstraction improves symQV's scalability by an order of magnitude to quantum programs with 24 qubits (a 2^24-dimensional state space).
翻訳日:2023-01-09 20:20:35 公開日:2022-12-05
# フィン電界効果トランジスタにおける異方性交換を持つ2量子論理

Two-qubit logic with anisotropic exchange in a fin field-effect transistor ( http://arxiv.org/abs/2212.02308v1 )

ライセンス: Link先を確認
Simon Geyer, Bence Het\'enyi, Stefano Bosco, Leon C. Camenzind, Rafael S. Eggli, Andreas Fuhrer, Daniel Loss, Richard J. Warburton, Dominik M. Zumb\"uhl and Andreas V. Kuhlmann(参考訳) 半導体スピン量子ビットは、古典的トランジスタ技術を活用することで、スケーラブルな量子計算にユニークな機会を提供する。 ホールスピン量子ビットは高速な全電気量子ビット制御とスイーツスポットにより電荷と核スピンノイズに対抗できる。 現在の半導体産業のワークホースデバイスであるシリコンフィン電界効果トランジスタにおける2量子ゲートの実証は、依然としてオープンな課題である。 本稿では,業界互換デバイスにおいて,ホールスピン上の制御回転2量子ビットゲートを実演する。 24 nsの短いゲートタイムが達成される。 量子論理は500MHz以上からクローズ・トゥ・オフまで調整可能な交換相互作用を利用する。 重要なのは、この交換は著しく異方性だ。 一般理論を発展させることで、強いスピン軌道相互作用の結果、異方性が生じることを示す。 1つの量子ドットからもう1つの量子ドットにトンネルすると、スピンはほぼ90度回転する。 交換ハミルトニアンはもはやハイゼンベルク形式を持たず、2量子ゲートの速度と忠実性の間にトレードオフがないよう設計されている。 この理想的な振る舞いは、qubitからqubitへのバリエーションに関して、概念を堅牢にする幅広い磁場配向に適用できる。 我々の研究は、シリコントランジスタのホールスピン量子ビットを、大規模量子コンピュータの実現に一歩近づける。

Semiconductor spin qubits offer a unique opportunity for scalable quantum computation by leveraging classical transistor technology. Hole spin qubits benefit from fast all-electrical qubit control and sweet spots to counteract charge and nuclear spin noise. The demonstration of a two-qubit quantum gate in a silicon fin field-effect transistor, that is, the workhorse device of today's semiconductor industry, has remained an open challenge. Here, we demonstrate a controlled rotation two-qubit gate on hole spins in an industry-compatible device. A short gate time of 24 ns is achieved. The quantum logic exploits an exchange interaction that can be tuned from above 500 MHz to close-to-off. Significantly, the exchange is strikingly anisotropic. By developing a general theory, we show that the anisotropy arises as a consequence of a strong spin-orbit interaction. Upon tunnelling from one quantum dot to the other, the spin is rotated by almost 90 degrees. The exchange Hamiltonian no longer has Heisenberg form and is engineered in such a way that there is no trade-off between speed and fidelity of the two-qubit gate. This ideal behaviour applies over a wide range of magnetic field orientations rendering the concept robust with respect to variations from qubit to qubit. Our work brings hole spin qubits in silicon transistors a step closer to the realization of a large-scale quantum computer.
翻訳日:2023-01-09 20:20:28 公開日:2022-12-05
# 捕捉イオン量子コンピュータ上の軌道最適化対相関電子シミュレーション

Orbital-optimized pair-correlated electron simulations on trapped-ion quantum computers ( http://arxiv.org/abs/2212.02482v1 )

ライセンス: Link先を確認
Luning Zhao, Joshua Goings, Kenneth Wright, Jason Nguyen, Jungsang Kim, Sonika Johri, Kyujin Shin, Woomin Kyoung, Johanna I. Fuks, June-Koo Kevin Rhee, Young Min Rhee(参考訳) 変分量子固有ソルバ(vqe)は、短期量子コンピュータにおける電子構造問題を解決する最も有望な手法の一つである。 実際、vqe の批判的な課題は、近い将来の量子コンピュータにおけるノイズの多い量子演算の現実を考えると、vqe ansatz の表現性と ansatz の実装に必要な量子ゲートの数とのバランスを取る必要があることである。 本研究では,単一と二重(uCCSD)アンサッツを用いた一元結合クラスタに対する軌道最適化ペア相関近似について検討し,捕捉イオンアーキテクチャの高効率量子回路実装について報告する。 軌道最適化により、低次還元密度行列(RDM)の測定により、効率を犠牲にすることなく、重要な電子相関エネルギーを回収できることを示す。 小分子の解離では、ノイズのない量子シミュレーター上での強い相関状態において定性的に正確な予測を行う。 ionq のharmony と aria トラップ型量子コンピュータ上では、最大 12 量子ビットと72 変分パラメータを持つエンドツーエンドの vqe アルゴリズムを実行する。 その結果, 誤差緩和手法がなくても, 分子ジオメトリ間の相対エネルギーの予測はノイズフリーシミュレータとよく一致していることがわかった。

Variational quantum eigensolvers (VQE) are among the most promising approaches for solving electronic structure problems on near-term quantum computers. A critical challenge for VQE in practice is that one needs to strike a balance between the expressivity of the VQE ansatz versus the number of quantum gates required to implement the ansatz, given the reality of noisy quantum operations on near-term quantum computers. In this work, we consider an orbital-optimized pair-correlated approximation to the unitary coupled cluster with singles and doubles (uCCSD) ansatz and report a highly efficient quantum circuit implementation for trapped-ion architectures. We show that orbital optimization can recover significant additional electron correlation energy without sacrificing efficiency through measurements of low-order reduced density matrices (RDMs). In the dissociation of small molecules, the method gives qualitatively accurate predictions in the strongly-correlated regime when running on noise-free quantum simulators. On IonQ's Harmony and Aria trapped-ion quantum computers, we run end-to-end VQE algorithms with up to 12 qubits and 72 variational parameters - the largest full VQE simulation with a correlated wave function on quantum hardware. We find that even without error mitigation techniques, the predicted relative energies across different molecular geometries are in excellent agreement with noise-free simulators.
翻訳日:2023-01-09 20:19:59 公開日:2022-12-05
# アナログ量子シミュレーションにおける任意物性の測定

Measuring Arbitrary Physical Properties in Analog Quantum Simulation ( http://arxiv.org/abs/2212.02517v1 )

ライセンス: Link先を確認
Minh C. Tran, Daniel K. Mark, Wen Wei Ho, and Soonwon Choi(参考訳) アナログ量子シミュレーションにおける中心的な課題は、実験で生成された量子状態の望ましい物理的性質を特徴づけることである。 しかし、従来の手法では、任意の情報の抽出には、現在の量子デバイスが持たない高いレベルの制御を必要とする多くの異なるベースでの計測が必要である。 本稿では,汎用量子力学のエルゴード的性質を活かし,多くの物理特性の効率的な抽出を可能にするスケーラブルなプロトコルの提案と解析を行う。 このプロトコルは洗練された制御を必要とせず、今日ではアナログ量子シミュレーションプラットフォームに汎用的に実装することができる。 提案手法では, 一定条件下で一定の自由度を利子系に導入し, 特定の実験プラットフォームに固有なハミルトニアン・ダイナミクスの下でジョイント・システムをクエンチし, 単一の固定基底でグローバルに測定する。 これらの測定データには、元の量子状態の任意の情報が含まれており、古典的なデータ処理手順を用いて抽出可能であることを示す。 我々は, 光学格子上の中性原子配列, ボゾン粒子, フェルミオン粒子の系における絡み合いエントロピー, 多体チャーン数, および様々な超伝導秩序の測定など, 既存の技術能力を前提として, このアプローチを数値的に示す。 我々のプロトコルは、制限された制御性を克服し、短期量子技術の汎用性と実用性を高めることをエキサイティングに約束する。

A central challenge in analog quantum simulation is to characterize desirable physical properties of quantum states produced in experiments. However, in conventional approaches, the extraction of arbitrary information requires performing measurements in many different bases, which necessitates a high level of control that present-day quantum devices may not have. Here, we propose and analyze a scalable protocol that leverages the ergodic nature of generic quantum dynamics, enabling the efficient extraction of many physical properties. The protocol does not require sophisticated controls and can be generically implemented in analog quantum simulation platforms today. Our protocol involves introducing ancillary degrees of freedom in a predetermined state to a system of interest, quenching the joint system under Hamiltonian dynamics native to the particular experimental platform, and then measuring globally in a single, fixed basis. We show that arbitrary information of the original quantum state is contained within such measurement data, and can be extracted using a classical data-processing procedure. We numerically demonstrate our approach with a number of examples, including the measurements of entanglement entropy, many-body Chern number, and various superconducting orders in systems of neutral atom arrays, bosonic and fermionic particles on optical lattices, respectively, only assuming existing technological capabilities. Our protocol excitingly promises to overcome limited controllability and, thus, enhance the versatility and utility of near-term quantum technologies.
翻訳日:2023-01-09 20:19:36 公開日:2022-12-05
# 非凸最適化のための量子アルゴリズムのロバスト性

Robustness of Quantum Algorithms for Nonconvex Optimization ( http://arxiv.org/abs/2212.02548v1 )

ライセンス: Link先を確認
Weiyuan Gong, Chenyi Zhang, Tongyang Li(参考訳) 最近の結果は、量子コンピュータが非凸最適化問題を高速化する可能性を示唆している。 しかし、量子最適化アルゴリズムの実装において重要な要素は、実験的および統計的ノイズに対する堅牢性である。 本稿では,非凸最適化の基本問題であるd$-dimensional nonconvex関数の2次定常点(\epsilon$-sosp)を入力として,ノイズゼロまたは1次オラクルを入力として,量子アルゴリズムを体系的に研究する。 我々はまず、$O(\epsilon^{10}/d^5)$の雑音に対して、量子勾配推定による摂動勾配の加速は$O(\log d/\epsilon^{1.75})$の量子クエリを$\epsilon$-SOSPを求める。 次に,摂動勾配降下は,0次および1次オラクルにおいて$o(\epsilon^6/d^4)$と$o(\epsilon/d^{0.5+\zeta})$が$\zeta>0$の雑音に対して頑健であることを証明する。 次に,0次および1次オラクルでは,それぞれ$o(\epsilon^{1.5}/d)$と$o(\epsilon/\sqrt{d})$にロバストであるガウス平滑化の量子平均推定を用いた確率的勾配降下アルゴリズムを提案する。 量子アルゴリズムは、$O(d^{2.5}/\epsilon^{3.5})$と$O(d^2/\epsilon^3)$のクエリを2つのオラクルに受け取り、古典的なアルゴリズムよりも多項式の高速化を与える。 さらに、量子アルゴリズムが多対数、多項式、指数的なクエリ数を持つ$\epsilon$-SOSPを$d$で見つけることができる領域を特徴づける。 さらに、任意のランダム化された古典的および量子的アルゴリズムに対して、$\Omega(\epsilon^{-12/7})$ lower bound in $\epsilon$を証明し、ノイズの多いゼロトまたは1次オラクルを用いて$\epsilon$-SOSPを求める。

Recent results suggest that quantum computers possess the potential to speed up nonconvex optimization problems. However, a crucial factor for the implementation of quantum optimization algorithms is their robustness against experimental and statistical noises. In this paper, we systematically study quantum algorithms for finding an $\epsilon$-approximate second-order stationary point ($\epsilon$-SOSP) of a $d$-dimensional nonconvex function, a fundamental problem in nonconvex optimization, with noisy zeroth- or first-order oracles as inputs. We first prove that, up to noise of $O(\epsilon^{10}/d^5)$, accelerated perturbed gradient descent with quantum gradient estimation takes $O(\log d/\epsilon^{1.75})$ quantum queries to find an $\epsilon$-SOSP. We then prove that perturbed gradient descent is robust to the noise of $O(\epsilon^6/d^4)$ and $O(\epsilon/d^{0.5+\zeta})$ for $\zeta>0$ on the zeroth- and first-order oracles, respectively, which provides a quantum algorithm with poly-logarithmic query complexity. We then propose a stochastic gradient descent algorithm using quantum mean estimation on the Gaussian smoothing of noisy oracles, which is robust to $O(\epsilon^{1.5}/d)$ and $O(\epsilon/\sqrt{d})$ noise on the zeroth- and first-order oracles, respectively. The quantum algorithm takes $O(d^{2.5}/\epsilon^{3.5})$ and $O(d^2/\epsilon^3)$ queries to the two oracles, giving a polynomial speedup over the classical counterparts. Moreover, we characterize the domains where quantum algorithms can find an $\epsilon$-SOSP with poly-logarithmic, polynomial, or exponential number of queries in $d$, or the problem is information-theoretically unsolvable even by an infinite number of queries. In addition, we prove an $\Omega(\epsilon^{-12/7})$ lower bound in $\epsilon$ for any randomized classical and quantum algorithm to find an $\epsilon$-SOSP using either noisy zeroth- or first-order oracles.
翻訳日:2023-01-09 20:19:11 公開日:2022-12-05
# 多元系不拡張積基底の構築と正部分転置絡み状態の絡み合い幾何学的測度

Construction of multipartite unextendible product bases and geometric measure of entanglement of positive-partial-transpose entangled states ( http://arxiv.org/abs/2212.02446v1 )

ライセンス: Link先を確認
Yize Sun, Baoshan Wang, Shiru Li(参考訳) 量子情報理論において、多部的無拡張製品基盤(UPB)を構築することは根本的な問題である。 ヒルベルト空間に2つのupbが存在することを示した: $\mathbb{c}^2\otimes\mathbb{c}^2\otimes\mathbb{c}^2\otimes\mathbb{c}^2\otimes\mathbb{c}^2\otimes\mathbb{c}^4$ 既存の7ドルのupbの2つの異なるシステムとサイズが111$である。 さらに、ランクが2^7〜11$の7-qubit positive-partial-transpose(PPT)アンタングル状態の新しいファミリーを構築する。 特殊ppt絡み合い状態の絡み合いの幾何学的測度を解析的に導出する。 また、上界は2つの方法によって与えられる。

In quantum information theory, it is a fundamental problem to construct multipartite unextendible product bases (UPBs). We show that there exist two families UPBs in Hilbert space $\mathbb{C}^2\otimes\mathbb{C}^2\otimes\mathbb{C}^2\otimes\mathbb{C}^2\otimes\mathbb{C}^2\otimes\mathbb{C}^4$ by merging two different systems of an existing $7$-qubit UPB of size $11$. Moreover, a new family of $7$-qubit positive-partial-transpose (PPT) entangled states of rank $2^7-11$ is constructed. We analytically derive a geometric measure of entanglement of a special PPT entangled states. Also an upper bound are given by two methods.
翻訳日:2023-01-09 19:55:01 公開日:2022-12-05
# オフザシェルフ光学部品のみを用いた非縮退極性光子対の超高輝度サニャック型光源

Ultrabright Sagnac-type source of non-degenerate polarization-entangled photon pairs using only off-the-shelf optical components ( http://arxiv.org/abs/2212.02461v1 )

ライセンス: Link先を確認
Jakub Szlachetka, Kaushik Joarder, Piotr Kolenderski(参考訳) 我々は,高安定かつコンパクトな超高輝度非退化光子対のサニャック型光源を開発する。 私たちは20〜\text{mm}$のpplnバルク結晶を使い、それを532〜\text{nm}$の波長で連続的に励起すると、785〜\text{nm}$ signalと1651〜\text{nm}$ idlerの光子ペアをtype-0の自発的パラメトリックダウンコンバージョン(spdc)プロセスで生成する。 このセットアップで使用される全ての光学部品は市販の既製部品であるため、カスタムデザインや高価な多波長偏光光学は不要である。 同時に、サニャック型設計の幾何学のため、さらなるアクティブな安定化なしに長期の位相安定性が達成される。 また,本論文では,非退化偏光エンタングル光子対の最も高い輝度の1つを報告した。 非常に低いポンプパワーが0.034~\text{mW}$であっても、偶然の速度は(6.96\pm 0.03)\times10^{4}$ entangled pairs/sec/mW(H/V、D/A、R/L ベース)を検出する。 ソースの輝度は$(6.17\pm 0.04)\times10^{6}$ エンタングルペア/sec/mwと計算され、信号線幅は$0.4~\text{nm}$である。 生の偶然数から(バックグラウンドの誤り訂正なしに)、絡み合った状態の忠実度は$(96.72\pm 0.01)\%$で、一致度は$(94.68\pm 0.20)\%$と測定される。 Bell-CHSHの不平等違反は$S=2.71\pm 0.06$と報告されている。

We develop a Sagnac-type source of ultrabright, non-degenerate, polarization-entangled photon pair that is highly stable and compact simultaneously. We use a $20~\text{mm}$ long PPLN bulk crystal which, upon pumping continuously with $532~\text{nm}$ wavelength, produces polarization-entangled photon-pairs of $785~\text{nm}$ signal and $1651~\text{nm}$ idler wavelengths via the type-0 spontaneous parametric down-conversion (SPDC) process. All optical components used in the setup are off-the-shelf components, readily available commercially; hence, no custom-designed or costly multi-wavelength polarization optics are required. At the same time, long-term phase stability is achieved without any additional active stabilization; due to the geometry of our Sagnac-type design. We also report one of the highest brightness of non-degenerate polarization-entangled photon pairs available in the literature. Even with a very low pump power of $0.034~\text{mW}$, we detect a coincidence rate of $(6.96\pm 0.03)\times10^{4}$ entangled pairs/sec/mW (averaged over three polarization-basis measurements: H/V, D/A, and R/L basis). The source's brightness is calculated to be $(6.17\pm 0.04)\times10^{6}$ entangled pairs/sec/mW for the signal line width of $0.4~\text{nm}$. From the raw coincidence counts (without any background coincidence correction), the fidelity of the entangled state is measured to be $(96.72\pm 0.01)\%$ with a concurrence of $(94.68\pm 0.20)\%$. Bell-CHSH inequality violation is reported as $S=2.71\pm 0.06$.
翻訳日:2023-01-09 19:54:38 公開日:2022-12-05
# 分散量子アニーリングへの道

A path towards distributed quantum annealing ( http://arxiv.org/abs/2212.02465v1 )

ライセンス: Link先を確認
Ra\'ul Santos, Lorenzo Buffoni and Yasser Omar(参考訳) 量子アニーリングは、いくつかの最適化問題に取り組む強力なツールであることが証明されている。 しかし、その性能は1つのチップに収まる量子ビットの数とローカル接続によって著しく制限されている。 本研究では,これらの問題に対処するため,分散量子アニーリングを行うプロトコルを提案する。 提案手法は, 局所的および非局所的なステップに断続的進化をスライスし, 後者は絡み合い支援による局所的操作と古典的コミュニケーション(eLOCC)を用いて分散する。 トロッターのステップサイズに関する理論的境界と、ノイズが存在する場合でもプロセスの分布確率が確立されている。 これらの境界はシステムの進化を数値的にシミュレートすることで検証され、複雑性が増大する様々なアニーリング問題に対して検証されている。

Quantum Annealing has proven to be a powerful tool to tackle several optimization problems. However, its performances are severely limited by the number of qubits we can fit on a single chip and their local connectivity. In order to address these problems, in this work, we propose a protocol to perform distributed quantum annealing. Our approach relies on Trotterization to slice the adiabatic evolution into local and non-local steps, the latter which are distributed using entanglement-assisted local operations and classical communications (eLOCC). Theoretical bounds on the Trotter step size and successful distribution probability of the process have been established, even in the presence of noise. These bounds have been validated by simulating numerically the evolution of the system, for a range of annealing problems of increasing complexity.
翻訳日:2023-01-09 19:53:58 公開日:2022-12-05
# 量子資源理論には有限完全単調集合が存在するか?

Is there a finite complete set of monotones in any quantum resource theory? ( http://arxiv.org/abs/2212.02473v1 )

ライセンス: Link先を確認
Chandan Datta, Ray Ganardi, Tulja Varun Kondra, Alexander Streltsov(参考訳) エンタングルメント量子化は、量子情報処理タスクにおける量子状態の値を評価することを目的としている。 密接に関連する問題は状態変換性であり、2つのリモートパーティが量子粒子を交換することなく共有量子状態を別のパーティに変換できるかどうかを問う。 ここでは、量子の絡み合いと一般の量子資源理論とのこの関係を探求する。 リソース自由な純粋状態を含む任意の量子資源理論に対して、全ての状態変換を完全に決定するリソース単調の有限集合は存在しないことを示す。 これらの制限は、不連続あるいは無限のモノトンの集合が考慮されている場合、あるいは量子触媒を用いてどのように超えるかについて議論する。 また、全ての量子状態に対して自由変換が存在する完全順序の資源理論の枠組みも導入する。 このような資源理論は、単一の資源単調を持つ理論と同値であり、すべての純粋状態間の自由変換を可能にする。 単一量子系に対しては、完全に順序付けられた資源理論に対する状態変換の完全な特徴付けを提供する。

Entanglement quantification aims to assess the value of quantum states for quantum information processing tasks. A closely related problem is state convertibility, asking whether two remote parties can convert a shared quantum state into another one without exchanging quantum particles. Here, we explore this connection for quantum entanglement and for general quantum resource theories. For any quantum resource theory which contains resource-free pure states, we show that there does not exist a finite set of resource monotones which completely determines all state transformations. We discuss how these limitations can be surpassed, if discontinuous or infinite sets of monotones are considered, or by using quantum catalysis. We also introduce the framework of totally ordered resource theories, where a free transformation exists for any pair of quantum states. We show that such resource theories are equivalent to theories with a single resource monotone, and allow for free transformations between all pure states. For single-qubit systems, we provide a full characterization of state transformations for any totally ordered resource theory.
翻訳日:2023-01-09 19:53:46 公開日:2022-12-05
# 超伝導プロセッサのバックプロパゲーションを備えたディープ量子ニューラルネットワーク

Deep quantum neural networks equipped with backpropagation on a superconducting processor ( http://arxiv.org/abs/2212.02521v1 )

ライセンス: Link先を確認
Xiaoxuan Pan, Zhide Lu, Weiting Wang, Ziyue Hua, Yifang Xu, Weikang Li, Weizhou Cai, Xuegang Li, Haiyan Wang, Yi-Pu Song, Chang-Ling Zou, Dong-Ling Deng, Luyan Sun(参考訳) ディープラーニングと量子コンピューティングは近年、劇的な進歩を遂げている。 これら2つの急成長分野の相互作用は、量子機械学習の新しい研究フロンティアを生み出している。 本研究では,6ビットプログラマブル超伝導プロセッサを用いたバックプロパゲーションアルゴリズムを用いて,深部量子ニューラルネットワークのトレーニング実験を行った。 特に、3層深層量子ニューラルネットワークは、平均忠実度96.0%の2量子ビット量子チャネルと、理論値と比較して93.3%の精度で分子水素の基底状態エネルギーを効率的に学習できることを示した。 さらに、6層のディープ量子ニューラルネットワークを同様の方法でトレーニングすることで、単一量子チャネルを学習するための平均忠実度を94.8%まで達成することができる。 我々の実験結果は、バックプロパゲーションアルゴリズムの量子アナログや、物理量子ビットを構成するための厳密なコヒーレンス時間要件など、ディープ量子ニューラルネットワークの利点を明確に示しており、近い将来の量子デバイスと将来の量子デバイスの両方で量子機械学習アプリケーションに有用なガイドを提供する。

Deep learning and quantum computing have achieved dramatic progresses in recent years. The interplay between these two fast-growing fields gives rise to a new research frontier of quantum machine learning. In this work, we report the first experimental demonstration of training deep quantum neural networks via the backpropagation algorithm with a six-qubit programmable superconducting processor. In particular, we show that three-layer deep quantum neural networks can be trained efficiently to learn two-qubit quantum channels with a mean fidelity up to 96.0% and the ground state energy of molecular hydrogen with an accuracy up to 93.3% compared to the theoretical value. In addition, six-layer deep quantum neural networks can be trained in a similar fashion to achieve a mean fidelity up to 94.8% for learning single-qubit quantum channels. Our experimental results explicitly showcase the advantages of deep quantum neural networks, including quantum analogue of the backpropagation algorithm and less stringent coherence-time requirement for their constituting physical qubits, thus providing a valuable guide for quantum machine learning applications with both near-term and future quantum devices.
翻訳日:2023-01-09 19:53:31 公開日:2022-12-05
# 量子情報ボトルネック法による量子ニューラルネットワークの訓練

Training quantum neural networks using the Quantum Information Bottleneck method ( http://arxiv.org/abs/2212.02600v1 )

ライセンス: Link先を確認
Ahmet Burak Catli, Nathan Wiebe(参考訳) 情報ボトルネック(インフォメーション・ボトルネック)は、tishbyらによって導かれた古典的な情報理論の概念であり、ニューラルネットワークにおける情報の流れの研究に使われている。 このアプローチは、情報処理問題を推論問題として構成し、そのプロセスによってどれだけの「関連」情報が保持されているかを定量化しようとするものである。 O(\log^2(1/\epsilon) + 1/\delta^2)$が$\{0\}~\bigcup ~[\delta,1-1/\delta]$に対して$\delta>0$でサポートされ、関連する密度行列のカーネルが不整合である場合、密度演算子の浄化に$O(\log^2(1/\epsilon) + 1/\delta^2)$が必要とされる。 さらに, qib関数の導関数を推定するアルゴリズムを提供し, 必要な勾配ステップ数が多項式であることから, 量子ニューラルネットワークをqib量を用いて効率的に学習できることを示す。 したがって、この研究は、量子領域における情報のボトルネックを計算するだけでなく、量子ニューラルネットワークを通過する際に最も多くの関連する情報を保存する局所的最適チャネルを訓練するアルゴリズムを考案することができることを示す。

Information Bottleneck is a concept in classical information theory derived by Tishby et al. that has been used to study information flow in neural networks. This approach frames an information processing problem as an inference problem and tries to quantify how much of the "relevant" information is retained by the process, relevance here being measured with mutual information between the input/output and some fixed ground truth. We provide a rigorous algorithm for computing the value of the quantum information bottleneck quantity within error $\epsilon$ that requires $O(\log^2(1/\epsilon) + 1/\delta^2)$ queries to a purification of the density operator if its spectrum is supported on $\{0\}~\bigcup ~[\delta,1-1/\delta]$ for $\delta>0$ and the kernels of the relevant density matrices are disjoint. We further provide algorithms for estimating the derivatives of the QIB function, showing that quantum neural networks can be trained efficiently using the QIB quantity given that the number of gradient steps required is polynomial. This work therefore shows a way to not only compute information bottlenecks in the quantum realm, but also that algorithms can be devised that train a locally optimal channel that preserves the most amount of relevant information as it passes through a quantum neural network.
翻訳日:2023-01-09 19:53:13 公開日:2022-12-05
# フラストレーションリングモデルのためのダイアバティック量子アニール

Diabatic Quantum Annealing for the Frustrated Ring Model ( http://arxiv.org/abs/2212.02624v1 )

ライセンス: Link先を確認
Jeremy C\^ot\'e, Fr\'ed\'eric Sauvage, Mart\'in Larocca, Mat\'ias Jonsson, Lukasz Cincio and Tameem Albash(参考訳) 量子アニーリング(Quantum annealing)は、古典的な最適化問題を解くか、あるいは解くための連続時間ヒューリスティックな量子アルゴリズムである。 このアルゴリズムは、運転者ハミルトニアンの基底状態と、最適化問題に対する解を符号化するハミルトニアンの問題を補間するためにスケジュールを使用する。 標準的な実装では、システムは即時基底状態に高い確率で保持し、即時基底と励起状態の間の最小エネルギーギャップと逆の時間スケールを必要とする。 しかし、断熱的な進化は、計算学的に単純な問題であっても、システムサイズに指数関数的にスケールする進化時間をもたらす可能性がある。 そこで本研究では,アニールスケジュールを最適化した非断熱的進化が,フラストレーションリングモデルと呼ばれる問題に対して,この指数関数的スローダウンを回避できるかどうかを考察する。 39キュービットまでのアニーリングスケジュールとシステムサイズを十分に最適化するために、指数的な減速を回避できるという数値的な証拠を提供する。 我々の研究は、量子アニーリングの標準実装に伴うボトルネックを回避するために、高度に制御可能な量子アニーリングの可能性を強調している。

Quantum annealing is a continuous-time heuristic quantum algorithm for solving or approximately solving classical optimization problems. The algorithm uses a schedule to interpolate between a driver Hamiltonian with an easy-to-prepare ground state and a problem Hamiltonian whose ground state encodes solutions to an optimization problem. The standard implementation relies on the evolution being adiabatic: keeping the system in the instantaneous ground state with high probability and requiring a time scale inversely related to the minimum energy gap between the instantaneous ground and excited states. However, adiabatic evolution can lead to evolution times that scale exponentially with the system size, even for computationally simple problems. Here, we study whether non-adiabatic evolutions with optimized annealing schedules can bypass this exponential slowdown for one such class of problems called the frustrated ring model. For sufficiently optimized annealing schedules and system sizes of up to 39 qubits, we provide numerical evidence that we can avoid the exponential slowdown. Our work highlights the potential of highly-controllable quantum annealing to circumvent bottlenecks associated with the standard implementation of quantum annealing.
翻訳日:2023-01-09 19:52:47 公開日:2022-12-05
# エドワード・ネルソンエネルギー・二重拡散・特殊相対性理論を用いた古典的弾性二粒子衝突エネルギー保存

Classical Elastic Two-Particle Collision Energy Conservation using Edward Nelson's Energy, Double Diffusion and Special Relativity ( http://arxiv.org/abs/2212.02637v1 )

ライセンス: Link先を確認
Johan Beumee, Herschel Rabitz(参考訳) 本稿では, 量子力学に対するエドワード・ネルソンの確率力学アプローチが, 衝突運動量保存方程式を満たす質量M, mの2つの古典的弾性衝突粒子から導出されることを示す。 古典的弾性運動量衝突式の特性は、両粒子の完全なエドワード・ネルソンエネルギー衝突エネルギーを決定する。 この古典的な全エネルギー表現は、エネルギーに対してプロセスが定義されておらず、主粒子速度と入射粒子速度を完全にモデル化するため、統計的予測を必要としない。 量子力学は、主粒子の前方、後衝突、後方前衝突速度をモデル化する確率過程を用いて入射粒子を非ランダムポテンシャルとしてモデル化することで得られる。 これは、拡散定数を除いて、1966年にネルソンが提唱したシュレーディンガー方程式を正確に示す。 この場合、平均エネルギーは時間内に保存され、システムの前後の衝突前速度は統計的手法を用いて関連付けられる。 入射粒子がポテンシャルを持っていなければ、入射粒子の運動に対する追加の制約は別のシュレーディンガー方程式につながる。 最後に、適切な条件下では、衝突粒子が特別相対性理論でミンコフスキー計量を満たすことが示される。 この最後の例は、このエネルギー表現の詳細を使って重力を量子化する方法を示している。

The present paper shows that Edward Nelson's stochastic mechanics approach for quantum mechanics can be derived from the two classical elastically colliding particles with masses M and m satisfying a collision momentum preserving equation. The properties of the classical elastic momentum collision expression determine the full Edward Nelson energy collision energy for both particles. This classical total energy expression does not require a statistical expectation since no process was defined for the energy and it models the main and incident particle velocities perfectly. Quantum mechanics can be obtained by modelling the incident particle as a non-random potential using stochastic processes modelling the forward, post-collision and backward pre-collision velocities of the main particle. This presents the Schroedinger equation exactly the way that Nelson proposed in 1966 except for the diffusion constant. In this case the average energy is conserved in time and the forward, post-collision and backward pre-collision velocities of the system are related using statistical methods. If the incident particle does not have a potential the additional constraints for the movement of the incident particle leads to another Schroedinger equation. Finally, under suitable conditions it will be shown that the colliding particles satisfy Minkowski metric in special relativity. This last example shows how gravity can be quantized using details of this energy expression.
翻訳日:2023-01-09 19:52:30 公開日:2022-12-05
# 汎用量子ネットワークのためのリモート状態の準備

Preparing Remote States for Genuine Quantum Networks ( http://arxiv.org/abs/2212.01965v1 )

ライセンス: Link先を確認
Shih-Hsuan Chen, Chan Hsu, Yu-Chien Kao, Bing-Yuan Lee, Yuan-Sung Liu, Yueh-Nan Chen, Che-Ming Li(参考訳) 光子を介する量子ネットワークは一般に量子チャネル、リピータ、終端ノードから構成される。 リモート状態準備(rsp)は、一方のエンドノードが他方のエンドノードの状態の遠隔準備を可能にする。 RSPはネットワーク通信のための決定論的単一光子源としても機能する。 本稿では,このようなネットワークRSPプロセスが,絡み合いや量子ユニタリを必要とせず,どのような古典的エミュレーションプロセスを超えるかを理論的,実験的に検討する。 また、量子チャネルやリピータなどの非古典的状態準備および伝送に必要な静的および動的要素をすべて検証するために、RSP機能と呼ばれる新しいタイプの量子リソースを導入する。 提案するリソースは、量子相関の静的リソースとその応用を越えている。 偏光サニャック干渉計による光子対のRSP特性の測定と,光子対の性質による古典的・非古典的なRSPの遷移を含む操作を実験的に実証した。 我々の結果は、ネットワークRSPが果たす量子的優位性を明らかにするのに役立つ。

Photon-mediated quantum networks generally consist of quantum channels, repeaters, and end nodes. Remote state preparation (RSP) enables one of the end nodes to prepare the states of the other end nodes remotely. RSP also serves as a deterministic single-photon source for networking communications. Herein, we theoretically and experimentally investigate how such a networking RSP process surpasses any classical emulation process without the need for entanglement and qubit unitaries. We additionally introduce a new type of quantum resource, which we refer to as RSP capability, to validate all the static and dynamic elements required for nonclassical state preparation and transmission, such as quantum channels and repeaters. The proposed resource goes beyond the static resources of quantum correlations and their applications. We experimentally demonstrate the measurement of the RSP capability of the photon pairs created by a polarization Sagnac interferometer, together with their manipulations, including the transition between classical and nonclassical RSP depending on the photon-pair qualities. Our results help reveal the quantum advantages arising when networking RSP plays a role.
翻訳日:2023-01-09 19:44:17 公開日:2022-12-05
# 高次級数展開を用いたマルコフ開量子系シミュレーション

Simulating Markovian open quantum systems using higher-order series expansion ( http://arxiv.org/abs/2212.02051v1 )

ライセンス: Link先を確認
Xiantao Li, Chunhao Wang(参考訳) マルコフ開量子系の力学をシミュレーションするための効率的な量子アルゴリズムを提案する。 このアルゴリズムの性能は、従来の最先端量子アルゴリズムと類似しており、進化時間に線形にスケールし、逆精度で多対数にスケールする。 しかし,本アルゴリズムは概念的にクリーンであり,圧縮符号化のない単純な量子プリミティブのみを使用する。 このアプローチは、デュハメルの原理に基づく高階級数展開とスケールドガウス二次数を用いた多重積分の近似を含む進化写像の新しい数学的処理に基づいている。 本手法は時間依存リンドブレディアンを用いた量子力学のシミュレーションに容易に一般化する。

We present an efficient quantum algorithm for simulating the dynamics of Markovian open quantum systems. The performance of our algorithm is similar to the previous state-of-the-art quantum algorithm, i.e., it scales linearly in evolution time and poly-logarithmically in inverse precision. However, our algorithm is conceptually cleaner, and it only uses simple quantum primitives without compressed encoding. Our approach is based on a novel mathematical treatment of the evolution map, which involves a higher-order series expansion based on Duhamel's principle and approximating multiple integrals using scaled Gaussian quadrature. Our method easily generalizes to simulating quantum dynamics with time-dependent Lindbladians.
翻訳日:2023-01-09 19:44:00 公開日:2022-12-05
# 微細構造分割の直接計算のためのベイズ位相差推定アルゴリズム:相対論的及び量子多体効果の加速シミュレーション

Bayesian phase difference estimation algorithm for direct calculation of fine structure splitting: accelerated simulation of relativistic and quantum many-body effects ( http://arxiv.org/abs/2212.02058v1 )

ライセンス: Link先を確認
Kenji Sugisaki, V. S. Prasannaa, Satoshi Ohshima, Takahiro Katagiri, Yuji Mochizuki, B. K. Sahoo, B. P. Das(参考訳) 本研究では,超重イオンを含む原子系の適切に選択された状態の量子多体(電子相関)効果に依存する超構造分割を正確に計算するために,最近提案されている量子アルゴリズムであるbayesian phase difference estimation (bpde) 法を実装した。 数値シミュレーションにより,Dirac-Coulomb-BreitフレームワークのBPDEアルゴリズムは, (1s, 2s, 2p, 3s, 3p) 活性空間において, (1s, 3p) の根平均平方偏差の605.3 cm$^{-1}$の範囲で, ホウ素様イオンへの微細構造分裂を予測できることがわかった。 NVIDIA のcuQuantum を用いて,GPU 上での相対論的および電子相関効果のシミュレーションを行い,CPU のみの18ビットアクティブ空間でのシミュレーションと比較して,42.7$ の高速化を実現した。

In this work, we implement the recently-proposed quantum algorithm, the Bayesian Phase Difference Estimation (BPDE) approach, to accurately compute fine-structure splittings, which are relativistic in origin and it also depends on quantum many-body (electron correlation) effects, of appropriately chosen states of atomic systems, including highly-charged superheavy ions. Our numerical simulations reveal that the BPDE algorithm, in the Dirac--Coulomb--Breit framework, can predict the fine-structure splitting to Boron-like ions to within 605.3 cm$^{-1}$ of root mean square deviations from the experimental ones, in the (1s, 2s, 2p, 3s, 3p) active space. We performed our simulations of relativistic and electron correlation effects on Graphics Processing Unit (GPU) by utilizing NVIDIA's cuQuantum, and observe a $\times 42.7$ speedup as compared to the CPU-only simulations in an 18-qubit active space.
翻訳日:2023-01-09 19:43:49 公開日:2022-12-05
# 非線形系におけるAB相の量子化について

On the quantization of AB phase in nonlinear systems ( http://arxiv.org/abs/2212.02087v1 )

ライセンス: Link先を確認
Xi Liu, Qing-hai Wang, and Jiangbin Gong(参考訳) 運動量空間における自己交差エネルギーバンド構造は平均場レベルでの非線形性によって誘導され、いわゆる非線形ディラック錐は興味深い結果である。 本稿では,Qi-Wu-Zhangモデルとパワー法則の非線形性を用いて,運動量空間の断熱過程に関連するAharonov-Bohm(AB)位相を系統的に研究する。 興味深いことに、カーの非線形性のためにのみ、AB相はディラック錐が出現または消失する臨界非線形性において$\pi$のジャンプを経験するが、他のすべての非線形性に対して、AB相は常に非線形強度と連続的に変化する。 この結果は, パワーロー非線形性の実験的測定に有用であり, 非線形系における幾何学的位相と断熱的追従に関して, さらなる基礎的関心を喚起する。

Self-intersecting energy band structures in momentum space can be induced by nonlinearity at the mean-field level, with the so-called nonlinear Dirac cones as one intriguing consequence. Using the Qi-Wu-Zhang model plus power law nonlinearity, we systematically study in this paper the Aharonov-Bohm (AB) phase associated with an adiabatic process in the momentum space, with two adiabatic paths circling around one nonlinear Dirac cone. Interestingly, for and only for Kerr nonlinearity, the AB phase experiences a jump of $\pi$ at the critical nonlinearity at which the Dirac cone appears or disappears, whereas for all other powers of nonlinearity the AB phase always changes continuously with the nonlinear strength. Our results may be useful for experimental measurement of power-law nonlinearity and shall motivate further fundamental interest in aspects of geometric phase and adiabatic following in nonlinear systems.
翻訳日:2023-01-09 19:43:28 公開日:2022-12-05
# ブロッホ波は互いに干渉するのか?

Response to the comment on "Do Bloch waves interfere with one another ?" ( http://arxiv.org/abs/2212.02097v1 )

ライセンス: Link先を確認
Vivek M. Vyas(参考訳) ここでは、sowinskiの最近のコメントに応えて、bloch superselection ruleの存在を示す一般化された議論が提示される。 システムにおける周期境界条件、局所性、トポロジーによって果たす役割を踏まえると、コメントでなされた主張は耐えられないことが分かる。

Here a generalised argument showing the existence of the Bloch superselection rule is presented, in response to the recent comment by Sowinski. In light of the role played by the periodic boundary condition, locality and topology in the system, the claim made in the comment is found untenable.
翻訳日:2023-01-09 19:43:09 公開日:2022-12-05
# データセントリックエンジニアリングと科学のための量子コンピューティング

Quantum Computing for Data Centric Engineering and Science ( http://arxiv.org/abs/2212.02133v1 )

ライセンス: Link先を確認
Steven Herbert(参考訳) この観点から、私は、量子コンピューティングがエンジニアリングと科学におけるデータ集約型アプリケーションにどのように影響するかという質問に答えます。 私は量子モンテカルロ積分を(相対的に)短期的な量子優位の源として扱うが、広範に関心を寄せた他のアイデアについても議論する。

In this perspective I give my answer to the question of how quantum computing will impact on data-intensive applications in engineering and science. I focus on quantum Monte Carlo integration as a likely source of (relatively) near-term quantum advantage, but also discuss some other ideas that have garnered wide-spread interest.
翻訳日:2023-01-09 19:43:03 公開日:2022-12-05
# デコヒーレンスと量子計測--行方不明の講義

Decoherence and Quantum Measurement: The Missing Lecture ( http://arxiv.org/abs/2212.02391v1 )

ライセンス: Link先を確認
Stephen D.H. Hsu(参考訳) 現代のデコヒーレンスの観点から量子計測と関連するトピックの基本的な説明を与える。 この議論は、ヒルベルト空間、密度行列、フォン・ノイマン射影(「波動関数崩壊」)といった概念に照らして量子力学の基礎コースを修了した学生にとって理解しやすい。

We give an elementary account of quantum measurement and related topics from the modern perspective of decoherence. The discussion should be comprehensible to students who have completed a basic course in quantum mechanics with exposure to concepts such as Hilbert space, density matrices, and von Neumann projection (``wavefunction collapse'').
翻訳日:2023-01-09 19:42:56 公開日:2022-12-05
# 少数ショットセグメンテーション用マスクマッチングトランス

Mask Matching Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2301.01208v1 )

ライセンス: Link先を確認
Siyu Jiao, Gengwei Zhang, Shant Navasardyan, Ling Chen, Yao Zhao, Yunchao Wei, Humphrey Shi(参考訳) 本稿では,新たな視点から,難解なマイナショットセグメンテーション課題に取り組むことを目的とする。 典型的な手法は、まずサポート画像からプロトタイプの特徴を学習し、次にピクセルレベルのクエリ特徴にマッチしてセグメンテーション結果を得るというパラダイムに従う。 しかし、十分なセグメントを得るには、マッチング操作の学習を重セグメンテーションモジュールと組み合わせ、設計の柔軟性を制限し、学習の複雑さを増大させる必要がある。 この問題を軽減するために,数発のセグメンテーションタスクのための新しいパラダイムであるMask Matching Transformer (MM-Former)を提案する。 具体的には、mm-formerはクラスに依存しないセグメンタを使用してクエリイメージを複数のセグメントプロポーザルに分割する。 次に、関連するセグメント提案をサポート画像に案内された最終マスクにマージする簡易マッチング機構を適用する。 MM-Formerの利点は2つあります。 まず、MM-Formerは、まず分解し、次にブレンドするというパラダイムに従って、高度な潜在的なオブジェクトセグメンタの利点を享受し、クエリー画像のための高品質なマスク提案を生成する。 第二に、原型的特徴のミッションは、提案プール内で正しい特徴を融合させる係数を学ぶために緩和され、MM-Formerは複雑なシナリオやケースによく一般化される。 一般的なCOCO-$20^i$とPascal-$5^i$ベンチマークについて広範な実験を行った。 MM-Formerの有効性と一般化能力を比較検討した。

In this paper, we aim to tackle the challenging few-shot segmentation task from a new perspective. Typical methods follow the paradigm to firstly learn prototypical features from support images and then match query features in pixel-level to obtain segmentation results. However, to obtain satisfactory segments, such a paradigm needs to couple the learning of the matching operations with heavy segmentation modules, limiting the flexibility of design and increasing the learning complexity. To alleviate this issue, we propose Mask Matching Transformer (MM-Former), a new paradigm for the few-shot segmentation task. Specifically, MM-Former first uses a class-agnostic segmenter to decompose the query image into multiple segment proposals. Then, a simple matching mechanism is applied to merge the related segment proposals into the final mask guided by the support images. The advantages of our MM-Former are two-fold. First, the MM-Former follows the paradigm of decompose first and then blend, allowing our method to benefit from the advanced potential objects segmenter to produce high-quality mask proposals for query images. Second, the mission of prototypical features is relaxed to learn coefficients to fuse correct ones within a proposal pool, making the MM-Former be well generalized to complex scenarios or cases. We conduct extensive experiments on the popular COCO-$20^i$ and Pascal-$5^i$ benchmarks. Competitive results well demonstrate the effectiveness and the generalization ability of our MM-Former.
翻訳日:2023-01-09 19:07:38 公開日:2022-12-05
# 分子量子特性の暗号化機械学習

Encrypted machine learning of molecular quantum properties ( http://arxiv.org/abs/2212.04322v1 )

ライセンス: Link先を確認
Jan Weinreich, Guido Falk von Rudorff, O. Anatole von Lilienfeld(参考訳) 予測が改善された大規模な機械学習モデルは、化学科学で広く利用可能になっている。 残念なことに、これらのモデルは商用設定に必要なプライバシーを保護せず、潜在的に非常に価値のあるデータの使用を禁止している。 予測プロセスの暗号化は、二重盲検モデルの評価によってこの問題を解決し、トレーニングやクエリデータの抽出を禁止する。 しかし、完全同型暗号化やフェデレート学習に基づく現代のMLモデルは、実用には高すぎるか、より弱いセキュリティのためにより高速な取引が必要になる。 我々は,化学化合物空間にまたがる分子量子特性の予測を可能にし,セキュアで計算可能な機械学習モデルを実装した。 しかし、カーネルリッジ回帰モデルを用いた暗号化予測は、暗号化なしでは100万倍も高価であることがわかった。 これは、モデル評価コストを最小化する分子表現とカーネルマトリックスサイズを含む、コンパクトな機械学習モデルアーキテクチャの必要性を示す。

Large machine learning models with improved predictions have become widely available in the chemical sciences. Unfortunately, these models do not protect the privacy necessary within commercial settings, prohibiting the use of potentially extremely valuable data by others. Encrypting the prediction process can solve this problem by double-blind model evaluation and prohibits the extraction of training or query data. However, contemporary ML models based on fully homomorphic encryption or federated learning are either too expensive for practical use or have to trade higher speed for weaker security. We have implemented secure and computationally feasible encrypted machine learning models using oblivious transfer enabling and secure predictions of molecular quantum properties across chemical compound space. However, we find that encrypted predictions using kernel ridge regression models are a million times more expensive than without encryption. This demonstrates a dire need for a compact machine learning model architecture, including molecular representation and kernel matrix size, that minimizes model evaluation costs.
翻訳日:2022-12-09 16:43:10 公開日:2022-12-05
# 相関学習を用いた気候変化の解釈モデル

An Interpretable Model of Climate Change Using Correlative Learning ( http://arxiv.org/abs/2212.04478v1 )

ライセンス: Link先を確認
Charles Anderson and Jason Stock(参考訳) 気候変動を示唆する世界的な気温と降水量の変化を決定することは、年間変化によって複雑である。 気候変動指標を見つけるための1つのアプローチは、年間気温と降水量から年を予測するモデルを訓練することである。 このようなデータはCMIP6シミュレーションのアンサンブルから入手できる。 このデータに基づいてトレーニングされた2層ニューラルネットワークは、その年の予測に成功している。 モデルが特定の年を予測する温度と降水パターンの違いは、時間を通して変化を示す。 これらの最適なパターンを見つけるために、ニューラルネットワークが学んだことを解釈する新しい方法を探求する。 確率的相関学習アルゴリズムであるalopexは、特定の年を最も予測する最適な温度と降水マップを見つけるために使用される。 これらの地図は数年にわたって比較され、気温と降水量のパターンが年々どのように変化するかを示している。

Determining changes in global temperature and precipitation that may indicate climate change is complicated by annual variations. One approach for finding potential climate change indicators is to train a model that predicts the year from annual means of global temperatures and precipitations. Such data is available from the CMIP6 ensemble of simulations. Here a two-hidden-layer neural network trained on this data successfully predicts the year. Differences among temperature and precipitation patterns for which the model predicts specific years reveal changes through time. To find these optimal patterns, a new way of interpreting what the neural network has learned is explored. Alopex, a stochastic correlative learning algorithm, is used to find optimal temperature and precipitation maps that best predict a given year. These maps are compared over multiple years to show how temperature and precipitations patterns indicative of each year change over time.
翻訳日:2022-12-09 16:34:17 公開日:2022-12-05
# 奥行き推定のための自己監督型注意学習

Self-Supervised Attention Learning for Depth and Ego-motion Estimation ( http://arxiv.org/abs/2004.13077v2 )

ライセンス: Link先を確認
Assem Sadek and Boris Chidlovskii(参考訳) 画像列からの深度とエゴモーション推定の問題に対処する。 近年の領域の進歩は、画像再構成を自己指導的手法で両タスクの深層学習モデルを訓練することを提案する。 我々は,現在のアプローチの仮定と限界を改訂し,奥行き推定とエゴモーション推定の性能向上のための2つの改善を提案する。 まず,シーケンス内の画像間の幾何学的一貫性と再構成を実現するために,リー群特性を用いる。 次に,画像再構成が破損した領域に注意を払う機構を提案する。 また,注意係数をマスクとして使用することにより,注意機構をパイプライン内の注意ゲートの形で統合する方法を示す。 我々は、KITTIデータセット上で新しいアーキテクチャを評価し、以前の手法と比較した。 提案手法は,エゴモーション推定の最先端結果を改善し,深度推定と同等の結果が得られることを示す。

We address the problem of depth and ego-motion estimation from image sequences. Recent advances in the domain propose to train a deep learning model for both tasks using image reconstruction in a self-supervised manner. We revise the assumptions and the limitations of the current approaches and propose two improvements to boost the performance of the depth and ego-motion estimation. We first use Lie group properties to enforce the geometric consistency between images in the sequence and their reconstructions. We then propose a mechanism to pay an attention to image regions where the image reconstruction get corrupted. We show how to integrate the attention mechanism in the form of attention gates in the pipeline and use attention coefficients as a mask. We evaluate the new architecture on the KITTI datasets and compare it to the previous techniques. We show that our approach improves the state-of-the-art results for ego-motion estimation and achieve comparable results for depth estimation.
翻訳日:2022-12-09 05:57:31 公開日:2022-12-05
# 6自由度UCAV空対空コンバットの階層的深部強化学習フレームワーク

A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV Air-to-Air Combat ( http://arxiv.org/abs/2212.03830v1 )

ライセンス: Link先を確認
Jiajun Chai, Wenzhang Chen, Yuanheng Zhu, Zong-xin Yao, Dongbin Zhao(参考訳) 無人戦闘航空(UCAV)戦闘は、連続行動空間において困難なシナリオである。 本稿では,6次元(6-DOF)のダイナミックスの下での空対空戦闘問題を解決するための一般的な階層的枠組みを提案する。 中心となる考え方は、決定プロセス全体を2つのループに分割し、強化学習(RL)を使用してそれらを分離することである。 外ループは現在の戦闘状況を考慮して、戦闘戦略に従って航空機の期待されるマクロ行動を決定する。 次に、インナーループは、航空機の実際の入力信号を計算して、フライトコントローラでマクロ動作を追跡する。 我々は,外ループ戦略と内ループ制御の両方に対してマルコフ決定過程を設計し,近似ポリシー最適化(PPO)アルゴリズムを用いて学習する。 インナーループコントローラでは,様々なマクロ動作を正確に追跡する効果的な報酬関数を設計する。 外部ループ戦略では、歴史的戦略に常に対抗して戦闘性能を向上させるための架空の自己プレー機構も採用する。 実験の結果,インナーループコントローラは細調整pidコントローラよりも優れたトラッキング性能を達成でき,アウターループストラテジーは,世代が進化するにつれて,より高い勝利率を得るための複雑な操作を行うことができることがわかった。

Unmanned combat air vehicle (UCAV) combat is a challenging scenario with continuous action space. In this paper, we propose a general hierarchical framework to resolve the within-vision-range (WVR) air-to-air combat problem under 6 dimensions of degree (6-DOF) dynamics. The core idea is to divide the whole decision process into two loops and use reinforcement learning (RL) to solve them separately. The outer loop takes into account the current combat situation and decides the expected macro behavior of the aircraft according to a combat strategy. Then the inner loop tracks the macro behavior with a flight controller by calculating the actual input signals for the aircraft. We design the Markov decision process for both the outer loop strategy and inner loop controller, and train them by proximal policy optimization (PPO) algorithm. For the inner loop controller, we design an effective reward function to accurately track various macro behavior. For the outer loop strategy, we further adopt a fictitious self-play mechanism to improve the combat performance by constantly combating against the historical strategies. Experiment results show that the inner loop controller can achieve better tracking performance than fine-tuned PID controller, and the outer loop strategy can perform complex maneuvers to get higher and higher winning rate, with the generation evolves.
翻訳日:2022-12-08 16:52:19 公開日:2022-12-05
# ニューラルネットワークとインデックスによるクラスタリング

Clustering with Neural Network and Index ( http://arxiv.org/abs/2212.03853v1 )

ライセンス: Link先を確認
Gangli Liu(参考訳) ニューラルネットワークとインデックス(cnni)を用いたクラスタリングと呼ばれる新しいモデルを導入した。 CNNIはニューラルネットワークを使ってデータポイントをクラスタ化する。 ニューラルネットワークのトレーニングは教師付き学習を模倣し、内部クラスタリング評価指標が損失関数として機能する。 新しいモデルの実現可能性をテストする実験を行い、K平均やガウス混合モデル(GMM)のような他のクラスタリングモデルと比較した。

A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM).
翻訳日:2022-12-08 16:42:01 公開日:2022-12-05
# 類似ドメインコーパスへの逆適応を用いたフランス語用トランスフォーマベース名前付きエンティティ認識

Transformer-Based Named Entity Recognition for French Using Adversarial Adaptation to Similar Domain Corpora ( http://arxiv.org/abs/2212.03692v1 )

ライセンス: Link先を確認
Arjun Choudhry, Pankaj Gupta, Inder Khatri, Aaryan Gupta, Maxime Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma(参考訳) 名前付きエンティティ認識 (ner) は、未構造化テキスト内の名前付きエンティティを事前に定義されたクラスに識別および分類することを含む。 フランス語のような限られたリソースを持つ言語のNERは、大規模で堅牢なラベル付きデータセットがないため、依然としてオープンな問題である。 本稿では,類似領域や一般コーパスに対する逆適応を用いたフランス語の変換器に基づくNERアプローチを提案する。 3つのラベル付きデータセットに対するアプローチを評価し,その適応フレームワークがトランスフォーマモデル,ソースデータセット,ターゲットコーパスの組み合わせにおいて,対応する非適応モデルよりも優れていることを示す。

Named Entity Recognition (NER) involves the identification and classification of named entities in unstructured text into predefined classes. NER in languages with limited resources, like French, is still an open problem due to the lack of large, robust, labelled datasets. In this paper, we propose a transformer-based NER approach for French using adversarial adaptation to similar domain or general corpora for improved feature extraction and better generalization. We evaluate our approach on three labelled datasets and show that our adaptation framework outperforms the corresponding non-adaptive models for various combinations of transformer models, source datasets and target corpora.
翻訳日:2022-12-08 15:59:10 公開日:2022-12-05
# MobileTL: 逆残差ブロックを用いたオンデバイストランスファー学習

MobileTL: On-device Transfer Learning with Inverted Residual Blocks ( http://arxiv.org/abs/2212.03246v1 )

ライセンス: Link先を確認
Hung-Yueh Chiang, Natalia Frumkin, Feng Liang, Diana Marculescu(参考訳) デバイス上の限られたリソースのため、エッジでの転送学習は難しい。 既存の作業はパラメータのサブセットをトレーニングしたり、モデルパッチを追加することでこの問題に対処する。 推論を念頭に置いて開発されたInverted Residual Blocks (IRBs) は、畳み込み層を奥行きと点方向の畳み込み層に分割し、畳み込み層、正規化層、アクティベーション層など、より多くの積み重ね層を生み出す。 推論には効率的だが、IRBは畳み込み層の重み付けと正規化層のスケールをトレーニングするために追加のアクティベーションマップをメモリに格納する必要がある。 その結果、メモリコストが高いため、リソース制限されたエッジデバイス上でのIRBのトレーニングが禁止され、転送学習の文脈では適さない。 この問題に対処するために、IRBで構築したモデルに対するメモリと計算効率のよいオンデバイストランスファー学習手法であるMobileTLを提案する。 MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。 また、MobileTLは、活性化層の後方計算(例えば、Hard-SwishとReLU6)を符号付き関数として近似し、後方パスの活性化マップの代わりにバイナリマスクを格納する。 mobiletlは計算コストを削減するためにネットワーク全体の勾配を伝搬するのではなく、いくつかのトップブロック(出力に近い)を微調整する。 提案手法は,MobileNetV2とV3 IRBのメモリ使用量をそれぞれ46%,53%削減する。 MobileNetV3では、5ブロックの微調整時に浮動小数点演算(FLOP)が36%削減され、CIFAR10では0.6%の精度で精度が低下する。 複数のデータセットに対する大規模な実験により,本手法はエッジデバイスの転送学習における先行研究と比較して,Pareto-Optimal(ハードウェア制約下での最良の精度)であることが証明された。

Transfer learning on edge is challenging due to on-device limited resources. Existing work addresses this issue by training a subset of parameters or adding model patches. Developed with inference in mind, Inverted Residual Blocks (IRBs) split a convolutional layer into depthwise and pointwise convolutions, leading to more stacking layers, e.g., convolution, normalization, and activation layers. Though they are efficient for inference, IRBs require that additional activation maps are stored in memory for training weights for convolution layers and scales for normalization layers. As a result, their high memory cost prohibits training IRBs on resource-limited edge devices, and making them unsuitable in the context of transfer learning. To address this issue, we present MobileTL, a memory and computationally efficient on-device transfer learning method for models built with IRBs. MobileTL trains the shifts for internal normalization layers to avoid storing activation maps for the backward pass. Also, MobileTL approximates the backward computation of the activation layer (e.g., Hard-Swish and ReLU6) as a signed function which enables storing a binary mask instead of activation maps for the backward pass. MobileTL fine-tunes a few top blocks (close to output) rather than propagating the gradient through the whole network to reduce the computation cost. Our method reduces memory usage by 46% and 53% for MobileNetV2 and V3 IRBs, respectively. For MobileNetV3, we observe a 36% reduction in floating-point operations (FLOPs) when fine-tuning 5 blocks, while only incurring a 0.6% accuracy reduction on CIFAR10. Extensive experiments on multiple datasets demonstrate that our method is Pareto-optimal (best accuracy under given hardware constraints) compared to prior work in transfer learning for edge devices.
翻訳日:2022-12-08 15:13:55 公開日:2022-12-05
# デュエロスにおけるプロアクティブインタラクション機構に対するトランスフォーマティブユーザ満足度予測

A Transformer-Based User Satisfaction Prediction for Proactive Interaction Mechanism in DuerOS ( http://arxiv.org/abs/2212.03817v1 )

ライセンス: Link先を確認
Wei Shen, Xiaonan He, Chuheng Zhang, Xuyun Zhang, Jian XIe(参考訳) 近年,音声対話システムは様々なアプリケーションに広く利用されており,多くのエンドユーザに役立っている。 一般的な問題は、騒々しい発声、意味的な誤解、知識の欠如によるエラーによって、実際のシステムが適切に応答することが難しくなり、おそらく満足できないユーザエクスペリエンスにつながることである。 このようなケースを避けるために,ユーザに対して提示する前に,システムがユーザの満足度を候補応答で予測する能動的インタラクション機構を検討する。 ユーザが予測に従って満足できない場合、システムは、応答を直接提供するのではなく、ユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。 このようなユーザとのインタラクションによって、システムはユーザによりよい応答を与えることができる。 ユーザ満足度を予測する従来のモデルは,大規模な商用対話システムであるDuerOSには適用できない。 これらは手作りの機能に基づいており、数百万の会話の背後にある複雑なパターンや、会話の複数回にわたる時間的依存をほとんど学べない。 さらに,市販の対話システムでは高コストである適切なラベルでベンチマークデータセットをトレーニングし,評価する。 これらの課題に対処するために,DuerOSが各ターンで明確化を求めるかどうかを判断する上で,ユーザ満足度を予測するパイプラインを提案する。 具体的には、まず多数の弱いラベルを生成し、次にトランスフォーマーベースモデルでこれらの弱いラベルでユーザ満足度を予測することを提案する。 実験では,dueros上でモデルのデプロイと評価を行い,ユーザ満足度予測の精度が19%,ユーザエクスペリエンスが2.3%向上したことを確認した。

Recently, spoken dialogue systems have been widely deployed in a variety of applications, serving a huge number of end-users. A common issue is that the errors resulting from noisy utterances, semantic misunderstandings, or lack of knowledge make it hard for a real system to respond properly, possibly leading to an unsatisfactory user experience. To avoid such a case, we consider a proactive interaction mechanism where the system predicts the user satisfaction with the candidate response before giving it to the user. If the user is not likely to be satisfied according to the prediction, the system will ask the user a suitable question to determine the real intent of the user instead of providing the response directly. With such an interaction with the user, the system can give a better response to the user. Previous models that predict the user satisfaction are not applicable to DuerOS which is a large-scale commercial dialogue system. They are based on hand-crafted features and thus can hardly learn the complex patterns lying behind millions of conversations and temporal dependency in multiple turns of the conversation. Moreover, they are trained and evaluated on the benchmark datasets with adequate labels, which are expensive to obtain in a commercial dialogue system. To face these challenges, we propose a pipeline to predict the user satisfaction to help DuerOS decide whether to ask for clarification in each turn. Specifically, we propose to first generate a large number of weak labels and then train a transformer-based model to predict the user satisfaction with these weak labels. Empirically, we deploy and evaluate our model on DuerOS, and observe a 19% relative improvement on the accuracy of user satisfaction prediction and 2.3% relative improvement on user experience.
翻訳日:2022-12-08 14:56:42 公開日:2022-12-05
# 動的状態の分散ベイズ学習

Distributed Bayesian Learning of Dynamic States ( http://arxiv.org/abs/2212.02565v1 )

ライセンス: Link先を確認
Mert Kayaalp, Virginia Bordignon, Stefan Vlaski, Vincenzo Matta, Ali H. Sayed(参考訳) 本研究は、部分的情報の下で自然の動的状態を追跡するために協調するネットワークエージェントの研究である。 提案アルゴリズムは有限状態隠れマルコフモデル(HMM)に対する分散ベイズフィルタアルゴリズムである。 シーケンシャルな状態推定タスクや、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。 最適集中解に対する不一致は、急速に変化するモデルを含む幾何学的エルゴード状態遷移モデルのクラスに漸近的に有界であることを示す。 また、誤差の確率を計算し、ガウス観測モデルの下で収束を確立するための再帰を導出する。 理論を説明するためのシミュレーションが提供され、代替手法と比較される。

This work studies networked agents cooperating to track a dynamical state of nature under partial information. The proposed algorithm is a distributed Bayesian filtering algorithm for finite-state hidden Markov models (HMMs). It can be used for sequential state estimation tasks, as well as for modeling opinion formation over social networks under dynamic environments. We show that the disagreement with the optimal centralized solution is asymptotically bounded for the class of geometrically ergodic state transition models, which includes rapidly changing models. We also derive recursions for calculating the probability of error and establish convergence under Gaussian observation models. Simulations are provided to illustrate the theory and to compare against alternative approaches.
翻訳日:2022-12-07 18:15:27 公開日:2022-12-05
# どの製品が製品をアクティベートするか? 説明可能な機械学習アプローチ

Which products activate a product? An explainable machine learning approach ( http://arxiv.org/abs/2212.03094v1 )

ライセンス: Link先を確認
Massimiliano Fessina, Giambattista Albora, Andrea Tacchella and Andrea Zaccaria(参考訳) 木に基づく機械学習アルゴリズムは、輸出バスケットからターゲット商品を輸出する国にとっての最も正確な可能性の評価を提供する。 しかし、関連するパラメータの多さは、結果の直接的な解釈を防ぎ、政策表示の説明可能性も損なう。 本稿では,実現可能性評価における製品の重要性を統計的に検証する手法を提案する。 このようにして、説明器と呼ばれるどの製品が近い将来にターゲット製品をエクスポートする確率を大幅に増加させるかを特定することができる。 低次元の表現である特徴重要商品空間を自然に特定し、レコメンデーションの解釈可能性を高め、各国の輸出バスケットのアウト・オブ・サンプル予測を提供する。 興味深いことに、製品の複雑さと説明者の複雑さの正の相関を検知する。

Tree-based machine learning algorithms provide the most precise assessment of the feasibility for a country to export a target product given its export basket. However, the high number of parameters involved prevents a straightforward interpretation of the results and, in turn, the explainability of policy indications. In this paper, we propose a procedure to statistically validate the importance of the products used in the feasibility assessment. In this way, we are able to identify which products, called explainers, significantly increase the probability to export a target product in the near future. The explainers naturally identify a low dimensional representation, the Feature Importance Product Space, that enhances the interpretability of the recommendations and provides out-of-sample forecasts of the export baskets of countries. Interestingly, we detect a positive correlation between the complexity of a product and the complexity of its explainers.
翻訳日:2022-12-07 18:10:52 公開日:2022-12-05
# 可聴空間地図

Audio Latent Space Cartography ( http://arxiv.org/abs/2212.02610v1 )

ライセンス: Link先を確認
Nicolas Jonason, Bob L.T. Sturm(参考訳) 音声画像生成パイプラインを用いた音声潜在空間の可視化について検討する。 これは音声潜在空間の解釈可能性に役立つと信じている。 我々は、nsynthデータセットで様々な結果を示す。 Webデモが公開されている。

We explore the generation of visualisations of audio latent spaces using an audio-to-image generation pipeline. We believe this can help with the interpretability of audio latent spaces. We demonstrate a variety of results on the NSynth dataset. A web demo is available.
翻訳日:2022-12-07 18:01:18 公開日:2022-12-05
# Thales: DNNアクセラレータのアーキテクチャ脆弱性係数の定式化と推定

Thales: Formulating and Estimating Architectural Vulnerability Factors for DNN Accelerators ( http://arxiv.org/abs/2212.02649v1 )

ライセンス: Link先を確認
Abhishek Tyagi and Yiming Gan and Shaoshan Liu and Bo Yu and Paul Whatmough and Yuhao Zhu(参考訳) Deep Neural Networks(DNN)は、自律運転や生体認証など、安全でプライバシーに敏感なアプリケーションにますますデプロイされているため、DNNのフォールトトレランスの性質を理解することが重要である。 先行研究は主に、デバイスの障害頻度を定量化する、時間内障害率(fit)やサイレントデータ破損率(sdc)などのメトリクスに焦点を当てている。 そこで本論文では,過渡的エラーが発生した場合のネットワークの振る舞いを示す,過渡的エラーが発生した場合のdnn精度の定量化に注目する。 このメトリックレジリエンス精度(ra:metric resiliency accuracy)と呼ぶ。 ハードウェア過渡的障害下でソフトウェア変数(モデル重み/アクティベーション)が同じ故障確率を持つと誤って仮定しているため、既存のra定式化は基本的に不正確である。 本稿では, 過渡的故障下でのDNN変数の故障確率を推定し, ハードウェアによる正しいRA推定を行うアルゴリズムを提案する。 RA推定を高速化するため,モンテカルロ積分問題としてRA計算を再構成し,DNN固有ヒューリスティックによる重要サンプリングを用いて解く。 軽量RA推定法を用いて, 過渡断層が現在のDNNレジリエンスツールの推定よりもはるかに高い精度の劣化をもたらすことを示す。 ra推定ツールは,ネットワークアーキテクチャ検索フレームワークと統合することにより,レジリエントなdnnの設計にどのように役立つかを示す。

As Deep Neural Networks (DNNs) are increasingly deployed in safety critical and privacy sensitive applications such as autonomous driving and biometric authentication, it is critical to understand the fault-tolerance nature of DNNs. Prior work primarily focuses on metrics such as Failures In Time (FIT) rate and the Silent Data Corruption (SDC) rate, which quantify how often a device fails. Instead, this paper focuses on quantifying the DNN accuracy given that a transient error has occurred, which tells us how well a network behaves when a transient error occurs. We call this metric Resiliency Accuracy (RA). We show that existing RA formulation is fundamentally inaccurate, because it incorrectly assumes that software variables (model weights/activations) have equal faulty probability under hardware transient faults. We present an algorithm that captures the faulty probabilities of DNN variables under transient faults and, thus, provides correct RA estimations validated by hardware. To accelerate RA estimation, we reformulate RA calculation as a Monte Carlo integration problem, and solve it using importance sampling driven by DNN specific heuristics. Using our lightweight RA estimation method, we show that transient faults lead to far greater accuracy degradation than what todays DNN resiliency tools estimate. We show how our RA estimation tool can help design more resilient DNNs by integrating it with a Network Architecture Search framework.
翻訳日:2022-12-07 18:01:16 公開日:2022-12-05
# Bee Sucks -- ポリネーター境界戦略の動的ベイズネットワークによる決定支援

Where the Bee Sucks -- A Dynamic Bayesian Network Approach to Decision Support for Pollinator Abundance Strategies ( http://arxiv.org/abs/2212.03179v1 )

ライセンス: Link先を確認
Martine J. Barons and Aditi Shenvi(参考訳) 証拠に基づく決定をしたい政策立案者にとって、課題の1つは、関連する情報と証拠を一貫性のある方法で組み合わせて、候補政策を定式化し評価する方法である。 政策立案者は、エコシステムサービスを扱うような複雑で多面的な動的環境で政策選択を行う際に、異なる専門分野のエキスパートに頼る必要がある。 ミツバチ(apis mellifera)や野生のミツバチなどの受粉者の生存能力や受粉能力に影響する圧力は、十分に文書化されているが不完全である。 受粉サービスを支援するための各種政策の有効性を推定するためには, 利用可能な情報, モデル, 専門家の判断を利用して, 各種変数の組み合わせが受粉エコシステムサービスに与える影響を定量化する必要がある。 本稿では,多人数の受粉者を支援する政策を評価するために,複数の専門家パネルからの入力を結合する統合意思決定支援システムの新たな応用について述べる。

For policymakers wishing to make evidence-based decisions, one of the challenges is how to combine the relevant information and evidence in a coherent and defensible manner in order to formulate and evaluate candidate policies. Policymakers often need to rely on experts with disparate fields of expertise when making policy choices in complex, multi-faceted, dynamic environments such as those dealing with ecosystem services. The pressures affecting the survival and pollination capabilities of honey bees (Apis mellifera), wild bees and other pollinators is well-documented, but incomplete. In order to estimate the potential effectiveness of various candidate policies to support pollination services, there is an urgent need to quantify the effect of various combinations of variables on the pollination ecosystem service, utilising available information, models and expert judgement. In this paper, we present a new application of the integrating decision support system methodology for combining inputs from multiple panels of experts to evaluate policies to support an abundant pollinator population.
翻訳日:2022-12-07 17:54:39 公開日:2022-12-05
# cs-net:高次元特徴空間データの時系列予測への構造的アプローチ

cs-net: structural approach to time-series forecasting for high-dimensional feature space data with limited observations ( http://arxiv.org/abs/2212.02567v1 )

ライセンス: Link先を確認
Weiyu Zong, Mingqian Feng, Griffin Heyrich, Peter Chin(参考訳) 近年,時系列予測問題に対するディープラーニングに基づくアプローチが導入されている。 これらの新しい手法は単変量および低次元多変量時系列予測タスクにおいて顕著な性能を示した。 しかし、これらの新しい手法が高次元多変量予測問題に使用される場合、その性能は実用的なトレーニング時間と妥当なGPUメモリ構成によって非常に制限される。 本稿では、ヒルベルト空間における基底の変化に触発されて、高次元多変量予測タスクに優れた柔軟なデータ特徴抽出手法を提案する。 我々のアプローチは、もともとNational Science Foundation (NSF) Algorithms for Threat Detection (ATD) 2022 Challengeのために開発された。 注意機構と畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて,本手法は優れた性能と互換性を示す。 我々のモデルは、GDELT Datasetでトレーニングされ、ATDスプリントシリーズの第1位と第2位に終わり、時系列予測のための他のデータセットを約束します。

In recent years, deep-learning-based approaches have been introduced to solving time-series forecasting-related problems. These novel methods have demonstrated impressive performance in univariate and low-dimensional multivariate time-series forecasting tasks. However, when these novel methods are used to handle high-dimensional multivariate forecasting problems, their performance is highly restricted by a practical training time and a reasonable GPU memory configuration. In this paper, inspired by a change of basis in the Hilbert space, we propose a flexible data feature extraction technique that excels in high-dimensional multivariate forecasting tasks. Our approach was originally developed for the National Science Foundation (NSF) Algorithms for Threat Detection (ATD) 2022 Challenge. Implemented using the attention mechanism and Convolutional Neural Networks (CNN) architecture, our method demonstrates great performance and compatibility. Our models trained on the GDELT Dataset finished 1st and 2nd places in the ATD sprint series and hold promise for other datasets for time series forecasting.
翻訳日:2022-12-07 17:53:25 公開日:2022-12-05
# 線形ネットワークによる補助量子予測

Auxiliary Quantile Forecasting with Linear Networks ( http://arxiv.org/abs/2212.02578v1 )

ライセンス: Link先を確認
Shayan Jawed, Lars Schmidt-Thieme(参考訳) 共有線形層を用いた量子化予測のための新しいマルチタスク手法を提案する。 本手法は,一様分布 $\mathcal{u}(0, 1)$ からのサンプルを対象分布の量子化値に再パラメータ化する,暗黙の量子化学習手法に基づいている。 暗黙的量子化と入力時系列表現を組み合わせることで、複数の水平線に対する複数の量子化推定を直接予測する。 従来の研究では、マルチタスク学習環境における予測水平線の直接推定に線形層を採用していた。 予測地平線間の相関性を利用するマルチタスク学習の同様の直感に従って、予測地平線毎の補助的なタスクとして複数の量的推定をモデル化し、単一の量的推定のみをモデル化するよりも、予測精度を向上させることができることを示す。 我々は,50$^{th}$パーセント推定の主課題に関する決定論的予測ベンチマークにおいて,学習補助量子化タスクが最先端のパフォーマンスをもたらすことを示す。

We propose a novel multi-task method for quantile forecasting with shared Linear layers. Our method is based on the Implicit quantile learning approach, where samples from the Uniform distribution $\mathcal{U}(0, 1)$ are reparameterized to quantile values of the target distribution. We combine the implicit quantile and input time series representations to directly forecast multiple quantile estimations for multiple horizons jointly. Prior works have adopted a Linear layer for the direct estimation of all forecasting horizons in a multi-task learning setup. We show that following similar intuition from multi-task learning to exploit correlations among forecast horizons, we can model multiple quantile estimates as auxiliary tasks for each of the forecast horizon to improve forecast accuracy across the quantile estimates compared to modeling only a single quantile estimate. We show learning auxiliary quantile tasks leads to state-of-the-art performance on deterministic forecasting benchmarks concerning the main-task of forecasting the 50$^{th}$ percentile estimate.
翻訳日:2022-12-07 17:53:08 公開日:2022-12-05
# 半監督学習におけるバックドアデータ中毒攻撃の再考

Rethinking Backdoor Data Poisoning Attacks in the Context of Semi-Supervised Learning ( http://arxiv.org/abs/2212.02582v1 )

ライセンス: Link先を確認
Marissa Connor, Vincent Emanuele(参考訳) 半教師付き学習法は、従来の教師付き学習に必要なラベル付きトレーニングサンプルのごく一部で、高精度な機械学習モデルを訓練することができる。 このような方法は通常、ラベルのないトレーニングサンプルの綿密なレビューを含まず、データ中毒攻撃のターゲットを誘惑する。 本稿では,ラベルなしサンプルに対するデータ中毒攻撃をバックドアする半教師付き学習手法の脆弱性について検討する。 汚染されたサンプルのラベルの分布に影響を与える単純な中毒攻撃は、96.9%の平均的な攻撃成功率を達成するのに非常に効果的であることを示す。 我々は,その限界を理解し活用し,今後の防衛戦略を動機付けるために,セミ教師付き学習法をターゲットとした汎用攻撃フレームワークを提案する。

Semi-supervised learning methods can train high-accuracy machine learning models with a fraction of the labeled training samples required for traditional supervised learning. Such methods do not typically involve close review of the unlabeled training samples, making them tempting targets for data poisoning attacks. In this paper we investigate the vulnerabilities of semi-supervised learning methods to backdoor data poisoning attacks on the unlabeled samples. We show that simple poisoning attacks that influence the distribution of the poisoned samples' predicted labels are highly effective - achieving an average attack success rate as high as 96.9%. We introduce a generalized attack framework targeting semi-supervised learning methods to better understand and exploit their limitations and to motivate future defense strategies.
翻訳日:2022-12-07 17:52:50 公開日:2022-12-05
# 油圧装置における異常自動検出

Automatic Anomalies Detection in Hydraulic Devices ( http://arxiv.org/abs/2212.02602v1 )

ライセンス: Link先を確認
Jose A. Solorio, Jose M. Garcia, Sudip Vhaduri(参考訳) 現在、油圧システムの応用は、産業と日常の両方の環境において、様々なデバイスに存在している。 油圧システムの実装と利用は十分に文書化されているが、今日では、積極的に意思決定するためにこれらのシステムの機能と運用に関するより正確な情報を提供するツールの統合が課題となっている。 産業用途では、プロセス変数(例えば、流れ、圧力、力)を計測し、決定するために多くのセンサーや方法が存在する。 それでも、機械に組み込まれた油圧装置に関するデバイスヘルス情報をユーザーに提供できるシステムを持つことはほとんどない。 人工知能(AI)技術と機械学習(ML)モデルを油圧システムコンポーネントに実装することは、現在多くの産業が直面している課題の解決策として特定されている。 本稿では,油圧システム,シリンダにおいて,最も多用途で用いられている装置の1つにおいて,異常のキャラクタリゼーションと評価を行う方法を提案する。 AIとMLモデルは、これらの油圧部品の現在の動作状態と、それらが正しく動作しているか、障害モードや異常状態が存在するかを決定するために実装された。

Nowadays, the applications of hydraulic systems are present in a wide variety of devices in both industrial and everyday environments. The implementation and usage of hydraulic systems have been well documented; however, today, this still faces a challenge, the integration of tools that allow more accurate information about the functioning and operation of these systems for proactive decision-making. In industrial applications, many sensors and methods exist to measure and determine the status of process variables (e.g., flow, pressure, force). Nevertheless, little has been done to have systems that can provide users with device-health information related to hydraulic devices integrated into the machinery. Implementing artificial intelligence (AI) technologies and machine learning (ML) models in hydraulic system components has been identified as a solution to the challenge many industries currently face: optimizing processes and carrying them out more safely and efficiently. This paper presents a solution for the characterization and estimation of anomalies in one of the most versatile and used devices in hydraulic systems, cylinders. AI and ML models were implemented to determine the current operating status of these hydraulic components and whether they are working correctly or if a failure mode or abnormal condition is present.
翻訳日:2022-12-07 17:52:39 公開日:2022-12-05
# Stars: クラスタリングとグラフ学習のためのテラスケールグラフ構築

Stars: Tera-Scale Graph Building for Clustering and Graph Learning ( http://arxiv.org/abs/2212.02635v1 )

ライセンス: Link先を確認
CJ Carey, Jonathan Halcrow, Rajesh Jayaram, Vahab Mirrokni, Warren Schudy, Peilin Zhong(参考訳) 大規模データセットの分析における基本的な手順は、類似性グラフの構築である。 このようなグラフは、クラスタリング、分類、グラフ学習、近接探索など、多くの下流タスクにおいて重要な役割を果たす。 これらのタスクでは、基礎となるデータを表しながらスパースであるグラフを構築することが重要です。 第一に、高密度グラフの構築は、大規模なデータセットでは実現不可能であり、第二に、ダウンストリームタスクのランタイムは、類似グラフのスパース性によって直接影響を受ける。 この論文では、$\textit{stars}$という、2つのホップスパンナーを通して非常にスパースなグラフを構築するための非常にスケーラブルな方法を紹介します。 恒星は相似性比較が著しく少ない2ホップスパンナーを構成できるが、これは比較評価が高価である学習ベースのモデルにとって大きなボトルネックである。 理論的には、恒星がほぼ線形な時間にグラフを構築し、近接する近傍が2つのホップ近傍に含まれることを実証する。 実際、私たちは複数のデータセットに対してStarsをデプロイし、例えば数十兆のエッジを持つグラフに対して$\textit{Tera-Scale}$でグラフ構築を可能にしました。 クラスタリングとグラフ学習におけるStarsの性能を評価し,異なるベースラインとペアの類似性比較で10~1000倍,品質損失のないランニング時間で2~10倍に改善したことを示す。

A fundamental procedure in the analysis of massive datasets is the construction of similarity graphs. Such graphs play a key role for many downstream tasks, including clustering, classification, graph learning, and nearest neighbor search. For these tasks, it is critical to build graphs which are sparse yet still representative of the underlying data. The benefits of sparsity are twofold: firstly, constructing dense graphs is infeasible in practice for large datasets, and secondly, the runtime of downstream tasks is directly influenced by the sparsity of the similarity graph. In this work, we present $\textit{Stars}$: a highly scalable method for building extremely sparse graphs via two-hop spanners, which are graphs where similar points are connected by a path of length at most two. Stars can construct two-hop spanners with significantly fewer similarity comparisons, which are a major bottleneck for learning based models where comparisons are expensive to evaluate. Theoretically, we demonstrate that Stars builds a graph in nearly-linear time, where approximate nearest neighbors are contained within two-hop neighborhoods. In practice, we have deployed Stars for multiple data sets allowing for graph building at the $\textit{Tera-Scale}$, i.e., for graphs with tens of trillions of edges. We evaluate the performance of Stars for clustering and graph learning, and demonstrate 10~1000-fold improvements in pairwise similarity comparisons compared to different baselines, and 2~10-fold improvement in running time without quality loss.
翻訳日:2022-12-07 17:52:20 公開日:2022-12-05
# 動作中の筋肉

Muscles in Action ( http://arxiv.org/abs/2212.02978v1 )

ライセンス: Link先を確認
Mia Chiquier, Carl Vondrick(参考訳) 人の動きの小さな違いは、劇的に異なる筋肉を働かせる。 人間の活動の視覚的な表現はビデオから訓練されるが、人々は自身の筋肉の受容からを含む多彩な経験から学ぶ。 単眼ビデオから筋活動の活性化をモデル化するための新しい視覚認知タスクとデータセットを提案する。 筋活動(MIA)データセットは, 種々の運動を行う被験者の2時間の同期ビデオと表面筋電図データから構成される。 このデータセットを用いて,単眼映像から筋活動を予測する視覚表現を学習する。 トランスフォーマーモデルを含むいくつかのモデルを提示し,新しい運動や課題に一般化する能力を測定した。 筋肉をコンピュータービジョンシステムに組み込むことで、スポーツ、フィットネス、AR/VRといった仮想人間のより豊かなモデルが可能になる。

Small differences in a person's motion can engage drastically different muscles. While most visual representations of human activity are trained from video, people learn from multimodal experiences, including from the proprioception of their own muscles. We present a new visual perception task and dataset to model muscle activation in human activities from monocular video. Our Muscles in Action (MIA) dataset consists of 2 hours of synchronized video and surface electromyography (sEMG) data of subjects performing various exercises. Using this dataset, we learn visual representations that are predictive of muscle activation from monocular video. We present several models, including a transformer model, and measure their ability to generalize to new exercises and subjects. Putting muscles into computer vision systems will enable richer models of virtual humans, with applications in sports, fitness, and AR/VR.
翻訳日:2022-12-07 17:44:20 公開日:2022-12-05
# モデル予測制御のための学習サンプリング分布

Learning Sampling Distributions for Model Predictive Control ( http://arxiv.org/abs/2212.02587v1 )

ライセンス: Link先を確認
Jacob Sacks and Byron Boots(参考訳) サンプリングに基づく手法はモデル予測制御(MPC)の現代的アプローチの基盤となり、力学やコスト関数の微分可能性に制限を課さず、並列化が容易になった。 しかし、それらの効果はサンプリング分布自体の品質に大きく依存しており、ガウスのような単純なものと見なされることが多い。 この制限により、最適なサンプルが得られず、性能が低下する可能性がある。 最近の研究は、学習した潜在制御空間におけるサンプリングによるMPCの性能改善について検討している。 しかし、これらの手法は最終的に制御空間内の時間ステップ間の全てのMPCパラメータの更新とウォームスタートを実行する。 これにより,サンプルの生成や分布の更新に多数のヒューリスティックを頼りにし,準最適性能につながる可能性がある。 代わりに、学習した分布を最大限に活用できるように、潜在領域で全ての操作を実行することを提案する。 具体的には、学習問題を二段階最適化としてフレーム化し、バックプロパゲーション・タイムでコントローラをトレーニングする方法を示す。 分布の正規化フローパラメータ化を用いることで、そのトラクタブル密度を利用して、ダイナミクスとコスト関数の微分可能性を回避することができる。 最後に,シミュレーションロボットタスクにおける提案手法を評価し,サンプル数を減らすことで,先行手法の性能を上回り,スケール性を向上させる能力を示す。

Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
翻訳日:2022-12-07 17:43:03 公開日:2022-12-05
# 観測における観測不能の同定

Identification of Unobservables in Observations ( http://arxiv.org/abs/2212.02585v1 )

ライセンス: Link先を確認
Yingyao Hu(参考訳) 実証的研究では、通常、データは経済モデルにおけるすべての変数を含まない。 本稿では,人口レベルでの観測における観測変数の同定について述べる。 観測可能値がそれぞれの観測で異なる場合、観測可能値から観測不能値への写像が存在する。 このような関数は各観測における潜在値の特異性を保証する。 鍵は可観測物の分布から可観測物と可観測物の合同分布を同定することにある。 観測可能値と観測不能値の合同分布は、各観測値の潜在値を明らかにする。 この結果の3つの例について論じる。

In empirical studies, the data usually don't include all the variables of interest in an economic model. This paper shows the identification of unobserved variables in observations at the population level. When the observables are distinct in each observation, there exists a function mapping from the observables to the unobservables. Such a function guarantees the uniqueness of the latent value in each observation. The key lies in the identification of the joint distribution of observables and unobservables from the distribution of observables. The joint distribution of observables and unobservables then reveal the latent value in each observation. Three examples of this result are discussed.
翻訳日:2022-12-07 17:34:00 公開日:2022-12-05
# E-Commerce Order Fraud Evaluationのためのオフライン強化学習アルゴリズムのベンチマーク

Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce Order Fraud Evaluation ( http://arxiv.org/abs/2212.02620v1 )

ライセンス: Link先を確認
Soysal Degirmenci, Chris Jones(参考訳) amazonなどのeコマースサイトは、数百万の顧客を不正なクレジットカード使用などの不正行為から守るメカニズムを使わなければならない。 そのようなメカニズムの1つは注文不正評価であり、システムは不正リスクの注文を評価し、注文を「通過」するか、高いリスクを緩和するために行動を取る。 命令不正評価システムは通常、不正と合法の命令を区別する二項分類モデルを使用してリスクを評価し、行動を起こす。 我々は,不正行為を正当な顧客に適用した場合に損なわれる可能性のある不正行為の金銭的損失と長期顧客満足度の両方を考慮するシステムを考案する。 長期的影響を最適化するための行動を取ることは、強化学習(RL)問題として定式化できる。 標準のRL手法は学習する環境とのオンラインインタラクションを必要とするが、注文詐欺評価のような高度なアプリケーションでは望ましくない。 オフラインのrlアルゴリズムは、オンラインインタラクションを必要とせずに、環境から収集したログデータから学習します。 オフラインのrlメソッドは、注文詐欺リスクを組み込んだ簡単なeコマースシミュレーションであるsimstoreの従来のバイナリ分類ソリューションよりも優れています。 また、オフラインのRLポリシーをトレーニングする新たなアプローチを提案し、トレーニング中に新たな損失項を追加し、適切な行動を取ることでポリシー探索をより良く整合させる。

Amazon and other e-commerce sites must employ mechanisms to protect their millions of customers from fraud, such as unauthorized use of credit cards. One such mechanism is order fraud evaluation, where systems evaluate orders for fraud risk, and either "pass" the order, or take an action to mitigate high risk. Order fraud evaluation systems typically use binary classification models that distinguish fraudulent and legitimate orders, to assess risk and take action. We seek to devise a system that considers both financial losses of fraud and long-term customer satisfaction, which may be impaired when incorrect actions are applied to legitimate customers. We propose that taking actions to optimize long-term impact can be formulated as a Reinforcement Learning (RL) problem. Standard RL methods require online interaction with an environment to learn, but this is not desirable in high-stakes applications like order fraud evaluation. Offline RL algorithms learn from logged data collected from the environment, without the need for online interaction, making them suitable for our use case. We show that offline RL methods outperform traditional binary classification solutions in SimStore, a simplified e-commerce simulation that incorporates order fraud risk. We also propose a novel approach to training offline RL policies that adds a new loss term during training, to better align policy exploration with taking correct actions.
翻訳日:2022-12-07 17:27:36 公開日:2022-12-05
# AIDA:解析的分離と距離に基づく異常検出アルゴリズム

AIDA: Analytic Isolation and Distance-based Anomaly Detection Algorithm ( http://arxiv.org/abs/2212.02645v1 )

ライセンス: Link先を確認
Luis Antonio Souto Arias, Cornelis W. Oosterlee and Pasquale Cirillo(参考訳) 距離と孤立度の測定値を組み合わせて,距離に基づく異常検出アルゴリズムであるtextit{Analytic isolation and Distance-based Anomaly を開発した。 AIDAは、最も近い隣人の概念に依存しない最初の距離ベース手法であり、パラメータフリーモデルである。 孤立度メトリックが常にシミュレーションによって計算される一般的な文献とは異なり、aidaは外れ値の分析式を認めており、孤立度メトリックに対する新たな洞察を与えている。 さらに,aidaに基づく異常説明法を提案する。このアルゴリズムは,数百次元のデータセットにおいても最も関連性の高い異常特徴を見つける。 我々は、AIDAが他の最先端手法と比較して競争力があることを示し、多次元特徴部分空間に隠れたアウトリーチを見つけるのに優れていることを示す。 最後に、tixアルゴリズムが多次元特徴部分空間の外れ値を見出す方法を説明し、これらの説明を用いて異常検出に使用される共通ベンチマークを分析する。

We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
翻訳日:2022-12-07 17:27:13 公開日:2022-12-05
# 実例を用いた知識グラフ埋め込みモデルにおけるリンク予測の説明

Explaining Link Predictions in Knowledge Graph Embedding Models with Influential Examples ( http://arxiv.org/abs/2212.02651v1 )

ライセンス: Link先を確認
Adrianna Janik, Luca Costabello(参考訳) 本稿では,知識グラフ埋め込み(KGE)モデルにおけるリンク予測の説明問題について検討する。 本稿では,ナレッジグラフにおけるノードとエッジの潜在空間表現を利用した予測手法を提案する。 モデル性能の進行劣化を観察し, 同定された三重項の重要性を評価した。 提案手法は,KGEモデルに基づく2つの公開データセットのベースラインよりも優れていることを示す。

We study the problem of explaining link predictions in the Knowledge Graph Embedding (KGE) models. We propose an example-based approach that exploits the latent space representation of nodes and edges in a knowledge graph to explain predictions. We evaluated the importance of identified triples by observing progressing degradation of model performance upon influential triples removal. Our experiments demonstrate that this approach to generate explanations outperforms baselines on KGE models for two publicly available datasets.
翻訳日:2022-12-07 17:26:52 公開日:2022-12-05
# 合成画像を用いたデータレスフェイススワップ検出手法

A Dataless FaceSwap Detection Approach Using Synthetic Images ( http://arxiv.org/abs/2212.02571v1 )

ライセンス: Link先を確認
Anubhav Jain, Nasir Memon, Julian Togelius(参考訳) ディープフェイク」を作るために使われる顔交換技術は、ここ数年で大幅に進歩し、現実的な顔操作を実現できるようになった。 現在のディープフェイクを検出するディープラーニングアルゴリズムは、有望な結果を示しているが、それらは大量のトレーニングデータを必要としており、我々が示すように、それらは特定の民族に偏っている。 本稿では,StyleGAN3を用いた合成データを用いて,実データの必要性を解消するディープフェイク検出手法を提案する。 これは、実データを使用する従来のトレーニング方法論と同等に機能するだけでなく、少量の実データで微調整した場合の一般化能力も向上する。 さらにこれは、特定の民族からのデータが少ない可能性のある顔画像データセットによって生成されるバイアスを減少させる。

Face swapping technology used to create "Deepfakes" has advanced significantly over the past few years and now enables us to create realistic facial manipulations. Current deep learning algorithms to detect deepfakes have shown promising results, however, they require large amounts of training data, and as we show they are biased towards a particular ethnicity. We propose a deepfake detection methodology that eliminates the need for any real data by making use of synthetically generated data using StyleGAN3. This not only performs at par with the traditional training methodology of using real data but it shows better generalization capabilities when finetuned with a small amount of real data. Furthermore, this also reduces biases created by facial image datasets that might have sparse data from particular ethnicities.
翻訳日:2022-12-07 16:41:15 公開日:2022-12-05
# 見えないシナリオにおけるドメインジェネラルな集団カウント

Domain-general Crowd Counting in Unseen Scenarios ( http://arxiv.org/abs/2212.02573v1 )

ライセンス: Link先を確認
Zhipeng Du, Jiankang Deng, Miaojing Shi(参考訳) 群集データ間のドメインシフトは、群集数モデルが目に見えないシナリオに一般化するのを著しく妨げます。 ドメイン適応的な集団カウントのアプローチはこのギャップをある程度閉じるが、ターゲットのドメインデータに依存してモデルを特定のドメインに適応させる(ファイントゥンなど)。 本稿では,任意の未確認領域に対してよく一般化可能な単一ソースドメインに基づくモデルをトレーニングすることを目的とする。 これは、群衆数では未解決の領域一般化の領域に属する。 まず、ソースドメインを複数のサブドメインに分割する動的サブドメイン分割スキームを導入し、ドメイン一般化のためのメタラーニングフレームワークを開始する。 サブドメイン分割はメタラーニング中に動的に洗練される。 次に、画像特徴量におけるドメイン固有情報からドメイン不変情報を分離するために、画像特徴を再エンコードするためにドメイン不変および特定のクラウドメモリモジュールを設計する。 特徴再構成と直交損失の2種類の損失が、この混乱を可能にするために考案された。 SHA,SHB,QNRF,NWPUなどの標準群カウントベンチマークによる大規模な実験は,本手法の強い一般化性を示している。

Domain shift across crowd data severely hinders crowd counting models to generalize to unseen scenarios. Although domain adaptive crowd counting approaches close this gap to a certain extent, they are still dependent on the target domain data to adapt (e.g. finetune) their models to the specific domain. In this paper, we aim to train a model based on a single source domain which can generalize well on any unseen domain. This falls into the realm of domain generalization that remains unexplored in crowd counting. We first introduce a dynamic sub-domain division scheme which divides the source domain into multiple sub-domains such that we can initiate a meta-learning framework for domain generalization. The sub-domain division is dynamically refined during the meta-learning. Next, in order to disentangle domain-invariant information from domain-specific information in image features, we design the domain-invariant and -specific crowd memory modules to re-encode image features. Two types of losses, i.e. feature reconstruction and orthogonal losses, are devised to enable this disentanglement. Extensive experiments on several standard crowd counting benchmarks i.e. SHA, SHB, QNRF, and NWPU, show the strong generalizability of our method.
翻訳日:2022-12-07 16:41:03 公開日:2022-12-05
# POQue: 複雑なイベントをより深く理解するための参加者固有のアウトカム質問

POQue: Asking Participant-specific Outcome Questions for a Deeper Understanding of Complex Events ( http://arxiv.org/abs/2212.02629v1 )

ライセンス: Link先を確認
Sai Vallurupalli, Sayontan Ghosh, Katrin Erk, Niranjan Balasubramanian, Francis Ferraro(参考訳) 結果に関する知識は複雑なイベント理解には不可欠だが、取得は難しい。 複雑なイベントの参加者を事前に特定することにより、群衆労働者は、(1)状況を構成するサルエントイベントの集団的影響を推測し、(2)状況の原因となる参加者の自発的関与を注釈し、(3)参加者の状態変化における状況の成果を判断できることを示す。 マルチステップインタフェースと注意深い品質管理戦略を作成することにより、高いアノテータ契約(0.74-0.96重み付きFleiss Kappa)を持つ8K短いニュースワイヤ物語とROCStoriesの高品質なアノテートデータセットを収集する。 我々のデータセットであるPOQue(Participant Outcome Questions)は、意味理解の複数の側面に対処するモデルの探索と開発を可能にする。 実験では, 複雑な事象の抽象的, 具体的な理解, 結果, 事象の終末に対する参加者の影響を目標としたタスク定式化を通じて, 現在の言語モデルが微妙に人間のパフォーマンスに遅れをとっていることを示す。

Knowledge about outcomes is critical for complex event understanding but is hard to acquire. We show that by pre-identifying a participant in a complex event, crowd workers are able to (1) infer the collective impact of salient events that make up the situation, (2) annotate the volitional engagement of participants in causing the situation, and (3) ground the outcome of the situation in state changes of the participants. By creating a multi-step interface and a careful quality control strategy, we collect a high quality annotated dataset of 8K short newswire narratives and ROCStories with high inter-annotator agreement (0.74-0.96 weighted Fleiss Kappa). Our dataset, POQue (Participant Outcome Questions), enables the exploration and development of models that address multiple aspects of semantic understanding. Experimentally, we show that current language models lag behind human performance in subtle ways through our task formulations that target abstract and specific comprehension of a complex event, its outcome, and a participant's influence over the event culmination.
翻訳日:2022-12-07 16:33:43 公開日:2022-12-05
# 実用性を保つ顔の識別方法としてのStyleGAN

StyleGAN as a Utility-Preserving Face De-identification Method ( http://arxiv.org/abs/2212.02611v1 )

ライセンス: Link先を確認
Seyyed Mohammad Sadegh Moosavi Khorzooghi and Shirin Nilizadeh(参考訳) 顔を隠すことでユーザのプライバシを保護するために,顔の特定方法がいくつか提案されている。 しかし、これらの方法は写真の質を劣化させる可能性があり、通常は顔の効能(年齢、性別、ポーズ、表情など)を保たない。 近年、StyleGANのような先進的な生成逆ネットワークモデルが提案され、現実的で高品質な仮想顔を生成する。 本稿では,対象の顔と補助顔のスタイルや特徴を混合して,対象顔のユーティリティを担っている非識別顔を生成する,スタイル混合による非識別顔の生成におけるスタイルガンの使用について検討する。 本手法は,複数の顔検出,検証,識別攻撃を実施し,有用性とプライバシの保護について検討した。 広範な実験と2つの最先端顔識別法との比較を通じて,スタイルガンは他のアプローチよりも顔の品質と有用性が保たれていること,およびスタイル混合レベルを正しく選択することで,顔のプライバシーを他の手法よりもはるかに保たれることを示した。

Several face de-identification methods have been proposed to preserve users' privacy by obscuring their faces. These methods, however, can degrade the quality of photos, and they usually do not preserve the utility of faces, e.g., their age, gender, pose, and facial expression. Recently, advanced generative adversarial network models, such as StyleGAN, have been proposed, which generate realistic, high-quality imaginary faces. In this paper, we investigate the use of StyleGAN in generating de-identified faces through style mixing, where the styles or features of the target face and an auxiliary face get mixed to generate a de-identified face that carries the utilities of the target face. We examined this de-identification method with respect to preserving utility and privacy, by implementing several face detection, verification, and identification attacks. Through extensive experiments and also comparing with two state-of-the-art face de-identification methods, we show that StyleGAN preserves the quality and utility of the faces much better than the other approaches and also by choosing the style mixing levels correctly, it can preserve the privacy of the faces much better than other methods.
翻訳日:2022-12-07 16:25:40 公開日:2022-12-05
# 複数の摂動攻撃:異なる$\ell_p$-normでpixelwiseを攻撃し、逆境のパフォーマンスを改善する

Multiple Perturbation Attack: Attack Pixelwise Under Different $\ell_p$-norms For Better Adversarial Performance ( http://arxiv.org/abs/2212.03069v1 )

ライセンス: Link先を確認
Ngoc N. Tran, Anh Tuan Bui, Dinh Phung, Trung Le(参考訳) 敵対的機械学習は、特に現在のランドスケープにおけるディープニューラルネットワークのユビキタス使用に関して、主要な関心事とホットトピックである。 敵の攻撃と防御は、通常、防御者や攻撃者が時間をかけて進化する猫とマウスのゲームに例えられる。 一方の目標は、悪意のあるアクターに耐性のある強力で堅牢なディープネットワークを開発することだ。 一方、これを実現するためには、より強力な敵攻撃を考案し、これらの防衛モデルに挑戦する必要がある。 既存の攻撃のほとんどは、近接性の概念を定義するために単一の$\ell_p$距離(一般に$p\in\{1,2,\infty\}$)を採用しており、この$p$-normで全てのピクセルを逆の例で更新する。 これらの$\ell_p$攻撃には、それぞれ独自の長所と短所があり、複数の$\ell_p$ノルムに対してロバストな防御モデルを同時に突破できる単一の攻撃は存在しない。 これらの観測により、我々は様々な$\ell_p$勾配の投影をピクセルレベルで組み合わせ、対向対向摂動を達成するという自然なアプローチを思いついた。 具体的には、攻撃性能を最大化するために各ピクセルを摂動させる方法を学習し、また、攻撃例の全体的な可視性を維持します。 最後に, 標準ベンチマークを用いた各種実験により, 本手法は最先端の防御機構にまたがる最も強固な攻撃よりも優れており, クリーンな視認性は保たれていることを示した。

Adversarial machine learning has been both a major concern and a hot topic recently, especially with the ubiquitous use of deep neural networks in the current landscape. Adversarial attacks and defenses are usually likened to a cat-and-mouse game in which defenders and attackers evolve over the time. On one hand, the goal is to develop strong and robust deep networks that are resistant to malicious actors. On the other hand, in order to achieve that, we need to devise even stronger adversarial attacks to challenge these defense models. Most of existing attacks employs a single $\ell_p$ distance (commonly, $p\in\{1,2,\infty\}$) to define the concept of closeness and performs steepest gradient ascent w.r.t. this $p$-norm to update all pixels in an adversarial example in the same way. These $\ell_p$ attacks each has its own pros and cons; and there is no single attack that can successfully break through defense models that are robust against multiple $\ell_p$ norms simultaneously. Motivated by these observations, we come up with a natural approach: combining various $\ell_p$ gradient projections on a pixel level to achieve a joint adversarial perturbation. Specifically, we learn how to perturb each pixel to maximize the attack performance, while maintaining the overall visual imperceptibility of adversarial examples. Finally, through various experiments with standardized benchmarks, we show that our method outperforms most current strong attacks across state-of-the-art defense mechanisms, while retaining its ability to remain clean visually.
翻訳日:2022-12-07 16:24:44 公開日:2022-12-05
# MAP-Music2Vec: 自己監督型オーディオ表現学習のためのシンプルで効果的なベースライン

MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music Audio Representation Learning ( http://arxiv.org/abs/2212.02508v1 )

ライセンス: Link先を確認
Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Chenghua Lin, Xingran Chen, Anton Ragni, Hanzhi Yin, Zhijie Hu, Haoyu He, Emmanouil Benetos, Norbert Gyenge, Ruibo Liu and Jie Fu(参考訳) ディープラーニングコミュニティは、自己教師型学習(SSL)への関心が急増しているのを目撃している。 しかし、生の波形の表現を自己指導的に学習するためのフレームワークを構築する方法はまだ解明されていない。 本研究では,音楽録音のためのさまざまなSSLアルゴリズムコンポーネントとトリックを探索するフレームワークであるMusic2Vecを設計する。 我々のモデルは、後者のパラメータの2%未満であるにもかかわらず、最先端(SOTA)音楽SSLモデルJukeboxに匹敵する結果が得られる。 モデルは huggingface(https://huggingface.co/m-a-p/music2vec-v1) でリリースされる。

The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
翻訳日:2022-12-07 16:23:49 公開日:2022-12-05
# モデル予測制御における最適学習

Learning to Optimize in Model Predictive Control ( http://arxiv.org/abs/2212.02603v1 )

ライセンス: Link先を確認
Jacob Sacks, Byron Boots(参考訳) サンプリングベースモデル予測制御(mpc)は、非スムースダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。 近年、機械学習によるMPCの性能向上に焦点が当てられ、しばしば力学やコスト関数の学習や微調整を通じて行われている。 対照的に、より効果的に最適化する学習にフォーカスしています。 言い換えれば、mpc内の更新ルールを改善する。 これはサンプリングベースのMPCにおいて特に有用であり,計算上の理由からサンプル数を最小化したいと考える場合が多い。 残念なことに、計算効率のコストはパフォーマンスの低下であり、サンプルが少ないとノイズが多い。 我々は,制御分布をより効果的に更新する方法を習得し,少数のサンプルをより有効に利用することで,このノイズに対抗できることを示す。 学習したコントローラは模倣学習を通じてトレーニングされ、相当多くのサンプルにアクセス可能な専門家を模倣します。 サンプル制約型システムにおける複数のロボットタスクに対するアプローチの有効性を検証し、同じ数のサンプルでMPCコントローラより優れていることを示す。

Sampling-based Model Predictive Control (MPC) is a flexible control framework that can reason about non-smooth dynamics and cost functions. Recently, significant work has focused on the use of machine learning to improve the performance of MPC, often through learning or fine-tuning the dynamics or cost function. In contrast, we focus on learning to optimize more effectively. In other words, to improve the update rule within MPC. We show that this can be particularly useful in sampling-based MPC, where we often wish to minimize the number of samples for computational reasons. Unfortunately, the cost of computational efficiency is a reduction in performance; fewer samples results in noisier updates. We show that we can contend with this noise by learning how to update the control distribution more effectively and make better use of the few samples that we have. Our learned controllers are trained via imitation learning to mimic an expert which has access to substantially more samples. We test the efficacy of our approach on multiple simulated robotics tasks in sample-constrained regimes and demonstrate that our approach can outperform a MPC controller with the same number of samples.
翻訳日:2022-12-07 16:23:39 公開日:2022-12-05
# inclusify: ジェンダー排他的ドイツ語のベンチマークとモデル

INCLUSIFY: A benchmark and a model for gender-inclusive German ( http://arxiv.org/abs/2212.02564v1 )

ライセンス: Link先を確認
David Pomerenke(参考訳) ジェンダー・インクルージョン言語は、ドイツ語のような性差のある言語において男女平等を達成するために重要である。 いくつかの論争を巻き起こす一方で、企業や政治機関にも採用されている。 ジェネリックマンスクリリンのインスタンスを特定し、より包括的な改革の提案を提供することで、ジェンダー排他的な言語の使用を支援するツールがいくつか開発されている。 本報告では,基礎となるタスクを自然言語処理の観点から定義し,それらをベンチマークするためのデータセットと尺度を示す。 また,包括的言語データベースと,標準事前学習モデルによる精巧な処理手順を組み合わせることで,これらのタスクを実装するモデルを提案する。 本モデルでは,排他的言語を識別するためのベンチマークで 0.89 のリコールと 0.82 の精度を実現し,その上位 5 つの提案のうちの 1 つを実世界のテキストで44% のケースで選択した。 我々は, エンド・ツー・エンドのモデルを訓練し, 大規模言語モデルを用いて, 地域がさらに進歩する様をスケッチし, コミュニティに対して, ジェンダー排他的言語の採用の障害を示さないように, 教育データに, ジェンダー排他的テキストを含めるよう求めた。 これらの努力を通じて、私たちは、言語における正義の回復と、現実のごく一部に寄与したいと考えています。

Gender-inclusive language is important for achieving gender equality in languages with gender inflections, such as German. While stirring some controversy, it is increasingly adopted by companies and political institutions. A handful of tools have been developed to help people use gender-inclusive language by identifying instances of the generic masculine and providing suggestions for more inclusive reformulations. In this report, we define the underlying tasks in terms of natural language processing, and present a dataset and measures for benchmarking them. We also present a model that implements these tasks, by combining an inclusive language database with an elaborate sequence of processing steps via standard pre-trained models. Our model achieves a recall of 0.89 and a precision of 0.82 in our benchmark for identifying exclusive language; and one of its top five suggestions is chosen in real-world texts in 44% of cases. We sketch how the area could be further advanced by training end-to-end models and using large language models; and we urge the community to include more gender-inclusive texts in their training data in order to not present an obstacle to the adoption of gender-inclusive language. Through these efforts, we hope to contribute to restoring justice in language and, to a small extent, in reality.
翻訳日:2022-12-07 16:22:36 公開日:2022-12-05
# 学生予測分析におけるバイアス軽減のための多層個人化フェデレーション学習

Multi-Layer Personalized Federated Learning for Mitigating Biases in Student Predictive Analytics ( http://arxiv.org/abs/2212.02985v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Seyyedali Hosseinalipour, Elizabeth Tenorio, Laura Cruz, Kerrie Douglas, Andrew Lan, Christopher Brinton(参考訳) 従来の学習に基づく学生モデリング(例えば、測定された活動に基づいて成績を予測する)のアプローチは、データの可用性のバイアスにより、不足/マイノリティの学生グループにあまり一般化しない。 本稿では,学生グループ化基準の異なる層に対する推論精度を,コースごとに,また各コース内の人口統計学的サブグループによって最適化する多層パーソナライズド・フェデレーション・ラーニング(MLPFL)手法を提案する。 提案手法では,個別の学生サブグループのパーソナライズされたモデルは,全データセットにまたがる共通性をモデル化しながら,サブグループの不均一性を考慮したメタ段階更新を通じて,分散形式で訓練されたグローバルモデルから導かれる。 本手法を評価するために,モデルトレーニングにおける学生行動の多様性(講義ビデオの訪問やフォーラムへの参加など)を活用する2つの人気下流学生モデリングタスク,知識追跡,成果予測のケーススタディを検討する。 オンラインコースから得られた3つの実世界のデータセットを用いた実験により,提案手法は,各学生サブグループの平均値の増加と予測品質のばらつきの低減という観点から,既存の学生モデリングベースラインよりも大幅な改善が得られた。 学習結果の知識状態の視覚的解析により,学習者の行動パターンを異なるサブグループに分類し,学習結果のベースラインに対する性能向上と一致していることを確認した。

Traditional learning-based approaches to student modeling (e.g., predicting grades based on measured activities) generalize poorly to underrepresented/minority student groups due to biases in data availability. In this paper, we propose a Multi-Layer Personalized Federated Learning (MLPFL) methodology which optimizes inference accuracy over different layers of student grouping criteria, such as by course and by demographic subgroups within each course. In our approach, personalized models for individual student subgroups are derived from a global model, which is trained in a distributed fashion via meta-gradient updates that account for subgroup heterogeneity while preserving modeling commonalities that exist across the full dataset. To evaluate our methodology, we consider case studies of two popular downstream student modeling tasks, knowledge tracing and outcome prediction, which leverage multiple modalities of student behavior (e.g., visits to lecture videos and participation on forums) in model training. Experiments on three real-world datasets from online courses demonstrate that our approach obtains substantial improvements over existing student modeling baselines in terms of increasing the average and decreasing the variance of prediction quality across different student subgroups. Visual analysis of the resulting students' knowledge state embeddings confirm that our personalization methodology extracts activity patterns which cluster into different student subgroups, consistent with the performance enhancements we obtain over the baselines.
翻訳日:2022-12-07 16:15:28 公開日:2022-12-05
# 支援課題における一般化を可能にする学習表現

Learning Representations that Enable Generalization in Assistive Tasks ( http://arxiv.org/abs/2212.03175v1 )

ライセンス: Link先を確認
Jerry Zhi-Yang He, Aditi Raghunathan, Daniel S. Brown, Zackory Erickson, Anca D. Dragan(参考訳) sim2realでの最近の研究により、ロボットは様々な環境(すなわちドメインのランダム化)の「人口」をシミュレーションで訓練することで、物理的環境での行動に成功している。 本研究は,ロボットがユーザを支援するために行動しているタスク(入浴時やかゆみをひっかいて運動障害のある人を助けるなど)の,補助作業における一般化を可能にすることに焦点を当てる。 このようなタスクは、これまでのsim2realの成功と比較して特に興味深い。 これは、人間ユーザーの多様性(単に物理的な環境パラメータではなく)が人口を捕えるのが困難であるため、テスト時に人為的政策(OOD)に遭遇する可能性を高めるため、問題を複雑化する。 このようなOOD政策の一般化は,(1)テストタイム人間が正確に対応可能な人的政策の優れた潜伏表現を学習すること,(2)テストタイムのインタラクションデータに適応させることによって,シミュレーションされた人口のみに基づく人的政策の空間を完璧に捉えることに頼るのではなく,その表現をテストタイムのインタラクションデータに適応させることから恩恵を受けることを主張する。 我々は,OODテストポリシーを意図的に構築した上で評価することで,このような表現を最もよく学習する方法を検討する。 環境(あるいは人口)パラメータを符号化し、ロボットが単独で行うタスクでうまく機能するsim2realメソッドは、支援においてうまく機能しない。 支援では、ロボットがテスト時にアクセスできるようにするため、直接対話の歴史に基づいて表現を訓練することが重要であるように思える。 さらに、これらの表現をトレーニングして人間の行動を予測することで、より優れた構造を与えるだけでなく、ロボットがパートナーの行動を観察するとき、テスト時に微調整できる。 https://adaptive-caregiver.github.io。

Recent work in sim2real has successfully enabled robots to act in physical environments by training in simulation with a diverse ''population'' of environments (i.e. domain randomization). In this work, we focus on enabling generalization in assistive tasks: tasks in which the robot is acting to assist a user (e.g. helping someone with motor impairments with bathing or with scratching an itch). Such tasks are particularly interesting relative to prior sim2real successes because the environment now contains a human who is also acting. This complicates the problem because the diversity of human users (instead of merely physical environment parameters) is more difficult to capture in a population, thus increasing the likelihood of encountering out-of-distribution (OOD) human policies at test time. We advocate that generalization to such OOD policies benefits from (1) learning a good latent representation for human policies that test-time humans can accurately be mapped to, and (2) making that representation adaptable with test-time interaction data, instead of relying on it to perfectly capture the space of human policies based on the simulated population only. We study how to best learn such a representation by evaluating on purposefully constructed OOD test policies. We find that sim2real methods that encode environment (or population) parameters and work well in tasks that robots do in isolation, do not work well in assistance. In assistance, it seems crucial to train the representation based on the history of interaction directly, because that is what the robot will have access to at test time. Further, training these representations to then predict human actions not only gives them better structure, but also enables them to be fine-tuned at test-time, when the robot observes the partner act. https://adaptive-caregiver.github.io.
翻訳日:2022-12-07 16:14:23 公開日:2022-12-05
# 表情を用いた感情認識法の比較研究

A comparative study of emotion recognition methods using facial expressions ( http://arxiv.org/abs/2212.03102v1 )

ライセンス: Link先を確認
Rim EL Cheikh, H\'el\`ene Tran, Issam Falih, Engelbert Mephu Nguifo(参考訳) 対話者の表情を理解することは、コミュニケーションを豊かにし、明示的な表現以上の深みを与えるために重要である。 実際、自分の表情を研究することは、彼らの隠れた感情状態に関する洞察を与える。 しかしながら、人間として、そして人間の感情経験に共感と親しみがあるにもかかわらず、私たちは相手が何を感じているのかを推測するしかありません。 人工知能とコンピュータビジョンの分野において、顔の感情認識(fer)は、主にディープラーニングアプローチの進歩とデータ収集の改善によって、まだ完全に成長しているトピックである。 本研究の目的は、3つのFERデータセット上で、FERタスクを改善するための独自のアプローチを持つ3つの最先端ネットワークの性能を比較することである。 第1部と第2部はそれぞれ、FERタスク用に設計された3つの研究されたネットワークアーキテクチャを記述している。 実験プロトコル、結果、およびそれらの解釈は、残りのセクションで概説する。

Understanding the facial expressions of our interlocutor is important to enrich the communication and to give it a depth that goes beyond the explicitly expressed. In fact, studying one's facial expression gives insight into their hidden emotion state. However, even as humans, and despite our empathy and familiarity with the human emotional experience, we are only able to guess what the other might be feeling. In the fields of artificial intelligence and computer vision, Facial Emotion Recognition (FER) is a topic that is still in full growth mostly with the advancement of deep learning approaches and the improvement of data collection. The main purpose of this paper is to compare the performance of three state-of-the-art networks, each having their own approach to improve on FER tasks, on three FER datasets. The first and second sections respectively describe the three datasets and the three studied network architectures designed for an FER task. The experimental protocol, the results and their interpretation are outlined in the remaining sections.
翻訳日:2022-12-07 16:07:13 公開日:2022-12-05
# 確率的決定木を用いた微妙なパース区別の微調整--名詞補足節と関係節の「that」後名詞の場合

Fine-tuning a Subtle Parsing Distinction Using a Probabilistic Decision Tree: the Case of Postnominal "that" in Noun Complement Clauses vs. Relative Clauses ( http://arxiv.org/abs/2212.02591v1 )

ライセンス: Link先を確認
Zineddine Tighidet and Nicolas Ballier(参考訳) 本稿では,英文の相対代名詞と名詞補代名詞を解析する2つの異なる手法について検討し,それに対応する異なるタグを相対代名詞として,補代詞として,また補代詞として用いた。 ガムツリーバンクで解析されたコーパスをユニバーサル依存性を用いてrelabelするアルゴリズムを用いた。 2つ目の実験は、確率的決定木であるTreeTaggerを用いて、2つの補数と相対的利用の区別を学習することであった。 トレーニングセットのサイズがTreeTaggerの精度に及ぼす影響と,GUM Treebankファイルが2つの構造に対してどのように動作するかを検討した。 我々はこの区別の学習可能性に関する言語的および構造的信条について論じる。

In this paper we investigated two different methods to parse relative and noun complement clauses in English and resorted to distinct tags for their corresponding that as a relative pronoun and as a complementizer. We used an algorithm to relabel a corpus parsed with the GUM Treebank using Universal Dependency. Our second experiment consisted in using TreeTagger, a Probabilistic Decision Tree, to learn the distinction between the two complement and relative uses of postnominal "that". We investigated the effect of the training set size on TreeTagger accuracy and how representative the GUM Treebank files are for the two structures under scrutiny. We discussed some of the linguistic and structural tenets of the learnability of this distinction.
翻訳日:2022-12-07 16:06:17 公開日:2022-12-05
# ランダム化符号化による量子対数ロバスト性向上

Enhancing Quantum Adversarial Robustness by Randomized Encodings ( http://arxiv.org/abs/2212.02531v1 )

ライセンス: Link先を確認
Weiyuan Gong, Dong Yuan, Weikang Li and Dong-Ling Deng(参考訳) 量子物理学と機械学習の相互作用は、量子機械学習の創発的なフロンティアを生み出す。 しかし、量子学習システムは敵対的な攻撃に弱い: 正当な入力サンプルに慎重に作られた摂動を追加すると、誤った分類を引き起こす可能性がある。 そこで本研究では,正則データサンプルをユニタリあるいは量子誤り訂正エンコーダを用いてランダムに符号化することにより,量子学習システムを敵攻撃から保護する一般的な手法を提案する。 特に、大域的および局所的ランダムなユニタリエンコーダの両方が、入力データと逆回路と量子分類器の内部構造に独立な逆摂動を加えることを目的とした変動量子回路に対して指数関数的に勾配(バレンプラトー)を消失させることを厳密に証明する。 さらに,局所的な一元攻撃下での量子分類器の脆弱性に対する厳密な制限を証明した。 ランダムなブラックボックス量子誤り訂正エンコーダは、量子分類器を局所的な逆雑音から保護し、誤り訂正符号を結合するにつれてその頑健性が増加することを示す。 堅牢性向上の定量化のために,量子分類器の予測安定性の尺度として量子微分プライバシーを適用した。 本研究は, 量子分類器の対向的摂動に対する汎用的防御戦略を確立し, 短期および将来の量子学習技術の信頼性と安全性を高めるための貴重なガイダンスを提供する。

The interplay between quantum physics and machine learning gives rise to the emergent frontier of quantum machine learning, where advanced quantum learning models may outperform their classical counterparts in solving certain challenging problems. However, quantum learning systems are vulnerable to adversarial attacks: adding tiny carefully-crafted perturbations on legitimate input samples can cause misclassifications. To address this issue, we propose a general scheme to protect quantum learning systems from adversarial attacks by randomly encoding the legitimate data samples through unitary or quantum error correction encoders. In particular, we rigorously prove that both global and local random unitary encoders lead to exponentially vanishing gradients (i.e. barren plateaus) for any variational quantum circuits that aim to add adversarial perturbations, independent of the input data and the inner structures of adversarial circuits and quantum classifiers. In addition, we prove a rigorous bound on the vulnerability of quantum classifiers under local unitary adversarial attacks. We show that random black-box quantum error correction encoders can protect quantum classifiers against local adversarial noises and their robustness increases as we concatenate error correction codes. To quantify the robustness enhancement, we adapt quantum differential privacy as a measure of the prediction stability for quantum classifiers. Our results establish versatile defense strategies for quantum classifiers against adversarial perturbations, which provide valuable guidance to enhance the reliability and security for both near-term and future quantum learning technologies.
翻訳日:2022-12-07 16:06:01 公開日:2022-12-05
# 長期covid-19パンデミック予測と政策影響分析のためのモビリティアウェア深層学習モデル

A Mobility-Aware Deep Learning Model for Long-Term COVID-19 Pandemic Prediction and Policy Impact Analysis ( http://arxiv.org/abs/2212.02575v1 )

ライセンス: Link先を確認
Danfeng Guo, Zijie Huang, Junheng Hao, Yizhou Sun, Wei Wang, Demetri Terzopoulos(参考訳) パンデミック(エピデミック)モデリングは、病気の拡散分析を目的としたもので、2019年の新型コロナウイルスの流行以降、常に一般的な研究テーマとなっている。 SIRに基づくディープラーニング予測モデルを含む代表的なモデルは、良好な性能を示している。 しかし、彼らの大きな欠点は、長期的な予測能力が不足していることである。 グラフ畳み込みネットワーク(GCN)もよく機能するが、エッジ表現には完全な情報が含まれておらず、バイアスにつながる可能性がある。 もうひとつの欠点は、通常は予測できない入力機能を使用することだ。 したがって、これらのモデルはさらなる未来を予測できない。 本稿では,予測をより未来へ伝播させるモデルを提案し,エッジ表現を改良した。 特に,パンデミックを,エッジが感染の推移を表し,モデルによって学習される空間-時間グラフとしてモデル化する。 我々は、GCNと再帰構造(GRU)を含む2ストリームフレームワークをアテンション機構付きで使用する。 本モデルは,公衆衛生研究者や政策立案者に効果的なツールボックスを提供するモビリティ分析を可能にし,モビリティーを積極的に制御するロックダウン戦略がパンデミックの伝播にどのような影響を及ぼすかを予測する。 実験により、我々のモデルは長期予測力で他よりも優れていることが示された。 さらに,特定の政策の効果をシミュレートし,感染対策への影響を予測する。

Pandemic(epidemic) modeling, aiming at disease spreading analysis, has always been a popular research topic especially following the outbreak of COVID-19 in 2019. Some representative models including SIR-based deep learning prediction models have shown satisfactory performance. However, one major drawback for them is that they fall short in their long-term predictive ability. Although graph convolutional networks (GCN) also perform well, their edge representations do not contain complete information and it can lead to biases. Another drawback is that they usually use input features which they are unable to predict. Hence, those models are unable to predict further future. We propose a model that can propagate predictions further into the future and it has better edge representations. In particular, we model the pandemic as a spatial-temporal graph whose edges represent the transition of infections and are learned by our model. We use a two-stream framework that contains GCN and recursive structures (GRU) with an attention mechanism. Our model enables mobility analysis that provides an effective toolbox for public health researchers and policy makers to predict how different lock-down strategies that actively control mobility can influence the spread of pandemics. Experiments show that our model outperforms others in its long-term predictive power. Moreover, we simulate the effects of certain policies and predict their impacts on infection control.
翻訳日:2022-12-07 16:05:33 公開日:2022-12-05
# 事前処理アルゴリズムを組み込むことは、機械学習の公正性向上につながるか?

Can Ensembling Pre-processing Algorithms Lead to Better Machine Learning Fairness? ( http://arxiv.org/abs/2212.02614v1 )

ライセンス: Link先を確認
Khaled Badran, Pierre-Olivier C\^ot\'e, Amanda Kolopanis, Rached Bouchoucha, Antonio Collante, Diego Elias Costa, Emad Shihab, Foutse Khomh(参考訳) 機械学習(ML)システムがより重要な領域に採用されるにつれ、これらのシステムで起こりうるバイアスに対処することがますます重要になっている。 モデルトレーニング中に暗黙のバイアスを軽減するために、いくつかのフェアネス前処理アルゴリズムが利用可能である。 これらのアルゴリズムはフェアネスの異なる概念を採用しており、しばしばフェアネスと精度の連続的なトレードオフを伴う戦略と矛盾する。 本研究では,3つの定性前処理アルゴリズムを評価し,全てのアルゴリズムをより堅牢な前処理アンサンブルに組み合わせる可能性を検討する。 モデルの公平性アルゴリズムを実践者がよりよく選択できるための教訓について報告する。

As machine learning (ML) systems get adopted in more critical areas, it has become increasingly crucial to address the bias that could occur in these systems. Several fairness pre-processing algorithms are available to alleviate implicit biases during model training. These algorithms employ different concepts of fairness, often leading to conflicting strategies with consequential trade-offs between fairness and accuracy. In this work, we evaluate three popular fairness pre-processing algorithms and investigate the potential for combining all algorithms into a more robust pre-processing ensemble. We report on lessons learned that can help practitioners better select fairness algorithms for their models.
翻訳日:2022-12-07 16:05:10 公開日:2022-12-05
# Metric Embeddings を用いた効率的なマルウェア解析

Efficient Malware Analysis Using Metric Embeddings ( http://arxiv.org/abs/2212.02663v1 )

ライセンス: Link先を確認
Ethan M. Rudd, David Krisiloff, Scott Coull, Daniel Olszewski, Edward Raff and James Holt(参考訳) 本稿では,マルウェア検出,家族分類,マルウェア属性タグ付けなど,さまざまなアプリケーションにおいて,Windows PEファイルを低次元ベクトル空間に埋め込むためのメトリック学習の利用について検討する。 具体的には、計算コストが高く、分解性のある悪意のあるPEファイルにラベルを付ける。 これらの機能を用いて、コントラスト損失、スピアマンランク相関、それらの組み合わせによって訓練された埋め込みニューラルネットワークを用いて、様々な種類のメトリック埋め込みを導出する。 次に、EMBERおよびSORELデータセット上で実行される様々な転送タスクの性能について検討し、複数のタスクにおいて、低次元の計算効率なメートル法埋め込みは、ほとんど減衰することなく性能を維持できることを示した。 本研究は, 敵の回避に対する堅牢性や, ミッションクリティカルタスクの性能向上を目的としたタスク特異的補助目標の導入など, 本提案手法の実用化に向けた実践的考察から結論する。

In this paper, we explore the use of metric learning to embed Windows PE files in a low-dimensional vector space for downstream use in a variety of applications, including malware detection, family classification, and malware attribute tagging. Specifically, we enrich labeling on malicious and benign PE files using computationally expensive, disassembly-based malicious capabilities. Using these capabilities, we derive several different types of metric embeddings utilizing an embedding neural network trained via contrastive loss, Spearman rank correlation, and combinations thereof. We then examine performance on a variety of transfer tasks performed on the EMBER and SOREL datasets, demonstrating that for several tasks, low-dimensional, computationally efficient metric embeddings maintain performance with little decay, which offers the potential to quickly retrain for a variety of transfer tasks at significantly reduced storage overhead. We conclude with an examination of practical considerations for the use of our proposed embedding approach, such as robustness to adversarial evasion and introduction of task-specific auxiliary objectives to improve performance on mission critical tasks.
翻訳日:2022-12-07 16:04:59 公開日:2022-12-05
# End-to-End InfoSecタスク用トランスフォーマの検討

Transformers for End-to-End InfoSec Tasks: A Feasibility Study ( http://arxiv.org/abs/2212.02666v1 )

ライセンス: Link先を確認
Ethan M. Rudd, Mohammad Saidur Rahman and Philip Tully(参考訳) 本稿では,中間的な特徴表現や処理ステップがモデル外で発生しない,エンドツーエンドのInfoSec設定におけるトランスフォーマーモデルの有効性を評価する。 我々は、新しいエンドツーエンドアプローチで、2つの異なるInfoSecデータフォーマット(特にURLとPEファイル)のトランスフォーマーモデルを実装し、様々なアーキテクチャ設計、トレーニングレシシ、実験的な設定を探索し、パフォーマンス検出モデルに必要な要素を決定する。 より標準的なNLP関連のタスクで訓練された従来のトランスフォーマーとは対照的に、我々のURLトランスフォーマーモデルは高いパフォーマンスを達成するために異なるトレーニングアプローチを必要とする。 具体的には 1) 自動回帰作業のためのラベルなしURLデータの大量コーパスの事前訓練は、悪意のあるURLまたは良性のあるURLのバイナリ分類に容易に移行するわけではないが、 2) 補助的自己回帰損失を用いることで, スクラッチからトレーニングを行う際の性能が向上する。 そこで本研究では,両損失項からの貢献を動的にバランスさせる混合目的最適化手法を提案する。 本手法は,いくつかのトップパフォーマンスベンチマーク分類器に匹敵する定量的評価指標を示す。 urlとは異なり、バイナリ実行ファイルは、情報豊富なバイトのより長い分散シーケンスを含む。 このような長いバイト列に対応するために、sukhbaatarらと同様の適応スパンを持つ自己アテンション層を提供することにより、トランスフォーマティブにさらにコンテキスト長を導入する。 提案手法は,PEファイルのベンチマークデータセット上で確立されたマルウェア検出モデルと相容れない性能を示すとともに,スケーラビリティと計算効率のモデル改善について,さらなる検討の必要性を指摘する。

In this paper, we assess the viability of transformer models in end-to-end InfoSec settings, in which no intermediate feature representations or processing steps occur outside the model. We implement transformer models for two distinct InfoSec data formats - specifically URLs and PE files - in a novel end-to-end approach, and explore a variety of architectural designs, training regimes, and experimental settings to determine the ingredients necessary for performant detection models. We show that in contrast to conventional transformers trained on more standard NLP-related tasks, our URL transformer model requires a different training approach to reach high performance levels. Specifically, we show that 1) pre-training on a massive corpus of unlabeled URL data for an auto-regressive task does not readily transfer to binary classification of malicious or benign URLs, but 2) that using an auxiliary auto-regressive loss improves performance when training from scratch. We introduce a method for mixed objective optimization, which dynamically balances contributions from both loss terms so that neither one of them dominates. We show that this method yields quantitative evaluation metrics comparable to that of several top-performing benchmark classifiers. Unlike URLs, binary executables contain longer and more distributed sequences of information-rich bytes. To accommodate such lengthy byte sequences, we introduce additional context length into the transformer by providing its self-attention layers with an adaptive span similar to Sukhbaatar et al. We demonstrate that this approach performs comparably to well-established malware detection models on benchmark PE file datasets, but also point out the need for further exploration into model improvements in scalability and compute efficiency.
翻訳日:2022-12-07 16:04:40 公開日:2022-12-05
# 先進分析における合成データ活用のための分類学を目指して

Towards a Taxonomy for the Use of Synthetic Data in Advanced Analytics ( http://arxiv.org/abs/2212.02622v1 )

ライセンス: Link先を確認
Peter Kowalczyk, Giacomo Welsch, Fr\'ed\'eric Thiesse(参考訳) ディープラーニング技術の急増は、予測メンテナンスや製品のレコメンデーションといった重要なビジネス領域において、幅広い高度な分析アプリケーションを生み出した。 しかし、高度な分析の有効性は当然、十分なデータの可用性に依存するため、その利点を利用する組織の能力は、限られたデータやデータアクセスによって制限される可能性がある。 これらの課題は、組織がデータにかなりの費用を費やすこと、制約のある分析能力を受け入れること、さらには分析プロジェクトのショートッパーにさえなる可能性がある。 この背景に対して、合成データを生成するディープラーニングの最近の進歩は、これらの障壁を克服するのに役立つかもしれない。 しかし、その大きな可能性にもかかわらず、合成データは滅多に使われない。 そこで本研究では,先進分析システムにおける合成データの展開のさまざまな側面を強調する分類法を提案する。 さらに, 合成データの典型的な応用シナリオを特定し, 適用状況を評価し, さらなる研究の道を開く機会の欠如を明らかにする。

The proliferation of deep learning techniques led to a wide range of advanced analytics applications in important business areas such as predictive maintenance or product recommendation. However, as the effectiveness of advanced analytics naturally depends on the availability of sufficient data, an organization's ability to exploit the benefits might be restricted by limited data or likewise data access. These challenges could force organizations to spend substantial amounts of money on data, accept constrained analytics capacities, or even turn into a showstopper for analytics projects. Against this backdrop, recent advances in deep learning to generate synthetic data may help to overcome these barriers. Despite its great potential, however, synthetic data are rarely employed. Therefore, we present a taxonomy highlighting the various facets of deploying synthetic data for advanced analytics systems. Furthermore, we identify typical application scenarios for synthetic data to assess the current state of adoption and thereby unveil missed opportunities to pave the way for further research.
翻訳日:2022-12-07 15:58:05 公開日:2022-12-05
# ベイズネットワーク学習のための包括的改良型ハイブリッドアルゴリズム:多重複合記憶消去

A Comprehensively Improved Hybrid Algorithm for Learning Bayesian Networks: Multiple Compound Memory Erasing ( http://arxiv.org/abs/2212.03103v1 )

ライセンス: Link先を確認
Baokui Mou(参考訳) ベイズネットワークを用いてノード間の因果関係を分析することはホットスポットである。 既存のネットワーク学習アルゴリズムは主に制約ベースおよびスコアベースネットワーク生成手法である。 制約に基づく手法は主に条件独立テスト(CI)の適用であるが、高次元および小サンプルの場合のCIテストの不正確さは、常に制約に基づく手法の課題である。 スコアベースの手法では,最適候補ネットワーク構造を見つけるためにスコア関数と探索戦略を用いるが,探索空間はノード数の増加とともに増大し,学習効率は非常に低い。 本稿では,新しいハイブリッドアルゴリズムであるmcme(multiple compound memory erasing)を提案する。 この方法は、最初の2つの手法の利点を保持し、上記のCIテストの欠点を解消し、方向判別段階におけるスコアリング機能に革新をもたらす。 多くの実験により、MCMEは既存のアルゴリズムよりも優れているか類似した性能を示している。

Using a Bayesian network to analyze the causal relationship between nodes is a hot spot. The existing network learning algorithms are mainly constraint-based and score-based network generation methods. The constraint-based method is mainly the application of conditional independence (CI) tests, but the inaccuracy of CI tests in the case of high dimensionality and small samples has always been a problem for the constraint-based method. The score-based method uses the scoring function and search strategy to find the optimal candidate network structure, but the search space increases too much with the increase of the number of nodes, and the learning efficiency is very low. This paper presents a new hybrid algorithm, MCME (multiple compound memory erasing). This method retains the advantages of the first two methods, solves the shortcomings of the above CI tests, and makes innovations in the scoring function in the direction discrimination stage. A large number of experiments show that MCME has better or similar performance than some existing algorithms.
翻訳日:2022-12-07 15:56:27 公開日:2022-12-05
# 機械学習システムのためのデプロイメントパイプラインの継続的学習

Continual learning on deployment pipelines for Machine Learning Systems ( http://arxiv.org/abs/2212.02659v1 )

ライセンス: Link先を確認
Qiang Li and Chongyu Zhang(参考訳) デジタル化の進展に伴い、多くのオリジナル機器メーカー(oem)が、植物の異常検出や品質検査といった幅広い応用において、コンピュータビジョンや自然言語処理を適応させている。 このようなシステムのデプロイは、非常に重要なトピックになりつつある。 私たちの作業は、マシンラーニングシステムの最小自動化デプロイメント技術から始まり、いくつかの更新を繰り返し、自動デプロイメント技術の比較で終わります。 目的は、理論や実践における様々な技術の利点とデメリットを比較して、後続の導入者が実際のユースケースを実施する際の一般的なミスをしないようにし、企業にとってより良い戦略を選択することである。 一方、機械学習システムの展開に対する評価フレームワークの意識を高めるためには、単一の要因(例えば、企業コスト)にのみ焦点をあてるのではなく、より包括的で有用な評価指標(表2など)を持つ必要がある。 これは業界における意思決定者にとって特に重要だ。

Following the development of digitization, a growing number of large Original Equipment Manufacturers (OEMs) are adapting computer vision or natural language processing in a wide range of applications such as anomaly detection and quality inspection in plants. Deployment of such a system is becoming an extremely important topic. Our work starts with the least-automated deployment technologies of machine learning systems includes several iterations of updates, and ends with a comparison of automated deployment techniques. The objective is, on the one hand, to compare the advantages and disadvantages of various technologies in theory and practice, so as to facilitate later adopters to avoid making the generalized mistakes when implementing actual use cases, and thereby choose a better strategy for their own enterprises. On the other hand, to raise awareness of the evaluation framework for the deployment of machine learning systems, to have more comprehensive and useful evaluation metrics (e.g. table 2), rather than only focusing on a single factor (e.g. company cost). This is especially important for decision-makers in the industry.
翻訳日:2022-12-07 15:55:24 公開日:2022-12-05
# fema-fs:特徴選択のための有限要素機械

FEMa-FS: Finite Element Machines for Feature Selection ( http://arxiv.org/abs/2212.02507v1 )

ライセンス: Link先を確認
Lucas Biaggi, Jo\~ao P. Papa, Kelton A. P Costa, Danillo R. Pereira, Leandro A. Passos(参考訳) 異常の特定は、コンピュータネットワークにおけるセキュリティおよび保護手順に対する主要な戦略の1つとなっている。 この文脈において、機械学習に基づく手法は、そのようなシナリオを特定して無関係な情報を学ぶためのエレガントなソリューションとして登場し、識別時間の短縮と精度の向上が可能となる。 本稿では、有限要素のフレームワークを用いて、与えられたデータセットから最も関連性の高い情報を識別するFinite Element Machines for Feature Selection (FEMA-FS)と呼ばれる新しい特徴選択手法を提案する。 FEMa-FSは任意のアプリケーション領域に適用できるが、コンピュータネットワークにおける異常検出の文脈で評価されている。 2つのデータセットに対する結果は有望な結果を示した。

Identifying anomalies has become one of the primary strategies towards security and protection procedures in computer networks. In this context, machine learning-based methods emerge as an elegant solution to identify such scenarios and learn irrelevant information so that a reduction in the identification time and possible gain in accuracy can be obtained. This paper proposes a novel feature selection approach called Finite Element Machines for Feature Selection (FEMa-FS), which uses the framework of finite elements to identify the most relevant information from a given dataset. Although FEMa-FS can be applied to any application domain, it has been evaluated in the context of anomaly detection in computer networks. The outcomes over two datasets showed promising results.
翻訳日:2022-12-07 15:46:10 公開日:2022-12-05
# QFT:全自由度高速関節微調整による後学習量子化

QFT: Post-training quantization via fast joint finetuning of all degrees of freedom ( http://arxiv.org/abs/2212.02634v1 )

ライセンス: Link先を確認
Alex Finkelstein, Ella Fuchs, Idan Tal, Mark Grobman, Niv Vosco, Eldad Meller(参考訳) トレーニング後の量子化(PTQ)の課題は、量子化されたニューラルネットの精度をオリジナルに近づけることである。 多くの方法は、量子化ステップサイズ、前提条件因子、バイアス固定など、特定の自由度(dof)の最適化を強調する。 ここでは,すべての量子化dofの統一的解析に向けて,hw-aware方式の量子化ネットワークパラメータ化を再考する。 QFT(quantization-aware finetuning)と呼ばれる1ステップの単純拡張可能な手法は,PTQの速度と資源の制約の中でSoTAと同等に4ビットの量子化結果が得られる。

The post-training quantization (PTQ) challenge of bringing quantized neural net accuracy close to original has drawn much attention driven by industry demand. Many of the methods emphasize optimization of a specific degree-of-freedom (DoF), such as quantization step size, preconditioning factors, bias fixing, often chained to others in multi-step solutions. Here we rethink quantized network parameterization in HW-aware fashion, towards a unified analysis of all quantization DoF, permitting for the first time their joint end-to-end finetuning. Our single-step simple and extendable method, dubbed quantization-aware finetuning (QFT), achieves 4-bit weight quantization results on-par with SoTA within PTQ constraints of speed and resource.
翻訳日:2022-12-07 15:39:12 公開日:2022-12-05
# 表現学習とドメイン適応によるドメイン間Few-Shot関係抽出

Cross-Domain Few-Shot Relation Extraction via Representation Learning and Domain Adaptation ( http://arxiv.org/abs/2212.02560v1 )

ライセンス: Link先を確認
Zhongju Yuan, Zhenkun Wang and Genghui Li(参考訳) ドメイン間の少数ショット関係抽出は、ソースドメインとターゲットドメインに大きな差異がある場合、既存の少数ショット学習法やドメイン適応法において大きな課題となる。 本稿では,この問題に対処するために,少人数学習とドメイン適応を組み合わせる手法を提案する。 提案手法では,表現損失と敵対損失を最適化して学習したエンコーダを用いて,ソース領域とターゲット領域における文の関係を抽出する。 クロスエントロピー損失とコントラスト損失を含む表現損失は、エンコーダがソースドメインの関係を抽出し、ソースドメイン内のクラスの幾何学的構造を保持する。 そして、敵の損失はソースドメインとターゲットドメインをマージするために使用されます。 ベンチマークFewRelデータセットの実験結果から,提案手法が最先端の手法より優れていることが示された。

Cross-domain few-shot relation extraction poses a great challenge for the existing few-shot learning methods and domain adaptation methods when the source domain and target domain have large discrepancies. This paper proposes a method by combining the idea of few-shot learning and domain adaptation to deal with this problem. In the proposed method, an encoder, learned by optimizing a representation loss and an adversarial loss, is used to extract the relation of sentences in the source and target domain. The representation loss, including a cross-entropy loss and a contrastive loss, makes the encoder extract the relation of the source domain and keep the geometric structure of the classes in the source domain. And the adversarial loss is used to merge the source domain and target domain. The experimental results on the benchmark FewRel dataset demonstrate that the proposed method can outperform some state-of-the-art methods.
翻訳日:2022-12-07 15:38:37 公開日:2022-12-05
# ユニバーサル文書処理のための視覚・テキスト・レイアウトの統合

Unifying Vision, Text, and Layout for Universal Document Processing ( http://arxiv.org/abs/2212.02623v1 )

ライセンス: Link先を確認
Zineng Tang, Ziyi Yang, Guoxin Wang, Yuwei Fang, Yang Liu, Chenguang Zhu, Michael Zeng, Cha Zhang, Mohit Bansal(参考訳) 我々は,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合する基盤ドキュメントAIモデルであるUniversal Document Processing (UDOP)を提案する。 UDOPは、テキストコンテンツと文書画像の空間的相関を利用して、1つの一様表現で画像、テキスト、レイアウトのモダリティをモデル化する。 新しいVision-Text-Layout Transformerにより、UDOPはプリトレーニングタスクとマルチドメイン下流タスクをプロンプトベースのシーケンス生成スキームに統合する。 UDOPは、革新的な自己管理目的と多様なラベル付きデータを用いて、大規模未ラベルの文書コーパスで事前訓練されている。 UDOPはまた、テキストとレイアウトのモダリティから文書画像を生成することを学ぶ。 私たちの知る限りでは、あるモデルが高品質なニューラル文書編集とコンテンツのカスタマイズを同時に達成するのは、ドキュメントAIの分野で初めてです。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクを最先端に設定する。 UDOPはDocument Understanding Benchmark (DUE)のリーダーボードにランクインしている。

We propose Universal Document Processing (UDOP), a foundation Document AI model which unifies text, image, and layout modalities together with varied task formats, including document understanding and generation. UDOP leverages the spatial correlation between textual content and document image to model image, text, and layout modalities with one uniform representation. With a novel Vision-Text-Layout Transformer, UDOP unifies pretraining and multi-domain downstream tasks into a prompt-based sequence generation scheme. UDOP is pretrained on both large-scale unlabeled document corpora using innovative self-supervised objectives and diverse labeled data. UDOP also learns to generate document images from text and layout modalities via masked image reconstruction. To the best of our knowledge, this is the first time in the field of document AI that one model simultaneously achieves high-quality neural document editing and content customization. Our method sets the state-of-the-art on 9 Document AI tasks, e.g., document understanding and QA, across diverse data domains like finance reports, academic papers, and websites. UDOP ranks first on the leaderboard of the Document Understanding Benchmark (DUE).
翻訳日:2022-12-07 15:31:12 公開日:2022-12-05
# この変化 : カプセル内視鏡における疾患進展の因果的説明と非因果的説明を組み合わせること

This changes to that : Combining causal and non-causal explanations to generate disease progression in capsule endoscopy ( http://arxiv.org/abs/2212.02506v1 )

ライセンス: Link先を確認
Anuja Vats, Ahmed Mohammed, Marius Pedersen, Nirmalie Wiratunga(参考訳) ディープラーニングネットワークの意思決定プロセスを理解するための明確な必要性から,モダル依存とモデル非依存の両方の技術が広く普及している。 これらのアイデアはどちらも自動意思決定のための透明性を提供しますが、ほとんどの方法論は、モデル内部の状態を無視したり、モデルの振る舞い/アウトカム(モデルに依存しない)をインスタンスに推論したりすることに重点を置いています。 本研究では,モデル依存型と非依存型の両方を組み合わせて説明セットを生成する統一的説明手法を提案する。 生成された説明はサンプルの近傍で一貫性があるだけでなく、画像の内容と結果との因果関係を強調することができる。 我々は、無線カプセル内視鏡(WCE)ドメインを用いて、説明の有効性を説明する。 提案手法は,softmax情報スコアと同等かそれ以上か,あるいは良好である。

Due to the unequivocal need for understanding the decision processes of deep learning networks, both modal-dependent and model-agnostic techniques have become very popular. Although both of these ideas provide transparency for automated decision making, most methodologies focus on either using the modal-gradients (model-dependent) or ignoring the model internal states and reasoning with a model's behavior/outcome (model-agnostic) to instances. In this work, we propose a unified explanation approach that given an instance combines both model-dependent and agnostic explanations to produce an explanation set. The generated explanations are not only consistent in the neighborhood of a sample but can highlight causal relationships between image content and the outcome. We use Wireless Capsule Endoscopy (WCE) domain to illustrate the effectiveness of our explanations. The saliency maps generated by our approach are comparable or better on the softmax information score.
翻訳日:2022-12-07 15:29:36 公開日:2022-12-05
# spuriosity rankings: スプリアス相関ロバスト性のためのソートデータ

Spuriosity Rankings: Sorting Data for Spurious Correlation Robustness ( http://arxiv.org/abs/2212.02648v1 )

ライセンス: Link先を確認
Mazda Moayeri, Wenxiao Wang, Sahil Singla, Soheil Feizi(参考訳) 本稿では,これらのクラス内の画像のランク付けのためのフレームワークを提案する。 最上位画像と最下位画像の精度のギャップを計測することで(これをスムーズなギャップと呼ぶ)、さまざまなImageNetモデルに対するスムーズな機能依存度を評価し、スムーズな存在感の弱い画像において最高のモデルでさえパフォーマンスが低いことを発見した。 しかしながら、スプリアスキューの効果はクラスによって劇的に異なり、スプリアス相関問題の重要な、しばしば見過ごされるクラス依存を強調する。 私たちが観察するほとんどの突発的機能は明確化されていますが(つまり、通常予想されるように、現在のテスト時の正確性を改善すること)、驚くほど多くの混乱した突発的特徴があり、そこではモデルが欠如している時により良く機能します。 次に、低ランク画像(すなわち、一般的なスプリアス手がかりのない画像)に新しい分類ヘッドをトレーニングすることで、スプリアスギャップを閉じ、分散シフト(ObjectNet, ImageNet-R, ImageNet-Sketch)に対する効果的なロバスト性を改善する。 また、機能信頼性を評価する第2の指標を提案し、スプリアス機能は一般的に非スプリア(コア)機能よりも信頼性が低いことを発見したが、スプリアス機能は特定のクラスに対してより信頼性が高い。 分析を可能にするため、最小限の人的監督によって、ImageNetのコアまたはスパイラルとして5,000ドルの機能クラスの依存関係を注釈付けしました。 最後に,CelebA や WaterBirds などの他のデータセットに,線形層トレーニングのみの軽量な方法で機能発見とスプリシティランキングフレームワークを拡張できることを示し,Celeb-A のヘア分類において,これまで知られていなかった人種的偏見を発見する。

We present a framework for ranking images within their class based on the strength of spurious cues present. By measuring the gap in accuracy on the highest and lowest ranked images (we call this spurious gap), we assess spurious feature reliance for $89$ diverse ImageNet models, finding that even the best models underperform in images with weak spurious presence. However, the effect of spurious cues varies far more dramatically across classes, emphasizing the crucial, often overlooked, class-dependence of the spurious correlation problem. While most spurious features we observe are clarifying (i.e. improving test-time accuracy when present, as is typically expected), we surprisingly find many cases of confusing spurious features, where models perform better when they are absent. We then close the spurious gap by training new classification heads on lowly ranked (i.e. without common spurious cues) images, resulting in improved effective robustness to distribution shifts (ObjectNet, ImageNet-R, ImageNet-Sketch). We also propose a second metric to assess feature reliability, finding that spurious features are generally less reliable than non-spurious (core) ones, though again, spurious features can be more reliable for certain classes. To enable our analysis, we annotated $5,000$ feature-class dependencies over {\it all} of ImageNet as core or spurious using minimal human supervision. Finally, we show the feature discovery and spuriosity ranking framework can be extended to other datasets like CelebA and WaterBirds in a lightweight fashion with only linear layer training, leading to discovering a previously unknown racial bias in the Celeb-A hair classification.
翻訳日:2022-12-07 15:29:21 公開日:2022-12-05
# 確率的コストを考慮したエントロピー正規化ロジスティックネットワークのレジリエンス評価

Resilience Evaluation of Entropy Regularized Logistic Networks with Probabilistic Cost ( http://arxiv.org/abs/2212.02060v1 )

ライセンス: Link先を確認
Koshi Oishi, Yota Hashizume, Tomohiko Jimbo, Hirotaka Kaji, and Kenji Kashima(参考訳) 近年の災害により、レジリエントなロジスティクスネットワークの需要が増加している。 最適化問題を考えるとき、エントロピー正則化は解の多様化のための強力なツールである。 本研究では,エントロピー正規化に基づくレジリエントなロジスティクスネットワークの設計手法を提案する。 さらに,レジリエンスのあいまいさを低減させる解析的レジリエンス基準法を提案した。 まず,エントロピー正規化を用いた効率的な枠組みで,工場,流通拠点,販売拠点を含むロジスティクスネットワークをモデル化した。 次に,確率的コストとKulback-Leibler分散に基づくレジリエンス基準を定式化した。 最後に,単純なロジスティクスネットワークを用いて,エントロピー正規化により設計した3つのロジスティクス計画のレジリエンスを実証した。

The demand for resilient logistics networks has increased because of recent disasters. When we consider optimization problems, entropy regularization is a powerful tool for the diversification of a solution. In this study, we proposed a method for designing a resilient logistics network based on entropy regularization. Moreover, we proposed a method for analytical resilience criteria to reduce the ambiguity of resilience. First, we modeled the logistics network, including factories, distribution bases, and sales outlets in an efficient framework using entropy regularization. Next, we formulated a resilience criterion based on probabilistic cost and Kullback--Leibler divergence. Finally, our method was performed using a simple logistics network, and the resilience of the three logistics plans designed by entropy regularization was demonstrated.
翻訳日:2022-12-06 19:36:48 公開日:2022-12-05
# WAIR-D: ワイヤレスAI研究データセット

WAIR-D: Wireless AI Research Dataset ( http://arxiv.org/abs/2212.02159v1 )

ライセンス: Link先を確認
Yourui Huangfu and Jian Wang and Shengchen Dai and Rong Li and Jun Wang and Chongwen Huang and Zhaoyang Zhang(参考訳) 高品質なデータサンプルを持つデータセットは、人工知能(AI)、機械学習(ML)、および関連する研究において重要な役割を果たす。 しかし、AI/MLは以前からワイヤレス研究で導入されてきたが、研究コミュニティで一般的に使われているデータセットはほとんどない。 共通のデータセットがなければ、無線システムのために提案されたAIベースの手法は、従来のベースラインと、さらには相互に比較することが難しい。 既存のワイヤレスAI研究は通常、限られた環境で統計モデルやレイトレーシングシミュレーションに基づいて生成されたデータセットに依存している。 統計データは、トレーニングされたAIモデルを特定のシナリオのさらなる微調整から妨げ、限られた環境を持つレイトレーシングデータは、トレーニングされたAIモデルの一般化能力を低下させる。 本稿では,2つのシナリオからなる無線AI研究データセット(WAIR-D)について述べる。 シナリオ1は、疎開されたユーザ機器(UE)を備えた10,000の環境を含み、シナリオ2は、密落したUEを備えた100の環境を含む。 環境は、現実世界の地図で40以上の都市からランダムに拾い上げられている。 トレーニングされたAIモデルが優れた一般化能力を持っていることを保証し、微調整は特定の環境で容易に行うことができる。 さらに、無線チャネルと対応する環境情報の両方をWAIR-Dで提供し、外部情報支援通信機構を設計・評価することができる。 WAIR-Dは、研究者のベンチマークで異なるデザインを比較したり、他の人の結果を再現する。 本稿では,このデータセットの詳細な構成と使用例を示す。

It is a common sense that datasets with high-quality data samples play an important role in artificial intelligence (AI), machine learning (ML) and related studies. However, although AI/ML has been introduced in wireless researches long time ago, few datasets are commonly used in the research community. Without a common dataset, AI-based methods proposed for wireless systems are hard to compare with both the traditional baselines and even each other. The existing wireless AI researches usually rely on datasets generated based on statistical models or ray-tracing simulations with limited environments. The statistical data hinder the trained AI models from further fine-tuning for a specific scenario, and ray-tracing data with limited environments lower down the generalization capability of the trained AI models. In this paper, we present the Wireless AI Research Dataset (WAIR-D)1, which consists of two scenarios. Scenario 1 contains 10,000 environments with sparsely dropped user equipments (UEs), and Scenario 2 contains 100 environments with densely dropped UEs. The environments are randomly picked up from more than 40 cities in the real world map. The large volume of the data guarantees that the trained AI models enjoy good generalization capability, while fine-tuning can be easily carried out on a specific chosen environment. Moreover, both the wireless channels and the corresponding environmental information are provided in WAIR-D, so that extra-information-aided communication mechanism can be designed and evaluated. WAIR-D provides the researchers benchmarks to compare their different designs or reproduce results of others. In this paper, we show the detailed construction of this dataset and examples of using it.
翻訳日:2022-12-06 19:36:35 公開日:2022-12-05
# ロバスト非教師付き時系列異常検出のためのロバスト圧縮

Lossy Compression for Robust Unsupervised Time-Series Anomaly Detection ( http://arxiv.org/abs/2212.02303v1 )

ライセンス: Link先を確認
Christopher P. Ley, Jorge F. Silva(参考訳) 本稿では,異常検出のための新たな因果的畳み込み型ニューラルネットワークオートエンコーダを提案する。 我々のフレームワークは, 速度歪み損失とエントロピーボトルネックを用いて, タスクの圧縮潜在表現を学習する。 レート歪み損失を使用する主な考え方は、異常のような特異なパターンを持つ不安定なイベントを無視したり、堅牢になる表現の柔軟性を導入することである。 これらの異常は、試験条件で正確に検出できるユニークな歪み特徴として現れる。 このアーキテクチャにより、乱れのないデータの一部でトレーニングされているにもかかわらず、歪みスコアから異常を検出する精度の高い完全教師なしモデルを訓練することができる。 この設定は、モデルが"通常のデータ"でのみ訓練されることを要求する最先端の教師なし方法論の多くとは全く対照的である。 これは、モデルが異常から通常であるものを選択するインフォームドな判断を使用するため、教師なしの異常検出トレーニングの概念に部分的に違反している、と論じている。 さらに、一般化のモデルの能力にも影響することを示す証拠もある。 我々は、通常のデータのみをトレーニングするパラダイムで成功するモデルは、トレーニングに異常データが注入されると堅牢にならないことを示した。 対照的に、圧縮に基づくアプローチは、いくつかの異常な歪みを許容する頑健な表現に収束する。 レート歪み損失を用いたモデルによって達成されるロバスト表現は、より現実的な教師なし異常検出スキームで使用できる。

A new Lossy Causal Temporal Convolutional Neural Network Autoencoder for anomaly detection is proposed in this work. Our framework uses a rate-distortion loss and an entropy bottleneck to learn a compressed latent representation for the task. The main idea of using a rate-distortion loss is to introduce representation flexibility that ignores or becomes robust to unlikely events with distinctive patterns, such as anomalies. These anomalies manifest as unique distortion features that can be accurately detected in testing conditions. This new architecture allows us to train a fully unsupervised model that has high accuracy in detecting anomalies from a distortion score despite being trained with some portion of unlabelled anomalous data. This setting is in stark contrast to many of the state-of-the-art unsupervised methodologies that require the model to be only trained on "normal data". We argue that this partially violates the concept of unsupervised training for anomaly detection as the model uses an informed decision that selects what is normal from abnormal for training. Additionally, there is evidence to suggest it also effects the models ability at generalisation. We demonstrate that models that succeed in the paradigm where they are only trained on normal data fail to be robust when anomalous data is injected into the training. In contrast, our compression-based approach converges to a robust representation that tolerates some anomalous distortion. The robust representation achieved by a model using a rate-distortion loss can be used in a more realistic unsupervised anomaly detection scheme.
翻訳日:2022-12-06 19:35:37 公開日:2022-12-05
# 点数関数モデルによる結晶秩序と乱れの同定のための反復的アンバイアス幾何学的アプローチ

An iterative unbiased geometric approach to identifying crystalline order and disorder via denoising score function model ( http://arxiv.org/abs/2212.02421v1 )

ライセンス: Link先を確認
Tim Hsu, Babak Sadigh, Nicolas Bertin, Cheol Woo Park, James Chapman, Vasily Bulatov, Fei Zhou(参考訳) 固体の原子論的シミュレーションでは、熱揺らぎの存在下で結晶相と格子欠陥を分類する能力はシミュレーション力学の深い洞察を得るために不可欠である。 高精度で効率的なキャラクタリゼーション手法の必要性は、特に、平衡から遠く離れた多相系の大規模シミュレーションにおいて特に急激である。 ユビキタス熱振動から秩序と障害の特徴を抽出することは、ノイズから信号を取り出すのに似ており、秩序相の分類と乱れた結晶欠陥の同定は基本的に同じ問題であり、熱ノイズを除去し、基礎となる結晶秩序の秩序を回復するデノナイジングスコア関数(denoising score function)という統一的なアプローチで対処する。 回転同変グラフニューラルネットワーク(NequIP)上に構築され、合成ノイズ構造で完全にトレーニングされ、トレーニング中にシミュレーションデータを必要としない。 偏極性を示すために, 点欠陥, 転位, 粒界, 液体障害などの根底にある欠陥に影響を及ぼすことなく, BCC, FCC, HCP結晶構造の熱振動を効果的に除去できることが示される。 特に,ポリモルフィック核を含むCu固化軌道と,転位ネットワークと点欠陥クラスターを生じる塑性変形を受けるBCCTaの軌道の2つの比較的複雑なMDシミュレーションに適用した。 どちらの場合も、デノイザは次の順序の不順序特徴の特徴づけを促進または単純化する。 最後に,より複雑な結晶構造や多要素系へのデノナイジングモデルの拡張に向けた今後の取り組みについて概説する。

In atomistic simulations of solids, ability to classify crystal phases and lattice defects in the presence of thermal fluctuations is essential for gaining deeper insights into the simulated dynamics. The need for accurate and efficient characterization methods is especially acute in presently emerging large-scale simulations of multi-phase systems far from equilibrium. Taking the perspective that delineating order and disorder features from ubiquitous thermal vibrations is akin to extracting signal from noise, we consider classification of ordered phases and identification of disordered crystal defects to be fundamentally the same problem and address them both with a unified approach: a denoising score function that removes thermal noise and recovers any underlying crystalline order-disorder. Built on a rotationally equivariant graph neural network (NequIP), the denoiser was trained entirely with synthetically noised structures and requires no simulation data during training. To demonstrate its denoising capabilities, the denoiser is shown to effectively remove thermal vibrations of BCC, FCC, and HCP crystal structures without impacting the underlying disordered defects, including point defects, dislocations, grain boundaries, and liquid disorder. In particular the denoiser was applied to two relatively complex MD simulations that present practical challenges: a Cu solidification trajectory involving a polymorphic nucleus, and a trajectory of BCC Ta undergoing plastic deformation resulting in dislocation networks and point defect clusters. In both cases the denoiser facilitates or trivializes the subsequent characterization of the order-disorder features. Lastly, we outline future work to extend our denoising model to more complex crystal structures and to multi-element systems.
翻訳日:2022-12-06 19:35:15 公開日:2022-12-05
# 深層学習材料を用いた一方向イメージング

Unidirectional Imaging using Deep Learning-Designed Materials ( http://arxiv.org/abs/2212.02025v1 )

ライセンス: Link先を確認
Jingxi Li, Tianyi Gan, Yifan Zhao, Bijie Bai, Che-Yung Shen, Songyu Sun, Mona Jarrahi, Aydogan Ozcan(参考訳) 一方向撮像装置は、入力フィールドオブビュー(fov)aから出力fovbへの1方向に沿った画像形成のみを許可し、逆経路では画像形成をブロックする。 本稿では、線形で等方的な連続的な拡散層に基づく偏光非感性・ブロードバンド一方向イメージングによる一方向イメージの最初のデモンストレーションを報告する。 これらの回折層はディープラーニングを用いて最適化され、数十万の回折位相特徴で構成され、入力フィールドをまとめて変調し、入力の強度画像を出力fovに投影し、逆方向に画像形成をブロックする。 ディープラーニングベースのトレーニングの後、結果の回折層が作成され、一方向画像を形成する。 相反装置として、回折一方向撮像器は、BからAまでの光学モードを選択的に誘導・散乱して出力FOVを逃がす非対称モード処理機能を有し、一方、前方方向においてそのような変調損失が最小化され、入力と出力FOV間の理想的な撮像システムが得られる。 単色照明を用いて訓練されるが、拡散型一方向撮像装置は大きなスペクトル帯域上でその機能を維持し、広帯域照明下で機能する。 この一方向像をテラヘルツ放射を用いて実験的に検証した。 同じ深層学習に基づく設計戦略を用いて、波長選択型一方向撮像装置を開発し、逆方向の2つの一方向撮像操作を異なる照明波長で多重化させた。 構造材料を用いた回折一方向イメージングは、セキュリティ、防衛、通信、プライバシー保護など多くの応用がある。

A unidirectional imager would only permit image formation along one direction, from an input field-of-view (FOV) A to an output FOV B, and in the reverse path, the image formation would be blocked. Here, we report the first demonstration of unidirectional imagers, presenting polarization-insensitive and broadband unidirectional imaging based on successive diffractive layers that are linear and isotropic. These diffractive layers are optimized using deep learning and consist of hundreds of thousands of diffractive phase features, which collectively modulate the incoming fields and project an intensity image of the input onto an output FOV, while blocking the image formation in the reverse direction. After their deep learning-based training, the resulting diffractive layers are fabricated to form a unidirectional imager. As a reciprocal device, the diffractive unidirectional imager has asymmetric mode processing capabilities in the forward and backward directions, where the optical modes from B to A are selectively guided/scattered to miss the output FOV, whereas for the forward direction such modal losses are minimized, yielding an ideal imaging system between the input and output FOVs. Although trained using monochromatic illumination, the diffractive unidirectional imager maintains its functionality over a large spectral band and works under broadband illumination. We experimentally validated this unidirectional imager using terahertz radiation, very well matching our numerical results. Using the same deep learning-based design strategy, we also created a wavelength-selective unidirectional imager, where two unidirectional imaging operations, in reverse directions, are multiplexed through different illumination wavelengths. Diffractive unidirectional imaging using structured materials will have numerous applications in e.g., security, defense, telecommunications and privacy protection.
翻訳日:2022-12-06 19:30:43 公開日:2022-12-05
# コンピュータビジョン法を用いた衛星画像による表面ロボットの自動操縦のための物体境界の構築

Construction of Object Boundaries for the Autopilotof a Surface Robot from Satellite Imagesusing Computer Vision Methods ( http://arxiv.org/abs/2212.02193v1 )

ライセンス: Link先を確認
Aleksandr N. Grekov (1) (2), Yurii E. Shishkin (1), Sergei S. Peliushenko (1), Aleksandr S. Mavrin (1) (2), ((1) Institute of Natural and Technical Systems, (2) Sevastopol State University)(参考訳) 地上ロボットのオートパイロットモジュールの水体境界を検出するアルゴリズムとプログラムを提案する。 画像上の輪郭を構成するための演算子として,sobel,roberts,prewitt,およびそれらを用いて,より正確に境界を検出する方法が選択される。 輪郭のgps座標を計算するアルゴリズムが作成される。 提案アルゴリズムは,表面ロボットオートパイロットモジュールに適したフォーマットで結果の保存を可能にする。

An algorithm and a program for detecting the boundaries of water bodies for the autopilot module of asurface robot are proposed. A method for detecting water objects on satellite maps by the method of finding a color in the HSV color space, using erosion, dilation - methods of digital image filtering is applied.The following operators for constructing contours on the image are investigated: the operators of Sobel,Roberts, Prewitt, and from them the one that detects the boundary more accurately is selected for thismodule. An algorithm for calculating the GPS coordinates of the contours is created. The proposed algorithm allows saving the result in a format suitable for the surface robot autopilot module.
翻訳日:2022-12-06 19:30:14 公開日:2022-12-05
# 物理インフォームドモデルに基づく強化学習

Physics-Informed Model-Based Reinforcement Learning ( http://arxiv.org/abs/2212.02179v1 )

ライセンス: Link先を確認
Adithya Ramesh, Balaraman Ravindran(参考訳) ロボット工学に強化学習(RL)を適用する。 従来のRLアルゴリズムの欠点の1つは、サンプル効率が悪いことである。 改善の1つのアプローチはモデルベースのRLである。 私たちは、本質的にそのダイナミクスと報酬関数である環境のモデルを学び、想像上の軌道を生成し、それらをバックプロパゲートしてポリシーを更新し、モデルの差別化可能性を利用する。 直感的には、より正確なモデルを学ぶことは、より良いパフォーマンスをもたらすでしょう。 近年、インダクティブバイアスの改善を通じて、物理システムのためのディープニューラルネットワークベースのダイナミクスモデルの開発への関心が高まっている。 我々は、剛体運動を行うロボットシステムに焦点を当てる。 モデルベースRLアルゴリズムの2つのバージョンを比較した。1つは標準のディープニューラルネットワークベースのダイナミックスモデル、もう1つはより正確な物理インフォームドニューラルネットワークベースのダイナミックスモデルである。 初期条件に敏感でない環境では,数値誤差が緩やかに蓄積されるため,モデルの精度はある程度しか重要でないことを示す。 これらの環境では、どちらのバージョンも同様の平均回帰を達成し、物理インフォームされたバージョンはより優れたサンプル効率を達成する。 初期条件に敏感な環境では,数値誤差の蓄積が早いため,モデルの精度が重要となる。 これらの環境では、物理学インフォームドバージョンは平均回帰とサンプル効率を大幅に改善する。 物理インフォームドモデルベースRLは,学習に多くのサンプルを必要とする困難な環境において,正確な虚構データを生成することにより,モデルフリーRLよりも漸近的な性能を達成できることが示される。 これらの環境では、我々の物理インフォームドモデルベースRLアプローチは、SOTAモデルフリーRLアルゴリズムであるSoft Actor-Criticよりも良い平均回帰を実現する。

We apply reinforcement learning (RL) to robotics. One of the drawbacks of traditional RL algorithms has been their poor sample efficiency. One approach to improve it is model-based RL. We learn a model of the environment, essentially its dynamics and reward function, use it to generate imaginary trajectories and backpropagate through them to update the policy, exploiting the differentiability of the model. Intuitively, learning more accurate models should lead to better performance. Recently, there has been growing interest in developing better deep neural network based dynamics models for physical systems, through better inductive biases. We focus on robotic systems undergoing rigid body motion. We compare two versions of our model-based RL algorithm, one which uses a standard deep neural network based dynamics model and the other which uses a much more accurate, physics-informed neural network based dynamics model. We show that, in environments that are not sensitive to initial conditions, model accuracy matters only to some extent, as numerical errors accumulate slowly. In these environments, both versions achieve similar average-return, while the physics-informed version achieves better sample efficiency. We show that, in environments that are sensitive to initial conditions, model accuracy matters a lot, as numerical errors accumulate fast. In these environments, the physics-informed version achieves significantly better average-return and sample efficiency. We show that, in challenging environments, where we need a lot of samples to learn, physics-informed model-based RL can achieve better asymptotic performance than model-free RL, by generating accurate imaginary data, which allows it to perform many more policy updates. In these environments, our physics-informed model-based RL approach achieves better average-return than Soft Actor-Critic, a SOTA model-free RL algorithm.
翻訳日:2022-12-06 19:23:27 公開日:2022-12-05
# 電力市場とシステムにおける異常検出

Anomaly Detection in Power Markets and Systems ( http://arxiv.org/abs/2212.02182v1 )

ライセンス: Link先を確認
Ugur Halden, Umit Cali, Ferhat Ozgur Catak, Salvatore D'Arco, Francisco Bilendo(参考訳) 過去数十年間、情報通信技術(ict)の広範な利用は、電力システムのデジタル化の背後にある主要な触媒であった。 一方、ICTの最近の進歩に伴いIoT(Internet of Things)の利用率が上昇し続けており、電力網やそれに参加するエージェントといった重要なインフラの安全かつ効率的な監視の必要性が高まっている。 電気グリッドのようなサイバー物理システムは、いくつかの異なる理由により異常を経験する可能性がある。 これには物理的欠陥、測定と通信の誤り、サイバー攻撃などが含まれる。 本研究の目的は、電力システムにおける最も一般的なインシデントとは何かを強調し、消費者や消費者が主要な電力生産者に取り組むことから、問題を見つけるための最も一般的な方法の概要と分類を提供することである。 また、電力システムや市場における異常を識別するために使用される人工知能(ai)などの手法や技術についても論じることを目的としている。

The widespread use of information and communication technology (ICT) over the course of the last decades has been a primary catalyst behind the digitalization of power systems. Meanwhile, as the utilization rate of the Internet of Things (IoT) continues to rise along with recent advancements in ICT, the need for secure and computationally efficient monitoring of critical infrastructures like the electrical grid and the agents that participate in it is growing. A cyber-physical system, such as the electrical grid, may experience anomalies for a number of different reasons. These may include physical defects, mistakes in measurement and communication, cyberattacks, and other similar occurrences. The goal of this study is to emphasize what the most common incidents are with power systems and to give an overview and classification of the most common ways to find problems, starting with the consumer/prosumer end working up to the primary power producers. In addition, this article aimed to discuss the methods and techniques, such as artificial intelligence (AI) that are used to identify anomalies in the power systems and markets.
翻訳日:2022-12-06 19:22:40 公開日:2022-12-05
# 不均一データの非凸フェデレーション学習を改善する部分変数削減

Partial Variance Reduction improves Non-Convex Federated learning on heterogeneous data ( http://arxiv.org/abs/2212.02191v1 )

ライセンス: Link先を確認
Bo Li, Mikkel N. Schmidt, Tommy S. Alstr{\o}m, Sebastian U. Stich(参考訳) クライアント間のデータの異質性は、連合学習における重要な課題である。 クライアントとサーバのモデルを調整するか、クライアントモデルのドリフトを修正するために制御変数を使用する。 これらの手法は凸問題や単純非凸問題において高速収束を実現するが、ディープニューラルネットワークのような超パラメータモデルの性能は不足している。 本稿では,深層ニューラルネットワークにおいて広く使用されているFedAvgアルゴリズムを再検討し,データの不均一性がニューラルネットワーク層全体の勾配更新に与える影響を理解する。 特徴抽出層はFedAvgによって効率的に学習されるが、クライアント間の最終分類層のかなりの多様性は性能を阻害する。 そこで本研究では,最終層のみの分散還元によるモデルドリフトの補正を提案する。 同様の通信コストや低い通信コストで既存のベンチマークを著しく上回ります。 さらに,アルゴリズムの収束率の証明も提供する。

Data heterogeneity across clients is a key challenge in federated learning. Prior works address this by either aligning client and server models or using control variates to correct client model drift. Although these methods achieve fast convergence in convex or simple non-convex problems, the performance in over-parameterized models such as deep neural networks is lacking. In this paper, we first revisit the widely used FedAvg algorithm in a deep neural network to understand how data heterogeneity influences the gradient updates across the neural network layers. We observe that while the feature extraction layers are learned efficiently by FedAvg, the substantial diversity of the final classification layers across clients impedes the performance. Motivated by this, we propose to correct model drift by variance reduction only on the final layers. We demonstrate that this significantly outperforms existing benchmarks at a similar or lower communication cost. We furthermore provide proof for the convergence rate of our algorithm.
翻訳日:2022-12-06 19:22:23 公開日:2022-12-05
# 密集交通における自律走行のための条件変動オートエンコーダによるバイレベル最適化

Bi-Level Optimization Augmented with Conditional Variational Autoencoder for Autonomous Driving in Dense Traffic ( http://arxiv.org/abs/2212.02224v1 )

ライセンス: Link先を確認
Arun Kumar Singh, Jatan Shrestha, Nicola Albarella(参考訳) 自動運転には自然な二レベル構造がある。 上層行動層の目的は、所定の運転タスクを最適化するための適切な車線変更、スピードアップ、ブレーキ決定を提供することです。 しかし、この層は、動作命令を生成する動作入力を取り込む低レベル軌道プランナーを通して、間接的に駆動効率にのみ影響することができる。 既存のサンプリングベースのアプローチは、振舞い層と計画層の間の強い結合を完全には活用しない。 一方、エンドツーエンド強化学習(rl)は、低レベルのプランナーからのフィードバックを取り入れながら、行動層を学習することができる。 しかし、純粋なデータ駆動アプローチは、しばしば見えない環境での安全性指標で失敗する。 本稿では、最適動作決定と結果の下流軌道を共同で計算するパラメータ化二段階最適化法を提案する。 当社のアプローチは,GPUアクセラレーションバッチオプティマイザを使用してリアルタイムに動作し,条件変分自動エンコーダがウォームスタート戦略を学習する。 本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れていることを示す。

Autonomous driving has a natural bi-level structure. The goal of the upper behavioural layer is to provide appropriate lane change, speeding up, and braking decisions to optimize a given driving task. However, this layer can only indirectly influence the driving efficiency through the lower-level trajectory planner, which takes in the behavioural inputs to produce motion commands. Existing sampling-based approaches do not fully exploit the strong coupling between the behavioural and planning layer. On the other hand, end-to-end Reinforcement Learning (RL) can learn a behavioural layer while incorporating feedback from the lower-level planner. However, purely data-driven approaches often fail in safety metrics in unseen environments. This paper presents a novel alternative; a parameterized bi-level optimization that jointly computes the optimal behavioural decisions and the resulting downstream trajectory. Our approach runs in real-time using a custom GPU-accelerated batch optimizer, and a Conditional Variational Autoencoder learnt warm-start strategy. Extensive simulations show that our approach outperforms state-of-the-art model predictive control and RL approaches in terms of collision rate while being competitive in driving efficiency.
翻訳日:2022-12-06 19:22:07 公開日:2022-12-05
# Baggingは最適なPAC学習者である

Bagging is an Optimal PAC Learner ( http://arxiv.org/abs/2212.02264v1 )

ライセンス: Link先を確認
Kasper Green Larsen(参考訳) 実現可能な環境でのPAC学習の最適サンプル複雑性の決定は、数十年にわたって学習理論の中心的な問題であった。 最後に、Hanneke (2016) によるセミナルな研究は、証明可能な最適なサンプル複雑性を持つアルゴリズムを与えた。 彼のアルゴリズムは、トレーニングデータの慎重に構造化されたサブサンプリングに基づいており、各サブサンプルでトレーニングされた仮説の過半数を返却する。 非常にエキサイティングな理論的な結果であるが、訓練データのサブサンプルの多項式数(各線形サイズ)を構成するため、非効率性のために実際にはあまり影響を与えていない。 本稿では,Breimann (1996) による実用的,古典的ヒューリスティック・バッグング(ブートストラップ・アグリゲーション)が,実際はPAC学習者として最適であることを示す。 バグングはhannekeのアルゴリズムを20年ほど前に発表し、ほとんどの学部の機械学習コースで教えられている。 さらに,最適性を得るためにはサブサンプルの対数しか必要としないことを示す。

Determining the optimal sample complexity of PAC learning in the realizable setting was a central open problem in learning theory for decades. Finally, the seminal work by Hanneke (2016) gave an algorithm with a provably optimal sample complexity. His algorithm is based on a careful and structured sub-sampling of the training data and then returning a majority vote among hypotheses trained on each of the sub-samples. While being a very exciting theoretical result, it has not had much impact in practice, in part due to inefficiency, since it constructs a polynomial number of sub-samples of the training data, each of linear size. In this work, we prove the surprising result that the practical and classic heuristic bagging (a.k.a. bootstrap aggregation), due to Breimann (1996), is in fact also an optimal PAC learner. Bagging pre-dates Hanneke's algorithm by twenty years and is taught in most undergraduate machine learning courses. Moreover, we show that it only requires a logarithmic number of sub-samples to reach optimality.
翻訳日:2022-12-06 19:21:23 公開日:2022-12-05
# DIAMOND: 分散バイレベル最適化におけるサンプルと通信の複雑さ

DIAMOND: Taming Sample and Communication Complexities in Decentralized Bilevel Optimization ( http://arxiv.org/abs/2212.02376v1 )

ライセンス: Link先を確認
Peiwen Qiu, Yining Li, Zhuqing Liu, Prashant Khanduri, Jia Liu, Ness B. Shroff, Elizabeth Serena Bentley, Kurt Turck(参考訳) 分散化された双レベル最適化は、ピアツーピアエッジネットワークにおける多くの新興マルチエージェント学習パラダイム(マルチエージェントメタラーニングやマルチエージェント強化学習など)の基盤的役割により、近年注目を集めている。 しかしながら、エッジネットワークの限られた計算能力と通信能力を扱うために、分散二レベル最適化技術を開発する上での課題は、サンプルと通信の複雑さを減らすことである。 これは、ダイアモンド(運動量と勾配追跡を伴う分散単時間スケール確率近似)と呼ばれる新しい分散二段階最適化を開発する動機となった。 本論文の貢献は以下のとおりである。 i)DIAMONDアルゴリズムは,2レベル最適化の自然な二重ループ構造に従わず,単一ループ構造を採用する。 二 ダイヤモンドアルゴリズムは、既存の方法と比較して、完全な勾配評価を必要としないため、試料及び計算の複雑さを更に低減する。 iii) モーメント情報と勾配追跡手法の注意深い統合により,DIAMONDアルゴリズムはサンプルおよび通信複雑度において$\mathcal{O}(\epsilon^{-3/2})$を享受し,それぞれがデータセットサイズに依存しず,既存の作業を大幅に上回っていることを示す。 大規模な実験も理論的な結果を検証する。

Decentralized bilevel optimization has received increasing attention recently due to its foundational role in many emerging multi-agent learning paradigms (e.g., multi-agent meta-learning and multi-agent reinforcement learning) over peer-to-peer edge networks. However, to work with the limited computation and communication capabilities of edge networks, a major challenge in developing decentralized bilevel optimization techniques is to lower sample and communication complexities. This motivates us to develop a new decentralized bilevel optimization called DIAMOND (decentralized single-timescale stochastic approximation with momentum and gradient-tracking). The contributions of this paper are as follows: i) our DIAMOND algorithm adopts a single-loop structure rather than following the natural double-loop structure of bilevel optimization, which offers low computation and implementation complexity; ii) compared to existing approaches, the DIAMOND algorithm does not require any full gradient evaluations, which further reduces both sample and computational complexities; iii) through a careful integration of momentum information and gradient tracking techniques, we show that the DIAMOND algorithm enjoys $\mathcal{O}(\epsilon^{-3/2})$ in sample and communication complexities for achieving an $\epsilon$-stationary solution, both of which are independent of the dataset sizes and significantly outperform existing works. Extensive experiments also verify our theoretical findings.
翻訳日:2022-12-06 19:20:40 公開日:2022-12-05
# 非凸強凸ミニマックス最適化のための単純かつ効率的な確率的アルゴリズム

A Simple and Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2212.02387v1 )

ライセンス: Link先を確認
Lesi Chen, Haishan Ye, Luo Luo(参考訳) 本稿では,非凸強凸ミニマックス問題に対する確率的最適化について検討する。 我々は,分散再帰的勾配降下上昇法 (dream) と呼ばれる簡易かつ効率的なアルゴリズムを提案する。これには$\mathcal{o}(\kappa^3\epsilon^{-3})$ 確率的一階oracle (sfo) 呼び出しと$\mathcal{o}\big(\kappa^2\epsilon^{-2}/\sqrt{1-\lambda_2(w)}\,\big)$ の通信ラウンドが必要であり,$\kappa$が条件数で$\lambda_2(w)$は$w$ がゴシップ行列の2番目に大きい固有値である。 我々の知る限り、DREAMは、この問題に対して$\epsilon$と$\lambda_2(W)$の最適依存性を同時に達成する最初のアルゴリズムである。

This paper studies the stochastic optimization for decentralized nonconvex-strongly-concave minimax problem. We propose a simple and efficient algorithm, called Decentralized Recursive gradient descEnt Ascent Method (DREAM), which requires $\mathcal{O}(\kappa^3\epsilon^{-3})$ stochastic first-order oracle (SFO) calls and $\mathcal{O}\big(\kappa^2\epsilon^{-2}/\sqrt{1-\lambda_2(W)}\,\big)$ communication rounds to find an $\epsilon$-stationary point, where $\kappa$ is the condition number and $\lambda_2(W)$ is the second-largest eigenvalue of the gossip matrix $W$. To the best our knowledge, DREAM is the first algorithm whose SFO and communication complexities simultaneously achieve the optimal dependency on $\epsilon$ and $\lambda_2(W)$ for this problem.
翻訳日:2022-12-06 19:20:15 公開日:2022-12-05
# FSCVのためのディープラーニングアーキテクチャの比較

Deep Learning Architectures for FSCV, a Comparison ( http://arxiv.org/abs/2212.01960v1 )

ライセンス: Link先を確認
Thomas Twomey, Leonardo Barbosa, Terry Lohrenz, P. Read Montague(参考訳) 炭素繊維電極で収集した高速走査サイクリックボルタンメトリー (FSCV) データから, 神経伝達物質濃度の予測に好適なマルチディープニューラルネットワーク (DNN) アーキテクチャについて検討した。 適合性は、"out-of-probe"ケースでの予測性能、人工的な電気ノイズに対する応答、および与えられたプローブに対してモデルが不連続になる時期を予測する能力によって決定される。 この研究は、この特定のタスクに焦点を当てて時系列分類モデルの事前比較を拡張する。 これは、はるかに大きなデータセットを使用して、ディープニューラルネットワークに最近の進歩を取り入れることで、機械学習の以前の応用をFSCVタスクに拡張する。 深い畳み込みニューラルネットワークであるInceptionTimeアーキテクチャは、テストされたモデルの最高の絶対的な予測性能を持つが、ノイズの影響を受けやすい。 単純多層型パーセプトロンアーキテクチャは2番目に低い予測誤差を有しており、人工ノイズの影響を受けていないため、畳み込みは疑わしいほど重要でない可能性がある。

We examined multiple deep neural network (DNN) architectures for suitability in predicting neurotransmitter concentrations from labeled in vitro fast scan cyclic voltammetry (FSCV) data collected on carbon fiber electrodes. Suitability is determined by the predictive performance in the "out-of-probe" case, the response to artificially induced electrical noise, and the ability to predict when the model will be errant for a given probe. This work extends prior comparisons of time series classification models by focusing on this specific task. It extends previous applications of machine learning to FSCV task by using a much larger data set and by incorporating recent advancements in deep neural networks. The InceptionTime architecture, a deep convolutional neural network, has the best absolute predictive performance of the models tested but was more susceptible to noise. A naive multilayer perceptron architecture had the second lowest prediction error and was less affected by the artificial noise, suggesting that convolutions may not be as important for this task as one might suspect.
翻訳日:2022-12-06 19:12:27 公開日:2022-12-05
# スマートジャマーの緩和のための適応ECCM

Adaptive ECCM for Mitigating Smart Jammers ( http://arxiv.org/abs/2212.02002v1 )

ライセンス: Link先を確認
Kunal Pattanayak and Shashwat Jain and Vikram Krishnamurthy and Chris Berry(参考訳) 本稿では,適応型レーダ電子カウンタ対策(ECCM)について,逆ジャマーによるECCMの緩和について考察する。 我々のECCMアプローチは、情報不均衡を伴う2つのエンティティ間の相互作用のための一般的な経済フレームワークである主エージェント問題(PAP)として、ジャマーとレーダーの相互作用をモデル化する。 私たちの設定では、レーダーはジャマーの効用を知らない。 代わりに、レーダーは逆強化学習を用いて時間とともにジャマーの有用性を適応的に学習する。 レーダの適応ECCMの目的は、(1)PAPを解くことにより有効性を最大化し、(2)応答を観測してジャマーの有効性を推定することである。 適応ECCM方式は, 契約理論におけるミクロ経済学と主エージェント問題において, 明らかにされた嗜好から, 深いアイデアを用いる。 数値計算の結果,適応ECCMはジャマーの有効性を識別し緩和することがわかった。

This paper considers adaptive radar electronic counter-counter measures (ECCM) to mitigate ECM by an adversarial jammer. Our ECCM approach models the jammer-radar interaction as a Principal Agent Problem (PAP), a popular economics framework for interaction between two entities with an information imbalance. In our setup, the radar does not know the jammer's utility. Instead, the radar learns the jammer's utility adaptively over time using inverse reinforcement learning. The radar's adaptive ECCM objective is two-fold (1) maximize its utility by solving the PAP, and (2) estimate the jammer's utility by observing its response. Our adaptive ECCM scheme uses deep ideas from revealed preference in micro-economics and principal agent problem in contract theory. Our numerical results show that, over time, our adaptive ECCM both identifies and mitigates the jammer's utility.
翻訳日:2022-12-06 19:12:11 公開日:2022-12-05
# refiner: フェデレート学習における勾配漏洩攻撃に対するデータ精錬

Refiner: Data Refining against Gradient Leakage Attacks in Federated Learning ( http://arxiv.org/abs/2212.02042v1 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Wenmeng Zhou, Jun Huang, Ximeng Liu, Wenzhong Guo(参考訳) フェデレートラーニング(FL)は、データの代わりに勾配のモデルをトレーニングすることで、プライバシリークを回避することができるため、プライバシ重視のIoT環境において広く普及している。 近年の研究では、アップロードされた勾配を使ってデータ、すなわち勾配漏洩攻撃を再構築できることが示されている。 しかし、これらの防御効果は、ディープニューラルネットワークが線形モデルとして単純化されるという非現実的な仮定に基づくため、脅威攻撃に対する弱い耐性を示す。 本稿では,そのような非現実的な仮定を伴わずに,十分な実用性を持つがプライバシー情報が少ない頑健なデータを作成するために,地中データを精錬するグラデーションを摂動させる代わりに,refinerと呼ばれる新たな防御手法を提案する。 堅牢なデータを構築するためにRefinerは、ロバストなデータに関連する臨界パラメータの勾配を、プライバシーを守るために自明なパラメータの勾配を残しながら、地道なデータに近づける。 さらに、自明なパラメータの勾配を利用するために、Refinerはよく設計された評価ネットワークを使用して、堅牢なデータを地上データから遠ざけ、プライバシー漏洩のリスクを軽減する。 複数のベンチマークデータセットにわたる大規模な実験は、最先端の脅威に対する防御において、Refinerの優れた防御効果を示している。

Federated Learning (FL) is pervasive in privacy-focused IoT environments since it enables avoiding privacy leakage by training models with gradients instead of data. Recent works show the uploaded gradients can be employed to reconstruct data, i.e., gradient leakage attacks, and several defenses are designed to alleviate the risk by tweaking the gradients. However, these defenses exhibit weak resilience against threatening attacks, as the effectiveness builds upon the unrealistic assumptions that deep neural networks are simplified as linear models. In this paper, without such unrealistic assumptions, we present a novel defense, called Refiner, instead of perturbing gradients, which refines ground-truth data to craft robust data that yields sufficient utility but with the least amount of privacy information, and then the gradients of robust data are uploaded. To craft robust data, Refiner promotes the gradients of critical parameters associated with robust data to close ground-truth ones while leaving the gradients of trivial parameters to safeguard privacy. Moreover, to exploit the gradients of trivial parameters, Refiner utilizes a well-designed evaluation network to steer robust data far away from ground-truth data, thereby alleviating privacy leakage risk. Extensive experiments across multiple benchmark datasets demonstrate the superior defense effectiveness of Refiner at defending against state-of-the-art threats.
翻訳日:2022-12-06 19:11:56 公開日:2022-12-05
# 動的および異種ネットワークのための微分連体強化学習

Differentiated Federated Reinforcement Learning for Dynamic and Heterogeneous Network ( http://arxiv.org/abs/2212.02075v1 )

ライセンス: Link先を確認
Fengxiao Tang, Yilin Yang, Xin Yao, Ming Zhao, Nei Kato(参考訳) 現代の動的・異種ネットワークは、各状態遷移確率の異なる微分環境をエージェントにもたらすため、従来のフェデレーション強化学習(FRL)に基づくネットワーク最適化アルゴリズムの局所的戦略トラップ問題に繋がる。 そこで本研究では,従来のFRLにおけるグローバルポリシーモデルの統合と局所推論を,並列なグローバルトレンド学習と差分ローカルポリシーモデル学習を併用した協調学習プロセスへと進化させる,新たな差別化フェデレーション強化学習(DFRL)を提案する。 DFRLでは,地域政策学習モデルをグローバルトレンドモデルと地域環境に適応的に更新し,より良い適応性を実現する。 異種環境をもつ古典型カートプールゲームにおいて, 最先端のFRLと比較して, 提案手法の性能評価を行った。 さらに,異種宇宙空地統合ネットワーク(SAGIN)において,従来のトラフィックオフロード問題に対する提案を実装した。 シミュレーションの結果,提案手法はスループット,遅延,パケットドロップレートの点で,ベースラインよりも優れたグローバル性能と公平性を示した。

The modern dynamic and heterogeneous network brings differential environments with respective state transition probability to agents, which leads to the local strategy trap problem of traditional federated reinforcement learning (FRL) based network optimization algorithm. To solve this problem, we propose a novel Differentiated Federated Reinforcement Learning (DFRL), which evolves the global policy model integration and local inference with the global policy model in traditional FRL to a collaborative learning process with parallel global trends learning and differential local policy model learning. In the DFRL, the local policy learning model is adaptively updated with the global trends model and local environment and achieves better differentiated adaptation. We evaluate the outperformance of the proposal compared with the state-of-the-art FRL in a classical CartPole game with heterogeneous environments. Furthermore, we implement the proposal in the heterogeneous Space-air-ground Integrated Network (SAGIN) for the classical traffic offloading problem in network. The simulation result shows that the proposal shows better global performance and fairness than baselines in terms of throughput, delay, and packet drop rate.
翻訳日:2022-12-06 19:11:31 公開日:2022-12-05
# 一般3次元形状のオンラインパッケージングのための物理的に実現可能なスキルの学習

Learning Physically Realizable Skills for Online Packing of General 3D Shapes ( http://arxiv.org/abs/2212.02094v1 )

ライセンス: Link先を確認
Hang Zhao, Zherong Pan, Yang Yu, Kai Xu(参考訳) 本研究では,不規則な3次元形状に対するオンラインパッキングスキルの学習問題について検討する。 目的は、任意の形状の3Dオブジェクトのシーケンスを、オブジェクトシーケンスの部分的な観察のみで指定されたコンテナに連続的に移動させることである。 一方、物理力学や配置の制約など、物理的な実現可能性を考慮している。 充填ポリシーは、充填対象の3d形状を理解し、物理的に実現可能な方法でコンテナに収容するための効果的な決定を行う必要がある。 政策学習のための強化学習(RL)パイプラインを提案する。 複雑な不規則な幾何学と不完全な対象配置は、巨大な解空間をもたらす。 このような空間での直接訓練は禁断のデータ集約である。 そこで本研究では,rlの動作空間と学習負担を軽減するための提案手法を提案する。 パラメータ化されたポリシーが学習され、候補から最適な配置を選択する。 非同期RLアクセラレーションの効率的な方法とシミュレーション可能なトレーニングシーケンスのデータ準備プロセスを備え,48時間以内に物理ベースの環境で成熟したパッキングポリシーを訓練することができる。 各種実生活形状データセットの広範囲な評価と最先端のベースラインとの比較により,本手法が全データセット上で最高のパフォーマンスのベースラインを少なくとも12.8%上回っていることを示す。

We study the problem of learning online packing skills for irregular 3D shapes, which is arguably the most challenging setting of bin packing problems. The goal is to consecutively move a sequence of 3D objects with arbitrary shapes into a designated container with only partial observations of the object sequence. Meanwhile, we take physical realizability into account, involving physics dynamics and constraints of a placement. The packing policy should understand the 3D geometry of the object to be packed and make effective decisions to accommodate it in the container in a physically realizable way. We propose a Reinforcement Learning (RL) pipeline to learn the policy. The complex irregular geometry and imperfect object placement together lead to huge solution space. Direct training in such space is prohibitively data intensive. We instead propose a theoretically-provable method for candidate action generation to reduce the action space of RL and the learning burden. A parameterized policy is then learned to select the best placement from the candidates. Equipped with an efficient method of asynchronous RL acceleration and a data preparation process of simulation-ready training sequences, a mature packing policy can be trained in a physics-based environment within 48 hours. Through extensive evaluation on a variety of real-life shape datasets and comparisons with state-of-the-art baselines, we demonstrate that our method outperforms the best-performing baseline on all datasets by at least 12.8% in terms of packing utility.
翻訳日:2022-12-06 19:11:12 公開日:2022-12-05
# ニューラルネットワークによる行列分解

Matrix factorization with neural networks ( http://arxiv.org/abs/2212.02105v1 )

ライセンス: Link先を確認
Francesco Camilli and Marc M\'ezard(参考訳) 行列分解は、辞書学習、レコメンデーションシステム、機械学習の文脈で発生する重要な数学的問題である。 本稿では,連想記憶のニューラルネットワークモデルにマップする新しい「決定」スキームを導入し,その性能の詳細な理論的解析を行い,広範囲の行列を分解し,効率的に推論できることを示す。 本稿では,ニューラルネットワークの基底状態探索に基づくデシメーションアルゴリズムを導入し,理論的予測に一致する性能を示す。

Matrix factorization is an important mathematical problem encountered in the context of dictionary learning, recommendation systems and machine learning. We introduce a new `decimation' scheme that maps it to neural network models of associative memory and provide a detailed theoretical analysis of its performance, showing that decimation is able to factorize extensive-rank matrices and to denoise them efficiently. We introduce a decimation algorithm based on ground-state search of the neural network, which shows performances that match the theoretical prediction.
翻訳日:2022-12-06 19:10:52 公開日:2022-12-05
# 予期せぬ有用性:収束境界と実世界の分散学習

Unexpectedly Useful: Convergence Bounds And Real-World Distributed Learning ( http://arxiv.org/abs/2212.02155v1 )

ライセンス: Link先を確認
Francesco Malandrino and Carla Fabiana Chiasserini(参考訳) 収束境界は、タスク自体を実行する前に、分散機械学習タスクのパフォーマンスに関する情報を取得するための主要なツールの1つである。 本研究では,実世界の分散学習タスク(すなわち,連合型学習タスク)の性能を予測・改善するための実験を行う。 得られる方法から想像できるように、境界は非常にゆるく、その相対的な大きさはテストの損失よりもトレーニングを反映していることが分かります。 さらに意外なことに、データセットの品質やサイズに関する情報の開示を必要とせず、学習プロセスに最も貢献する可能性のあるクライアントを特定するのに、境界に現れる量の一部が非常に有用であることがわかりました。 これは、現実の分散学習タスクのパフォーマンスを改善するために収束境界を活用できる方法(しばしば直観に反する)について、さらなる研究が保証されていることを示唆している。

Convergence bounds are one of the main tools to obtain information on the performance of a distributed machine learning task, before running the task itself. In this work, we perform a set of experiments to assess to which extent, and in which way, such bounds can predict and improve the performance of real-world distributed (namely, federated) learning tasks. We find that, as can be expected given the way they are obtained, bounds are quite loose and their relative magnitude reflects the training rather than the testing loss. More unexpectedly, we find that some of the quantities appearing in the bounds turn out to be very useful to identify the clients that are most likely to contribute to the learning process, without requiring the disclosure of any information about the quality or size of their datasets. This suggests that further research is warranted on the ways -- often counter-intuitive -- in which convergence bounds can be exploited to improve the performance of real-world distributed learning tasks.
翻訳日:2022-12-06 19:10:43 公開日:2022-12-05
# 物理系視覚における画像復元のための生成法再考:情報の観点からの理論的分析

Rethinking Generative Methods for Image Restoration in Physics-based Vision: A Theoretical Analysis from the Perspective of Information ( http://arxiv.org/abs/2212.02198v1 )

ライセンス: Link先を確認
Xudong Kang, Haoran Xie, Jing Qin, and Man-Leung Wong(参考訳) エンド・ツー・エンド生成法は、手作りの合成モデルに基づく従来のデコンストラクティブ法と比較して、物理系視覚における画像復元のより有望な解決策と考えられている。 しかし、既存の生成手法には量的性能を改善する余地がまだたくさんある。 より重要なのは、これらの手法が弱い解釈可能性のためにブラックボックスと見なされ、それらのメカニズムや学習過程を説明する理論はまれである。 本研究では,情報理論を用いた画像復元作業における生成手法の再解釈を試みる。 従来の理解とは違って,これらの方法の情報フローを分析し,復元結果の生成において3つの情報源(抽出された高レベル情報,保持低レベル情報,およびソース入力に欠落している外部情報)をそれぞれ関与・最適化した。 さらに,情報ボトルネックの原理を拡張して学習行動,最適化目標,および対応する情報境界を導出する。 この理論に基づいて,既存の生成手法の多くは,過剰な包摂的抽象化プロセス,固有詳細損失,勾配の消失,トレーニングの不均衡といった問題に悩まされるような,従来の生成タスク用に設計された一般的なモデルの直接的な応用であることがわかった。 これらの問題を直観的・理論的に解析し,それぞれ実証的な証拠で検証した。 最終的に、上記の問題に対処するための一般的な解決策やアイデアを提案し、3つの異なる画像復元タスクの6つのデータセットのパフォーマンス向上でこれらのアプローチを検証する。

End-to-end generative methods are considered a more promising solution for image restoration in physics-based vision compared with the traditional deconstructive methods based on handcrafted composition models. However, existing generative methods still have plenty of room for improvement in quantitative performance. More crucially, these methods are considered black boxes due to weak interpretability and there is rarely a theory trying to explain their mechanism and learning process. In this study, we try to re-interpret these generative methods for image restoration tasks using information theory. Different from conventional understanding, we analyzed the information flow of these methods and identified three sources of information (extracted high-level information, retained low-level information, and external information that is absent from the source inputs) are involved and optimized respectively in generating the restoration results. We further derived their learning behaviors, optimization objectives, and the corresponding information boundaries by extending the information bottleneck principle. Based on this theoretic framework, we found that many existing generative methods tend to be direct applications of the general models designed for conventional generation tasks, which may suffer from problems including over-invested abstraction processes, inherent details loss, and vanishing gradients or imbalance in training. We analyzed these issues with both intuitive and theoretical explanations and proved them with empirical evidence respectively. Ultimately, we proposed general solutions or ideas to address the above issue and validated these approaches with performance boosts on six datasets of three different image restoration tasks.
翻訳日:2022-12-06 18:47:09 公開日:2022-12-05
# マルウェアは見たことある?

Have You Ever Seen Malware? ( http://arxiv.org/abs/2212.02341v1 )

ライセンス: Link先を確認
Ivan Zelinka, Miloslav Szczypka, Jan Plucar(参考訳) これまで、マルウェアの分類、その識別、異なる家族への分類、マルウェアとグッドウェアの区別に関する多くの研究論文が書かれてきた。 これらの研究は、捕獲されたマルウェアのサンプルに基づいており、人工知能の分野の技法を含む様々な技術を用いてマルウェアやグッドウェアを分析しようと試みている。 例えば、ニューラルネットワークはこれらの分類法において重要な役割を果たす。 この研究のいくつかは、その視覚化を使ってマルウェアを分析している。 これらは通常、マルウェアの構造をキャプチャするマルウェアのサンプルを画像構造に変換し、それが画像処理の対象となる。 本稿では,視覚的に非常に興味深い画像が,良質なマルウェアの分類に使用されるという考えから,動的行動解析に基づくマルウェアの視覚化に対する極めて従来型で斬新なアプローチを提案する。 提案手法は今後の議論のための広範な話題を開き,結論として,マルウェア解析と分類研究の新たな方向性を多数提示する。 実験の結果は、6つの589 997 goodware、827 853の潜在的に望ましくないアプリケーション、4つの174 203のマルウェアサンプルと選択された実験データ(画像、多項式式の生成、画像生成ソフトウェア)のデータベースに基づいている。 そこで本論文は,比較実験の結果を報告する総合的なコンパクトな研究ではなく,マルウェア解析に応用可能な可視化分野の新たな方向性を示すものである。

To date, a large number of research papers have been written on the classification of malware, its identification, classification into different families and the distinction between malware and goodware. These works have been based on captured malware samples and have attempted to analyse malware and goodware using various techniques, including techniques from the field of artificial intelligence. For example, neural networks have played a significant role in these classification methods. Some of this work also deals with analysing malware using its visualisation. These works usually convert malware samples capturing the structure of malware into image structures, which are then the object of image processing. In this paper, we propose a very unconventional and novel approach to malware visualisation based on dynamic behaviour analysis, with the idea that the images, which are visually very interesting, are then used to classify malware concerning goodware. Our approach opens an extensive topic for future discussion and provides many new directions for research in malware analysis and classification, as discussed in conclusion. The results of the presented experiments are based on a database of 6 589 997 goodware, 827 853 potentially unwanted applications and 4 174 203 malware samples provided by ESET and selected experimental data (images, generating polynomial formulas and software generating images) are available on GitHub for interested readers. Thus, this paper is not a comprehensive compact study that reports the results obtained from comparative experiments but rather attempts to show a new direction in the field of visualisation with possible applications in malware analysis.
翻訳日:2022-12-06 18:46:45 公開日:2022-12-05
# Domino Denoise: Dominoタイリングを用いた正確なブラインドゼロショットデノイザ

Domino Denoise: An Accurate Blind Zero-Shot Denoiser using Domino Tilings ( http://arxiv.org/abs/2212.02439v1 )

ライセンス: Link先を確認
Jason Lequyer, Wen-Hsin Hsu, Reuben Philip, Anna Christina Erpf, Laurence Pelletier(参考訳) ノイズは下流解析に支障をきたす可能性があるため、画像処理ツールボックスの重要な位置を占めるようになった。 最も正確な最先端のデノイザは通常、代表的なデータセットでトレーニングする。 しかし、トレーニングセットの収集は必ずしも実現可能ではないため、目隠しゼロショットのデノイザーでは、彼らが注目しているイメージだけをトレーニングすることへの関心が高まっている。 最も正確なブラインドゼロショット法は盲点ネットワークであり、ピクセルを隠蔽し、周囲からそれらを推測しようとする。 他の方法は、全てのニューロンが前方からの推論に参加するが、正確ではなく、過度に適合する可能性がある。 ここではハイブリッドなアプローチを示す。 まず,グラデーション更新時の入力のごく一部しか表示できない半盲点ネットワークを導入する。 次に,画素を2つのグループに分割し,ドミノタイルを用いて画素ギャップを埋めるバリデーションスキームを導入することで,オーバーフィッティングを解消する。 本手法は, 合成ガウス雑音に対する現在の金標準ゼロショットデノイザーSelf2Selfよりも平均0.28ドルのPSNR増加と3倍の速度向上を実現する。 ピクセルドミノタイルを貴重に公開する方法に挿入することにより,より広い適用性を示す。

Because noise can interfere with downstream analysis, image denoising has come to occupy an important place in the image processing toolbox. The most accurate state-of-the-art denoisers typically train on a representative dataset. But gathering a training set is not always feasible, so interest has grown in blind zero-shot denoisers that train only on the image they are denoising. The most accurate blind-zero shot methods are blind-spot networks, which mask pixels and attempt to infer them from their surroundings. Other methods exist where all neurons participate in forward inference, however they are not as accurate and are susceptible to overfitting. Here we present a hybrid approach. We first introduce a semi blind-spot network where the network can see only a small percentage of inputs during gradient update. We then resolve overfitting by introducing a validation scheme where we split pixels into two groups and fill in pixel gaps using domino tilings. Our method achieves an average PSNR increase of $0.28$ and a three fold increase in speed over the current gold standard blind zero-shot denoiser Self2Self on synthetic Gaussian noise. We demonstrate the broader applicability of Pixel Domino Tiling by inserting it into a preciously published method.
翻訳日:2022-12-06 18:46:18 公開日:2022-12-05
# 進化ゲーム理論を用いたマルチエージェントパス探索

Multi Agent Path Finding using Evolutionary Game Theory ( http://arxiv.org/abs/2212.02010v1 )

ライセンス: Link先を確認
Sheryl Paul, Jyotirmoy V. Deshmukh(参考訳) 本稿では,未知の確率環境を探索する一様かつ自律的なエージェント群に対する経路探索の問題点について考察する。 問題設定では、各エージェントは、安全性を尊重しながら、与えられたユーティリティ機能を最大化しようとする。 我々の解決策は進化的ゲーム理論、すなわち、うまく機能するポリシーを複製し、そうでないものを減らすという考え方に基づいている。 我々は,関連するマルチエージェント計画手法を総合的に比較し,提案手法が経路長を最大化する技術であるRLアルゴリズムの精度を30%近く向上させることを示す。 我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。 また,他の手法,特に経路計画手法と比較して,エージェント数の増加に伴ってスケール性が向上することを示した。 最後に、我々は、我々が学習する政策が進化的に安定しており、他の政策による侵略には耐え難いことを実証的に証明する。

In this paper, we consider the problem of path finding for a set of homogeneous and autonomous agents navigating a previously unknown stochastic environment. In our problem setting, each agent attempts to maximize a given utility function while respecting safety properties. Our solution is based on ideas from evolutionary game theory, namely replicating policies that perform well and diminishing ones that do not. We do a comprehensive comparison with related multiagent planning methods, and show that our technique beats state of the art RL algorithms in minimizing path length by nearly 30% in large spaces. We show that our algorithm is computationally faster than deep RL methods by at least an order of magnitude. We also show that it scales better with an increase in the number of agents as compared to other methods, path planning methods in particular. Lastly, we empirically prove that the policies that we learn are evolutionarily stable and thus impervious to invasion by any other policy.
翻訳日:2022-12-06 18:45:18 公開日:2022-12-05
# 逆行訓練による多様な音声キャプション作成に向けて

Towards Generating Diverse Audio Captions via Adversarial Training ( http://arxiv.org/abs/2212.02033v1 )

ライセンス: Link先を確認
Xinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley and Wenwu Wang(参考訳) 自動音声キャプションは、自然言語の文で音声クリップの内容を記述するためのクロスモーダル翻訳タスクである。 この作業は注目を集め、近年はかなりの進歩を遂げている。 既存のモデルによって生成されたキャプションは一般にオーディオクリップの内容に忠実であるが、これらのマシン生成キャプションは決定論的(例えば、与えられたオーディオクリップに固定キャプションを生成する)、単純(例えば、一般的な単語と単純な文法を使用する)、汎用(例えば、類似のオーディオクリップに同じキャプションを生成する)であることが多い。 音声クリップの内容の説明を依頼されるとき、異なる人々は異なる音響イベントに集中し、異なる単語と文法を使用して様々な側面から様々な音声クリップを記述する傾向がある。 音声キャプションシステムは、固定されたオーディオクリップや類似のオーディオクリップに対して、多様なキャプションを生成することができるべきだと考えています。 そこで本研究では,C-GAN(Con Conditional Generative Adversarial Network)をベースとした,音声キャプションシステムの多様性向上のための逆トレーニングフレームワークを提案する。 キャプション生成器と2つのハイブリッド判別器は、キャプション生成器がキャプション生成に使用される任意の標準エンコーダ・デコーダキャプションモデルであり、ハイブリッド判別器は、キャプション生成したキャプションを自然性や意味論などの異なる基準から評価することができる。 Clothoデータセット上で実験を行う。 その結果,提案手法は最先端手法に比べて多様性の高いキャプションを生成できることがわかった。

Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
翻訳日:2022-12-06 18:45:04 公開日:2022-12-05
# 非スムース系のベイズ推定のための多元多項式カオスクリッピングに基づくメタモデリング

Multielement polynomial chaos Kriging-based metamodelling for Bayesian inference of non-smooth systems ( http://arxiv.org/abs/2212.02250v1 )

ライセンス: Link先を確認
J.C. Garc\'ia-Merino, C. Calvo-Jurado, E. Mart\'inez-Pa\~neda, E. Garc\'ia-Mac\'ias(参考訳) 本稿では,高非線形工学モデルのベイズパラメータ推定のための領域分割に基づくサロゲートモデリング手法を提案する。 ベイズ推論の応用に典型的に関係する計算量を軽減するため、krigingメタモデルに基づく多元多項式カオス展開を提案する。 開発したサーロゲートモデルは、確率的入力空間の非重複部分ドメインの有限集合上に構築された局所多項式カオスに基づくクリッピングメタモデルの集合を分割関数で結合する。 これにより、フォワードモデル(例えば、非線形性やスパース性)の応答における非滑らかさの存在は、その局所適応能力により最小計算コストのメタモデルによって再現することができる。 モデルパラメータ推論は、適応探索と遅延拒絶を含むマルコフ連鎖モンテカルロアプローチによって行われる。 提案手法の有効性と精度は,解析的ベンチマークと数値的ケーススタディを含む2つのケーススタディを通じて検証される。 後者は、熱脱離分光試験において金属材料の水素拡散現象を規定する偏微分方程式に関するものである。

This paper presents a surrogate modelling technique based on domain partitioning for Bayesian parameter inference of highly nonlinear engineering models. In order to alleviate the computational burden typically involved in Bayesian inference applications, a multielement Polynomial Chaos Expansion based Kriging metamodel is proposed. The developed surrogate model combines in a piecewise function an array of local Polynomial Chaos based Kriging metamodels constructed on a finite set of non-overlapping subdomains of the stochastic input space. Therewith, the presence of non-smoothness in the response of the forward model (e.g.~ nonlinearities and sparseness) can be reproduced by the proposed metamodel with minimum computational costs owing to its local adaptation capabilities. The model parameter inference is conducted through a Markov chain Monte Carlo approach comprising adaptive exploration and delayed rejection. The efficiency and accuracy of the proposed approach are validated through two case studies, including an analytical benchmark and a numerical case study. The latter relates the partial differential equation governing the hydrogen diffusion phenomenon of metallic materials in Thermal Desorption Spectroscopy tests.
翻訳日:2022-12-06 18:44:32 公開日:2022-12-05
# 第三者局からの気象観測の質を自動評価するための運用枠組み

An operational framework to automatically evaluate the quality of weather observations from third-party stations ( http://arxiv.org/abs/2212.01998v1 )

ライセンス: Link先を確認
Quanxi Shao, Ming Li, Joel Janek Dabrowski, Shuvo Bakar, Ashfaqur Rahman, Andrea Powell and Brent Henderson(参考訳) 官報ネットワークのギャップを埋め、各地の気象情報を取得するため、クラウドソーシングによる民間自動気象観測所(tpaws)の設置が増えているため、その利用促進にはデータ品質が大きな関心事となっている。 TPAWS観測において相互に合意に達するためには,適切な品質管理と評価が必要である。 そこで我々は,AI/Stats/MLモデルに基づくシンプルな,スケーラブルで解釈可能なフレームワークを提案する。 このフレームワークは、個々のデータを公式ソースから分離したモデルを構築し、個々のモデルを融合して最終的な評価を提供する。 提案するフレームワークの性能は, 合成データを用いて評価し, TPAWSネットワークに応用して実証した。

With increasing number of crowdsourced private automatic weather stations (called TPAWS) established to fill the gap of official network and obtain local weather information for various purposes, the data quality is a major concern in promoting their usage. Proper quality control and assessment are necessary to reach mutual agreement on the TPAWS observations. To derive near real-time assessment for operational system, we propose a simple, scalable and interpretable framework based on AI/Stats/ML models. The framework constructs separate models for individual data from official sources and then provides the final assessment by fusing the individual models. The performance of our proposed framework is evaluated by synthetic data and demonstrated by applying it to a re-al TPAWS network.
翻訳日:2022-12-06 18:44:16 公開日:2022-12-05
# ネットワークと時間依存を考慮した適応型シーケンシャルサーベイランス

Adaptive Sequential Surveillance with Network and Temporal Dependence ( http://arxiv.org/abs/2212.02422v1 )

ライセンス: Link先を確認
Ivana Malenica and Jeremy R. Coyle and Mark J. van der Laan and Maya L. Petersen(参考訳) 戦略的なテスト割り当ては、パンデミックと既存のパンデミック(例えば、COVID-19、HIV)の制御において重要な役割を果たしている。 ワイドスプレッドテストは,(1)特定症例による感染抑制,(2)標的介入を通知するアウトブレイクダイナミクスの追跡による効果的な流行抑制を支援する。 しかし、感染症の監視には独特の統計上の課題がある。 例えば、関心の真の結果、すなわち陽性の感染状態は、しばしば潜伏変数である。 さらに、ネットワークと時間的依存の両方の存在は、データを単一の観測に還元する。 集団全体を定期的に検査することは効率的でも実現可能でもないので、テストの標準的なアプローチは、個々のリスクを考慮せずに、単純なルールベースのテスト戦略(症状ベース、接触追跡など)を推奨する。 そこで本研究では,n個の個人が時間ステップを経る適応的な逐次設計法について検討し,個人間の不特定な依存を可能とした。 我々の因果的目標パラメータは、ある時間ステップの後に得られる平均潜在結果であり、観測された過去が与えられたとき、資源制約の下で結果を最大化する確率的介入を実行していた場合である。 本研究では,流行状況に適応しながら,テスト戦略の最適選択を時間とともに学習する,適応型シーケンシャル監視のためのオンラインスーパーラーナーを提案する。 提案手法は一連の動作モデルに基づいて,データの基盤となる(未知)構造に基づいて,サンプル全体,時間的,あるいはその両方について学習する。 本研究は, 新型コロナウイルスのパンデミック時の住宅大学環境をモデル化するシミュレーションにおいて, 観測データの観点からの潜在結果の同定結果を示し, 提案手法の優れた性能を示す。

Strategic test allocation plays a major role in the control of both emerging and existing pandemics (e.g., COVID-19, HIV). Widespread testing supports effective epidemic control by (1) reducing transmission via identifying cases, and (2) tracking outbreak dynamics to inform targeted interventions. However, infectious disease surveillance presents unique statistical challenges. For instance, the true outcome of interest - one's positive infectious status, is often a latent variable. In addition, presence of both network and temporal dependence reduces the data to a single observation. As testing entire populations regularly is neither efficient nor feasible, standard approaches to testing recommend simple rule-based testing strategies (e.g., symptom based, contact tracing), without taking into account individual risk. In this work, we study an adaptive sequential design involving n individuals over a period of {\tau} time-steps, which allows for unspecified dependence among individuals and across time. Our causal target parameter is the mean latent outcome we would have obtained after one time-step, if, starting at time t given the observed past, we had carried out a stochastic intervention that maximizes the outcome under a resource constraint. We propose an Online Super Learner for adaptive sequential surveillance that learns the optimal choice of tests strategies over time while adapting to the current state of the outbreak. Relying on a series of working models, the proposed method learns across samples, through time, or both: based on the underlying (unknown) structure in the data. We present an identification result for the latent outcome in terms of the observed data, and demonstrate the superior performance of the proposed strategy in a simulation modeling a residential university environment during the COVID-19 pandemic.
翻訳日:2022-12-06 18:44:02 公開日:2022-12-05
# ライブセル画像の超解像とセグメンテーションのためのダブルu-net

Double U-Net for Super-Resolution and Segmentation of Live Cell Images ( http://arxiv.org/abs/2212.02028v1 )

ライセンス: Link先を確認
Mayur Bhandary, J. Patricio Reyes, Eylul Ertay, Aman Panda(参考訳) ライブセル画像の正確なセグメンテーションは、臨床および研究の文脈に広く応用されている。 深層学習法は高い精度で細胞セグメンテーションを実行することができるが、それを行う機械学習モデルの開発には、生きた細胞の高忠実度画像へのアクセスが必要である。 これは、高性能顕微鏡へのアクセシビリティの制限や、研究対象の生物の性質によるリソース制約のため、しばしば利用できない。 ライブセルの低解像度画像へのセグメンテーションは難しい作業である。 本稿では,セグメンテーションパイプラインの事前処理ステップとして超解像を行うことにより,低解像度画像を用いたライブセルセグメンテーションを行う手法を提案する。

Accurate segmentation of live cell images has broad applications in clinical and research contexts. Deep learning methods have been able to perform cell segmentations with high accuracy; however developing machine learning models to do this requires access to high fidelity images of live cells. This is often not available due to resource constraints like limited accessibility to high performance microscopes or due to the nature of the studied organisms. Segmentation on low resolution images of live cells is a difficult task. This paper proposes a method to perform live cell segmentation with low resolution images by performing super-resolution as a pre-processing step in the segmentation pipeline.
翻訳日:2022-12-06 18:35:13 公開日:2022-12-05
# ファンビームCT再構成のための勾配に基づく幾何学習

Gradient-Based Geometry Learning for Fan-Beam CT Reconstruction ( http://arxiv.org/abs/2212.02177v1 )

ライセンス: Link先を確認
Mareike Thies, Fabian Wagner, Noah Maul, Lukas Folle, Manuela Meier, Maximilian Rohleder, Linda-Sophie Schneider, Laura Pfaff, Mingxuan Gu, Jonas Utz, Felix Denzinger, Michael Manhart, Andreas Maier(参考訳) コンピュータ断層撮影(CT)再構成演算子を微分可能なパイプラインに組み込むことは多くの応用で有益であることが証明されている。 このようなアプローチは通常、投影データに注目して、取得幾何を固定する。 しかし, 得られた形状の正確な知識は, 高品質な再構築に不可欠である。 本稿では,ファンビームct再構成の微分可能な定式化を取得幾何に拡張する。 これにより、再構成された画像の損失関数から幾何パラメータへの勾配情報を伝播することができる。 概念実証実験として、このアイデアは剛体運動補償に適用される。 コスト関数は、トレーニングされたニューラルネットワークによってパラメータ化される。 提案手法を用いて,解析的勾配に基づく自動焦点インスパイアされたアルゴリズムを初めて最適化する。 このアルゴリズムは、mseの35.5パーセントの削減とssimの12.6%の改善を達成している。 動作補償の次は、より深いモデルを用いたスキャナキャリブレーションやハイブリッド技術における微分可能な手法のさらなる活用例を見いだす。

Incorporating computed tomography (CT) reconstruction operators into differentiable pipelines has proven beneficial in many applications. Such approaches usually focus on the projection data and keep the acquisition geometry fixed. However, precise knowledge of the acquisition geometry is essential for high quality reconstruction results. In this paper, the differentiable formulation of fan-beam CT reconstruction is extended to the acquisition geometry. This allows to propagate gradient information from a loss function on the reconstructed image into the geometry parameters. As a proof-of-concept experiment, this idea is applied to rigid motion compensation. The cost function is parameterized by a trained neural network which regresses an image quality metric from the motion affected reconstruction alone. Using the proposed method, we are the first to optimize such an autofocus-inspired algorithm based on analytical gradients. The algorithm achieves a reduction in MSE by 35.5 % and an improvement in SSIM by 12.6 % over the motion affected reconstruction. Next to motion compensation, we see further use cases of our differentiable method for scanner calibration or hybrid techniques employing deep models.
翻訳日:2022-12-06 18:34:56 公開日:2022-12-05
# 知覚的, 相互的, 予測: 終端動作予測のための動的, 静的曲線の学習

Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction ( http://arxiv.org/abs/2212.02181v1 )

ライセンス: Link先を確認
Bo Jiang, Shaoyu Chen, Xinggang Wang, Bencheng Liao, Tianheng Cheng, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang(参考訳) 動き予測は、自律走行のシナリオにおける動的物体と静的マップ要素の知覚に非常に関係している。 本稿では,オンラインマッピング,オブジェクト検出,動き予測を共同でインタラクティブに行う,エンドツーエンドのトランスフォーマーベースのフレームワークであるpipを提案する。 PIPはマップクエリ、エージェントクエリ、モードクエリを利用して、それぞれマップ要素、エージェント、モーションインテントのインスタンスワイズ情報をエンコードする。 統一された問合せ表現に基づいて,知覚と予測の相関を生かすために,微分可能なマルチタスクインタラクションスキームを提案する。 人間の注釈付きHDマップやエージェントの履歴追跡軌跡をガイダンス情報として用いなくても、PIPはエンドツーエンドのマルチエージェント動作予測を実現し、トラッキングベースやHDマップベースの手法よりも優れたパフォーマンスを実現する。 PIPは、運転シーンの包括的な高レベル情報(ベクトル化された静的マップとモーション情報を持つ動的オブジェクト)を提供し、下流の計画と制御に寄与する。 コードとモデルは、さらなる研究を促進するためにリリースされる。

Motion prediction is highly relevant to the perception of dynamic objects and static map elements in the scenarios of autonomous driving. In this work, we propose PIP, the first end-to-end Transformer-based framework which jointly and interactively performs online mapping, object detection and motion prediction. PIP leverages map queries, agent queries and mode queries to encode the instance-wise information of map elements, agents and motion intentions, respectively. Based on the unified query representation, a differentiable multi-task interaction scheme is proposed to exploit the correlation between perception and prediction. Even without human-annotated HD map or agent's historical tracking trajectory as guidance information, PIP realizes end-to-end multi-agent motion prediction and achieves better performance than tracking-based and HD-map-based methods. PIP provides comprehensive high-level information of the driving scene (vectorized static map and dynamic objects with motion information), and contributes to the downstream planning and control. Code and models will be released for facilitating further research.
翻訳日:2022-12-06 18:34:33 公開日:2022-12-05
# 収縮深度特徴を用いた高次元収率推定と積分エントロピーの最大化

High-Dimensional Yield Estimation using Shrinkage Deep Features and Maximization of Integral Entropy Reduction ( http://arxiv.org/abs/2212.02100v1 )

ライセンス: Link先を確認
Shuo Yin, Guohao Dai, Wei W. Xing(参考訳) 過去10年間の機械学習技術による高シグマ収率解析の急速な進歩にもかかわらず、主要な課題の1つは、現代の大規模回路を扱う際に避けられない次元の呪いである。 この課題を解決するために,非線形相関深部カーネルにおける支配的プロセス変動パラメータを自動的に同定し,高価なSPICEシミュレーションをエミュレートするための代理モデルとして機能する絶対縮小深部カーネル学習ASDKを提案する。 さらに収率推定効率を向上させるために,並列計算のための並列バッチサンプリングによって拡張された効率的なモデル更新のための近似エントロピー削減の新たな最大化を提案する。 SRAMカラム回路の実験では、SOTA法よりも最大10.3倍の精度と効率で、最先端(SOTA)アプローチよりもASDKの方が優れていることを示した。

Despite the fast advances in high-sigma yield analysis with the help of machine learning techniques in the past decade, one of the main challenges, the curse of dimensionality, which is inevitable when dealing with modern large-scale circuits, remains unsolved. To resolve this challenge, we propose an absolute shrinkage deep kernel learning, ASDK, which automatically identifies the dominant process variation parameters in a nonlinear-correlated deep kernel and acts as a surrogate model to emulate the expensive SPICE simulation. To further improve the yield estimation efficiency, we propose a novel maximization of approximated entropy reduction for an efficient model update, which is also enhanced with parallel batch sampling for parallel computing, making it ready for practical deployment. Experiments on SRAM column circuits demonstrate the superiority of ASDK over the state-of-the-art (SOTA) approaches in terms of accuracy and efficiency with up to 10.3x speedup over SOTA methods.
翻訳日:2022-12-06 18:28:50 公開日:2022-12-05
# 人工知的エージェントによる環境極端の協調制御

Cooperative control of environmental extremes by artificial intelligent agents ( http://arxiv.org/abs/2212.02395v1 )

ライセンス: Link先を確認
Mart\'i S\'anchez-Fibla, Cl\'ement Moulin-Frier and Ricard Sol\'e(参考訳) 人間は生物圏の複雑さに取り組み、生態系のエンジニアとして働き、物質、エネルギー、情報の流れを大きく変えてきた。 これには、極端な出来事の影響を減らし、制御できる大きなイノベーションが含まれている。 このような適応力学の進化のモデル化は、潜在的に多くの個人変数や環境変数が関与しているため、困難である。 本稿では,火を外的・破裂的・広い変動源として用いることにより,この問題に対処する方法を示す。 火災は、火災が広がる影響を避けながら、エージェントのグループが木を収穫し、搾取する空間的な風景に伝播する。 森林伐採は火災の伝播を減少させるが、樹木が供給する資源の可利用性も低下させる。 このシステムには2つの大きな進化的革新があり、大きな火災の抑制とともに高いバイオマスを優先する生態工学的戦略が導かれることが示されている。 複雑な生態系のA.I.管理の可能性について論じる。

Humans have been able to tackle biosphere complexities by acting as ecosystem engineers, profoundly changing the flows of matter, energy and information. This includes major innovations that allowed to reduce and control the impact of extreme events. Modelling the evolution of such adaptive dynamics can be challenging given the potentially large number of individual and environmental variables involved. This paper shows how to address this problem by using fire as the source of external, bursting and wide fluctuations. Fire propagates on a spatial landscape where a group of agents harvest and exploit trees while avoiding the damaging effects of fire spreading. The agents need to solve a conflict to reach a group-level optimal state: while tree harvesting reduces the propagation of fires, it also reduces the availability of resources provided by trees. It is shown that the system displays two major evolutionary innovations that end up in an ecological engineering strategy that favours high biomass along with the suppression of large fires. The implications for potential A.I. management of complex ecosystems are discussed.
翻訳日:2022-12-06 18:28:33 公開日:2022-12-05
# cube-and-conquerによる暗号ハッシュ関数の反転

Inverting Cryptographic Hash Functions via Cube-and-Conquer ( http://arxiv.org/abs/2212.02405v1 )

ライセンス: Link先を確認
Oleg Zaikin(参考訳) MD4とMD5は1990年代初頭に提案された暗号ハッシュ関数である。 MD4は48ステップで構成され、128ビットのハッシュを任意の有限サイズのメッセージとして生成する。 MD5はMD4のよりセキュアな64ステップ拡張である。 MD4とMD5はどちらも実用的な衝突攻撃に弱いが、ハッシュが与えられたメッセージを見つけることは現実的ではない。 2007年、39段版のMD4はSATに還元され、いわゆるDobbertinの制約とともにCDCLソルバが適用された。 MD5に関しては、2012年に28ステップバージョンがCDCLソルバを介して特定のハッシュに対して追加の制約を加えることなく反転された。 本研究では,cdclとlookaheadの組み合わせであるcube-and-conquerをmd4とmd5の逆ステップ縮小バージョンに適用する。 この目的のために2つのアルゴリズムを提案する。 まず、dobbertinの制約を徐々に修正することで、md4の反転問題を生成する。 第2のアルゴリズムは、キューブ・アンド・コンクエストのキュービングフェーズを異なるカットオフしきい値で試行し、コンクエストフェーズを最小のランタイム推定で見つける。 このアルゴリズムは2つのモードで動作する。 (i)任意の公式の硬さを推定すること。 (ii) 与えられた満足できる式の不完全SAT解法。 第1のアルゴリズムはステップ還元MD4の反転に重点を置いているが、第2のアルゴリズムは領域固有ではなく、ハードSATインスタンスの様々なクラスに適用できる。 本研究では,40段,41段,42段,43段のMD4を,第1のアルゴリズムと第2のアルゴリズムの推定モードで反転させる。 28ステップmd5は、第2アルゴリズムの不完全sat解決モードを介して4つのハッシュに対して反転する。 そのうちの3つのハッシュは、これが初めて行われる。

MD4 and MD5 are seminal cryptographic hash functions proposed in early 1990s. MD4 consists of 48 steps and produces a 128-bit hash given a message of arbitrary finite size. MD5 is a more secure 64-step extension of MD4. Both MD4 and MD5 are vulnerable to practical collision attacks, yet it is still not realistic to invert them, i.e. to find a message given a hash. In 2007, the 39-step version of MD4 was inverted via reducing to SAT and applying a CDCL solver along with the so-called Dobbertin's constraints. As for MD5, in 2012 its 28-step version was inverted via a CDCL solver for one specified hash without adding any additional constraints. In this study, Cube-and-Conquer (a combination of CDCL and lookahead) is applied to invert step-reduced versions of MD4 and MD5. For this purpose, two algorithms are proposed. The first one generates inversion problems for MD4 by gradually modifying the Dobbertin's constraints. The second algorithm tries the cubing phase of Cube-and-Conquer with different cutoff thresholds to find the one with minimal runtime estimation of the conquer phase. This algorithm operates in two modes: (i) estimating the hardness of an arbitrary given formula; (ii) incomplete SAT-solving of a given satisfiable formula. While the first algorithm is focused on inverting step-reduced MD4, the second one is not area-specific and so is applicable to a variety of classes of hard SAT instances. In this study, for the first time in history, 40-, 41-, 42-, and 43-step MD4 are inverted via the first algorithm and the estimating mode of the second algorithm. 28-step MD5 is inverted for four hashes via the incomplete SAT-solving mode of the second algorithm. For three hashes out of them this is done for the first time.
翻訳日:2022-12-06 18:28:16 公開日:2022-12-05
# エンドツーエンド音声認識モデルのテキスト適応のための高速・高精度分解型ニューラルトランスデューサ

Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models ( http://arxiv.org/abs/2212.01992v1 )

ライセンス: Link先を確認
Rui Zhao, Jian Xue, Partha Parthasarathy, Veljko Miljanic, Jinyu Li(参考訳) ニューラルトランスデューサは、その自然なストリーミング能力のため、音声認識の最も人気のあるエンドツーエンドモデルである。 しかし、テキストのみのデータで適応することは困難である。 この問題を緩和するためにFNTモデルが提案された。 テキストのみの適応データに対するFNTの適応性の向上は、標準的なニューラルトランスデューサモデルと比較して精度の低下を招いた。 FNTモデルの性能向上のためのいくつかの手法を提案する。 トレーニング中にCTC基準を追加し、適応中にKL分散損失を追加し、事前訓練された言語モデルを用いて語彙予測をシードし、n-gram言語モデルと語彙予測を補間することで効率よく適応する。 これらの手法を組み合わせることで、標準FNTモデルから単語エラー率を9.48\%削減する。 さらに、語彙予測器とのn-gram補間により、適応性能が良好に向上する。

Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
翻訳日:2022-12-06 18:26:43 公開日:2022-12-05
# fedcc:モデル中毒攻撃に対する堅牢な連合学習

FedCC: Robust Federated Learning against Model Poisoning Attacks ( http://arxiv.org/abs/2212.01976v1 )

ライセンス: Link先を確認
Hyejun Jeong, Hamin Son, Seohu Lee, Jayun Hyun, Tai-Myoung Chung(参考訳) フェデレーション学習は、機械学習やディープラーニングモデルの使用において、プライバシ侵害に関する懸念の高まりに対処するために出現した。 この新たなパラダイムは、ディープラーニングモデルを分散的に活用し、プライバシ保護を強化する。 しかし、サーバがローカルデータセットに盲目であることは、その脆弱性によって毒殺攻撃やデータ不均一性をモデル化し、グローバルモデルのパフォーマンスを損なう。 多くの研究が堅牢な集約アルゴリズムと防御機構を提案しているが、アプローチは個々の攻撃や問題に直交している。 提案手法であるFedCCは,Pultimate Layers RepresentationsのCentered Kernel Alignmentを比較することで,ロバストなアグリゲーションを提供する。 FedCCの実験結果は、標的にされていないモデル中毒やバックドア攻撃を軽減し、非独立的にかつ特定に分散したデータ環境でも有効であることを実証している。 標的外攻撃に対するFedCCの適用により,グローバルモデル精度が最も向上した。 ターゲットのバックドア攻撃に対して、fedccはテスト精度を維持しながら攻撃の信頼性を無効にした。 実験のほとんどがベースラインメソッドに逆らっている。

Federated Learning has emerged to cope with raising concerns about privacy breaches in using Machine or Deep Learning models. This new paradigm allows the leverage of deep learning models in a distributed manner, enhancing privacy preservation. However, the server's blindness to local datasets introduces its vulnerability to model poisoning attacks and data heterogeneity, tampering with the global model performance. Numerous works have proposed robust aggregation algorithms and defensive mechanisms, but the approaches are orthogonal to individual attacks or issues. FedCC, the proposed method, provides robust aggregation by comparing the Centered Kernel Alignment of Penultimate Layers Representations. The experiment results on FedCC demonstrate that it mitigates untargeted and targeted model poisoning or backdoor attacks while also being effective in non-Independently and Identically Distributed data environments. By applying FedCC against untargeted attacks, global model accuracy is recovered the most. Against targeted backdoor attacks, FedCC nullified attack confidence while preserving the test accuracy. Most of the experiment results outstand the baseline methods.
翻訳日:2022-12-06 18:17:29 公開日:2022-12-05
# LGのフィブレーション

The LG Fibration ( http://arxiv.org/abs/2212.02029v1 )

ライセンス: Link先を確認
Daniel Livschitz and Weiqing Gu(参考訳) ディープラーニングは、研究や産業全体にわたるデータから判断への応用に大きな影響を与えてきたが、それらは厳密な数学的基礎を欠いており、アルゴリズム的な結果が事実上可逆的ではない状況を生み出している。 本稿では、$s^{2^n-1}$ と $s^n$ の間の位相接続により、$\mathbb{r}^{2^n}$ と$\mathbb{r}^{n+1}$ のほぼ可逆写像を示す。 一つは$S^{2^n-1}$ から $ {\displaystyle \otimes^n_{k=1} SO(2)$ への縮約であり、もう一つは $ {\displaystyle \otimes^n_{k=1} SO(2)$ から $S^{n}$ への射影である。 これらはlg fibrationと呼ばれる複合マップを形成します。 S^{(2n-1)} \mapsto CP^n$からの超複素幾何を用いたホップ・フィブレーションの生成と類似して、我々のフィブレーションは多複素幾何を用いて$S^{2^n-1}$を$S^n$に投影する。 また、LGフィブレーションの代数的性質を調べ、最終的に距離差関数を導出し、変換の下でどのベクトル対が不変内部積を持つかを決定する。 LG Fibrationは、適応型UAV制御におけるHopf Fibrationsの現在の応用と類似して、機械学習とAIに応用されている。 さらに、ほぼすべての要素のlgファイバレーションを反転させる能力は、現在現代の手法を悩ませている不確実性と再現性の問題を回避できる機械学習アルゴリズムの開発を可能にする。 本研究の主な成果は, 球面のホモトピー群, 代数トポロジー, 機械学習, 代数生物学の分野に限らず, 数学とAIの両方の研究を拡張できるような, ほぼ可逆な幾何学的次元を$S^{2^n-1}$から$S^n$に還元する方法である。

Deep Learning has significantly impacted the application of data-to-decision throughout research and industry, however, they lack a rigorous mathematical foundation, which creates situations where algorithmic results fail to be practically invertible. In this paper we present a nearly invertible mapping between $\mathbb{R}^{2^n}$ and $\mathbb{R}^{n+1}$ via a topological connection between $S^{2^n-1}$ and $S^n$. Throughout the paper we utilize the algebra of Multicomplex rotation groups and polyspherical coordinates to define two maps: the first is a contraction from $S^{2^n-1}$ to $\displaystyle \otimes^n_{k=1} SO(2)$, and the second is a projection from $\displaystyle \otimes^n_{k=1} SO(2)$ to $S^{n}$. Together these form a composite map that we call the LG Fibration. In analogy to the generation of Hopf Fibration using Hypercomplex geometry from $S^{(2n-1)} \mapsto CP^n$, our fibration uses Multicomplex geometry to project $S^{2^n-1}$ onto $S^n$. We also investigate the algebraic properties of the LG Fibration, ultimately deriving a distance difference function to determine which pairs of vectors have an invariant inner product under the transformation. The LG Fibration has applications to Machine Learning and AI, in analogy to the current applications of Hopf Fibrations in adaptive UAV control. Furthermore, the ability to invert the LG Fibration for nearly all elements allows for the development of Machine Learning algorithms that may avoid the issues of uncertainty and reproducibility that currently plague contemporary methods. The primary result of this paper is a novel method of nearly invertible geometric dimensional reduction from $S^{2^n-1}$ to $S^n$, which has the capability to extend the research in both mathematics and AI, including but not limited to the fields of homotopy groups of spheres, algebraic topology, machine learning, and algebraic biology.
翻訳日:2022-12-06 18:17:11 公開日:2022-12-05
# hierarchyfl:階層的自己蒸留によるヘテロジニアス連合学習

HierarchyFL: Heterogeneous Federated Learning via Hierarchical Self-Distillation ( http://arxiv.org/abs/2212.02006v1 )

ライセンス: Link先を確認
Jun Xia, Yi Zhang, Zhihao Yue, Ming Hu, Xian Wei, Mingsong Chen(参考訳) フェデレートラーニング(FL)は、多種多様な異種人工知能(AIoT)デバイス間の知識共有を可能にする、プライバシー保護分散機械学習パラダイムとして認識されている。 FLは、AIoTデバイスのモデル不均一性により、モデル不正確性と緩やかな収束に悩まされる。 既存手法は,モデルの不均一性のボトルネックを解消しようとするが,そのほとんどは粗い粒度で異種モデルの精度を向上させるため,大規模なAIoTデバイスをデプロイすることは依然として大きな課題である。 この問題による悪影響を緩和し、各異種モデルの多様性を最大限に活用するために、様々な異なる構造化モデルにまたがる効率的かつスケーラブルな知識のために、少量の公開データを使用する、archicalflという効率的なフレームワークを提案する。 自己蒸留と提案するアンサンブルライブラリを用いることで,各階層モデルはクラウドサーバ上でインテリジェントに相互学習することができる。 実験結果から,HierarchyFLは大規模AIoTシステムにおける多種多様なモデル間の知識共有を最大化できるだけでなく,多種多様なAIoTデバイスのモデル性能を大幅に向上させることができることがわかった。

Federated learning (FL) has been recognized as a privacy-preserving distributed machine learning paradigm that enables knowledge sharing among various heterogeneous artificial intelligence (AIoT) devices through centralized global model aggregation. FL suffers from model inaccuracy and slow convergence due to the model heterogeneity of the AIoT devices involved. Although various existing methods try to solve the bottleneck of the model heterogeneity problem, most of them improve the accuracy of heterogeneous models in a coarse-grained manner, which makes it still a great challenge to deploy large-scale AIoT devices. To alleviate the negative impact of this problem and take full advantage of the diversity of each heterogeneous model, we propose an efficient framework named HierarchyFL, which uses a small amount of public data for efficient and scalable knowledge across a variety of differently structured models. By using self-distillation and our proposed ensemble library, each hierarchical model can intelligently learn from each other on cloud servers. Experimental results on various well-known datasets show that HierarchyFL can not only maximize the knowledge sharing among various heterogeneous models in large-scale AIoT systems, but also greatly improve the model performance of each involved heterogeneous AIoT device.
翻訳日:2022-12-06 18:09:18 公開日:2022-12-05
# 逆負のサンプルを持つグラフ畳み込みニューラルネットワークの分解決定点過程

Graph Convolutional Neural Networks with Diverse Negative Samples via Decomposed Determinant Point Processes ( http://arxiv.org/abs/2212.02055v1 )

ライセンス: Link先を確認
Wei Duan, Junyu Xuan, Maoying Qiao, Jie Lu(参考訳) グラフ畳み込みネットワーク(GCN)は,ノードとそのトポロジから高レベル特徴を抽出することにより,グラフ表現学習において大きな成功を収めている。 GCNは一般的にメッセージパッシング機構に従うため、各ノードはその表現を更新するためにその1階目の隣人からの情報を集約する。 結果として、エッジを持つノードの表現は正の相関関係を持つべきであり、したがって正のサンプルと見なすことができる。 しかし、グラフ全体の非隣接ノードはより多く存在し、表現更新に多様で有用な情報を提供する。 2つの非隣接ノードは通常異なる表現を持ち、負のサンプルと見なすことができる。 ノード表現以外にも、グラフの構造情報は学習にも不可欠である。 本稿では,DPP(Determinant point process)における品質多様性分解を用いて,様々な負のサンプルを得た。 非隣接ノードの様々な部分集合上の分布を定義する際、グラフ構造情報とノード表現の両方を組み込む。 DPPサンプリングは行列固有値分解を必要とするため,計算効率を向上させるための最短パスベース法を提案する。 最後に,得られた負のサンプルをグラフ畳み込み演算に組み込む。 これらのアイデアは、ノード分類タスクの実験で実証的に評価される。 これらの実験により, 提案手法は, 標準表現学習の全体的な性能を向上させるだけでなく, 過小評価問題を大幅に軽減することを示した。

Graph convolutional networks (GCNs) have achieved great success in graph representation learning by extracting high-level features from nodes and their topology. Since GCNs generally follow a message-passing mechanism, each node aggregates information from its first-order neighbour to update its representation. As a result, the representations of nodes with edges between them should be positively correlated and thus can be considered positive samples. However, there are more non-neighbour nodes in the whole graph, which provide diverse and useful information for the representation update. Two non-adjacent nodes usually have different representations, which can be seen as negative samples. Besides the node representations, the structural information of the graph is also crucial for learning. In this paper, we used quality-diversity decomposition in determinant point processes (DPP) to obtain diverse negative samples. When defining a distribution on diverse subsets of all non-neighbouring nodes, we incorporate both graph structure information and node representations. Since the DPP sampling process requires matrix eigenvalue decomposition, we propose a new shortest-path-base method to improve computational efficiency. Finally, we incorporate the obtained negative samples into the graph convolution operation. The ideas are evaluated empirically in experiments on node classification tasks. These experiments show that the newly proposed methods not only improve the overall performance of standard representation learning but also significantly alleviate over-smoothing problems.
翻訳日:2022-12-06 18:08:55 公開日:2022-12-05
# 浅層ニューラルネットワークの収束保証の改善

Improved Convergence Guarantees for Shallow Neural Networks ( http://arxiv.org/abs/2212.02323v1 )

ライセンス: Link先を確認
Alexander Razborov(参考訳) 我々は、勾配降下によって訓練された深さ2のニューラルネットワークの収束をグローバルに最小化することを目的とした長い研究を継続する。 これまでの多くの研究と同様に、我々のモデルは2次損失関数による回帰、完全に接続されたフィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、ネットワーク初期化、逆ラベルといった特徴を持っている。 両方の層を同時に、そして、異なる速度でトレーニングできるという意味では、より一般的である。 以上の結果から,[oymak soltanolkotabi 20] (第1層のみを訓練) と[nguyen 21 section 3.2] (le cun の初期化で両層を訓練) が改善した。 また,合成データを用いた簡単な実験もいくつか報告した。 彼らは、少なくとも我々のモデルでは、収束現象は ``ntk regime''' を超えると強く示唆している。

We continue a long line of research aimed at proving convergence of depth 2 neural networks, trained via gradient descent, to a global minimum. Like in many previous works, our model has the following features: regression with quadratic loss function, fully connected feedforward architecture, RelU activations, Gaussian data instances and network initialization, adversarial labels. It is more general in the sense that we allow both layers to be trained simultaneously and at {\em different} rates. Our results improve on state-of-the-art [Oymak Soltanolkotabi 20] (training the first layer only) and [Nguyen 21, Section 3.2] (training both layers with Le Cun's initialization). We also report several simple experiments with synthetic data. They strongly suggest that, at least in our model, the convergence phenomenon extends well beyond the ``NTK regime''.
翻訳日:2022-12-06 18:08:35 公開日:2022-12-05
# Accu-Help: 強迫性障害の正確な検出のための機械学習ベースのスマートヘルスケアフレームワーク

Accu-Help: A Machine Learning based Smart Healthcare Framework for Accurate Detection of Obsessive Compulsive Disorder ( http://arxiv.org/abs/2212.02346v1 )

ライセンス: Link先を確認
Kabita Patel, Ajaya Kumar Tripathy, Laxmi Narayan Padhy, Sujita Kumar Kar, Susanta Kumar Padhy, Saraju Prasad Mohanty(参考訳) 近年では、スマートヘルスケアの重要性を誇張することはできない。 現在の研究は、OCD(Obsessive Compulsive Disorder)ソリューションの統合において、スマートヘルスケアの最先端性を拡張することを提案した。 機械学習を用いた酸化ストレスバイオマーカー(OSB)からのOCDの同定は,OCD研究において重要である。 しかしながら、このプロセスには、病院からのOCDクラスラベルの収集、生化学実験室からの対応するOSBの収集、統合およびラベル付きデータセットの作成、OCD予測モデルの設計に適した機械学習アルゴリズムの使用、ラベルなしOSBのOCD予測のためにこれらの予測モデルを異なる生化学実験室で利用することが含まれる。 さらに,ラベル付きサンプルを用いてデータセットのボリュームを大きく増加させるためには,予測モデルの再設計が必要である。 プロセス全体は、分散データ収集、データ統合、病院と生化学研究所の連携、適切な機械学習アルゴリズムを用いた動的機械学習OCD予測モードの設計、バイオケミカル研究所で利用できる機械学習モデルが必要である。 これらすべてを念頭に置いて、Accu-HelpはOSBからOCDを効率的に検出するために、完全に自動化され、スマートで正確なOCD検出概念モデルを提案する。 OSBは、Healthy individuals (HI)、OCD Affected individuals (OAI)、遺伝学的Affected individuals (GAI)の3つのクラスに分類される。 このフレームワークの主なコンポーネントは、機械学習のOCD予測モデル設計である。 このaccu-helpでは、ニューラルネットワークに基づくアプローチが、ocd予測精度86%で示される。

In recent years the importance of Smart Healthcare cannot be overstated. The current work proposed to expand the state-of-art of smart healthcare in integrating solutions for Obsessive Compulsive Disorder (OCD). Identification of OCD from oxidative stress biomarkers (OSBs) using machine learning is an important development in the study of OCD. However, this process involves the collection of OCD class labels from hospitals, collection of corresponding OSBs from biochemical laboratories, integrated and labeled dataset creation, use of suitable machine learning algorithm for designing OCD prediction model, and making these prediction models available for different biochemical laboratories for OCD prediction for unlabeled OSBs. Further, from time to time, with significant growth in the volume of the dataset with labeled samples, redesigning the prediction model is required for further use. The whole process requires distributed data collection, data integration, coordination between the hospital and biochemical laboratory, dynamic machine learning OCD prediction mode design using a suitable machine learning algorithm, and making the machine learning model available for the biochemical laboratories. Keeping all these things in mind, Accu-Help a fully automated, smart, and accurate OCD detection conceptual model is proposed to help the biochemical laboratories for efficient detection of OCD from OSBs. OSBs are classified into three classes: Healthy Individual (HI), OCD Affected Individual (OAI), and Genetically Affected Individual (GAI). The main component of this proposed framework is the machine learning OCD prediction model design. In this Accu-Help, a neural network-based approach is presented with an OCD prediction accuracy of 86 percent.
翻訳日:2022-12-06 18:08:15 公開日:2022-12-05
# ターゲット特異的薬物発見のためのエネルギーベース生成モデル

Energy-based Generative Models for Target-specific Drug Discovery ( http://arxiv.org/abs/2212.02404v1 )

ライセンス: Link先を確認
Junde Li, Collin Beaudoin, Swaroop Ghosh(参考訳) 薬物ターゲットは、疾患の病因形成において重要な役割を担っているため、薬物発見の主要な焦点である。 計算手法は、生物分子データセットの可用性が高まるため、薬物開発に広く応用されている。 一般的な生成アプローチは、与えられた分子分布を学習することで新しい薬物分子を作ることができる。 しかし、これらのアプローチは標的特異的な薬物発見のためのものではない。 計算対象特異的な薬物発見のためのエネルギーベースの確率モデルを開発した。 その結果,提案するtagmolは実際の分子と同様の結合親和性スコアを持つ分子を生成できることがわかった。 GATベースのモデルでは、GCNベースラインモデルと比較して、より高速で学習性が向上した。

Drug targets are the main focus of drug discovery due to their key role in disease pathogenesis. Computational approaches are widely applied to drug development because of the increasing availability of biological molecular datasets. Popular generative approaches can create new drug molecules by learning the given molecule distributions. However, these approaches are mostly not for target-specific drug discovery. We developed an energy-based probabilistic model for computational target-specific drug discovery. Results show that our proposed TagMol can generate molecules with similar binding affinity scores as real molecules. GAT-based models showed faster and better learning relative to GCN baseline models.
翻訳日:2022-12-06 18:07:46 公開日:2022-12-05
# あなたが感じているものを感じることを願う:共感的反応生成のためのニューラルアプローチ

Wish I Can Feel What You Feel: A Neural Approach for Empathetic Response Generation ( http://arxiv.org/abs/2212.02000v1 )

ライセンス: Link先を確認
Yangbin Chen and Chunfeng Liang(参考訳) 共感の表現は日常会話において重要であり、共感の出現が自動応答生成において重要である。 以前のアプローチでは、共感に影響を与える唯一の要因しか考慮していなかった。 しかし実際には、共感の生成と表現は非常に複雑でダイナミックな心理的プロセスである。 聞き手は、話者の感情を引き起こすイベント(感情の抽出)を見つけ、そのイベントを何らかの体験(知識拡張)に投影し、最も適切な方法で共感を表現する(コミュニケーションメカニズム)必要がある。 そこで本研究では,感情の原因,知識グラフ,共感応答生成のためのコミュニケーション機構という3つの要素を統合した新しいアプローチを提案する。 ベンチマークデータセットにおける実験結果は,本手法の有効性を示し,キーコンポーネントを組み込むことにより,より有益で共感的な応答が得られることを示す。

Expressing empathy is important in everyday conversations, and exploring how empathy arises is crucial in automatic response generation. Most previous approaches consider only a single factor that affects empathy. However, in practice, empathy generation and expression is a very complex and dynamic psychological process. A listener needs to find out events which cause a speaker's emotions (emotion cause extraction), project the events into some experience (knowledge extension), and express empathy in the most appropriate way (communication mechanism). To this end, we propose a novel approach, which integrates the three components - emotion cause, knowledge graph, and communication mechanism for empathetic response generation. Experimental results on the benchmark dataset demonstrate the effectiveness of our method and show that incorporating the key components generates more informative and empathetic responses.
翻訳日:2022-12-06 18:01:23 公開日:2022-12-05
# StackOverflowにおけるエンティティセットの共拡張

Entity Set Co-Expansion in StackOverflow ( http://arxiv.org/abs/2212.02271v1 )

ライセンス: Link先を確認
Yu Zhang, Yunyi Zhang, Yucheng Jiang, Martin Michalski, Yu Deng, Lucian Popa, ChengXiang Zhai, Jiawei Han(参考訳) 特定のタイプのいくつかのシードエンティティ(例えば、ソフトウェアやプログラミング言語)が与えられると、エンティティセットの拡張は、種と同じタイプを共有する広範なエンティティセットを見つけることを目的としている。 stackoverflowのようなソフトウェア関連ドメインにおけるエンティティセットの拡張は多くのダウンストリームタスク(例えば、ソフトウェアナレッジグラフの構築)に利益をもたらし、より良いitオペレーションとサービス管理を促進する。 一方,既存のアプローチでは,(1)複数種類のシードエンティティを同時に処理する方法という2つの問題にはあまり関心がない。 2) 事前学習言語モデル(PLM)のパワーをどのように活用するか。 本稿では,これら2つの問題を認識し,stackoverflow からライブラリ,os,アプリケーション,言語エンティティを抽出する stackoverflow のエンティティ集合協調タスクについて検討する。 共同膨張過程において、我々はPLMを用いて、エンティティ間の類似性を計算するための候補エンティティの埋め込みを導出する。 実験の結果,提案するsecoexpanフレームワークは,従来のアプローチを大きく上回ることがわかった。

Given a few seed entities of a certain type (e.g., Software or Programming Language), entity set expansion aims to discover an extensive set of entities that share the same type as the seeds. Entity set expansion in software-related domains such as StackOverflow can benefit many downstream tasks (e.g., software knowledge graph construction) and facilitate better IT operations and service management. Meanwhile, existing approaches are less concerned with two problems: (1) How to deal with multiple types of seed entities simultaneously? (2) How to leverage the power of pre-trained language models (PLMs)? Being aware of these two problems, in this paper, we study the entity set co-expansion task in StackOverflow, which extracts Library, OS, Application, and Language entities from StackOverflow question-answer threads. During the co-expansion process, we use PLMs to derive embeddings of candidate entities for calculating similarities between entities. Experimental results show that our proposed SECoExpan framework outperforms previous approaches significantly.
翻訳日:2022-12-06 18:01:10 公開日:2022-12-05
# cbnet:セグメンテーションに基づくシーンテキスト検出のためのプラグアンドプレイネットワーク

CBNet: A Plug-and-Play Network for Segmentation-based Scene Text Detection ( http://arxiv.org/abs/2212.02340v1 )

ライセンス: Link先を確認
Xi Zhao, Wei Feng, Zheng Zhang, Jingjing Lv, Xin Zhu, Zhangang Lin, Jinghe Hu, Jingping Shao(参考訳) 近年,シーンテキスト検出では,主にテキストカーネルのセグメンテーションと拡張の2段階を含むセグメンテーションベースの手法が普及している。 しかし、セグメンテーションプロセスは各ピクセルを独立に考慮し、拡張プロセスは適切な精度と速度のトレードオフを達成するのが困難である。 本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。 CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。 次に,グローバルコンテキストとローカルコンテキストの両方を考慮した,テキストカーネルの特徴表現を強化するコンテキスト認識モジュールを提案する。 最後に,拡張されたテキストカーネルを輪郭上の画素のみを適応的に拡張するバウンダリガイドモジュールを導入し,精度の高いテキスト境界を得るだけでなく,特に高解像度出力マップにおいても高速に保持する。 特に, 軽量なバックボーンにより, 提案するcbnを組み込んだ基本検出器は, 人気のあるベンチマークで最先端の結果を得ることができ, 提案手法をセグメンテーションベース手法に組み込むことができる。 コードはhttps://github.com/xiizhao/cbn.pytorchで入手できる。

Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code will be available on https://github.com/XiiZhao/cbn.pytorch.
翻訳日:2022-12-06 17:53:26 公開日:2022-12-05
# 音声駆動型協調ジェスチャービデオ生成

Audio-Driven Co-Speech Gesture Video Generation ( http://arxiv.org/abs/2212.02350v1 )

ライセンス: Link先を確認
Xian Liu, Qianyi Wu, Hang Zhou, Yuanqi Du, Wayne Wu, Dahua Lin, Ziwei Liu(参考訳) 協調的なジェスチャーは、人間と機械の相互作用とデジタルエンタテインメントに不可欠である。 以前の研究は主に音声を人間の骨格(例えば2Dキーポイント)にマッピングするが、画像領域における話者のジェスチャーを直接生成することは未解決のままである。 本研究は,音声を駆動する話者画像列生成のための統一フレームワークを用いて,音声駆動協調ジェスチャ映像生成の課題を形式的に定義し,検討する。 私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。 そこで本研究では,再利用可能な音声のジェスチャーパターンと微妙なリズム運動を効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEnerationを提案する。 高忠実な画像シーケンス生成を実現するために、構造的な人体(例えば2d骨格)ではなく教師なしの運動表現を利用する。 具体的には 1) ベクトル量子化運動抽出器(VQ-Motion Extractor)を提案する。 2) 動きの精細化(Co-Speech GPT)を図り, 微妙な韻律的動きの詳細を補完する。 大規模な実験により、我々のフレームワークは現実的で鮮明な音声ジェスチャービデオをレンダリングすることを示した。 デモビデオやその他のリソースは以下の通りである。

Co-speech gesture is crucial for human-machine interaction and digital entertainment. While previous works mostly map speech audio to human skeletons (e.g., 2D keypoints), directly generating speakers' gestures in the image domain remains unsolved. In this work, we formally define and study this challenging problem of audio-driven co-speech gesture video generation, i.e., using a unified framework to generate speaker image sequence driven by speech audio. Our key insight is that the co-speech gestures can be decomposed into common motion patterns and subtle rhythmic dynamics. To this end, we propose a novel framework, Audio-driveN Gesture vIdeo gEneration (ANGIE), to effectively capture the reusable co-speech gesture patterns as well as fine-grained rhythmic movements. To achieve high-fidelity image sequence generation, we leverage an unsupervised motion representation instead of a structural human body prior (e.g., 2D skeletons). Specifically, 1) we propose a vector quantized motion extractor (VQ-Motion Extractor) to summarize common co-speech gesture patterns from implicit motion representation to codebooks. 2) Moreover, a co-speech gesture GPT with motion refinement (Co-Speech GPT) is devised to complement the subtle prosodic motion details. Extensive experiments demonstrate that our framework renders realistic and vivid co-speech gesture video. Demo video and more resources can be found in: https://alvinliu0.github.io/projects/ANGIE
翻訳日:2022-12-06 17:53:07 公開日:2022-12-05
# D-TensoRF:動的シーンのためのテンソル放射場

D-TensoRF: Tensorial Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2212.02375v1 )

ライセンス: Link先を確認
Hankyu Jang, Daeyoung Kim(参考訳) ニューラルレイディアンス場(NeRF)は3次元シーンの再構成に期待できるアプローチとして注目されている。 NeRFが出現すると、運動やトポロジカルな変化を含むダイナミックなシーンをモデル化する研究が行われた。 しかし、そのほとんどは追加の変形ネットワークを使用し、トレーニングとレンダリングの速度を遅くする。 テンソRF(Tensorial Radiance Field)は, モデルサイズがコンパクトな静的シーンの高速かつ高品質な再構成の可能性を示している。 本稿では,動的シーンのためのテンソル放射場であるD-TensoRFについて述べる。 動的シーンの放射場を5次元テンソルと考える。 5Dテンソルは、各軸がX、Y、Z、時間に対応し、要素ごとに1Dのマルチチャネル特徴を有する4Dグリッドを表す。 テンソRFと同様に、格子をランク1ベクトル成分(CP分解)またはローランク行列成分(MM分解)に分解する。 また、スムーズな正規化を使用して、異なる時間(時間的依存)における特徴間の関係を反映しています。 我々はモデルを分析するために広範囲な評価を行う。 CP分解とMM分解を併用したD-TensoRFは,3次元動的シーンモデリングにおける最先端手法と比較して,訓練時間とメモリフットプリントが著しく低く,定量的かつ質的に競合するレンダリング結果が得られることを示す。

Neural radiance field (NeRF) attracts attention as a promising approach to reconstructing the 3D scene. As NeRF emerges, subsequent studies have been conducted to model dynamic scenes, which include motions or topological changes. However, most of them use an additional deformation network, slowing down the training and rendering speed. Tensorial radiance field (TensoRF) recently shows its potential for fast, high-quality reconstruction of static scenes with compact model size. In this paper, we present D-TensoRF, a tensorial radiance field for dynamic scenes, enabling novel view synthesis at a specific time. We consider the radiance field of a dynamic scene as a 5D tensor. The 5D tensor represents a 4D grid in which each axis corresponds to X, Y, Z, and time and has 1D multi-channel features per element. Similar to TensoRF, we decompose the grid either into rank-one vector components (CP decomposition) or low-rank matrix components (newly proposed MM decomposition). We also use smoothing regularization to reflect the relationship between features at different times (temporal dependency). We conduct extensive evaluations to analyze our models. We show that D-TensoRF with CP decomposition and MM decomposition both have short training times and significantly low memory footprints with quantitatively and qualitatively competitive rendering results in comparison to the state-of-the-art methods in 3D dynamic scene modeling.
翻訳日:2022-12-06 17:52:39 公開日:2022-12-05
# 知識蒸留法による単一画像校正

Single image calibration using knowledge distillation approaches ( http://arxiv.org/abs/2212.02379v1 )

ライセンス: Link先を確認
Khadidja Ould Amer, Oussama Hadjerci, Mohamed Abbas Hedjazi, Antoine Letienne(参考訳) 近年の深層学習に基づくキャリブレーション手法では,1つの画像から外生・内生カメラパラメータを予測することができるが,その一般化はトレーニングデータサンプルの数と分布によって制限されている。 巨大な計算と空間要求により、リソース制約のある環境で畳み込みニューラルネットワーク(CNN)が実装されるのを防ぐ。 この課題は、以前学んだデータのパフォーマンスを維持しながら、新しいデータをトレーニングすることで、CNNを徐々に学習する動機となった。 提案手法はCNNアーキテクチャに基づいてカメラパラメータ(焦点長,ピッチ,ロール)を自動的に推定し,新たなデータ配信のためにネットワークを更新する際の知識の保存を行う。 正確には、LwF, iCaRL, LU CIR, BiCの4つの一般的な漸進学習に適応し、損失関数を回帰問題に修正する。 室内および屋外の299008画像を含む2つのデータセットについて検討した。 実験結果は有意であり,どの方法がカメラキャリブレーション推定に優れているかを示した。

Although recent deep learning-based calibration methods can predict extrinsic and intrinsic camera parameters from a single image, their generalization remains limited by the number and distribution of training data samples. The huge computational and space requirement prevents convolutional neural networks (CNNs) from being implemented in resource-constrained environments. This challenge motivated us to learn a CNN gradually, by training new data while maintaining performance on previously learned data. Our approach builds upon a CNN architecture to automatically estimate camera parameters (focal length, pitch, and roll) using different incremental learning strategies to preserve knowledge when updating the network for new data distributions. Precisely, we adapt four common incremental learning, namely: LwF , iCaRL, LU CIR, and BiC by modifying their loss functions to our regression problem. We evaluate on two datasets containing 299008 indoor and outdoor images. Experiment results were significant and indicated which method was better for the camera calibration estimation.
翻訳日:2022-12-06 17:52:13 公開日:2022-12-05
# 視点アライメントと融合による一般化可能な人物再同定

Generalizable Person Re-Identification via Viewpoint Alignment and Fusion ( http://arxiv.org/abs/2212.02398v1 )

ライセンス: Link先を確認
Bingliang Jiao, Lingqiao Liu, Liying Gao, Guosheng Lin, Ruiqi Wu, Shizhou Zhang, Peng Wang, and Yanning Zhang(参考訳) 現在の人物再識別(ReID)手法では、ほとんどの領域の一般化作業は、予測不可能なカメラビューの変更を無視しながら、ドメイン間のスタイルの違いに対処することに焦点を当てている。 視点変化に対処するために,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。 テクスチャマッピングモジュールが不完全であるため、標準ビューイメージは元の画像から識別可能な詳細手がかりを失う可能性があるため、直接ReIDに使用すると必然的に性能が低下する。 この問題に対処するため,トランスフォーマーベースモジュールを用いたオリジナル画像と標準画像の融合を提案する。 この設計の鍵となる洞察は、変換器のクロスアテンション機構が、原画像からの識別的テクスチャヒントと標準ビュー画像との整合性に理想的な解となり、標準ビュー画像の低品質テクスチャ情報を補うことができるということである。 実験により,提案手法は各種評価設定における既存手法よりも優れた性能が得られることを示す。

In the current person Re-identification (ReID) methods, most domain generalization works focus on dealing with style differences between domains while largely ignoring unpredictable camera view change, which we identify as another major factor leading to a poor generalization of ReID methods. To tackle the viewpoint change, this work proposes to use a 3D dense pose estimation model and a texture mapping module to map the pedestrian images to canonical view images. Due to the imperfection of the texture mapping module, the canonical view images may lose the discriminative detail clues from the original images, and thus directly using them for ReID will inevitably result in poor performance. To handle this issue, we propose to fuse the original image and canonical view image via a transformer-based module. The key insight of this design is that the cross-attention mechanism in the transformer could be an ideal solution to align the discriminative texture clues from the original image with the canonical view image, which could compensate for the low-quality texture information of the canonical view image. Through extensive experiments, we show that our method can lead to superior performance over the existing approaches in various evaluation settings.
翻訳日:2022-12-06 17:51:57 公開日:2022-12-05
# 位置対応自己監督型変圧器

Location-Aware Self-Supervised Transformers ( http://arxiv.org/abs/2212.02400v1 )

ライセンス: Link先を確認
Mathilde Caron, Neil Houlsby, Cordelia Schmid(参考訳) ピクセルレベルのラベルは特に高価である。 したがって、事前トレーニングはセマンティックセグメンテーションのようなタスクのモデルを改善するための重要なステップである。 しかしながら、ニューラルネットワークを事前学習するための著名なアルゴリズムは、画像分類、画像テキストアライメント、あるいは自己教師付きコントラスト学習など、画像レベルの目標を用いる。 これらの目的は、空間的推論で下流のタスクを微調整する場合に最適な空間情報をモデル化しない。 本研究では,画像部分の相対的位置を予測し,意味セグメンテーションのための事前学習ネットワークを提案する。 我々はこのタスクを,クエリビューの各パッチが他の参照ビューに対して相対的に位置を予測しなければならないような分類問題として定式化する。 我々は,クエリの参照パッチ機能のサブセットをマスキングすることにより,タスクの難易度を制御する。 我々の実験は、位置認識(LOCA)による事前学習が、いくつかの挑戦的なセマンティックセグメンテーションベンチマークに競合的に変換されることを示す。

Pixel-level labels are particularly expensive to acquire. Hence, pretraining is a critical step to improve models on a task like semantic segmentation. However, prominent algorithms for pretraining neural networks use image-level objectives, e.g. image classification, image-text alignment a la CLIP, or self-supervised contrastive learning. These objectives do not model spatial information, which might be suboptimal when finetuning on downstream tasks with spatial reasoning. In this work, we propose to pretrain networks for semantic segmentation by predicting the relative location of image parts. We formulate this task as a classification problem where each patch in a query view has to predict its position relatively to another reference view. We control the difficulty of the task by masking a subset of the reference patch features visible to those of the query. Our experiments show that this location-aware (LOCA) self-supervised pretraining leads to representations that transfer competitively to several challenging semantic segmentation benchmarks.
翻訳日:2022-12-06 17:51:33 公開日:2022-12-05
# 正準場:ポーズ・カノニカル化ニューラルフィールドの自己教師あり学習

Canonical Fields: Self-Supervised Learning of Pose-Canonicalized Neural Fields ( http://arxiv.org/abs/2212.02493v1 )

ライセンス: Link先を確認
Rohith Agaram, Shaurya Dewan, Rahul Sajnani, Adrien Poulenard, Madhava Krishna, Srinath Sridhar(参考訳) コーディネートベースの暗黙的ニューラルネットワーク、すなわちニューラルネットワークは、3Dコンピュータビジョンにおける形状と外観の有用な表現として登場した。 しかし、進歩にもかかわらず、ShapeNetのような標準化されたオブジェクトインスタンスを提供するデータセットを使わずに、オブジェクトのカテゴリのためのニューラルネットワークを構築するのは難しい。 本稿では,ニューラルネットワーク,特にニューラル放射場(NeRF)に代表される対象カテゴリから,インスタンスの3次元ポーズを正準化する自己教師型手法CaFi-Netを提案する。 cafi-netは、カテゴリレベルの正準化のための同変体特徴を抽出するために設計されたsiameseネットワークアーキテクチャを使用して、連続的および騒がしい放射場から直接学習する。 提案手法では,任意の3次元ポーズにおける新規オブジェクトインスタンスの事前学習した神経放射場を推定し,カテゴリ全体で一貫した3次元ポーズを持つ正準場を推定する。 13のオブジェクトカテゴリにまたがる1300のNeRFモデルのデータセットに対する大規模な実験は、我々の手法が3Dポイントクラウドベースの手法の性能と一致しているか、超越しているかを示している。

Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide canonicalized object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose, and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
翻訳日:2022-12-06 17:51:14 公開日:2022-12-05
# イメージが画像で話す: 文脈内ビジュアル学習のためのジェネラリスト・ペインティング

Images Speak in Images: A Generalist Painter for In-Context Visual Learning ( http://arxiv.org/abs/2212.02499v1 )

ライセンス: Link先を確認
Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang(参考訳) インコンテキスト学習は、NLPの新しいパラダイムとして、少数のプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。 しかし、コンピュータビジョンでは、文脈内学習の難しさは、タスクが出力表現で大きく異なるため、ビジョンモデルがドメイン外のタスクを理解し、転送できる汎用的なタスクプロンプトをどのように定義すればよいかは明らかではない。 本稿では,コアビジョンタスクの出力をイメージとして再定義する"イメージ"中心のソリューションを用いて,これらの障害に対処するジェネラリストモデルであるpaintを提案し,タスクプロンプトをイメージとして指定する。 この考え方では、トレーニングプロセスは非常にシンプルで、入力と出力のイメージペアを縫い合わせることで、標準的なマスク画像モデリングを実行します。 これにより、モデルは可視像パッチで条件付きタスクを実行することができる。 したがって、推論中に入力条件と同じタスクから一対の入出力画像を適用でき、どのタスクを実行するかを示すことができる。 ベルやホイッスルがなければ,高レベルの視覚的理解から低レベルの画像処理に至るまでの7つの視覚的タスクにおいて,精確に確立されたタスク固有モデルと比較して,競争性能が向上する。 painterは、いくつかの困難なタスクで最近のジェネラリストモデルを大きく上回っている。 驚くべきことに、我々のモデルは、オープンカテゴリキーポイント検出やオブジェクトセグメンテーションといったトレーニングデータに存在しないドメイン外のタスクを完了し、コンテキスト内学習の強力なタスク転送可能性を検証する能力を示している。

In-context learning, as a new paradigm in NLP, allows the model to rapidly adapt to various tasks with only a handful of prompts and examples. But in computer vision, the difficulties for in-context learning lie in that tasks vary significantly in the output representations, thus it is unclear how to define the general-purpose task prompts that the vision model can understand and transfer to out-of-domain tasks. In this work, we present Painter, a generalist model which addresses these obstacles with an "image"-centric solution, that is, to redefine the output of core vision tasks as images, and specify task prompts as also images. With this idea, our training process is extremely simple, which performs standard masked image modeling on the stitch of input and output image pairs. This makes the model capable of performing tasks conditioned on visible image patches. Thus, during inference, we can adopt a pair of input and output images from the same task as the input condition, to indicate which task to perform. Without bells and whistles, our generalist Painter can achieve competitive performance compared to well-established task-specific models, on seven representative vision tasks ranging from high-level visual understanding to low-level image processing. Painter significantly outperforms recent generalist models on several challenging tasks. Surprisingly, our model shows capabilities of completing out-of-domain tasks, which do not exist in the training data, such as open-category keypoint detection and object segmentation, validating the powerful task transferability of in-context learning.
翻訳日:2022-12-06 17:50:52 公開日:2022-12-05
# fa\c{c}adeの半教師あり代表領域テクスチャ抽出

Semi-Supervised Representative Region Texture Extraction of Fa\c{c}ade ( http://arxiv.org/abs/2212.02220v1 )

ライセンス: Link先を確認
Zhen Ni, Guitao Cao, Ye Duan(参考訳) 意味情報によるfa\c{c}adeモデルの3次元特徴を豊かにするためにfa\c{c}adeの解析と解析の研究がコミュニティで注目され、その主な目的は、類似した形状とテクスチャを持つ高分解能成分を生成し、再構築精度を犠牲にして全体の分解能を高めることである。 このアプローチはウィンドウやドアのようなコンポーネントではうまく機能するが、現在、fa\c{c}adeのバックグラウンドに対する解決策はない。 本稿では,fa\c{c}ade領域の周囲の代表的なテクスチャをタイリングすることで,上記のモデリング手法で利用できる代表領域テクスチャの概念を紹介し,fa\c{c}ade領域の画像から代表領域テクスチャを抽出する半教師付き手法を提案する。 従来のエンド・ツー・エンド・モデルでは性能向上のために大量のデータを必要とするが,本手法ではセマンティック情報を提供する限り,追加のラベル付きデータをトレーニングする必要はない。 本手法は, トレーニングセットの分布に依存するため, エンド・ツー・エンドモデルでは不可能であるfa\c{c}adeだけでなく, 反復画像からテクスチャを抽出することができる。 重み付き距離のクラスタリングを導入して、ノイズや不正確なセグメンテーションに対するロバスト性をさらに高め、抽出したテクスチャをより高分解能でタイリングに適したものにする。 様々なfa\c{c}ade画像に対して本手法の有効性を検証するとともに,fa\c{c}ade上でのランダムな作物に比べて,本手法が顕著な性能向上を示した。 また,いくつかのアプリケーションシナリオを実演し,代表的な領域テクスチャを用いたfa\c{c}adeモデリングワークフローを提案した。

Researches of analysis and parsing around fa\c{c}ades to enrich the 3D feature of fa\c{c}ade models by semantic information raised some attention in the community, whose main idea is to generate higher resolution components with similar shapes and textures to increase the overall resolution at the expense of reconstruction accuracy. While this approach works well for components like windows and doors, there is no solution for fa\c{c}ade background at present. In this paper, we introduce the concept of representative region texture, which can be used in the above modeling approach by tiling the representative texture around the fa\c{c}ade region, and propose a semi-supervised way to do representative region texture extraction from a fa\c{c}ade image. Our method does not require any additional labelled data to train as long as the semantic information is given, while a traditional end-to-end model requires plenty of data to increase its performance. Our method can extract texture from any repetitive images, not just fa\c{c}ade, which is not capable in an end-to-end model as it relies on the distribution of training set. Clustering with weighted distance is introduced to further increase the robustness to noise or an imprecise segmentation, and make the extracted texture have a higher resolution and more suitable for tiling. We verify our method on various fa\c{c}ade images, and the result shows our method has a significant performance improvement compared to only a random crop on fa\c{c}ade. We also demonstrate some application scenarios and proposed a fa\c{c}ade modeling workflow with the representative region texture, which has a better visual resolution for a regular fa\c{c}ade.
翻訳日:2022-12-06 17:44:37 公開日:2022-12-05
# BiSTNet:Deep Exemplar-based Video Colorizationのための双方向時間特徴融合を先導したセマンティック画像

BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature Fusion for Deep Exemplar-based Video Colorization ( http://arxiv.org/abs/2212.02268v1 )

ライセンス: Link先を確認
Yixin Yang, Zhongzheng Peng, Xiaoyu Du, Zhulin Tao, Jinhui Tang, Jinshan Pan(参考訳) 参照例の色を効果的に探索し、各フレームのカラー化を伝播する方法は、例によるビデオのカラー化に不可欠である。 本稿では,参照例の色彩を探索する有効なビストネットを提案し,それを利用して,先ず意味画像の指導と双方向の時間的特徴融合による映像カラー化を支援する。 まず,各フレームと参照例間の意味的対応を深層特徴空間で確立し,参照例から色情報を探索する。 次に,参照例の色彩を各フレームに伝達し,不正確な一致色を避けるために,簡易かつ効果的な双方向時相特徴融合モジュールを開発し,各フレームを色分けする。 ビデオの中の重要なオブジェクトの境界の周りには通常、色を流すアーティファクトが存在することに注意する。 この問題を解決するために,我々はさらに,フレームのオブジェクト境界をモデル化するための意味情報を抽出するための混合エキスパートブロックを開発した。 さらに,フレームを粗い方法で段階的に色づけするマルチスケールのリカレントブロックを開発した。 大規模な実験結果から,提案したBiSTNetは,ベンチマークデータセットの最先端手法に対して好意的に動作することが示された。 私たちのコードは \url{https://yyang181.github.io/BiSTNet/} で利用可能になります。

How to effectively explore the colors of reference exemplars and propagate them to colorize each frame is vital for exemplar-based video colorization. In this paper, we present an effective BiSTNet to explore colors of reference exemplars and utilize them to help video colorization by a bidirectional temporal feature fusion with the guidance of semantic image prior. We first establish the semantic correspondence between each frame and the reference exemplars in deep feature space to explore color information from reference exemplars. Then, to better propagate the colors of reference exemplars into each frame and avoid the inaccurate matches colors from exemplars we develop a simple yet effective bidirectional temporal feature fusion module to better colorize each frame. We note that there usually exist color-bleeding artifacts around the boundaries of the important objects in videos. To overcome this problem, we further develop a mixed expert block to extract semantic information for modeling the object boundaries of frames so that the semantic image prior can better guide the colorization process for better performance. In addition, we develop a multi-scale recurrent block to progressively colorize frames in a coarse-to-fine manner. Extensive experimental results demonstrate that the proposed BiSTNet performs favorably against state-of-the-art methods on the benchmark datasets. Our code will be made available at \url{https://yyang181.github.io/BiSTNet/}
翻訳日:2022-12-06 17:43:47 公開日:2022-12-05
# R2FD2:Repeatable Feature DetectorとRotation-invariant Feature Descriptorによるマルチモーダルリモートセンシング画像の高速かつロバストなマッチング

R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via Repeatable Feature Detector and Rotation-invariant Feature Descriptor ( http://arxiv.org/abs/2212.02277v1 )

ライセンス: Link先を確認
Bai Zhu, Chao Yang, Jinkun Dai, Jianwei Fan, Yuanxin Ye(参考訳) マルチモーダル画像間の特徴対応を自動的に識別することは、放射線と幾何学の両方で大きな違いがあるため、大きな課題に直面している。 これらの問題に対処するため,R2FD2という,放射能と回転差に頑健な特徴マッチング手法を提案し,R2FD2は繰り返し可能な特徴検出器と回転不変の特徴記述器からなる2つの重要なコントリビューションで実施する。 第1段階では,マルチチャネル自動相関法とLog-Gaborウェーブレットを組み合わせることで,高いリピータビリティと均一分布の利子点を検出する,Log-Gaborのマルチチャネル自動相関法という機能検出手法が提示される。 第2段階では、ローテーション不変特徴記述子(英語版)が構築され、log-gabor の回転不変最大インデックスマップ(英語版)と名付けられた。 支配方向を高速に割り当てる過程で、回転不変な最大指数写像が回転変形に対処するために構築される。 提案したRMLGは、回転不変RMIMをDAISYの空間構成に組み込んで、より識別性の高い特徴表現を表現し、放射や回転分散に対するRMLGの耐性を向上させる。

Automatically identifying feature correspondences between multimodal images is facing enormous challenges because of the significant differences both in radiation and geometry. To address these problems, we propose a novel feature matching method, named R2FD2, that is robust to radiation and rotation differences.Our R2FD2 is conducted in two critical contributions, consisting of a repeatable feature detector and a rotation-invariant feature descriptor. In the first stage, a repeatable feature detector called the Multi-channel Auto-correlation of the Log-Gabor is presented for feature detection, which combines the multi-channel auto-correlation strategy with the Log-Gabor wavelets to detect interest points with high repeatability and uniform distribution. In the second stage, a rotation-invariant feature descriptor is constructed, named the Rotation-invariant Maximum index map of the Log-Gabor, which consists of two components: fast assignment of dominant orientation and construction of feature representation. In the process of fast assignment of dominant orientation, a Rotation-invariant Maximum Index Map is built to address rotation deformations. Then, the proposed RMLG incorporates the rotation-invariant RMIM with the spatial configuration of DAISY to depict a more discriminative feature representation, which improves RMLGs resistance to radiation and rotation variances.
翻訳日:2022-12-06 17:43:22 公開日:2022-12-05
# GARF:Geometry-Aware Generalized Neural Radiance Field

GARF:Geometry-Aware Generalized Neural Radiance Field ( http://arxiv.org/abs/2212.02280v1 )

ライセンス: Link先を確認
Yue Shi, Dingyi Rong, Bingbing Ni, Chang Chen, Wenjun Zhang(参考訳) Neural Radiance Field (NeRF)は、自由視点レンダリングタスクに革命をもたらし、印象的な結果を得た。 しかし、効率と精度の問題は幅広い応用を妨げている。 そこで,これらの問題に対処するために,gemetry-aware dynamic sampling (gads) 戦略を用いた幾何認識型一般化ニューラルネットワーク放射場 (garf) を提案する。 既存の一般的なnerfとは異なり、我々のフレームワークはほんの数枚の入力画像でピクセルスケールと幾何スケールの両方で目に見えないシーンを推測する。 より具体的には,エンコーダ・デコーダ構造とポイントレベルの学習可能なマルチビュー機能融合モジュールにより,新規ビュー合成の共通属性を学習する。 一般化モデルにおけるシーン特性の保存のために, 粗い形状を導出する教師なし深さ推定モジュールを導入し, 推定面の近接空間へのレイサンプリング間隔を狭くし, 期待最大位置においてサンプルを絞り, 幾何認識動的サンプリング戦略 (gads) を構成する。 さらに,より情報的な表現学習を支援するために,マルチレベルセマンティック一貫性損失(MSC)を導入する。 室内および屋外のデータセットに対する大規模な実験は、最先端の一般化されたNeRF法と比較すると、GARFは、レンダリング品質と3D幾何推定を改善しながら、サンプルを25%以上削減することを示している。

Neural Radiance Field (NeRF) has revolutionized free viewpoint rendering tasks and achieved impressive results. However, the efficiency and accuracy problems hinder its wide applications. To address these issues, we propose Geometry-Aware Generalized Neural Radiance Field (GARF) with a geometry-aware dynamic sampling (GADS) strategy to perform real-time novel view rendering and unsupervised depth estimation on unseen scenes without per-scene optimization. Distinct from most existing generalized NeRFs, our framework infers the unseen scenes on both pixel-scale and geometry-scale with only a few input images. More specifically, our method learns common attributes of novel-view synthesis by an encoder-decoder structure and a point-level learnable multi-view feature fusion module which helps avoid occlusion. To preserve scene characteristics in the generalized model, we introduce an unsupervised depth estimation module to derive the coarse geometry, narrow down the ray sampling interval to proximity space of the estimated surface and sample in expectation maximum position, constituting Geometry-Aware Dynamic Sampling strategy (GADS). Moreover, we introduce a Multi-level Semantic Consistency loss (MSC) to assist more informative representation learning. Extensive experiments on indoor and outdoor datasets show that comparing with state-of-the-art generalized NeRF methods, GARF reduces samples by more than 25\%, while improving rendering quality and 3D geometry estimation.
翻訳日:2022-12-06 17:42:58 公開日:2022-12-05
# ウィンドウ正規化:不整点密度の統一によるポイントクラウド理解の促進

Window Normalization: Enhancing Point Cloud Understanding by Unifying Inconsistent Point Densities ( http://arxiv.org/abs/2212.02287v1 )

ライセンス: Link先を確認
Qi Wang, Sheng Shi, Jiahui Li, Wuming Jiang, Xiangde Zhang(参考訳) ダウンサンプリングと特徴抽出は、3Dポイントクラウド理解に不可欠な手順である。 既存の方法は、点雲内の異なる部分の不整点密度によって制限される。 本研究では,ダウンサンプリングステージの制限を分析し,プリアブストラクション群毎のウィンドウ正規化モジュールを提案する。 特に、ウィンドウ正規化法を用いて異なる部分の点密度を統一する。 さらに, テクスチャや空間情報を含む多型特徴量を求めるグループワイド戦略を提案する。 また,ローカル機能とグローバル機能のバランスをとるプリ・アブストラクションモジュールを提案する。 広範な実験により、モジュールは複数のタスクでより優れたパフォーマンスを示す。 S3DIS(Area 5)のセグメンテーションタスクでは、提案モジュールは小さなオブジェクト認識においてより良い性能を示し、その結果は他のモジュールよりも正確な境界を持つ。 ソファとカラムの認識は69.2%から84.4%に改善され、それぞれ42.7%から48.7%に改善された。 ベンチマークは71.7%/77.6%/91.9%(mIoU/mAcc/OA)から72.2%/78.2%/91.4%に改善された。 S3DIS上の6倍のクロスバリデーションは77.6%/85.8%/91.7%である。 最高のモデルであるPointNeXt-XL(74.9%/83.0%/90.3%)をmIoUで2.7%上回り、最先端のパフォーマンスを達成する。 コードとモデルはhttps://github.com/dbdxss/window-normalization.gitで入手できる。

Downsampling and feature extraction are essential procedures for 3D point cloud understanding. Existing methods are limited by the inconsistent point densities of different parts in the point cloud. In this work, we analyze the limitation of the downsampling stage and propose the pre-abstraction group-wise window-normalization module. In particular, the window-normalization method is leveraged to unify the point densities in different parts. Furthermore, the group-wise strategy is proposed to obtain multi-type features, including texture and spatial information. We also propose the pre-abstraction module to balance local and global features. Extensive experiments show that our module performs better on several tasks. In segmentation tasks on S3DIS (Area 5), the proposed module performs better on small object recognition, and the results have more precise boundaries than others. The recognition of the sofa and the column is improved from 69.2% to 84.4% and from 42.7% to 48.7%, respectively. The benchmarks are improved from 71.7%/77.6%/91.9% (mIoU/mAcc/OA) to 72.2%/78.2%/91.4%. The accuracies of 6-fold cross-validation on S3DIS are 77.6%/85.8%/91.7%. It outperforms the best model PointNeXt-XL (74.9%/83.0%/90.3%) by 2.7% on mIoU and achieves state-of-the-art performance. The code and models are available at https://github.com/DBDXSS/Window-Normalization.git.
翻訳日:2022-12-06 17:42:31 公開日:2022-12-05
# i2mvformer: ゼロショット画像分類のための大規模言語モデル生成マルチビュー文書管理

I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification ( http://arxiv.org/abs/2212.02291v1 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Muhammad Gul Zain Ali Khan, Yongqin Xian, Muhammad Zeshan Afzal, Didier Stricker, Luc Van Gool, Federico Tombari(参考訳) 近年の研究では、オンラインソースからの非構造化テキスト(文書)がゼロショット画像分類の補助情報として役立つことが示されている。 しかし、これらの手法はウィキペディアのような高品質な情報源にアクセスする必要があり、単一の情報源に限られる。 Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。 本研究では,ゼロショット画像分類モデルのためのテキスト管理を行うためにLLMを用いた新しい視点を提供する。 LLMは、様々なアノテーションからのテキスト記述を例に挙げている。 LLMはこれらの例で条件付きで、クラスごとに複数のテキスト記述を生成する(ビューとして参照)。 提案するモデルであるI2MVFormerは,クラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。 クラスの各テキストビューは、モデルが高度に識別可能なクラス埋め込みを学習できるようにする補完情報を提供する。 さらに, I2MVFormerは, ベースラインモデルと比較して, LLMのマルチビューテキスト管理に優れていることを示す。 i2mvformerは、教師なしのセマンティクス埋め込みによるゼロショット画像分類のための3つの公開ベンチマークデータセットで、新しい最先端のデータセットを確立している。

Recent works have shown that unstructured text (documents) from online sources can serve as useful auxiliary information for zero-shot image classification. However, these methods require access to a high-quality source like Wikipedia and are limited to a single source of information. Large Language Models (LLM) trained on web-scale text show impressive abilities to repurpose their learned knowledge for a multitude of tasks. In this work, we provide a novel perspective on using an LLM to provide text supervision for a zero-shot image classification model. The LLM is provided with a few text descriptions from different annotators as examples. The LLM is conditioned on these examples to generate multiple text descriptions for each class(referred to as views). Our proposed model, I2MVFormer, learns multi-view semantic embeddings for zero-shot image classification with these class views. We show that each text view of a class provides complementary information allowing a model to learn a highly discriminative class embedding. Moreover, we show that I2MVFormer is better at consuming the multi-view text supervision from LLM compared to baseline models. I2MVFormer establishes a new state-of-the-art on three public benchmark datasets for zero-shot image classification with unsupervised semantic embeddings.
翻訳日:2022-12-06 17:42:08 公開日:2022-12-05
# 分布外検出における特徴ノルムのブロック選択法

Block Selection Method for Using Feature Norm in Out-of-distribution Detection ( http://arxiv.org/abs/2212.02295v1 )

ライセンス: Link先を確認
Yeonguk Yu, Sungho Shin, Seongju Lee, Changhyun Jun, Kyoobin Lee(参考訳) 推論段階でのアウト・オブ・ディストリビューション(OOD)入力の検出は、ニューラルネットワークを現実世界にデプロイするために不可欠である。 以前の方法は、高活性化された特徴マップから派生したネットワークの出力に一般的に依存していた。 本研究では,まず,最後のブロック以外のブロックから得られる特徴マップのノルムが,ood検出の指標として優れていることを明らかにした。 そこで我々は,特徴マップのノルムであるFeatureNormと,各ブロックのOOD検出性能を測定するためのFeatureNorm for IDとOODの比率であるNormRatioからなる,シンプルなフレームワークを提案する。 特に、IDのFeatureNormとOODのFeatureNormの最大の違いを提供するブロックを選択するために、IDトレーニングサンプルから擬似OODとしてJigsawパズルイメージを作成し、NormRatioを計算し、最大値のブロックを選択する。 適切なブロックが選択された後、FeatureNormによるOOD検出は、CIFAR10ベンチマークでFPR95を52.77%、ImageNetベンチマークで48.53%削減することで、他のOOD検出方法よりも優れている。 我々は,従来のood検出法を改善できる様々なアーキテクチャとブロック選択の重要性を,フレームワークが一般化できることを実証する。

Detecting out-of-distribution (OOD) inputs during the inference stage is crucial for deploying neural networks in the real world. Previous methods commonly relied on the output of a network derived from the highly activated feature map. In this study, we first revealed that a norm of the feature map obtained from the other block than the last block can be a better indicator of OOD detection. Motivated by this, we propose a simple framework consisting of FeatureNorm: a norm of the feature map and NormRatio: a ratio of FeatureNorm for ID and OOD to measure the OOD detection performance of each block. In particular, to select the block that provides the largest difference between FeatureNorm of ID and FeatureNorm of OOD, we create Jigsaw puzzle images as pseudo OOD from ID training samples and calculate NormRatio, and the block with the largest value is selected. After the suitable block is selected, OOD detection with the FeatureNorm outperforms other OOD detection methods by reducing FPR95 by up to 52.77% on CIFAR10 benchmark and by up to 48.53% on ImageNet benchmark. We demonstrate that our framework can generalize to various architectures and the importance of block selection, which can improve previous OOD detection methods as well.
翻訳日:2022-12-06 17:41:49 公開日:2022-12-05
# カメラパラメータを使用しないリアルタイムインクリメンタル画像モザイク

Real Time Incremental Image Mosaicking Without Use of Any Camera Parameter ( http://arxiv.org/abs/2212.02302v1 )

ライセンス: Link先を確認
Suleyman Melih Portakal, Ahmet Alp Kindiroglu, Mahiye Uluyagmur Ozturk(参考訳) 過去10年間で、遠隔監視、車両追跡、物体検出など、さまざまなミッションをサポートするために無人航空機(UAV)の使用が大幅に増加した。 単一画像以上の領域の処理に関わる問題に対しては,UAV画像のモザイク処理が不可欠である。 リアルタイムモザイクは、探索や救助といった迅速な対応を必要とするミッションに使用される。 通常、GPS(Global Position System)や慣性計測ユニット(Inertial Measurement Unit、IMU)などの追加センサーからの情報を必要とする。 本稿では,方向情報などのカメラパラメータを必要としないインクリメンタルモザイクのリアルタイム生成のためのuavベースシステムを提案する。 モザイク作成の過程では、画像から特徴抽出、画像間の類似キーポイントのマッチング、画像のワープとアライメントのためのホモグラフィマトリックスの探索、モザイクをよりよく見えるようにイメージをブレンドするといった手法が、高品質な結果を達成する上で重要な役割を果たす。 エッジ検出は新しいアプローチとしてブレンディングステップで使用される。 実時間インクリメンタル画像モザイク処理は,カメラパラメータの追加を必要とせず,満足して完了できることが実験的に示された。

Over the past decade, there has been a significant increase in the use of Unmanned Aerial Vehicles (UAVs) to support a wide variety of missions, such as remote surveillance, vehicle tracking, and object detection. For problems involving processing of areas larger than a single image, the mosaicking of UAV imagery is a necessary step. Real-time image mosaicking is used for missions that requires fast response like search and rescue missions. It typically requires information from additional sensors, such as Global Position System (GPS) and Inertial Measurement Unit (IMU), to facilitate direct orientation, or 3D reconstruction approaches to recover the camera poses. This paper proposes a UAV-based system for real-time creation of incremental mosaics which does not require either direct or indirect camera parameters such as orientation information. Inspired by previous approaches, in the mosaicking process, feature extraction from images, matching of similar key points between images, finding homography matrix to warp and align images, and blending images to obtain mosaics better looking, plays important roles in the achievement of the high quality result. Edge detection is used in the blending step as a novel approach. Experimental results show that real-time incremental image mosaicking process can be completed satisfactorily and without need for any additional camera parameters.
翻訳日:2022-12-06 17:41:26 公開日:2022-12-05
# ロバスト・高精度シリンダ三角測量

Robust and Accurate Cylinder Triangulation ( http://arxiv.org/abs/2212.02319v1 )

ライセンス: Link先を確認
Anna Gummeson and Magnus Oskarsson(参考訳) 本稿では,画像ラインシルエットから無限シリンダを三角測量する手法を提案する。 一般二次曲面の線形推定は本質的に悪質な問題であることを示す。 その代わり、円錐部分の円周への制約を提案し、この多様体をモデル化する双対円錐に代数的制約を与える。 これらの制約を用いることで、RANSACのようなロバストな推定スキームのブートストラップに使用できる3つの画像シルエット線に基づく高速最小解法が導出される。 また,すべての画像ラインを組み込んで正確な推定を行うことができる最小二乗解法を提案する。 アルゴリズムは合成データと実データの両方でテストされ、従来の手法と比較して正確な結果が得られる。

In this paper we present methods for triangulation of infinite cylinders from image line silhouettes. We show numerically that linear estimation of a general quadric surface is inherently a badly posed problem. Instead we propose to constrain the conic section to a circle, and give algebraic constraints on the dual conic, that models this manifold. Using these constraints we derive a fast minimal solver based on three image silhouette lines, that can be used to bootstrap robust estimation schemes such as RANSAC. We also present a constrained least squares solver that can incorporate all available image lines for accurate estimation. The algorithms are tested on both synthetic and real data, where they are shown to give accurate results, compared to previous methods.
翻訳日:2022-12-06 17:41:02 公開日:2022-12-05
# 遅延最小のディープオンラインビデオ安定化

Minimum Latency Deep Online Video Stabilization ( http://arxiv.org/abs/2212.02073v1 )

ライセンス: Link先を確認
Zhuofan Zhang, Zhen Liu, Bing Zeng, Shuaicheng Liu(参考訳) オンラインビデオ安定化のための新しいカメラパス最適化フレームワークを提案する。 通常、安定化パイプラインは、モーション推定、パススムーシング、新しいビューレンダリングの3つのステップから構成される。 以前の手法のほとんどは運動推定に集中し、様々な大域的または局所的な運動モデルを提案する。 対照的に、パス最適化は、特に将来のフレームが利用できない重要なオンライン設定において、比較的注意を払わない。 本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラの軌道を復元し,後者の2ステップに集中する。 我々のネットワークは、スライディングウィンドウ内の短い2次元カメラパスを入力として取り、ウィンドウ内の最後のフレームの安定化ワープフィールドを出力する。 ハイブリッド損失は、空間的および時間的一貫性を制限するためによく定義される。 さらに、トレーニングのための安定かつ不安定な動きペアを含む動きデータセットを構築する。 広範な実験により,我々のアプローチは質的かつ定量的に最先端のオンライン手法を著しく上回り,オフラインメソッドと同等のパフォーマンスを達成していることが示された。

We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for the motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods.
翻訳日:2022-12-06 17:35:45 公開日:2022-12-05
# 教師なしスケルトンに基づく行動表現学習のための階層的コントラスト

Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning ( http://arxiv.org/abs/2212.02082v1 )

ライセンス: Link先を確認
Jianfeng Dong, Shengkai Sun, Zhonglin Liu, Shujie Chen, Baolong Liu, Xun Wang(参考訳) 本稿では,教師なし骨格に基づく行動表現学習を目標とし,階層型コントラスト(HiCo)フレームワークを提案する。 入力スケルトンシーケンスをインスタンスレベルの特徴に表現し,コントラストを均等に実行する既存のコントラストベースソリューションとは異なり,提案したHiCoは複数レベルの特徴への入力を表現し,階層的にコントラストを実行する。 具体的には、人間の骨格配列を与えられたとき、s2sエンコーダと統一ダウンサンプリングモジュールを介して、時間領域と空間領域の両方から異なる粒度の複数の特徴ベクトルに表現する。 さらに、階層的なコントラストは、インスタンスレベル、ドメインレベル、クリップレベル、パートレベルという4つのレベルで実行される。 さらに、HiCoはS2Sエンコーダと直交しており、最先端のS2Sエンコーダを柔軟に採用することができる。 NTU-60, NTU-120, PKU-MMD I, IIの4つのデータセットに対する大規模な実験により, HiCoは, 動作認識と検索を含む2つの下流タスクにおいて, 教師なしスケルトンに基づく動作表現学習の最先端を達成し, 学習された動作表現は良好な伝達性を有することが示された。 また,本フレームワークは半教師付き骨格に基づく行動認識にも有効であることを示す。 私たちのコードはhttps://github.com/huiguanlab/hicoで利用可能です。

This paper targets unsupervised skeleton-based action representation learning and proposes a new Hierarchical Contrast (HiCo) framework. Different from the existing contrastive-based solutions that typically represent an input skeleton sequence into instance-level features and perform contrast holistically, our proposed HiCo represents the input into multiple-level features and performs contrast in a hierarchical manner. Specifically, given a human skeleton sequence, we represent it into multiple feature vectors of different granularities from both temporal and spatial domains via sequence-to-sequence (S2S) encoders and unified downsampling modules. Besides, the hierarchical contrast is conducted in terms of four levels: instance level, domain level, clip level, and part level. Moreover, HiCo is orthogonal to the S2S encoder, which allows us to flexibly embrace state-of-the-art S2S encoders. Extensive experiments on four datasets, i.e., NTU-60, NTU-120, PKU-MMD I and II, show that HiCo achieves a new state-of-the-art for unsupervised skeleton-based action representation learning in two downstream tasks including action recognition and retrieval, and its learned action representation is of good transferability. Besides, we also show that our framework is effective for semi-supervised skeleton-based action recognition. Our code is available at https://github.com/HuiGuanLab/HiCo.
翻訳日:2022-12-06 17:35:27 公開日:2022-12-05
# norbert wiener氏の着想: フィードバックループネットワーク学習によるドライバー注意予測のためのインクリメンタル知識

Inspired by Norbert Wiener: FeedBack Loop Network Learning Incremental Knowledge for Driver Attention Prediction and Beyond ( http://arxiv.org/abs/2212.02096v1 )

ライセンス: Link先を確認
Yilong Chen, Zhixiong Nan(参考訳) ドライバーの注意を運転の観点から予測する問題は、自動運転と補助運転システムにおいて顕著な重要性から、研究の焦点が増している。 運転経験は運転者の注意の予測に非常に重要であり、熟練したドライバーは運転経験に基づいて入ってくる危険を無力に予測し、対応するゾーンに素早く注意を向けることができる。 しかし,非客観的運転経験をモデル化することは困難であり,既存の手法では運転経験蓄積手順をシミュレートするメカニズムが欠如しており,既存の手法は通常,運転者の注意力を予測するための技術ラインに従う。 本稿では,運転経験の蓄積過程をモデル化するフィードバックループネットワーク(fblnet)を提案する。 オーバー・アンド・オーバーの繰り返しによって、FBLNetは、豊富な歴史的累積的長期的情報を伝達する漸進的な知識を生成する。 私たちのモデルのインクリメンタルな知識は、人間の運転体験のようなものです。 インクリメンタルな知識の指導の下で,入力画像から抽出したCNN特徴とトランスフォーマー特徴を融合し,運転者の注意力を予測する。 提案手法は,3つの公開データセットで平均10.3%の性能改善を達成している。

The problem of predicting driver attention from the driving perspective is gaining the increasing research focuses due to its remarkable significance for autonomous driving and assisted driving systems. Driving experience is extremely important for driver attention prediction, a skilled driver is able to effortlessly predict oncoming danger (before it becomes salient) based on driving experience and quickly pay attention on the corresponding zones. However, the nonobjective driving experience is difficult to model, so a mechanism simulating driver experience accumulation procedure is absent in existing methods, and the existing methods usually follow the technique line of saliency prediction methods to predict driver attention. In this paper, we propose a FeedBack Loop Network (FBLNet), which attempts to model the driving experience accumulation procedure. By over-and-over iterations, FBLNet generates the incremental knowledge that carries rich historically-accumulative long-term temporal information. The incremental knowledge to our model is like the driving experience to humans. Under the guidance of the incremental knowledge, our model fuses the CNN feature and Transformer feature that are extracted from the input image to predict driver attention. Our model exhibits solid advantage over existing methods, achieving an average 10.3% performance improvement on three public datasets.
翻訳日:2022-12-06 17:34:58 公開日:2022-12-05
# ビデオオブジェクトのセグメンテーションをより良く学ぶための学習

Learning to Learn Better for Video Object Segmentation ( http://arxiv.org/abs/2212.02112v1 )

ライセンス: Link先を確認
Meng Lan, Jing Zhang, Lefei Zhang, Dacheng Tao(参考訳) 近年,共用学習フレームワークJOINT (Joint Learning framework) はマッチングに基づく帰納的推論とオンライン帰納的学習を統合し,正確で堅牢な半教師付きビデオオブジェクトセグメンテーション(SVOS)を実現する。 しかし、2つのブランチでターゲット機能の生成を導くラベルとしてマスクを埋め込むことで、ターゲット表現が不十分になり、パフォーマンスが低下する可能性がある。 また,2つの枝の目的特徴を単純に加えるのではなく,目的特徴を適切に融合して1つの枝の悪影響を避ける方法も検討されていない。 本稿では,識別ラベル生成モジュール(DLGM)と適応融合モジュール(Adaptive fusion Module)を設計し,その課題に対処する。 技術的には、dlgmは、ターゲットマスクの代わりに背景フィルターフレームを入力として、軽量エンコーダを採用してターゲット特徴を生成し、オンラインの少数ショット学習者のラベルとトランスフォーマにおけるデコーダの値として、2つのブランチを誘導して、より識別可能なターゲット表現を学ぶ。 適応核融合モジュールは、各分岐に対する学習可能なゲートを保持し、要素的特徴表現を尊重し、融合目標特徴に流れる各分岐における目標情報の適応量を許容し、一方の分岐が支配的になるのを防止し、目標特徴をより混乱させる。 公開ベンチマーク実験により,提案手法が最先端性能を実現することを示す。

Recently, the joint learning framework (JOINT) integrates matching based transductive reasoning and online inductive learning to achieve accurate and robust semi-supervised video object segmentation (SVOS). However, using the mask embedding as the label to guide the generation of target features in the two branches may result in inadequate target representation and degrade the performance. Besides, how to reasonably fuse the target features in the two different branches rather than simply adding them together to avoid the adverse effect of one dominant branch has not been investigated. In this paper, we propose a novel framework that emphasizes Learning to Learn Better (LLB) target features for SVOS, termed LLB, where we design the discriminative label generation module (DLGM) and the adaptive fusion module to address these issues. Technically, the DLGM takes the background-filtered frame instead of the target mask as input and adopts a lightweight encoder to generate the target features, which serves as the label of the online few-shot learner and the value of the decoder in the transformer to guide the two branches to learn more discriminative target representation. The adaptive fusion module maintains a learnable gate for each branch, which reweighs the element-wise feature representation and allows an adaptive amount of target information in each branch flowing to the fused target feature, thus preventing one branch from being dominant and making the target feature more robust to distractor. Extensive experiments on public benchmarks show that our proposed LLB method achieves state-of-the-art performance.
翻訳日:2022-12-06 17:34:36 公開日:2022-12-05
# CLIPVG:微分ベクトルグラフを用いたテキストガイド画像操作

CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics ( http://arxiv.org/abs/2212.02122v1 )

ライセンス: Link先を確認
Yiren Song, Xning Shao, Kang Chen, Weidong Zhang, Minzhe Li, Zhongliang Jing(参考訳) CLIP(Contrastive Language- Image Pre-Training)モデルをテキスト誘導イメージ操作に活用する上で、考慮すべき進歩が最近行われた。 しかし、CLIPだけでは微細なピクセルレベルの変更に対して十分なガイダンス情報を提供できないため、既存のすべての研究は結果の品質を保証するために追加の生成モデルに依存している。 本稿では,テキストガイドによるベクトルグラフィックスを用いた画像操作フレームワークである clipvg を紹介する。このフレームワークは,新たな生成モデルを必要としない最初のクリップベースの汎用画像操作フレームワークでもある。 私たちはCLIPVGが意味的正しさと合成品質の両方で最先端のパフォーマンスを達成できるだけでなく、既存のすべてのメソッドの能力を超える様々なアプリケーションをサポートするのに十分な柔軟性を持つことを示した。

Considerable progress has recently been made in leveraging CLIP (Contrastive Language-Image Pre-Training) models for text-guided image manipulation. However, all existing works rely on additional generative models to ensure the quality of results, because CLIP alone cannot provide enough guidance information for fine-scale pixel-level changes. In this paper, we introduce CLIPVG, a text-guided image manipulation framework using differentiable vector graphics, which is also the first CLIP-based general image manipulation framework that does not require any additional generative models. We demonstrate that CLIPVG can not only achieve state-of-art performance in both semantic correctness and synthesis quality, but also is flexible enough to support various applications far beyond the capability of all existing methods.
翻訳日:2022-12-06 17:34:08 公開日:2022-12-05
# FaceQAN: 敵対的ノイズ探索による顔画像品質評価

FaceQAN: Face Image Quality Assessment Through Adversarial Noise Exploration ( http://arxiv.org/abs/2212.02127v1 )

ライセンス: Link先を確認
\v{Z}iga Babnik, Peter Peer, Vitomir \v{S}truc(参考訳) 最近の最先端の顔認識(FR)アプローチは目覚ましい性能を達成したが、制約のない顔認識は依然として未解決の問題である。 顔画像品質評価(FIQA)アプローチは、認識決定の信頼性に関する情報提供に役立つ入力サンプルの品質を推定することを目的としており、最終的には挑戦的なシナリオにおける結果の改善につながる。 近年、顔画像の品質評価において多くの進歩が見られるが、多様な顔画像やFRモデルの信頼性の高い品質スコアの計算は依然として困難である。 本稿では,顔画像品質評価のための新しいアプローチであるfaceqanを提案する。これは逆例に基づいており,ある種の勾配降下を用いて学習した任意のfrモデルで計算可能な逆雑音の分析に依存している。 このようにして、画像品質を敵攻撃にリンクする手法が提案されている。 総合的な(クロスモデルとモデル固有の)実験は、LFW、CFP-FP、XQLFW、IJB-Cの4つのベンチマークデータセット、CosFace、ArcFace、CuricularFace、ElasticFaceの4つのFRモデル、そしてFaceQANのパフォーマンスを示す7つの最先端FIQAメソッドで実施されている。 実験の結果,FaceQANはいくつかの望ましい特徴を示しながら,競争的な結果が得られることがわかった。

Recent state-of-the-art face recognition (FR) approaches have achieved impressive performance, yet unconstrained face recognition still represents an open problem. Face image quality assessment (FIQA) approaches aim to estimate the quality of the input samples that can help provide information on the confidence of the recognition decision and eventually lead to improved results in challenging scenarios. While much progress has been made in face image quality assessment in recent years, computing reliable quality scores for diverse facial images and FR models remains challenging. In this paper, we propose a novel approach to face image quality assessment, called FaceQAN, that is based on adversarial examples and relies on the analysis of adversarial noise which can be calculated with any FR model learned by using some form of gradient descent. As such, the proposed approach is the first to link image quality to adversarial attacks. Comprehensive (cross-model as well as model-specific) experiments are conducted with four benchmark datasets, i.e., LFW, CFP-FP, XQLFW and IJB-C, four FR models, i.e., CosFace, ArcFace, CurricularFace and ElasticFace, and in comparison to seven state-of-the-art FIQA methods to demonstrate the performance of FaceQAN. Experimental results show that FaceQAN achieves competitive results, while exhibiting several desirable characteristics.
翻訳日:2022-12-06 17:33:53 公開日:2022-12-05
# 地域・農村部における土地被覆区分の最小クラス混乱に基づく移動

Minimum Class Confusion based Transfer for Land Cover Segmentation in Rural and Urban Regions ( http://arxiv.org/abs/2212.02130v1 )

ライセンス: Link先を確認
Metehan Yal\c{c}{\i}n, Ahmet Alp K{\i}nd{\i}ro\u{g}lu, Furkan Burak Ba\u{g}c{\i}, Ufuk Uyan, Mahiye Uluya\u{g}mur \"Ozt\"urk(参考訳) 移動学習法は衛星画像分割問題に広く使われ、古典的教師あり学習法の性能を向上させる。 本研究では,移動学習手法を用いて土地被覆地図の作成を可能にするセマンティックセグメンテーション手法を提案する。 低解像度画像で訓練されたモデルと、対象領域やズームレベルの不十分なデータを比較する。 対象データの性能を高めるために、公開データセットやその他のラベルなしソースからの衛星画像を含む、教師なし、半教師あり、教師なしのトランスファー学習アプローチで訓練されたモデルを用いて実験を行った。 実験結果によると、転校学習は農村部の3.4%miouと都市部の12.9%miouのセグメンテーション性能を向上させる。 2つのデータセットが同じズームレベルを共有し、同じルールでラベル付けされた場合、転送学習はより効果的であることがわかった。 さらに、HRNetはマルチクラスセグメンテーションにおいて、ビルのセグメンテーションアプローチよりも優れた性能を示した。

Transfer Learning methods are widely used in satellite image segmentation problems and improve performance upon classical supervised learning methods. In this study, we present a semantic segmentation method that allows us to make land cover maps by using transfer learning methods. We compare models trained in low-resolution images with insufficient data for the targeted region or zoom level. In order to boost performance on target data we experiment with models trained with unsupervised, semi-supervised and supervised transfer learning approaches, including satellite images from public datasets and other unlabeled sources. According to experimental results, transfer learning improves segmentation performance 3.4% MIoU (Mean Intersection over Union) in rural regions and 12.9% MIoU in urban regions. We observed that transfer learning is more effective when two datasets share a comparable zoom level and are labeled with identical rules; otherwise, semi-supervised learning is more effective by using the data as unlabeled. In addition, experiments showed that HRNet outperformed building segmentation approaches in multi-class segmentation.
翻訳日:2022-12-06 17:33:27 公開日:2022-12-05
# 明確な解剖学的キーポイント構造制約による2次元ポーズ推定

2D Human Pose Estimation with Explicit Anatomical Keypoints Structure Constraints ( http://arxiv.org/abs/2212.02163v1 )

ライセンス: Link先を確認
Zhangjian Ji, Zilong Wang, Ming Zhang, Yapeng Chen, Yuhua Qian(参考訳) 近年,人間のポーズ推定は主に,より効果的でより優れた深層ネットワーク構造を人的特徴抽出器として設計する方法に焦点が当てられ,最も設計された特徴抽出ネットワークは,各解剖学的キーポイントの位置のみを導入し,トレーニングプロセスを指導している。 しかし, 人間の解剖学的キーポイントはトポロジの不変性を保ち, 特徴マップ上のキーポイントを検出する際に, より正確に位置決めできることがわかった。 しかし、私たちの知る限りでは、それを特に研究した文献はありません。 そこで,本稿では,キーポイントからキーポイントまでの距離と方向の差と損失対象の基部との差からなるトポロジー制約項を導入する,明示的な解剖学的キーポイント構造制約を用いた2次元人格推定手法を提案する。 さらに重要なことは、提案モデルが既存のボトムアップやトップダウンの人間のポーズ推定手法にプラグインされ、性能が向上することです。 ベンチマークデータセットに関する広範な実験:COCOキーポイントデータセットは、私たちのメソッドが、最も既存のボトムアップとトップダウンの人間のポーズ推定方法、特にLite-HRNetに対して、そのモデルにプラグインされた場合、そのAPスコアがCOCO val2017とtest-dev2017データセットで2.9\%と3.3\%に別々に上昇することを示す。

Recently, human pose estimation mainly focuses on how to design a more effective and better deep network structure as human features extractor, and most designed feature extraction networks only introduce the position of each anatomical keypoint to guide their training process. However, we found that some human anatomical keypoints kept their topology invariance, which can help to localize them more accurately when detecting the keypoints on the feature map. But to the best of our knowledge, there is no literature that has specifically studied it. Thus, in this paper, we present a novel 2D human pose estimation method with explicit anatomical keypoints structure constraints, which introduces the topology constraint term that consisting of the differences between the distance and direction of the keypoint-to-keypoint and their groundtruth in the loss object. More importantly, our proposed model can be plugged in the most existing bottom-up or top-down human pose estimation methods and improve their performance. The extensive experiments on the benchmark dataset: COCO keypoint dataset, show that our methods perform favorably against the most existing bottom-up and top-down human pose estimation methods, especially for Lite-HRNet, when our model is plugged into it, its AP scores separately raise by 2.9\% and 3.3\% on COCO val2017 and test-dev2017 datasets.
翻訳日:2022-12-06 17:33:09 公開日:2022-12-05
# L2SR: 加速MRIのサンプルと再構成を学ぶ

L2SR: Learning to Sample and Reconstruct for Accelerated MRI ( http://arxiv.org/abs/2212.02190v1 )

ライセンス: Link先を確認
Pu Yang, Bin Dong(参考訳) Accelerated MRIは、再構成品質を維持しながら、取得時間を短縮するために、サンプルと再構成器のペアを見つけることを目的としている。 現存する作品のほとんどは、固定された再構成器を持つスパース・サンプラーを見つけるか、固定されたサンプラーを持つ再構築器を見つけることに焦点を当てている。 近年, サンプルと再構築を共同で行うことを考える声が高まっている。 本稿では, 深層強化学習(RL)を用いて, 優れたサンプルと再構成器のペアを見つけるための交互学習フレームワークを提案する。 特に,mriサンプリングの軌跡を定式化するために,sparse-reward partial observed markov decision process (pomdp)を提案する。 高密度pomdpを用いた既存の作品と比較すると,提案手法は計算効率が高く,高密度pomdpよりも証明可能なアドバンテージを有する。 提案手法は,公開ベンチマークMRIデータセットであるfastMRIで評価し,最先端の再構成性能を実現する。

Accelerated MRI aims to find a pair of samplers and reconstructors to reduce acquisition time while maintaining the reconstruction quality. Most of the existing works focus on finding either sparse samplers with a fixed reconstructor or finding reconstructors with a fixed sampler. Recently, people have begun to consider learning samplers and reconstructors jointly. In this paper, we propose an alternating training framework for finding a good pair of samplers and reconstructors via deep reinforcement learning (RL). In particular, we propose a novel sparse-reward Partially Observed Markov Decision Process (POMDP) to formulate the MRI sampling trajectory. Compared to the existing works that utilize dense-reward POMDPs, the proposed sparse-reward POMDP is more computationally efficient and has a provable advantage over dense-reward POMDPs. We evaluate our method on fastMRI, a public benchmark MRI dataset, and it achieves state-of-the-art reconstruction performances.
翻訳日:2022-12-06 17:32:45 公開日:2022-12-05
# イベントを通して見ることを学ぶ

Learning to See Through with Events ( http://arxiv.org/abs/2212.02219v1 )

ライセンス: Link先を確認
Lei Yu, Xiang Zhang, Wei Liao, Wen Yang, Gui-Song Xia(参考訳) 合成開口イメージング(sai)は、多視点画像から被写体内シーンを復元しながら、被写体外咬合をぼやけ、透視効果が得られるが、濃密な閉塞や極端な照明条件により性能が低下することが多い。 この問題に対処するため,イベントカメラによって取得される極めて低レイテンシかつ高ダイナミックレンジの非同期イベントに依存するイベントベースSAI(E-SAI)手法を提案する。 具体的には、収集されたイベントは、最初にRefocus-Netモジュールによってフォーカス内イベントを調整し、オフフォーカスイベントを散布する。 その後、スパイクニューラルネットワーク(SNN)と畳み込みニューラルネットワーク(CNN)からなるハイブリッドネットワークが提案され、再集中イベントから時空間情報を符号化し、隠蔽対象の視覚的イメージを再構成する。 提案手法は,非常に密集した閉塞や極端な照明条件に対処し,純粋なイベントから高品質な映像を生成できることを示す。 コードとデータセットはhttps://dvs-whu.cn/projects/esai/で利用可能である。

Although synthetic aperture imaging (SAI) can achieve the seeing-through effect by blurring out off-focus foreground occlusions while recovering in-focus occluded scenes from multi-view images, its performance is often deteriorated by dense occlusions and extreme lighting conditions. To address the problem, this paper presents an Event-based SAI (E-SAI) method by relying on the asynchronous events with extremely low latency and high dynamic range acquired by an event camera. Specifically, the collected events are first refocused by a Refocus-Net module to align in-focus events while scattering out off-focus ones. Following that, a hybrid network composed of spiking neural networks (SNNs) and convolutional neural networks (CNNs) is proposed to encode the spatio-temporal information from the refocused events and reconstruct a visual image of the occluded targets. Extensive experiments demonstrate that our proposed E-SAI method can achieve remarkable performance in dealing with very dense occlusions and extreme lighting conditions and produce high-quality images from pure events. Codes and datasets are available at https://dvs-whu.cn/projects/esai/.
翻訳日:2022-12-06 17:32:30 公開日:2022-12-05
# INGeo:ノイズ幾何学の先行したインスタントニューラルネットワークシーン再構築

INGeo: Accelerating Instant Neural Scene Reconstruction with Noisy Geometry Priors ( http://arxiv.org/abs/2212.01959v1 )

ライセンス: Link先を確認
Chaojian Li, Bichen Wu, Albert Pumarola, Peizhao Zhang, Yingyan Lin, and Peter Vajda(参考訳) 本稿では,携帯電話やAR/VRヘッドセットなどのエッジデバイスにおいて,3Dシーンやオブジェクトの再構築を高速化する手法を提案する。 最近の研究は、シーン再構築のトレーニングをハイエンドGPUで分/秒レベルに加速しているが、没入型AR/VRのような新興アプリケーションでは依然として非常に望まれているエッジデバイスでの即時トレーニングという目標には大きなギャップがある。 この目的のために,本研究は,対象シーンの幾何学的先行を生かして,トレーニングをさらに加速することを目的としている。 提案手法は,高度に最適化されたInstant-NGP上でのトレーニング速度を向上するために,不完全形状のノイズを緩和する戦略を提案する。 NeRF Syntheticデータセットでは、トレーニングの繰り返しの半分を使用して、平均的なPSNR > 30 に達する。

We present a method that accelerates reconstruction of 3D scenes and objects, aiming to enable instant reconstruction on edge devices such as mobile phones and AR/VR headsets. While recent works have accelerated scene reconstruction training to minute/second-level on high-end GPUs, there is still a large gap to the goal of instant training on edge devices which is yet highly desired in many emerging applications such as immersive AR/VR. To this end, this work aims to further accelerate training by leveraging geometry priors of the target scene. Our method proposes strategies to alleviate the noise of the imperfect geometry priors to accelerate the training speed on top of the highly optimized Instant-NGP. On the NeRF Synthetic dataset, our work uses half of the training iterations to reach an average test PSNR of >30.
翻訳日:2022-12-06 17:26:16 公開日:2022-12-05
# シーンテキスト編集のためのストロークレベル修正の探索

Exploring Stroke-Level Modifications for Scene Text Editing ( http://arxiv.org/abs/2212.01982v1 )

ライセンス: Link先を確認
Yadong Qu, Qingfeng Tan, Hongtao Xie, Jianjun Xu, Yuxin Wang, Yongdong Zhang(参考訳) シーンテキスト編集(ste)は、原文の背景やスタイルを維持しつつ、テキストを所望のテキストに置き換えることを目的としている。 しかし、背景テクスチャや様々なテキストスタイルが複雑であるため、既存の手法では、明瞭で読みやすい編集テキスト画像を生成するのに不足している。 本研究では,編集性能の低下を2つの問題とみなす。 1)暗黙の分離構造。 画像全体を編集するには、背景とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 2) ドメインギャップ。 編集された実シーンのテキスト画像がないため、ネットワークは合成ペアでしか訓練できず、実世界の画像では性能が劣る。 上記の問題に対処するために,Scene Text image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。 まず、編集すべき領域を明確に示すために、ストロークガイダンスマップを生成する。 画像レベルで全てのピクセルを直接修正することで暗黙のピクセルとは異なり、これらの明示的な指示は背景から邪魔を取り除き、ネットワークがテキスト領域の編集ルールにフォーカスするようにガイドする。 次に,ラベル付き合成画像と実シーンのテキスト画像の両方を用いてネットワークを学習するセミ教師付きハイブリッド学習を提案する。 したがって、STEモデルは実世界のデータセット分布に適応する。 さらに、公共評価データセットの空白を埋めるために、2つの新しいデータセット(Tamper-Syn2kとTamper-Scene)を提案する。 実験の結果,MOSTELは従来手法よりも質的,定量的に優れていることがわかった。 データセットとコードはhttps://github.com/qqyd/mostelで入手できる。

Scene text editing (STE) aims to replace text with the desired one while preserving background and styles of the original text. However, due to the complicated background textures and various text styles, existing methods fall short in generating clear and legible edited text images. In this study, we attribute the poor editing performance to two problems: 1) Implicit decoupling structure. Previous methods of editing the whole image have to learn different translation rules of background and text regions simultaneously. 2) Domain gap. Due to the lack of edited real scene text images, the network can only be well trained on synthetic pairs and performs poorly on real-world images. To handle the above problems, we propose a novel network by MOdifying Scene Text image at strokE Level (MOSTEL). Firstly, we generate stroke guidance maps to explicitly indicate regions to be edited. Different from the implicit one by directly modifying all the pixels at image level, such explicit instructions filter out the distractions from background and guide the network to focus on editing rules of text regions. Secondly, we propose a Semi-supervised Hybrid Learning to train the network with both labeled synthetic images and unpaired real scene text images. Thus, the STE model is adapted to real-world datasets distributions. Moreover, two new datasets (Tamper-Syn2k and Tamper-Scene) are proposed to fill the blank of public evaluation datasets. Extensive experiments demonstrate that our MOSTEL outperforms previous methods both qualitatively and quantitatively. Datasets and code will be available at https://github.com/qqqyd/MOSTEL.
翻訳日:2022-12-06 17:26:00 公開日:2022-12-05
# PointCaM: オープンセットポイントクラウド分析のためのカットアンドミクス

PointCaM: Cut-and-Mix for Open-Set Point Cloud Analysis ( http://arxiv.org/abs/2212.02011v1 )

ライセンス: Link先を確認
Jie Hong, Shi Qiu, Weihao Li, Saeed Anwar, Mehrtash Harandi, Nick Barnes and Lars Petersson(参考訳) ポイントクラウド分析は注目されているが、既存のほとんどのポイントクラウドモデルは、未知のオブジェクトの避けられない存在に対処する実用的な能力を欠いている。 本稿では主に,未知のクラスからのデータなしでモデルをトレーニングし,推論段階においてそれらを識別する,オープンセット設定下でのポイントクラウド解析について論じる。 基本的に,未知点シミュレータと未知点推定モジュールからなる新しいポイントカット・アンド・ミクス機構を用いて,オープンセットのクラウド解析を行う。 具体的には、未知点シミュレータを用いて、部分的既知のデータの幾何学的文脈を操作することにより、トレーニングステージにおける未知のデータをシミュレートする。 これに基づいて、Unknown-Point Estimatorモジュールは、既知のデータを識別するために、ポイントクラウドの機能コンテキストを活用することを学ぶ。 大規模実験により, 開集合点雲解析の妥当性と提案手法の有効性が示された。 私たちのコードは \url{https://github.com/ShiQiu0419/pointcam} で利用可能です。

Point cloud analysis is receiving increasing attention, however, most existing point cloud models lack the practical ability to deal with the unavoidable presence of unknown objects. This paper mainly discusses point cloud analysis under open-set settings, where we train the model without data from unknown classes and identify them in the inference stage. Basically, we propose to solve open-set point cloud analysis using a novel Point Cut-and-Mix mechanism consisting of Unknown-Point Simulator and Unknown-Point Estimator modules. Specifically, we use the Unknown-Point Simulator to simulate unknown data in the training stage by manipulating the geometric context of partial known data. Based on this, the Unknown-Point Estimator module learns to exploit the point cloud's feature context for discriminating the known and unknown data. Extensive experiments show the plausibility of open-set point cloud analysis and the effectiveness of our proposed solutions. Our code is available at \url{https://github.com/ShiQiu0419/pointcam}.
翻訳日:2022-12-06 17:25:35 公開日:2022-12-05
# Med-Query: クエリ埋め込みによる9-DoF医療解剖の静的解析

Med-Query: Steerable Parsing of 9-DoF Medical Anatomies with Query Embedding ( http://arxiv.org/abs/2212.02014v1 )

ライセンス: Link先を確認
Heng Guo, Jianfeng Zhang, Ke Yan, Le Lu, Minfeng Xu(参考訳) 3次元CTスキャンによるヒト解剖のインスタンスレベルでの自動解析は、多くの臨床応用に必須のステップである。 病理、壊れた構造、または限定視野(FOV)の存在は、全て解剖学的解析アルゴリズムを脆弱にすることができる。 本研究は,3次元医療データにおける有能な検出・隠蔽パラダイムの活用と実施方法について検討し,CTスキャンにおける解剖学の検出・識別・セグメント化のための,安定かつ堅牢かつ効率的な計算フレームワークを提案する。 解剖学の複雑な形状、大きさ、配向を考えると、一般性を失うことなく、新しい単段非階層的前方表現を用いて、9自由度(9-DoF)ポーズ推定解をフル3次元空間に提示する。 私たちのフレームワーク全体は、推論効率をさらに高めるために、関心の解剖を直接的に取得できる、ステアブルな方法で実行されます。 今回我々は,リブ,脊椎,腹部臓器の3つの医用画像解析タスクにおいて,提案手法を検証した。 胸椎や腹部臓器と同様に, 胸部CT検査では, 胸部CT検査にて定量的な評価が試みられている。 9-DoFボックスの検出とリブインスタンスのセグメンテーションに関する大規模な実験は、高い効率でフレームワークの有効性(97.0%、セグメンテーションDiceスコア90.9%)を示し、いくつかの強力なベースライン(例えば、CenterNet、FCOS、nnU-Net)と比較した。 スピン識別とセグメンテーションのために,提案手法はパブリックなCTSpine1Kデータセット上で新しい最先端結果を実現する。 最後に,FLARE22コンペティションにおける多臓器セグメンテーションの競争成績を報告する。 私たちのアノテーション、コード、モデルは、https://github.com/alibaba-damo-academy/Med_Queryで公開されます。

Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.
翻訳日:2022-12-06 17:25:18 公開日:2022-12-05
# sasformer:sparsely annotated semantic segmentationのためのトランスフォーマー

SASFormer: Transformers for Sparsely Annotated Semantic Segmentation ( http://arxiv.org/abs/2212.02019v1 )

ライセンス: Link先を確認
Hui Su, Yue Ye, Wei Hua, Lechao Cheng, Mingli Song(参考訳) 近年,スパースアノテーションに基づくセマンティックセグメンテーションが進歩している。 画像内の各オブジェクトの一部だけをラベル付けし、残りはラベルなしで残します。 既存のアプローチのほとんどは時間がかかり、多段階のトレーニング戦略を必要とすることが多い。 そこで本研究では,SASFormerと呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティクスフレームワークを提案する。 具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。 また,相関結果の特徴とネットワーク予測の一貫性を確保するために,親和性損失も導入する。 広範な実験により,提案手法が既存手法よりも優れ,最先端性能を実現することを示した。 ソースコードは \url{https://github.com/su-hui-zz/SASFormer} で入手できる。

Semantic segmentation based on sparse annotation has advanced in recent years. It labels only part of each object in the image, leaving the remainder unlabeled. Most of the existing approaches are time-consuming and often necessitate a multi-stage training strategy. In this work, we propose a simple yet effective sparse annotated semantic segmentation framework based on segformer, dubbed SASFormer, that achieves remarkable performance. Specifically, the framework first generates hierarchical patch attention maps, which are then multiplied by the network predictions to produce correlated regions separated by valid labels. Besides, we also introduce the affinity loss to ensure consistency between the features of correlation results and network predictions. Extensive experiments showcase that our proposed approach is superior to existing methods and achieves cutting-edge performance. The source code is available at \url{https://github.com/su-hui-zz/SASFormer}.
翻訳日:2022-12-06 17:24:46 公開日:2022-12-05
# 異常検出と局在化のための原型的残差ネットワーク

Prototypical Residual Networks for Anomaly Detection and Localization ( http://arxiv.org/abs/2212.02031v1 )

ライセンス: Link先を確認
Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, Yu-Gang Jiang(参考訳) 異常検出と局所化は工業生産においてその効率と有効性のために広く利用されている。 異常はまれであり、観察され、管理されるモデルは、少数の異常サンプルを持つこれらの異常に容易に適合し、不満足な性能をもたらす。 一方、異常は典型的には微妙であり、識別が困難であり、様々な外観を持つため、異常の検出や異常領域の特定は困難である。 このような問題に対処するため,我々は,異常領域のセグメント化マップを正確に再構築するために,異常領域と正常パターンの様々なスケールとサイズの特徴残差を学習するPrototypeal Residual Network (PRN) というフレームワークを提案する。 PRNは主に、通常パターンに対する異常の残像を明示するマルチスケールプロトタイプと、可変サイズの異常特徴学習を可能にするマルチサイズ自己認識機構である。 また,様々な異常発生戦略を提示し,その出現のばらつきから異常の拡大・多様化について考察する。 挑戦的で広く使用されているMVTec ADベンチマークに関する大規模な実験は、PRNが現在の最先端の教師なしおよび教師なしの手法より優れていることを示している。 さらに, PRNの有効性と一般化性を示すために, 3つの追加データセットのSOTA結果について報告する。

Anomaly detection and localization are widely used in industrial manufacturing for its efficiency and effectiveness. Anomalies are rare and hard to collect and supervised models easily over-fit to these seen anomalies with a handful of abnormal samples, producing unsatisfactory performance. On the other hand, anomalies are typically subtle, hard to discern, and of various appearance, making it difficult to detect anomalies and let alone locate anomalous regions. To address these issues, we propose a framework called Prototypical Residual Network (PRN), which learns feature residuals of varying scales and sizes between anomalous and normal patterns to accurately reconstruct the segmentation maps of anomalous regions. PRN mainly consists of two parts: multi-scale prototypes that explicitly represent the residual features of anomalies to normal patterns; a multisize self-attention mechanism that enables variable-sized anomalous feature learning. Besides, we present a variety of anomaly generation strategies that consider both seen and unseen appearance variance to enlarge and diversify anomalies. Extensive experiments on the challenging and widely used MVTec AD benchmark show that PRN outperforms current state-of-the-art unsupervised and supervised methods. We further report SOTA results on three additional datasets to demonstrate the effectiveness and generalizability of PRN.
翻訳日:2022-12-06 17:24:32 公開日:2022-12-05
# 階層型タッカーテンソル分解によるビデオ認識のためのエネルギー効率の良いLSTMネットワークのアルゴリズムとハードウェア共設計

Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for Video Recognition with Hierarchical Tucker Tensor Decomposition ( http://arxiv.org/abs/2212.02046v1 )

ライセンス: Link先を確認
Yu Gong, Miao Yin, Lingyi Huang, Chunhua Deng, Yang Sui, Bo Yuan(参考訳) LSTM(Long Short-term memory)は、多くのシーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークの一種である。 しかし、LSTMネットワークの大規模なモデルサイズ問題は、特に高次元入力データを必要とするビデオ認識タスクにおいて、その実用的展開を非常に困難にしている。 本稿では,この制限を克服し,LSTMモデルの可能性を完全に解き放つことを目的として,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェア共同設計を提案する。 アルゴリズムレベルでは、完全に分解された階層型タッカー(FDHT)構造型LSTM(FDHT-LSTM)を開発することを提案する。 このような魅力的なアルゴリズムの利点を完全に享受するために、提案したFDHT-LSTMモデルの効率的な実行を支援するために、対応するカスタマイズハードウェアアーキテクチャをさらに発展させる。 メモリアクセススキームの繊細な設計により、複雑な行列変換は、オンザフライでアクセス競合なく、基盤となるハードウェアで効率的にサポートできる。 評価の結果,提案する超コンパクトFDHT-LSTMモデルと対応するハードウェアアクセラレーションの両者が高い性能を達成できた。 最先端の圧縮LSTMモデルと比較すると、FDHT-LSTMはモデルサイズのオーダー・オブ・マグニチュード削減と、異なるビデオ認識データセット間の大幅な精度向上の両方を享受する。 一方,最先端のテンソル分解型モデル指向ハードウェアと比べ,提案するfdht-lstmアーキテクチャは,lstm-youtubeワークロードにおいてスループット,面積効率,エネルギー効率が向上する。 LSTM-UCFのワークロードに対して,提案手法はTIEよりも高いスループット,エネルギー効率,面積効率に優れる。

Long short-term memory (LSTM) is a type of powerful deep neural network that has been widely used in many sequence analysis and modeling applications. However, the large model size problem of LSTM networks make their practical deployment still very challenging, especially for the video recognition tasks that require high-dimensional input data. Aiming to overcome this limitation and fully unlock the potentials of LSTM models, in this paper we propose to perform algorithm and hardware co-design towards high-performance energy-efficient LSTM networks. At algorithm level, we propose to develop fully decomposed hierarchical Tucker (FDHT) structure-based LSTM, namely FDHT-LSTM, which enjoys ultra-low model complexity while still achieving high accuracy. In order to fully reap such attractive algorithmic benefit, we further develop the corresponding customized hardware architecture to support the efficient execution of the proposed FDHT-LSTM model. With the delicate design of memory access scheme, the complicated matrix transformation can be efficiently supported by the underlying hardware without any access conflict in an on-the-fly way. Our evaluation results show that both the proposed ultra-compact FDHT-LSTM models and the corresponding hardware accelerator achieve very high performance. Compared with the state-of-the-art compressed LSTM models, FDHT-LSTM enjoys both order-of-magnitude reduction in model size and significant accuracy improvement across different video recognition datasets. Meanwhile, compared with the state-of-the-art tensor decomposed model-oriented hardware TIE, our proposed FDHT-LSTM architecture achieves better performance in throughput, area efficiency and energy efficiency, respectively on LSTM-Youtube workload. For LSTM-UCF workload, our proposed design also outperforms TIE with higher throughput, higher energy efficiency and comparable area efficiency.
翻訳日:2022-12-06 17:24:10 公開日:2022-12-05
# day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識

Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight ( http://arxiv.org/abs/2212.02053v1 )

ライセンス: Link先を確認
Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek(参考訳) 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。 主な原因は、低色のコントラストからの分布シフトと、ラベル付きダークビデオの可用性の制限である。 私たちの目標は、暗闇や日中の活動を認識できるようにすることです。 ラベル付きダークビデオの欠如を補うために,タスク非関連な未ラベルのダークビデオを利用した擬似教師付き学習手法を導入する。 提案するアクティビティ認識器は,照明に不変な音声を使用する。 しかし、音響的特徴と視覚的特徴は照明によって異なる。 そこで我々は,音声視覚認識器「ダークネス認識」を提案する。 EPIC-Kitchens, Kinetics-Sound, Charadesの実験により, 暗黒領域での効果的な活動認識が可能であり, 閉塞に対する堅牢性も向上できることを示した。

State-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the distribution shift from the lower color contrast as well as the limited availability of labeled dark videos. Our goal is to recognize activities in the dark as well as in the day. To compensate for the lack of labeled dark videos, we introduce a pseudo-supervised learning scheme, which utilizes task-irrelevant unlabeled dark videos to train an activity recognizer. Our proposed activity recognizer makes use of audio which is invariant to illumination. However, the usefulness of audio and visual features differs according to the illumination. Thus we propose to make our audio-visual recognizer `darkness-aware'. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate that our proposals enable effective activity recognition in the dark and can even improve robustness to occlusions.
翻訳日:2022-12-06 17:23:34 公開日:2022-12-05
# 気象4Castコンペティションのための地域指定直交3次元U-Net

Region-Conditioned Orthogonal 3D U-Net for Weather4Cast Competition ( http://arxiv.org/abs/2212.02059v1 )

ライセンス: Link先を確認
Taehyeon Kim, Shinhwan Kang, Hyeonjeong Shin, Deukryeol Yoon, Seongha Eom, Kijung Shin, Se-Young Yun(参考訳) NeurIPS 2022が主催するWeather4Castコンペティションでは、より広い地域をカバーする低解像度の衛星コンテキストが与えられる場合に、ヨーロッパ各地の超高解像度降雨映画を予測することが必要とされた。 本稿では,領域条件層と1x1x1畳み込み層上の直交正規化により,一般のベースライン3d u-netを著しく改善できることを示す。 さらに, ミックスアップデータ拡張, 自己蒸留, 特徴点線形変調(フィルム)など, 訓練戦略の袋で一般化を促進する。 提案された修正はベースラインアルゴリズム(3D U-Net)を最大19.54%まで上回り、1%以上のパラメータが追加され、コアテストリーダーボードでは4位となった。

The Weather4Cast competition (hosted by NeurIPS 2022) required competitors to predict super-resolution rain movies in various regions of Europe when low-resolution satellite contexts covering wider regions are given. In this paper, we show that a general baseline 3D U-Net can be significantly improved with region-conditioned layers as well as orthogonality regularizations on 1x1x1 convolutional layers. Additionally, we facilitate the generalization with a bag of training strategies: mixup data augmentation, self-distillation, and feature-wise linear modulation (FiLM). Presented modifications outperform the baseline algorithms (3D U-Net) by up to 19.54% with less than 1% additional parameters, which won the 4th place in the core test leaderboard.
翻訳日:2022-12-06 17:23:13 公開日:2022-12-05
# E-MAPP:並列プログラム誘導による効率的なマルチエージェント強化学習

E-MAPP: Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance ( http://arxiv.org/abs/2212.02064v1 )

ライセンス: Link先を確認
Can Chang, Ni Mu, Jiajun Wu, Ling Pan, Huazhe Xu(参考訳) マルチエージェント強化学習(MARL)における重要な課題は、複数のエージェントが複雑な長期的タスクを効率的に達成することである。 エージェントはしばしば共通の目標の協調、複雑なタスクの分割、進行のためのいくつかの段階の計画に苦労する。 表現としてのプログラムは豊富な構造情報や意味情報を含んでおり、長期的タスクの抽象化として広く利用されているため、並列化のために設計されたプログラムをエージェントに導くことでこれらの課題に対処することを提案する。 具体的には,並列プログラムを用いた効率的なマルチエージェント強化学習(e-mapp)を導入する。並列プログラムを活用した新しいフレームワークで,複数のエージェントを誘導し,10ドル以上のステージ計画を必要とする目標を効率的に達成する。 E-MAPPは並列プログラムからの構造情報を統合し、プログラム意味論に基づく協調行動を促進し、タスクアロケータを介して時間効率を向上させる。 オーバークッキング環境における長期協調作業の課題について広範な実験を行った。 その結果,E-MAPPは完成率,時間効率,ゼロショット一般化能力において,大きなマージンで優れたベースラインを達成できることがわかった。

A critical challenge in multi-agent reinforcement learning(MARL) is for multiple agents to efficiently accomplish complex, long-horizon tasks. The agents often have difficulties in cooperating on common goals, dividing complex tasks, and planning through several stages to make progress. We propose to address these challenges by guiding agents with programs designed for parallelization, since programs as a representation contain rich structural and semantic information, and are widely used as abstractions for long-horizon tasks. Specifically, we introduce Efficient Multi-Agent Reinforcement Learning with Parallel Program Guidance(E-MAPP), a novel framework that leverages parallel programs to guide multiple agents to efficiently accomplish goals that require planning over $10+$ stages. E-MAPP integrates the structural information from a parallel program, promotes the cooperative behaviors grounded in program semantics, and improves the time efficiency via a task allocator. We conduct extensive experiments on a series of challenging, long-horizon cooperative tasks in the Overcooked environment. Results show that E-MAPP outperforms strong baselines in terms of the completion rate, time efficiency, and zero-shot generalization ability by a large margin.
翻訳日:2022-12-06 16:59:53 公開日:2022-12-05
# 短期記憶システム,エピソディクス,意味記憶システムを備えた機械

A Machine with Short-Term, Episodic, and Semantic Memory Systems ( http://arxiv.org/abs/2212.02098v1 )

ライセンス: Link先を確認
Taewoon Kim, Michael Cochez, Vincent Fran\c{c}ois-Lavet, Mark Neerincx, Piek Vossen(参考訳) 明示的な人間の記憶システムの認知科学理論に着想を得て、短期記憶、エピソディクス、意味記憶システムを持つエージェントをモデル化し、それぞれを知識グラフでモデル化した。 このシステムを評価し,エージェントの行動を解析するために,エージェントが質問に答えることで,記憶をエンコードし,保存し,取り出す方法を学ぶ必要がある強化学習エージェント環境「the room」を設計・公開した。 我々は,Q-ラーニングに基づくエージェントが,短期記憶を忘れるべきか,あるいはエピソード記憶システムやセマンティック記憶システムに格納すべきかをうまく学習していることを示す。 実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に含まないエージェントよりも優れることが示された。

Inspired by the cognitive science theory of the explicit human memory systems, we have modeled an agent with short-term, episodic, and semantic memory systems, each of which is modeled with a knowledge graph. To evaluate this system and analyze the behavior of this agent, we designed and released our own reinforcement learning agent environment, "the Room", where an agent has to learn how to encode, store, and retrieve memories to maximize its return by answering questions. We show that our deep Q-learning based agent successfully learns whether a short-term memory should be forgotten, or rather be stored in the episodic or semantic memory systems. Our experiments indicate that an agent with human-like memory systems can outperform an agent without this memory structure in the environment.
翻訳日:2022-12-06 16:59:19 公開日:2022-12-05
# コーパスとしてのビデオゲーム:Fallout New Vegas Dialogを用いた感性分析

Video Games as a Corpus: Sentiment Analysis using Fallout New Vegas Dialog ( http://arxiv.org/abs/2212.02168v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen and Khalid Alnajjar and Thierry Poibeau(参考訳) 本稿では,Fallout New Vegas から多言語感情注釈付きダイアログデータセットを抽出する手法を提案する。 ゲーム開発者は、ゲーム内のすべてのダイアログを8つの異なる感情の1つ、\textit{anger, disgust, fear, happy, neutral, pained, sad } と \textit{surprised} で事前に注釈付けしている。 ゲームは英語、スペイン語、ドイツ語、フランス語、イタリア語に翻訳されている。 我々は,多言語BERT,XLMRoBERTa,言語固有BERTモデルを用いて,抽出したデータセットに対する多言語・多言語感情分析実験を行った。 実験では,多言語BERTがほとんどの言語でXLMRoBERTaより優れており,言語特化モデルもほとんどの言語でXLMRoBERTaよりも若干優れていた。 全体として最高の精度は54\%であり、スペイン語データに多言語BERTを使用することで達成された。 抽出したデータセットは、感情分析の難しい課題を示す。 テストとトレーニングの分割を含むデータをzenodo上で公開しました。 データセットは著作権上の理由からシャッフルされている。

We present a method for extracting a multilingual sentiment annotated dialog data set from Fallout New Vegas. The game developers have preannotated every line of dialog in the game in one of the 8 different sentiments: \textit{anger, disgust, fear, happy, neutral, pained, sad } and \textit{surprised}. The game has been translated into English, Spanish, German, French and Italian. We conduct experiments on multilingual, multilabel sentiment analysis on the extracted data set using multilingual BERT, XLMRoBERTa and language specific BERT models. In our experiments, multilingual BERT outperformed XLMRoBERTa for most of the languages, also language specific models were slightly better than multilingual BERT for most of the languages. The best overall accuracy was 54\% and it was achieved by using multilingual BERT on Spanish data. The extracted data set presents a challenging task for sentiment analysis. We have released the data, including the testing and training splits, openly on Zenodo. The data set has been shuffled for copyright reasons.
翻訳日:2022-12-06 16:50:05 公開日:2022-12-05
# フィンランドにおける実ニュース見出しの自動生成

Automatic Generation of Factual News Headlines in Finnish ( http://arxiv.org/abs/2212.02170v1 )

ライセンス: Link先を確認
Maximilian Koppatz, Khalid Alnajjar, Mika H\"am\"al\"ainen, Thierry Poibeau(参考訳) 我々は、あるニュース記事に対してフィンランド語でニュース見出しを生成するための新しいアプローチを提案する。 我々はこれを,あるモデルにニュース記事が与えられる要約タスクとしてモデル化し,その課題は記事の主要なトピックを記述した簡潔な見出しを作成することである。 フィンランドでは GPT-2 モデルが公開されていないため、まず複数のコーパスを用いて構築する。 モデルは、巨大なニュースコーパスを使用して、見出し生成タスクのために微調整される。 このシステムはフィンランドのメディアハウスで働く3人の専門家ジャーナリストによって評価されている。 提案手法は,ニュース生成プロセスを容易にするための見出し提案ツールとしての有用性を示す。

We present a novel approach to generating news headlines in Finnish for a given news story. We model this as a summarization task where a model is given a news article, and its task is to produce a concise headline describing the main topic of the article. Because there are no openly available GPT-2 models for Finnish, we will first build such a model using several corpora. The model is then fine-tuned for the headline generation task using a massive news corpus. The system is evaluated by 3 expert journalists working in a Finnish media house. The results showcase the usability of the presented approach as a headline suggestion tool to facilitate the news production process.
翻訳日:2022-12-06 16:49:46 公開日:2022-12-05
# Momentum Decoding: グラフ探索としてオープンなテキスト生成

Momentum Decoding: Open-ended Text Generation As Graph Exploration ( http://arxiv.org/abs/2212.02175v1 )

ライセンス: Link先を確認
Tian Lan and Yixuan Su and Shuhang Liu and Heyan Huang and Xian-Ling Mao(参考訳) 自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。 しかし、最大化に基づく復号法(例えばgreedy/beam search)は、しばしばデジェネレーション問題、すなわち生成されたテキストが不自然であり、望ましくない繰り返しを含む。 既存の解法は不整合にランダム性をもたらすか、余分な計算オーバーヘッドを必要とするルックアヘッド機構を必要とする。 本研究では, 有向グラフ内の探索過程として, 新たな視点から拡張されたテキスト生成を定式化する。 これにより、有向グラフ内の退化現象を円ループとして理解する。 我々の定式化に基づいて, LM が現在のグラフの外側の新しいノードを探索することを奨励する新しい復号法である \textit{momentum decoding} を提案する。 一方、lmは事前定義された抵抗関数によってモーメントが低下して既存のノードに戻ることができる。 我々は、自動評価と人的評価により、異なるドメインから3つのベンチマークでアプローチを広範囲にテストする。 その結果、運動量復号化は現在の技術と相容れない性能を示し、推論速度と計算FLOPを著しく改善した。 さらに,アプローチのメリットと内部動作を明らかにするために,詳細な分析を行う。 私たちのコードやその他の関連リソースはhttps://github.com/gmftbyGMFTBY/MomentumDecoding.comで公開されています。

Open-ended text generation with autoregressive language models (LMs) is one of the core tasks in natural language processing. However, maximization-based decoding methods (e.g., greedy/beam search) often lead to the degeneration problem, i.e., the generated text is unnatural and contains undesirable repetitions. Existing solutions to this problem either introduce randomness prone to incoherence or require a look-ahead mechanism that demands extra computational overhead. In this study, we formulate open-ended text generation from a new perspective, i.e., we view it as an exploration process within a directed graph. Thereby, we understand the phenomenon of degeneration as circular loops within the directed graph. Based on our formulation, we propose a novel decoding method -- \textit{momentum decoding} -- which encourages the LM to \textit{greedily} explore new nodes outside the current graph. Meanwhile, it also allows the LM to return to the existing nodes with a momentum downgraded by a pre-defined resistance function. We extensively test our approach on three benchmarks from different domains through automatic and human evaluations. The results show that momentum decoding performs comparably with the current state of the art while enjoying notably improved inference speed and computation FLOPs. Furthermore, we conduct a detailed analysis to reveal the merits and inner workings of our approach. Our codes and other related resources are publicly available at https://github.com/gmftbyGMFTBY/MomentumDecoding.
翻訳日:2022-12-06 16:49:37 公開日:2022-12-05
# 近距離キャリブレーションによる言語モデルのマイナショット性能の向上

Improving Few-Shot Performance of Language Models via Nearest Neighbor Calibration ( http://arxiv.org/abs/2212.02216v1 )

ライセンス: Link先を確認
Feng Nie, Meixi Chen, Zhirui Zhang, Xu Cheng(参考訳) 事前学習された言語モデル(plm)は、自然言語プロンプトでテストインスタンス、すなわち、コンテキスト内学習のデモンストレーションとしていくつかの例を提供して、目覚ましい少数ショット学習能力を示している。 しかしながら、インコンテキスト学習のパフォーマンスは、プロンプトフォーマットの選択、トレーニング例、トレーニング例の順序付けに影響を受けやすい。 本稿では,この問題を緩和するために,テキスト内学習のための近傍校正フレームワークを提案する。 インコンテキスト学習パラダイムがトレーニングインスタンスを推論する際に誤ったラベルを生成するという現象に触発され、予測を校正する有用な教師付きシグナルを提供する。 そこで本手法は,PLMと対応するラベルによって得られたキャッシュされた少数ショットのインスタンス表現のデータストア上で,$k$-nearest-neighbor(k$NN)分類器で予測を直接拡張する。 次に,いくつかのサポートインスタンスをフル活用して$k$nn検索ノイズを低減するために,アダプティブの隣人選択と機能正規化モジュールを導入する。 提案手法は,いくつかの感情分析タスクにおいて,最先端のチューニングベースアプローチと同等の性能を達成しながら,コンテキスト内学習を著しく改善することを示す。

Pre-trained language models (PLMs) have exhibited remarkable few-shot learning capabilities when provided a few examples in a natural language prompt as demonstrations of test instances, i.e., in-context learning. However, the performance of in-context learning is susceptible to the choice of prompt format, training examples and the ordering of the training examples. In this paper, we propose a novel nearest-neighbor calibration framework for in-context learning to ease this issue. It is inspired by a phenomenon that the in-context learning paradigm produces incorrect labels when inferring training instances, which provides a useful supervised signal to calibrate predictions. Thus, our method directly augments the predictions with a $k$-nearest-neighbor ($k$NN) classifier over a datastore of cached few-shot instance representations obtained by PLMs and their corresponding labels. Then adaptive neighbor selection and feature regularization modules are introduced to make full use of a few support instances to reduce the $k$NN retrieval noise. Experiments on various few-shot text classification tasks demonstrate that our method significantly improves in-context learning, while even achieving comparable performance with state-of-the-art tuning-based approaches in some sentiment analysis tasks.
翻訳日:2022-12-06 16:49:15 公開日:2022-12-05
# Fake NewsとHate Speech:共通言語

Fake News and Hate Speech: Language in Common ( http://arxiv.org/abs/2212.02352v1 )

ライセンス: Link先を確認
Berta Chulvi, Alejandro Toselli, Paolo Rosso(参考訳) 本稿では、フェイクニュースとヘイトスピーチスプレッドラーが言語における共通パターンを共有しているかという研究課題を提起する。 3つの異なるデータセットで新しいインデックス、ingroup と outgroup のインデックスを計算し、両方の現象が "us vs they" の物語を共有していることを示す。

In this paper we raise the research question of whether fake news and hate speech spreaders share common patterns in language. We compute a novel index, the ingroup vs outgroup index, in three different datasets and we show that both phenomena share an "us vs them" narrative.
翻訳日:2022-12-06 16:48:52 公開日:2022-12-05
# 事前学習言語モデルにおけるテスト時間における分布変化の対応

Addressing Distribution Shift at Test Time in Pre-trained Language Models ( http://arxiv.org/abs/2212.02384v1 )

ライセンス: Link先を確認
Ayush Singh, John E. Ortega(参考訳) 最先端の事前学習言語モデル(plm)は、ほとんどの言語処理タスクに適用された場合、他のモデルよりも優れています。 しかし、PLMは、ソーストレーニングセットと同じ分布からテスト時にデータが得られない場合に発生する現象である分散シフトの下で性能が低下することが判明した。 同様に難しいのは、長いラベルのフィードバックループのような問題のために、リアルタイムでラベルを取得する作業です。 上記の課題に対処する適切な方法の欠如は、PLMを別の分布に継続的に適応させるアプローチの必要性を構成する。 教師なしのドメイン適応は、ソースモデルとラベルなしのターゲットドメインに適応する。 データ拡張のような手法はいくつかのシナリオでモデルに適応できるが、分布シフト問題に対処するためにあまり研究されていない。 本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法(MEMO-CL)を提案する。 提案手法は, PLMの出力分布のエントロピーを最小化するために, データ拡張および適応における最新の教師なし手法を利用する。 MEMO-CLは、テストセット内の単一の観察から追加サンプルのバッチで動作する。 導入されるテクニックは教師なし、ドメイン非依存、実装が容易であり、追加データを必要としない。 実験の結果,現在の試験時間適応ベースラインよりも3%改善した。

State-of-the-art pre-trained language models (PLMs) outperform other models when applied to the majority of language processing tasks. However, PLMs have been found to degrade in performance under distribution shift, a phenomenon that occurs when data at test-time does not come from the same distribution as the source training set. Equally as challenging is the task of obtaining labels in real-time due to issues like long-labeling feedback loops. The lack of adequate methods that address the aforementioned challenges constitutes the need for approaches that continuously adapt the PLM to a distinct distribution. Unsupervised domain adaptation adapts a source model to an unseen as well as unlabeled target domain. While some techniques such as data augmentation can adapt models in several scenarios, they have only been sparsely studied for addressing the distribution shift problem. In this work, we present an approach (MEMO-CL) that improves the performance of PLMs at test-time under distribution shift. Our approach takes advantage of the latest unsupervised techniques in data augmentation and adaptation to minimize the entropy of the PLM's output distribution. MEMO-CL operates on a batch of augmented samples from a single observation in the test set. The technique introduced is unsupervised, domain-agnostic, easy to implement, and requires no additional data. Our experiments result in a 3% improvement over current test-time adaptation baselines.
翻訳日:2022-12-06 16:48:46 公開日:2022-12-05
# 機械翻訳のための文脈内事例選択

In-context Examples Selection for Machine Translation ( http://arxiv.org/abs/2212.02437v1 )

ライセンス: Link先を確認
Sweta Agrawal, Chunting Zhou, Mike Lewis, Luke Zettlemoyer, Marjan Ghazvininejad(参考訳) 大規模生成モデルは、モデルへのタスクの記述にいくつかの例を使用して、コンテキスト内学習を使用して、幅広い自然言語処理(nlp)タスクを実行する素晴らしい能力を示しています。 機械翻訳(mt)の場合、これらの例は通常、評価セットと同様の分布を持つ開発データセットからランダムにサンプリングされる。 しかし、これらの文脈内例の選択とその順序が出力翻訳品質に与える影響は明らかでない。 本研究では,ドメイン内およびドメイン外設定の両方において,MTの適切なコンテキスト内例の特性を理解することを目的とする。 テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼすことを示す。 複数のランダムな例を結合することでノイズの影響は低減されるが、開発データセットの翻訳品質を最大化するために最適化された単一の優れたプロンプトは、事前学習された言語モデルから学習情報を導き出すことができる。 テストソースとn-gramのオーバーラップに基づく同様の例を追加することで、出力の翻訳品質が大幅に向上し、ドメイン外データセット4つのうち2つで強力なkn-mtベースラインを上回っている。

Large-scale generative models show an impressive ability to perform a wide range of Natural Language Processing (NLP) tasks using in-context learning, where a few examples are used to describe a task to the model. For Machine Translation (MT), these examples are typically randomly sampled from the development dataset with a similar distribution as the evaluation set. However, it is unclear how the choice of these in-context examples and their ordering impacts the output translation quality. In this work, we aim to understand the properties of good in-context examples for MT in both in-domain and out-of-domain settings. We show that the translation quality and the domain of the in-context examples matter and that 1-shot noisy unrelated example can have a catastrophic impact on output quality. While concatenating multiple random examples reduces the effect of noise, a single good prompt optimized to maximize translation quality on the development dataset can elicit learned information from the pre-trained language model. Adding similar examples based on an n-gram overlap with the test source significantly and consistently improves the translation quality of the outputs, outperforming a strong kNN-MT baseline in 2 out of 4 out-of-domain datasets.
翻訳日:2022-12-06 16:48:28 公開日:2022-12-05
# 量子化ワッサースタインによる単語埋め込み空間のアライメント

Quantized Wasserstein Procrustes Alignment of Word Embedding Spaces ( http://arxiv.org/abs/2212.02468v1 )

ライセンス: Link先を確認
Prince O Aboagye, Yan Zheng, Michael Yeh, Junpeng Wang, Zhongfang Zhuang, Huiyuan Chen, Liang Wang, Wei Zhang, Jeff Phillips(参考訳) 最適輸送(OT)は、アライメントタスクをWasserstein-Procrustes問題として表す、教師なし言語間単語埋め込み(CLWE)モデルの下での置換行列を推定するための有用な幾何学的枠組みを提供する。 しかし、置換行列を計算するためにシンクホーンを経由する線形プログラミングアルゴリズムと近似otソルバは、それぞれ入力サイズで立方体と二次体にスケールするため、かなりの計算負荷を負う。 これにより、ot距離をより大きな入力サイズで正確に計算することができなくなり、置換行列の近似品質が低くなり、学習伝達関数やマッパーのロバストが低下する。 本稿では,量子化waserstein procrustes (qwp) と呼ばれる非教師付き投影型clweモデルを提案する。 qWPは、安価なサンプリング手順を与えられた置換行列を推定するために、ソースとターゲットのモノリンガル埋め込み空間の量子化ステップに依存する。 このアプローチは、固定計算コストが与えられた経験的otソルバの近似品質を実質的に改善する。 我々は,qWPがバイリンガル語彙誘導(BLI)タスクの最先端結果を達成することを示す。

Optimal Transport (OT) provides a useful geometric framework to estimate the permutation matrix under unsupervised cross-lingual word embedding (CLWE) models that pose the alignment task as a Wasserstein-Procrustes problem. However, linear programming algorithms and approximate OT solvers via Sinkhorn for computing the permutation matrix come with a significant computational burden since they scale cubically and quadratically, respectively, in the input size. This makes it slow and infeasible to compute OT distances exactly for a larger input size, resulting in a poor approximation quality of the permutation matrix and subsequently a less robust learned transfer function or mapper. This paper proposes an unsupervised projection-based CLWE model called quantized Wasserstein Procrustes (qWP). qWP relies on a quantization step of both the source and target monolingual embedding space to estimate the permutation matrix given a cheap sampling procedure. This approach substantially improves the approximation quality of empirical OT solvers given fixed computational cost. We demonstrate that qWP achieves state-of-the-art results on the Bilingual lexicon Induction (BLI) task.
翻訳日:2022-12-06 16:48:05 公開日:2022-12-05
# メタ学習型高速言語モデル

Meta-Learning Fast Weight Language Models ( http://arxiv.org/abs/2212.02475v1 )

ライセンス: Link先を確認
Kevin Clark, Kelvin Guu, Ming-Wei Chang, Panupong Pasupat, Geoffrey Hinton, Mohammad Norouzi(参考訳) 言語モデル(LM)の動的評価は、以前のトークンからの勾配情報を用いてテスト時にモデルパラメータを適応し、LM性能を大幅に改善する。 しかし、標準的な推論の3倍以上の計算を必要とする。 我々は,勾配更新を線形注意として表現することにより,より効率的に動的評価の利点を提供する神経コンポーネントであるfast weight layer (fwls)を提案する。 動的評価よりも重要な改善点は、fwlをトレーニング時に適用することで、モデルがグラデーション更新をうまく利用するために学習できることである。 FWLは、既存のトランスフォーマーモデルに簡単に追加でき、実行に必要な計算量やメモリは比較的少なく、言語モデリングの難易度は大幅に改善される。

Dynamic evaluation of language models (LMs) adapts model parameters at test time using gradient information from previous tokens and substantially improves LM performance. However, it requires over 3x more compute than standard inference. We present Fast Weight Layers (FWLs), a neural component that provides the benefits of dynamic evaluation much more efficiently by expressing gradient updates as linear attention. A key improvement over dynamic evaluation is that FWLs can also be applied at training time so the model learns to make good use of gradient updates. FWLs can easily be added on top of existing transformer models, require relatively little extra compute or memory to run, and significantly improve language modeling perplexity.
翻訳日:2022-12-06 16:47:46 公開日:2022-12-05
# GNN-SL: GNNによる最も近い事例に基づくシーケンスラベリング

GNN-SL: Sequence Labeling Based on Nearest Examples via GNN ( http://arxiv.org/abs/2212.02017v1 )

ライセンス: Link先を確認
Shuhe Wang, Yuxian Meng, Rongbin Ouyang, Jiwei Li, Tianwei Zhang, Lingjuan Lyu, Guoyin Wang(参考訳) 本研究では、シーケンスラベリング(SL)タスクにおける長い尾のケースをよりよく扱うために、トレーニングセット全体から取得した類似のタグ付き例でバニラSLモデル出力を増強するグラフニューラルネットワークシーケンスラベリング(GNN-SL)を導入する。 検索したタグ付け例のすべてがモデル予測の恩恵を受けるわけではないため、異種グラフを構築し、グラフニューラルネットワーク(GNN)を用いて検索したタグ付け例と入力語列の間の情報を転送する。 隣人からの情報を集約する拡張ノードを使用して予測を行う。 この戦略により、モデルが類似のタグ付けサンプルを直接取得し、予測の一般的な品質を改善することができる。 我々は,NER(Nond Entity Recognition),POS(Part of Speech Tagging),CWS(Human Word Segmentation)の3つの典型的なシーケンスラベリングタスクについて,GNN-SLの顕著な性能を示すために,様々な実験を行った。 特に、GNN-SLはPKUで96.9 (+0.2)、CITYUで98.3 (+0.4)、MSRで98.5 (+0.2)、CWSタスクでASで96.9 (+0.2)、NERデータセットでSOTAのパフォーマンスに匹敵する結果を得る。

To better handle long-tail cases in the sequence labeling (SL) task, in this work, we introduce graph neural networks sequence labeling (GNN-SL), which augments the vanilla SL model output with similar tagging examples retrieved from the whole training set. Since not all the retrieved tagging examples benefit the model prediction, we construct a heterogeneous graph, and leverage graph neural networks (GNNs) to transfer information between the retrieved tagging examples and the input word sequence. The augmented node which aggregates information from neighbors is used to do prediction. This strategy enables the model to directly acquire similar tagging examples and improves the general quality of predictions. We conduct a variety of experiments on three typical sequence labeling tasks: Named Entity Recognition (NER), Part of Speech Tagging (POS), and Chinese Word Segmentation (CWS) to show the significant performance of our GNN-SL. Notably, GNN-SL achieves SOTA results of 96.9 (+0.2) on PKU, 98.3 (+0.4) on CITYU, 98.5 (+0.2) on MSR, and 96.9 (+0.2) on AS for the CWS task, and results comparable to SOTA performances on NER datasets, and POS datasets.
翻訳日:2022-12-06 16:39:16 公開日:2022-12-05
# framenetで定義したモデルにクエリする: フレームセマンティックロールラベリングの効果的な方法

Query Your Model with Definitions in FrameNet: An Effective Method for Frame Semantic Role Labeling ( http://arxiv.org/abs/2212.02036v1 )

ライセンス: Link先を確認
Ce Zheng, Yiming Wang, Baobao Chang(参考訳) Frame Semantic Role Labeling (FSRL)は、引数を特定し、FrameNetで定義されたフレームセマンティックロールにラベル付けする。 これまでの研究では、FSRLを議論の識別と役割分類に分割する傾向があった。 このような手法は、通常、役割分類を単純な多クラス分類としてモデル化し、個別に引数を扱い、ラベルの意味論や議論間の相互作用を無視して、モデルの性能と一般化を妨げる。 本稿では,これらの問題を緩和するために,FrameNet (AGED) で定義した ArGument Extractor というクエリベースのフレームワークを提案する。 FrameNetにおけるフレームとフレーム要素(FE)の定義は、テキスト内での引数のクエリに使用できる。 テキスト定義ペアの符号化は、ラベルセマンティクスの学習と議論の相互作用の強化においてモデルを導くことができる。 実験の結果、AGEDは2つのFrameNetデータセットで最大1.3F1スコア、ゼロショットとスプリットショットのシナリオではAGEDの一般化能力より優れていた。 私たちのコードと技術付録はhttps://github.com/pkunlp-icler/year.comで閲覧できます。

Frame Semantic Role Labeling (FSRL) identifies arguments and labels them with frame semantic roles defined in FrameNet. Previous researches tend to divide FSRL into argument identification and role classification. Such methods usually model role classification as naive multi-class classification and treat arguments individually, which neglects label semantics and interactions between arguments and thus hindering performance and generalization of models. In this paper, we propose a query-based framework named ArGument Extractor with Definitions in FrameNet (AGED) to mitigate these problems. Definitions of frames and frame elements (FEs) in FrameNet can be used to query arguments in text. Encoding text-definition pairs can guide models in learning label semantics and strengthening argument interactions. Experiments show that AGED outperforms previous state-of-the-art by up to 1.3 F1-score in two FrameNet datasets and the generalization power of AGED in zero-shot and fewshot scenarios. Our code and technical appendix is available at https://github.com/PKUnlp-icler/AGED.
翻訳日:2022-12-06 16:38:48 公開日:2022-12-05
# 医療領域におけるドメイン適応型多言語ニューラルマシン翻訳の効果

Impact of Domain-Adapted Multilingual Neural Machine Translation in the Medical Domain ( http://arxiv.org/abs/2212.02143v1 )

ライセンス: Link先を確認
Miguel Rios, Raluca-Maria Chereji, Alina Secara, Dragos Ciobanu(参考訳) マルチリンガルニューラルネットワーク翻訳(MNMT)モデルは、トレーニング中に多くの言語ペアを活用し、高リソース言語からの知識を伝達することで、低リソース言語の翻訳品質を改善する。 自動メトリクスを用いた英語-ローマ語の医療領域におけるドメイン適応型mnmtモデルの品質と,用語固有のエラーカテゴリを含むヒューマンエラータイポロジーアノテーションについて検討した。 ドメイン外MNMTとドメイン内適応MNMTを比較した。 ドメイン内MNMTモデルは、すべての自動測定値においてドメイン外MNMTよりも優れ、用語エラーが少ない。

Multilingual Neural Machine Translation (MNMT) models leverage many language pairs during training to improve translation quality for low-resource languages by transferring knowledge from high-resource languages. We study the quality of a domain-adapted MNMT model in the medical domain for English-Romanian with automatic metrics and a human error typology annotation which includes terminology-specific error categories. We compare the out-of-domain MNMT with the in-domain adapted MNMT. The in-domain MNMT model outperforms the out-of-domain MNMT in all measured automatic metrics and produces fewer terminology errors.
翻訳日:2022-12-06 16:38:30 公開日:2022-12-05
# 情報ゲインによるベイズ学習は、強固な敵対的防御のリスクを正当化する

Bayesian Learning with Information Gain Provably Bounds Risk for a Robust Adversarial Defense ( http://arxiv.org/abs/2212.02003v1 )

ライセンス: Link先を確認
Bao Gia Doan, Ehsan Abbasnejad, Javen Qinfeng Shi, Damith C. Ranasinghe(参考訳) 敵攻撃に対して堅牢なディープニューラルネットワークモデルを学習するための新しいアルゴリズムを提案する。 従来のアルゴリズムでは、逆向きに訓練されたベイズニューラルネットワーク(BNN)が堅牢性を向上している。 ベイズモデルの多モード後角分布を近似する逆学習アプローチがモード崩壊につながることを認識し,モデルのロバスト性と性能の達成は最適ではないことを示した。 代わりに,マルチモーダル後方分布をよりよく近似するために,モード崩壊を防止することを提案する。 第二に、頑健なモデルが摂動を無視し、入力の情報内容のみを考慮すべきという直観に基づいて、情報獲得の目的を概念化し、その目的を定式化し、良心的および敵対的両方のトレーニングインスタンスから学習した情報を類似するように強制する。 重要なことは 我々は,情報獲得目標を最小化することで,従来の経験的リスクにアプローチする敵のリスクを証明し,実証する。 我々は,我々の努力が,BNNを敵対的に訓練する原則的手法の基礎となると信じている。 CIFAR-10 および STL-10 データセットの 0.035 歪みで PGD 攻撃下では, 対向訓練と Adv-BNN に比較して, 強靭性は 20% まで向上した。

We present a new algorithm to learn a deep neural network model robust against adversarial attacks. Previous algorithms demonstrate an adversarially trained Bayesian Neural Network (BNN) provides improved robustness. We recognize the adversarial learning approach for approximating the multi-modal posterior distribution of a Bayesian model can lead to mode collapse; consequently, the model's achievements in robustness and performance are sub-optimal. Instead, we first propose preventing mode collapse to better approximate the multi-modal posterior distribution. Second, based on the intuition that a robust model should ignore perturbations and only consider the informative content of the input, we conceptualize and formulate an information gain objective to measure and force the information learned from both benign and adversarial training instances to be similar. Importantly. we prove and demonstrate that minimizing the information gain objective allows the adversarial risk to approach the conventional empirical risk. We believe our efforts provide a step toward a basis for a principled method of adversarially training BNNs. Our model demonstrate significantly improved robustness--up to 20%--compared with adversarial training and Adv-BNN under PGD attacks with 0.035 distortion on both CIFAR-10 and STL-10 datasets.
翻訳日:2022-12-06 16:23:48 公開日:2022-12-05
# FedUKD:衛星とストリートビューからの土地利用分類のための知識蒸留による連合UNetモデル

FedUKD: Federated UNet Model with Knowledge Distillation for Land Use Classification from Satellite and Street Views ( http://arxiv.org/abs/2212.02196v1 )

ライセンス: Link先を確認
Renuga Kanagavelu, Kinshuk Dua, Pratik Garai, Susan Elias, Neha Thomas, Simon Elias, Qingsong Wei, Goh Siow Mong Rick, Liu Yong(参考訳) フェデレートされたディープラーニングフレームワークは、ローカルな土地利用を監視し、世界中の環境影響を推測するために戦略的に使用できる。 土地利用分類のグローバルモデルを構築するには、世界中の分散データが必要である。 このアプリケーションドメインにおける連合アプローチの必要性は、分散ロケーションからのデータ転送を避け、通信コストを削減するためにネットワーク帯域を節約することです。 衛星画像とストリートビュー画像のセマンティックセグメンテーションにフェデレートUNetモデルを用いる。 提案するアーキテクチャの目新しさは,コミュニケーションコストと応答時間を削減するための知識蒸留の統合である。 得られた精度は95%以上であり,ストリートビューと衛星画像では,それぞれ17回以上,62回以上,有意なモデル圧縮を実現した。 提案フレームワークは,地球上の気候変動のリアルタイム追跡において,ゲームチェンジャーとなる可能性を持っている。

Federated Deep Learning frameworks can be used strategically to monitor Land Use locally and infer environmental impacts globally. Distributed data from across the world would be needed to build a global model for Land Use classification. The need for a Federated approach in this application domain would be to avoid transfer of data from distributed locations and save network bandwidth to reduce communication cost. We use a Federated UNet model for Semantic Segmentation of satellite and street view images. The novelty of the proposed architecture is the integration of Knowledge Distillation to reduce communication cost and response time. The accuracy obtained was above 95% and we also brought in a significant model compression to over 17 times and 62 times for street View and satellite images respectively. Our proposed framework has the potential to be a game-changer in real-time tracking of climate change across the planet.
翻訳日:2022-12-06 16:23:24 公開日:2022-12-05
# 表面畳み込みネットワークを用いたfMRIデータからの自然画像刺激の復号

Decoding natural image stimuli from fMRI data with a surface-based convolutional network ( http://arxiv.org/abs/2212.02409v1 )

ライセンス: Link先を確認
Zijin Gu, Keith Jamison, Amy Kuceyeski and Mert Sabuncu(参考訳) 信号対雑音比が低く、機能的MRIデータの解像度が限られており、自然画像の複雑さが高いため、人間の脳のfMRI測定から視覚刺激を再構成することは難しい課題である。 本研究では,コーテックス2イメージ(Cortex2Image)と呼ばれる,視覚刺激を高いセマンティック忠実度と細かな詳細度で復号する手法を提案する。 特に,脳からの反応から意味的画像の特徴(cortex2semantic)にマップする表面型畳み込みネットワークモデルを訓練する。 次に、このモデルと高品質な画像生成装置(インスタンス・コンディション付きGAN)を組み合わせることで、脳反応から微細な画像特徴への別のマッピングを変分アプローチ(Cortex2Detail)を用いて訓練する。 提案手法により得られた画像再構成は, 接地刺激と良好な類似性を得られながら, 最先端のセマンティカル忠実性を実現する。 私たちのコードは、https://github.com/zijin-gu/meshconv-decoding.gitで利用可能です。

Due to the low signal-to-noise ratio and limited resolution of functional MRI data, and the high complexity of natural images, reconstructing a visual stimulus from human brain fMRI measurements is a challenging task. In this work, we propose a novel approach for this task, which we call Cortex2Image, to decode visual stimuli with high semantic fidelity and rich fine-grained detail. In particular, we train a surface-based convolutional network model that maps from brain response to semantic image features first (Cortex2Semantic). We then combine this model with a high-quality image generator (Instance-Conditioned GAN) to train another mapping from brain response to fine-grained image features using a variational approach (Cortex2Detail). Image reconstructions obtained by our proposed method achieve state-of-the-art semantic fidelity, while yielding good fine-grained similarity with the ground-truth stimulus. Our code is available at: https://github.com/zijin-gu/meshconv-decoding.git.
翻訳日:2022-12-06 16:23:08 公開日:2022-12-05
# 新しい深部増強・アンサンブル学習フレームワークを用いたマラリア寄生虫検出

Malaria Parasitic Detection using a New Deep Boosted and Ensemble Learning Framework ( http://arxiv.org/abs/2212.02477v1 )

ライセンス: Link先を確認
Saddam Hussain Khan(参考訳) マラリアは、毎年、赤血球や何百万もの蚊に感染する女性の嫌気性蚊によって注入される致命的なプラスモジウム寄生虫である。 しかし、臨床実践における専門家の手動スクリーニングは手間がかかり、エラーを起こしやすい。 そこで,新たに開発されたBoosted-BR-STM畳み込みニューラルネットワーク(CNN)とアンサンブル分類器を組み合わせたDBEL(Deep Boosted and Ensemble Learning)フレームワークを開発した。 提案したSTM-SB-BRNetは、拡張畳み込みブロックベースの分割変換マージ(STM)と特徴マップSqueezing-Boosting(SB)のアイデアに基づいている。 さらに、新しいstmブロックは、マラリア原虫の均質性、多様性、およびパターンとの境界線を学ぶために、地域的および境界的操作を使用する。 さらに,STMブロックの抽象的,メディア的,結論的レベルにおいて,Transfer Learningに基づく新しい特徴マップSBを用いて,寄生パターンの微妙な強度とテクスチャ変化を学習することで,多様なブーストチャネルを実現する。 提案したDBELフレームワークは、顕著で多様なブーストされたチャネルの積み重ねを含意し、ML分類器のアンサンブルに開発されたBoosted-BR-STMの識別特性を提供する。 提案フレームワークは,アンサンブル学習の識別能力と一般化を改善する。 さらに、開発したBoosted-BR-STMとカスタマイズされたCNNの深い特徴空間をML分類器に入力して比較分析を行う。 提案したDBELフレームワークは、離散ウェーブレット変換を用いて拡張されたNIHマラリアデータセットの既存の技術よりも優れた特徴空間を提供する。 提案したDBELフレームワークは精度98.50%,感度0.9920,Fスコア0.9850,AUC0.997を達成し,マラリア原虫スクリーニングに利用した。

Malaria is a potentially fatal plasmodium parasite injected by female anopheles mosquitoes that infect red blood cells and millions worldwide yearly. However, specialists' manual screening in clinical practice is laborious and prone to error. Therefore, a novel Deep Boosted and Ensemble Learning (DBEL) framework, comprising the stacking of new Boosted-BR-STM convolutional neural networks (CNN) and ensemble classifiers, is developed to screen malaria parasite images. The proposed STM-SB-BRNet is based on a new dilated-convolutional block-based split transform merge (STM) and feature-map Squeezing-Boosting (SB) ideas. Moreover, the new STM block uses regional and boundary operations to learn the malaria parasite's homogeneity, heterogeneity, and boundary with patterns. Furthermore, the diverse boosted channels are attained by employing Transfer Learning-based new feature-map SB in STM blocks at the abstract, medium, and conclusion levels to learn minute intensity and texture variation of the parasitic pattern. The proposed DBEL framework implicates the stacking of prominent and diverse boosted channels and provides the generated discriminative features of the developed Boosted-BR-STM to the ensemble of ML classifiers. The proposed framework improves the discrimination ability and generalization of ensemble learning. Moreover, the deep feature spaces of the developed Boosted-BR-STM and customized CNNs are fed into ML classifiers for comparative analysis. The proposed DBEL framework outperforms the existing techniques on the NIH malaria dataset that are enhanced using discrete wavelet transform to enrich feature space. The proposed DBEL framework achieved accuracy (98.50%), sensitivity (0.9920), F-score (0.9850), and AUC (0.997), which suggest it to be utilized for malaria parasite screening.
翻訳日:2022-12-06 16:22:47 公開日:2022-12-05
# TIDE: グラフによるディープラーニングのための時間微分拡散

TIDE: Time Derivative Diffusion for Deep Learning on Graphs ( http://arxiv.org/abs/2212.02483v1 )

ライセンス: Link先を確認
Maximilian Krahn, Maysam Behmanesh, Maks Ovsjanikov(参考訳) グラフニューラルネットワークの顕著なパラダイムは、メッセージパッシングフレームワークに基づいている。 この枠組みでは、隣接ノード間のみの情報通信を実現する。 このパラダイムを使用するアプローチの課題は、深い畳み込みネットワークが行き過ぎになりがちであるため、ノード間の効率的で正確な \textit{long distance communication} を保証することである。 本稿では,時間微分グラフ拡散(TIDE)に基づく学習可能な時間パラメータを用いた新しい手法を提案する。 提案手法では,異なるタスクやネットワークチャネル間の空間的拡散を適応させることで,中長距離通信を効率的に行うことができる。 さらに,我々のアーキテクチャはローカルメッセージパッシングを直接可能にするので,ローカルメッセージパッシングアプローチの表現力から継承できることを示す。 広く使用されているグラフベンチマークでは、同等のパフォーマンスを実現し、合成メッシュデータセットでは、GCNやGRANDといった最先端の手法よりも大幅にパフォーマンスを向上しています。

A prominent paradigm for graph neural networks is based on the message passing framework. In this framework, information communication is realized only between neighboring nodes. The challenge of approaches that use this paradigm is to ensure efficient and accurate \textit{long distance communication} between nodes, as deep convolutional networks are prone to over-smoothing. In this paper, we present a novel method based on time derivative graph diffusion (TIDE), with a learnable time parameter. Our approach allows to adapt the spatial extent of diffusion across different tasks and network channels, thus enabling medium and long-distance communication efficiently. Furthermore, we show that our architecture directly enables local message passing and thus inherits from the expressive power of local message passing approaches. We show that on widely used graph benchmarks we achieve comparable performance and on a synthetic mesh dataset we outperform state-of-the-art methods like GCN or GRAND by a significant margin.
翻訳日:2022-12-06 16:22:11 公開日:2022-12-05
# 共変量シフトの祝福と呪い--逆学習ダイナミクス、方向収束、平衡

Blessings and Curses of Covariate Shifts: Adversarial Learning Dynamics, Directional Convergence, and Equilibria ( http://arxiv.org/abs/2212.02457v1 )

ライセンス: Link先を確認
Tengyuan Liang(参考訳) 共変量分布の変化と逆の摂動は、従来の統計学習フレームワークに頑健な課題を呈している: テスト共変量分布の小さな変化は、トレーニング分布に基づいて学習された統計モデルの性能に著しく影響する。 モデルのパフォーマンスは通常、外挿(expolation)が発生すると低下する:すなわち、トレーニング分布が不足している領域への共変量シフト、そして当然、学習されたモデルにはほとんど情報がない。 頑健性や正規化の考慮においては, 対向摂動法を治療として提案するが, 学習モデルから, 対向的共変量シフトがどの領域に焦点を絞るかについて, さらに検討する必要がある。 本稿では,無限次元環境下での回帰と分類の両面から,外挿領域を正確に特徴づける。 逐次ゲームフレームワークにおける平衡モデル(ベイズ最適モデル)のその後の学習に対する逆共変量シフトの影響について検討する。 敵対的学習ゲームのダイナミクスを活用し,均衡学習への共変量シフトと実験設計の奇妙な効果を明らかにする。 特に,(1)回帰の祝福,(2)指数関数的速度での共変量シフト,(2)迅速な後続学習のための最適実験設計,(2)分類の呪い,(2)後続学習をトラッピングする最も難しい実験設計に高速に逆共変量シフト,という特徴ある現象を示す2つの方向収束結果を確立した。

Covariate distribution shifts and adversarial perturbations present robustness challenges to the conventional statistical learning framework: seemingly small unconceivable shifts in the test covariate distribution can significantly affect the performance of the statistical model learned based on the training distribution. The model performance typically deteriorates when extrapolation happens: namely, covariates shift to a region where the training distribution is scarce, and naturally, the learned model has little information. For robustness and regularization considerations, adversarial perturbation techniques are proposed as a remedy; however, more needs to be studied about what extrapolation region adversarial covariate shift will focus on, given a learned model. This paper precisely characterizes the extrapolation region, examining both regression and classification in an infinite-dimensional setting. We study the implications of adversarial covariate shifts to subsequent learning of the equilibrium -- the Bayes optimal model -- in a sequential game framework. We exploit the dynamics of the adversarial learning game and reveal the curious effects of the covariate shift to equilibrium learning and experimental design. In particular, we establish two directional convergence results that exhibit distinctive phenomena: (1) a blessing in regression, the adversarial covariate shifts in an exponential rate to an optimal experimental design for rapid subsequent learning, (2) a curse in classification, the adversarial covariate shifts in a subquadratic rate fast to the hardest experimental design trapping subsequent learning.
翻訳日:2022-12-06 16:21:05 公開日:2022-12-05
# 費用に敏感な戦略エージェントを用いた分散確率勾配降下

Distributed Stochastic Gradient Descent with Cost-Sensitive and Strategic Agents ( http://arxiv.org/abs/2212.02049v1 )

ライセンス: Link先を確認
Abdullah Basar Akbay, Cihan Tepedelenlioglu(参考訳) 本研究では,コストに敏感で戦略的なエージェントがサーバで学習モデルを訓練する,連合型学習環境について考察する。 各ラウンド中、各エージェントはトレーニングデータのミニバッチをサンプリングし、グラデーション更新を送信する。 ミニバッチサイズ選択の関数の増加に伴い、エージェントはデータ収集、勾配計算、通信に関連するコストを発生させる。 エージェントはミニバッチサイズを選択する自由があり、トレーニングからオプトアウトすることもある。 コストを削減するために、エージェントはミニバッチサイズを減少させ、勾配更新のノイズレベルを増加させる可能性がある。 サーバは、エージェントの費用を補償し、インセンティブを付与する報酬を提供することができるが、エージェントの真のミニバッチサイズを検証する能力が欠けている。 この課題に対処するために,提案した報酬機構は,他のエージェントが提供する勾配から構築された基準への距離に応じて,各エージェントの勾配の質を評価する。 提案した報奨機構は,サーバの要求に応じて,エージェントがミニバッチサイズの選択を決定するような協調的なナッシュ均衡を有することを示す。

This study considers a federated learning setup where cost-sensitive and strategic agents train a learning model with a server. During each round, each agent samples a minibatch of training data and sends his gradient update. As an increasing function of his minibatch size choice, the agent incurs a cost associated with the data collection, gradient computation and communication. The agents have the freedom to choose their minibatch size and may even opt out from training. To reduce his cost, an agent may diminish his minibatch size, which may also cause an increase in the noise level of the gradient update. The server can offer rewards to compensate the agents for their costs and to incentivize their participation but she lacks the capability of validating the true minibatch sizes of the agents. To tackle this challenge, the proposed reward mechanism evaluates the quality of each agent's gradient according to the its distance to a reference which is constructed from the gradients provided by other agents. It is shown that the proposed reward mechanism has a cooperative Nash equilibrium in which the agents determine the minibatch size choices according to the requests of the server.
翻訳日:2022-12-06 16:14:32 公開日:2022-12-05
# gpuシミュレーションと高品質デモンストレーションによる対話型ヒューマンライクな操作学習の高速化

Accelerating Interactive Human-like Manipulation Learning with GPU-based Simulation and High-quality Demonstrations ( http://arxiv.org/abs/2212.02126v1 )

ライセンス: Link先を確認
Malte Mosbach, Kara Moraw, Sven Behnke(参考訳) ロボットハンドによる巧妙な操作は、高次元の状態と動作空間と複雑な接触のため、ロボット工学において難しい課題である。 それでも、ヒューマノイドロボットが非構造化実環境で動作するためには、巧妙なクローズドループ操作が必要である。 強化学習(RL)は伝統的に、このような複雑な制御問題を最適化するために、膨大な相互作用データ要求を課してきた。 我々は,GPUに基づくシミュレーションの最近の進歩と,これらの領域でRLトレーニングを実現するために,ポリシー探索を有望な行動へと導く上での模倣学習の強みを活用する新しいフレームワークを導入する。 そこで本研究では,コンタクトリッチなタスクを対話的に操作するための没入型仮想現実遠隔操作インタフェースと,日常生活のタスクに触発された操作環境について述べる。 最後に,超並列rlと模倣学習の相補的な強みを示し,頑健かつ自然な行動を与える。 トレーニング済みのポリシー、ソースコード、収集されたデモデータセットのビデオはhttps://maltemosbach.github.io/interactive_ human_like_manipulation/で公開されている。

Dexterous manipulation with anthropomorphic robot hands remains a challenging problem in robotics because of the high-dimensional state and action spaces and complex contacts. Nevertheless, skillful closed-loop manipulation is required to enable humanoid robots to operate in unstructured real-world environments. Reinforcement learning (RL) has traditionally imposed enormous interaction data requirements for optimizing such complex control problems. We introduce a new framework that leverages recent advances in GPU-based simulation along with the strength of imitation learning in guiding policy search towards promising behaviors to make RL training feasible in these domains. To this end, we present an immersive virtual reality teleoperation interface designed for interactive human-like manipulation on contact rich tasks and a suite of manipulation environments inspired by tasks of daily living. Finally, we demonstrate the complementary strengths of massively parallel RL and imitation learning, yielding robust and natural behaviors. Videos of trained policies, our source code, and the collected demonstration datasets are available at https://maltemosbach.github.io/interactive_ human_like_manipulation/.
翻訳日:2022-12-06 16:14:15 公開日:2022-12-05
# 確率回路の公正性の証明

Certifying Fairness of Probabilistic Circuits ( http://arxiv.org/abs/2212.02474v1 )

ライセンス: Link先を確認
Nikil Roashan Selvam, Guy Van den Broeck, YooJung Choi(参考訳) 意思決定における機械学習システムの利用の増加に伴い、このようなシステムの公平性に関する疑問が中心となる。 アルゴリズムの公正性に関する既存の研究の多くは、統計的パリティや平等機会といった一般的な概念と同様に、予測時の特徴の完全な観察を前提としている。 しかし、偏りのパターンを見逃し、不正確にモデルが公平であることを証明できるため、部分的観測で予測できるモデルでは不十分である。 これを解決するために、最近導入された公平性の概念は、モデルが(部分的な)特徴観察によって特徴づけられる個人が、性別や人種のような1つ以上の敏感な属性を開示するだけで、大きく異なる決定を受けるような、識別パターンを示すかどうかを問うものである。 部分的な観察を明示的に考慮することで、これはより細かいフェアネスの概念を提供する。 本稿では,確率的モデルの一般クラス,すなわち確率的回路における識別パターンを探索するアルゴリズムを提案する。 対照的に、確率的回路は広い範囲の扱いやすい確率モデルのための統一的な枠組みを提供し、ベイズネットワークや確率的プログラムの特定のクラスからコンパイルすることも可能であり、より広く適用可能である。 さらに, 不公平なモデルでは, 識別パターンを迅速に発見し, より理解しやすいように蒸留することが有用である。 また、より効率的に識別パターンをマイニングするためのサンプリングベースアプローチを提案し、指数関数的に多くの識別パターンを効果的に要約できる最小パターン、最大パターン、パレートパターンなどの新しいパターンのクラスを導入する。

With the increased use of machine learning systems for decision making, questions about the fairness properties of such systems start to take center stage. Most existing work on algorithmic fairness assume complete observation of features at prediction time, as is the case for popular notions like statistical parity and equal opportunity. However, this is not sufficient for models that can make predictions with partial observation as we could miss patterns of bias and incorrectly certify a model to be fair. To address this, a recently introduced notion of fairness asks whether the model exhibits any discrimination pattern, in which an individual characterized by (partial) feature observations, receives vastly different decisions merely by disclosing one or more sensitive attributes such as gender and race. By explicitly accounting for partial observations, this provides a much more fine-grained notion of fairness. In this paper, we propose an algorithm to search for discrimination patterns in a general class of probabilistic models, namely probabilistic circuits. Previously, such algorithms were limited to naive Bayes classifiers which make strong independence assumptions; by contrast, probabilistic circuits provide a unifying framework for a wide range of tractable probabilistic models and can even be compiled from certain classes of Bayesian networks and probabilistic programs, making our method much more broadly applicable. Furthermore, for an unfair model, it may be useful to quickly find discrimination patterns and distill them for better interpretability. As such, we also propose a sampling-based approach to more efficiently mine discrimination patterns, and introduce new classes of patterns such as minimal, maximal, and Pareto optimal patterns that can effectively summarize exponentially many discrimination patterns
翻訳日:2022-12-06 16:13:41 公開日:2022-12-05
# DA-CIL:Domain Adaptive Class-Incremental 3D Object Detectionを目指して

DA-CIL: Towards Domain Adaptive Class-Incremental 3D Object Detection ( http://arxiv.org/abs/2212.02057v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Mingxi Xu, Peisheng Qian, Ramanpreet Singh Pahwa, Richard Chang(参考訳) ディープラーニングは、大規模なポイントクラウドデータセットの出現によって、3Dオブジェクト検出において顕著な成功を収めた。 しかし、過去の訓練されたクラスの深刻な性能劣化、すなわち破滅的な忘れ込みは、クラス数は不明または異なる場合の実際の展開において依然として重要な問題である。 さらに、異なるデータセットや異なる環境などによって生じるドメインシフトに遭遇した場合に失敗する単一ドメインシナリオに対して、既存の3Dクラスインクリメンタル検出手法を開発した。 本稿では、ドメインシフト下でのクラス増分学習(class-incremental learning)という未検討のシナリオを特定し、新しい3Dドメイン適応型クラス増分オブジェクト検出フレームワークであるDA-CILを提案する。 次に、ドメイン適応型クラス増分学習のための異なるドメインからの2段階の知識蒸留を容易にするために、多段階整合性を検討する。 ドメイン適応型クラスインクリメンタル学習シナリオにおいて,提案手法がベースラインよりも有効であることを示す。

Deep learning has achieved notable success in 3D object detection with the advent of large-scale point cloud datasets. However, severe performance degradation in the past trained classes, i.e., catastrophic forgetting, still remains a critical issue for real-world deployment when the number of classes is unknown or may vary. Moreover, existing 3D class-incremental detection methods are developed for the single-domain scenario, which fail when encountering domain shift caused by different datasets, varying environments, etc. In this paper, we identify the unexplored yet valuable scenario, i.e., class-incremental learning under domain shift, and propose a novel 3D domain adaptive class-incremental object detection framework, DA-CIL, in which we design a novel dual-domain copy-paste augmentation method to construct multiple augmented domains for diversifying training distributions, thereby facilitating gradual domain adaptation. Then, multi-level consistency is explored to facilitate dual-teacher knowledge distillation from different domains for domain adaptive class-incremental learning. Extensive experiments on various datasets demonstrate the effectiveness of the proposed method over baselines in the domain adaptive class-incremental learning scenario.
翻訳日:2022-12-06 16:05:56 公開日:2022-12-05
# LE-UDA : 画像分割のためのラベル効率非教師なし領域適応

LE-UDA: Label-efficient unsupervised domain adaptation for medical image segmentation ( http://arxiv.org/abs/2212.02078v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Fangcheng Zhou, Kaixin Xu, Zeng Zeng, Cuntai Guan, S. Kevin Zhou(参考訳) 深層学習手法は医用画像のセグメンテーションでかなりの成功を収めているが、依然として2つの制限によって妨げられている。 (i)臨床におけるピクセルレベルのアノテーションの専門的かつ時間のかかる性質から,大規模なラベル付きデータセットに依存すること,及び (ii)特定のドメインから他のドメインへ一般化できないこと、特に、対象ドメインが厳しいドメインシフトを持つ異なるモダリティである場合。 最近のunsupervised domain adaptation~(UDA)技術は、豊富なラベル付きソースデータと未ラベルのターゲットデータを利用してドメインギャップを低減するが、これらの手法は限られたソースアノテーションで大幅に低下する。 本研究では,この未熟なuda問題に対処し,ソースドメインがターゲットドメインの領域シフトを示すだけでなく,ラベルの不足に苦しむような,挑戦的で価値のある現実的なシナリオについて検討する。 本稿では, ``label- efficient unsupervised domain adaptation'~(le-uda)と呼ばれる新しい汎用フレームワークを提案する。 LE-UDAでは、両ドメイン間の知識伝達のための自己認識一貫性と、UDAの機能アライメントを向上するために自己認識学習モジュールを構築する。 提案手法の有効性を評価するため,MRI と CT 画像間のクロスモーダルセグメンテーションのための2つのタスクについて広範な実験を行った。 実験の結果,le-udaは限定されたソースラベルを効率的に活用し,クロスドメインセグメンテーション性能を向上できることがわかった。 コードは、https://github.com/jacobzhaoziyuan/LE-UDA.comで入手できる。

While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.
翻訳日:2022-12-06 16:05:35 公開日:2022-12-05
# モデルベースプリミティブを用いたワンショットインシシタブルアニマタブルアバター

One-shot Implicit Animatable Avatars with Model-based Priors ( http://arxiv.org/abs/2212.02469v1 )

ライセンス: Link先を確認
Yangyi Huang, Hongwei Yi, Weiyang Liu, Haofan Wang, Boxi Wu, Wenxiao Wang, Binbin Lin, Debing Zhang, Deng Cai(参考訳) 人間のアバターを作る既存のニューラルレンダリング手法は、ビデオやマルチビュー画像のような濃密な入力信号を必要とするか、あるいは大規模な3d人間のデータセットから学習された事前情報を活用して、スパースビュー入力で再構成することができる。 これらの手法のほとんどは、1つの画像しか利用できない場合に現実的な再構築を達成できない。 現実的なアニマタブルな3次元人間のデータ効率向上を実現するために,1つの画像から人間固有の神経放射場を学習する新しい手法であるELICITを提案する。 人間は容易に身体の形状を再構築し、単一の画像から全身の衣服を推測できるという事実に触発され、ElicITの2つの先行する3次元幾何と視覚的セマンティクスを利用する。 特に、ELICITは、スキン付き頂点ベースのテンプレートモデル(SMPL)に先立って3Dボディ形状を導入し、CLIPベースの事前訓練モデルに先立って視覚的な衣服の意味を実装している。 両方のプリエントは、不可視領域で実行可能なコンテンツを作成するための最適化を共同でガイドするために使用される。 視覚的詳細をさらに改善するために,アバターの異なる部分を局所的に洗練するセグメンテーションに基づくサンプリング戦略を提案する。 ZJU-MoCAP、Human3.6M、DeepFashionを含む複数の一般的なベンチマークに関する総合的な評価は、ELICITが1つの画像しか利用できない場合、現在の最先端アバター作成方法よりも優れていることを示している。 コードはhttps://elicit3d.github.io.com/reseachで公開される。

Existing neural rendering methods for creating human avatars typically either require dense input signals such as video or multi-view images, or leverage a learned prior from large-scale specific 3D human datasets such that reconstruction can be performed with sparse-view inputs. Most of these methods fail to achieve realistic reconstruction when only a single image is available. To enable the data-efficient creation of realistic animatable 3D humans, we propose ELICIT, a novel method for learning human-specific neural radiance fields from a single image. Inspired by the fact that humans can easily reconstruct the body geometry and infer the full-body clothing from a single image, we leverage two priors in ELICIT: 3D geometry prior and visual semantic prior. Specifically, ELICIT introduces the 3D body shape geometry prior from a skinned vertex-based template model (i.e., SMPL) and implements the visual clothing semantic prior with the CLIP-based pre-trained models. Both priors are used to jointly guide the optimization for creating plausible content in the invisible areas. In order to further improve visual details, we propose a segmentation-based sampling strategy that locally refines different parts of the avatar. Comprehensive evaluations on multiple popular benchmarks, including ZJU-MoCAP, Human3.6M, and DeepFashion, show that ELICIT has outperformed current state-of-the-art avatar creation methods when only a single image is available. Code will be public for reseach purpose at https://elicit3d.github.io .
翻訳日:2022-12-06 16:05:03 公開日:2022-12-05
# PEANUT:未確認ターゲットの予測とナビゲーション

PEANUT: Predicting and Navigating to Unseen Targets ( http://arxiv.org/abs/2212.02497v1 )

ライセンス: Link先を確認
Albert J. Zhai, Shenlong Wang(参考訳) 新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。 本研究では,不完全セマンティックマップから観測対象の位置を予測することによって,これらの規則性を簡単に学習する手法を提案する。 従来のフロンティアポテンシャル予測やエゴセントリックマップ補完といった従来の予測に基づくナビゲーション手法と異なり,未発見の目標を直接予測し,これまでに検討されたすべての領域からグローバルコンテキストを活用する。 予測モデルは軽量で,比較的少量の受動的収集データを用いて教師あり方式で訓練することができる。 トレーニングが完了すると、モデルは強化学習を必要とせずに、ObjectNavのモジュールパイプラインに組み込むことができる。 HM3DおよびMP3D ObjectNavデータセットにおける本手法の有効性を検証する。 トレーニングに追加データを使用しなくても、両方のデータセットで最先端を実現することが分かっています。

Efficient ObjectGoal navigation (ObjectNav) in novel environments requires an understanding of the spatial and semantic regularities in environment layouts. In this work, we present a straightforward method for learning these regularities by predicting the locations of unobserved objects from incomplete semantic maps. Our method differs from previous prediction-based navigation methods, such as frontier potential prediction or egocentric map completion, by directly predicting unseen targets while leveraging the global context from all previously explored areas. Our prediction model is lightweight and can be trained in a supervised manner using a relatively small amount of passively collected data. Once trained, the model can be incorporated into a modular pipeline for ObjectNav without the need for any reinforcement learning. We validate the effectiveness of our method on the HM3D and MP3D ObjectNav datasets. We find that it achieves the state-of-the-art on both datasets, despite not using any additional data for training.
翻訳日:2022-12-06 16:04:33 公開日:2022-12-05
# SceneRF: 放射場を用いた自己監督単眼3次元シーン再構成

SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance Fields ( http://arxiv.org/abs/2212.02501v1 )

ライセンス: Link先を確認
Anh-Quan Cao and Raoul de Charette(参考訳) 文献では2次元画像からの3次元再構成が広く研究されているが、幾何的監督を必要とすることが多い。 本稿では,ポーズ付き複数画像列から学習したニューラルレイディアンスフィールド(NeRF)を用いた自己教師型モノクロシーン再構築手法であるSceneRFを提案する。 形状予測を改善するために,新しい幾何制約と放射場を効率的に更新する新しい確率的サンプリング戦略を導入する。 後者は1つのフレームに条件付けされているため、複数の合成された新規深度ビューの融合によりシーン再構成を実現する。 これは球面デコーダによって実現され、入力フレームの視野を超えた幻覚が可能である。 詳細な実験により、新しい深度ビューの合成とシーン再構築のために、すべての指標のベースラインを上回ります。 私たちのコードはhttps://astra-vision.github.io/scenerfで利用可能です。

In the literature, 3D reconstruction from 2D image has been extensively addressed but often still requires geometrical supervision. In this paper, we propose SceneRF, a self-supervised monocular scene reconstruction method with neural radiance fields (NeRF) learned from multiple image sequences with pose. To improve geometry prediction, we introduce new geometry constraints and a novel probabilistic sampling strategy that efficiently update radiance fields. As the latter are conditioned on a single frame, scene reconstruction is achieved from the fusion of multiple synthesized novel depth views. This is enabled by our spherical-decoder, which allows hallucination beyond the input frame field of view. Thorough experiments demonstrate that we outperform all baselines on all metrics for novel depth views synthesis and scene reconstruction. Our code is available at https://astra-vision.github.io/SceneRF.
翻訳日:2022-12-06 16:04:19 公開日:2022-12-05
# ObjectMatch: 標準オブジェクト対応を用いたロバスト登録

ObjectMatch: Robust Registration using Canonical Object Correspondences ( http://arxiv.org/abs/2212.01985v1 )

ライセンス: Link先を確認
Can G\"umeli, Angela Dai, Matthias Nie{\ss}ner(参考訳) RGB-D SLAMパイプラインのセマンティックおよびオブジェクト中心のカメラポーズ推定であるObjectMatchを提案する。 現代のカメラポーズ推定装置は、フレーム間の重なり合う領域の直接対応に依存するが、カメラフレームをほとんどあるいは全く重なり合っていない。 本研究では,意味オブジェクト識別によって得られる間接対応の活用を提案する。 例えば、あるフレームの前面から、別のフレームの後方からオブジェクトが見える場合、標準オブジェクト対応を通じて追加のポーズ制約を与えることができる。 まず,1ピクセルあたりの対応を予測するためのニューラルネットワークを提案し,これをエネルギー定式化と最先端キーポイントマッチングと組み合わせ,共同ガウス・ニュートン最適化で解いた。 ペア環境では,全体の77%から87%,フレーム間重なりが10%以下のペアでは21%から52%という,最先端の機能の登録リコールを改善する。 RGB-Dシークエンスを登録する場合,本手法はフレームレートの難しいシナリオにおいて最先端のSLAMベースラインよりも優れ,複数シーンでの軌道誤差を35%以上低減する。

We present ObjectMatch, a semantic and object-centric camera pose estimation for RGB-D SLAM pipelines. Modern camera pose estimators rely on direct correspondences of overlapping regions between frames; however, they cannot align camera frames with little or no overlap. In this work, we propose to leverage indirect correspondences obtained via semantic object identification. For instance, when an object is seen from the front in one frame and from the back in another frame, we can provide additional pose constraints through canonical object correspondences. We first propose a neural network to predict such correspondences on a per-pixel level, which we then combine in our energy formulation with state-of-the-art keypoint matching solved with a joint Gauss-Newton optimization. In a pairwise setting, our method improves registration recall of state-of-the-art feature matching from 77% to 87% overall and from 21% to 52% in pairs with 10% or less inter-frame overlap. In registering RGB-D sequences, our method outperforms cutting-edge SLAM baselines in challenging, low frame-rate scenarios, achieving more than 35% reduction in trajectory error in multiple scenes.
翻訳日:2022-12-06 15:56:12 公開日:2022-12-05
# 視覚トランスフォーマーを用いた不均衡データの学習

Learning Imbalanced Data with Vision Transformers ( http://arxiv.org/abs/2212.02015v1 )

ライセンス: Link先を確認
Zhengzhuo Xu and Ruikang Liu and Shuo Yang and Zenghao Chai and Chun Yuan(参考訳) 現実世界のデータはかなり不均衡で、データ駆動のディープニューラルネットワークをひどく歪めてしまう傾向があるため、Long-Tailed Recognition(LTR)は大きな課題となる。 既存のLTR方式ではビジョントランスフォーマー(ViT)をLong-Tailed(LT)データで訓練することはめったにないが、市販のViTのプレトレイン重量は不公平な比較に繋がる。 本稿では,LTR における ViT の性能を体系的に検討し,LT データのみを用いて ViT をスクラッチからトレーニングするための LiVT を提案する。 より深刻なLTR問題に苦しむViTsの観察により,一般化された特徴を学習するためにMasked Generative Pretraining(MGP)を行う。 十分な確固たる証拠が得られた結果,MGPは教師付き手法よりも頑健であることが判明した。 さらに, ViT による顕著な性能を示すバイナリクロスエントロピー(BCE)損失は, LTR の捕食に遭遇する。 さらに, バランスの取れたbceを, 強固な理論的接地で改良する提案を行う。 特に,シグモイドの偏りのない伸長を導出し,その展開のために余分なロジットマージンを補償する。 私たちのBal-BCEは、ほんの少しの時期におけるViTの迅速な収束に寄与します。 MGPとBal-BCEでは、LiVTは付加的なデータなしでViTsをうまく訓練し、同等の最先端の手法を著しく上回り、例えば、我々のViT-Bはベルや笛なしで2018年のiNaturalist 2018で81.0%の精度で達成している。 コードはhttps://github.com/xuzhengzhuo/livtで入手できる。

The real-world data tends to be heavily imbalanced and severely skew the data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a massive challenging task. Existing LTR methods seldom train Vision Transformers (ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of ViTs always leads to unfair comparisons. In this paper, we systematically investigate the ViTs' performance in LTR and propose LiVT to train ViTs from scratch only with LT data. With the observation that ViTs suffer more severe LTR problems, we conduct Masked Generative Pretraining (MGP) to learn generalized features. With ample and solid evidence, we show that MGP is more robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss, which shows conspicuous performance with ViTs, encounters predicaments in LTR. We further propose the balanced BCE to ameliorate it with strong theoretical groundings. Specially, we derive the unbiased extension of Sigmoid and compensate extra logit margins to deploy it. Our Bal-BCE contributes to the quick convergence of ViTs in just a few epochs. Extensive experiments demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well without any additional data and outperforms comparable state-of-the-art methods significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist 2018 without bells and whistles. Code is available at https://github.com/XuZhengzhuo/LiVT.
翻訳日:2022-12-06 15:55:51 公開日:2022-12-05
# 拡散モデルを用いた画素誘導による細粒画像編集

Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models ( http://arxiv.org/abs/2212.02024v1 )

ライセンス: Link先を確認
Naoki Matsunaga, Masato Ishii, Akio Hayakawa, Kenji Suzuki, Takuya Narihira(参考訳) 生成モデル、特にGANは画像編集に利用されている。 GANベースの手法は、ユーザの意図に沿った合理的なコンテンツを生成するのにうまく機能するが、編集領域外のコンテンツを厳密に保存することは困難である。 この問題に対処するために,ganの代わりに拡散モデルを用い,画素案内に基づく新しい画像編集法を提案する。 具体的には,まずアノテートデータが少ない画素分類器を訓練し,対象画像のセマンティックセグメンテーションマップを推定する。 ユーザは地図を操作して、画像の編集方法を指示する。 拡散モデルは、画素ワイド分類器による誘導により編集画像を生成し、結果として得られる画像は、操作された地図と整合する。 提案手法は,画素単位での指導を行うことで,編集領域内に合理的なコンテンツを作成でき,かつ,その領域外のコンテンツを保存することができる。 実験により,提案手法の利点を定量的かつ定性的に検証した。

Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
翻訳日:2022-12-06 15:55:21 公開日:2022-12-05
# yolood: 分散検出にオブジェクト検出概念を活用する

YolOOD: Utilizing Object Detection Concepts for Out-of-Distribution Detection ( http://arxiv.org/abs/2212.02081v1 )

ライセンス: Link先を確認
Alon Zolfi, Guy Amit, Amit Baras, Satoru Koda, Ikuya Morikawa, Yuval Elovici, Asaf Shabtai(参考訳) アウト・オブ・ディストリビューション(OOD)検出は近年,デプロイシステムの重要性から,機械学習研究コミュニティから大きな注目を集めている。 従来の研究のほとんどは、多クラス分類タスクにおけるOODサンプルの検出に重点を置いていた。 しかし、マルチラベル分類タスクにおけるOOD検出は未探索領域のままである。 本研究では,オブジェクト検出領域の概念を利用して,複数ラベル分類タスクにおいてOOD検出を行うYolOODを提案する。 オブジェクト検出モデルは、異なるカテゴリの複数のオブジェクトを含む画像上の関心対象(分布内)と無関係対象(OODオブジェクトなど)を区別する固有の能力を持っている。 これらの能力により、通常のオブジェクト検出モデルを、小さな変更だけで固有のOOD検出機能を持つ画像分類器に変換することができる。 提案手法を最先端のOOD検出手法と比較し,OODベンチマークデータセットの総合的なスイートにおいて,YolOODがこれらの手法より優れていることを示す。

Out-of-distribution (OOD) detection has attracted a large amount of attention from the machine learning research community in recent years due to its importance in deployed systems. Most of the previous studies focused on the detection of OOD samples in the multi-class classification task. However, OOD detection in the multi-label classification task remains an underexplored domain. In this research, we propose YolOOD - a method that utilizes concepts from the object detection domain to perform OOD detection in the multi-label classification task. Object detection models have an inherent ability to distinguish between objects of interest (in-distribution) and irrelevant objects (e.g., OOD objects) on images that contain multiple objects from different categories. These abilities allow us to convert a regular object detection model into an image classifier with inherent OOD detection capabilities with just minor changes. We compare our approach to state-of-the-art OOD detection methods and demonstrate YolOOD's ability to outperform these methods on a comprehensive suite of in-distribution and OOD benchmark datasets.
翻訳日:2022-12-06 15:55:08 公開日:2022-12-05
# softctc $\unicode{x2013}$ ソフト擬似ラベルを用いたテキスト認識のための半教師付き学習

SoftCTC $\unicode{x2013}$ Semi-Supervised Learning for Text Recognition using Soft Pseudo-Labels ( http://arxiv.org/abs/2212.02135v1 )

ライセンス: Link先を確認
Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Karel Bene\v{s}, Petr Buchal, Michal Kula(参考訳) 本稿では,光学的文字認識や自動音声認識などのシーケンスタスクに対する半教師付きトレーニングについて検討する。 我々は、ctcの拡張である新しい損失関数$\unicode{x2013}$ softctc $\unicode{x2013}$を提案する。 これにより、半教師付き学習への擬似ラベルアプローチの重要な構成要素である信頼に基づくフィルタリングステップを省略できる。 本手法が手書き文字認識の課題に対して有効であることを示すとともに,精巧なフィルタに基づくパイプラインの性能とSoftCTCが一致することを結論する。 また、計算効率の観点からSoftCTCを評価し、複数の書き起こし変種をトレーニングするためのna\\ive CTCベースのアプローチよりもはるかに効率が良いことを結論付け、GPU実装を一般公開する。

This paper explores semi-supervised training for sequence tasks, such as Optical Character Recognition or Automatic Speech Recognition. We propose a novel loss function $\unicode{x2013}$ SoftCTC $\unicode{x2013}$ which is an extension of CTC allowing to consider multiple transcription variants at the same time. This allows to omit the confidence based filtering step which is otherwise a crucial component of pseudo-labeling approaches to semi-supervised learning. We demonstrate the effectiveness of our method on a challenging handwriting recognition task and conclude that SoftCTC matches the performance of a finely-tuned filtering based pipeline. We also evaluated SoftCTC in terms of computational efficiency, concluding that it is significantly more efficient than a na\"ive CTC-based approach for training on multiple transcription variants, and we make our GPU implementation public.
翻訳日:2022-12-06 15:54:52 公開日:2022-12-05
# 産業プロセスにおける人間活動認識の応用 -人間と技術のエネルギー-

Applications of human activity recognition in industrial processes -- Synergy of human and technology ( http://arxiv.org/abs/2212.02266v1 )

ライセンス: Link先を確認
Friedrich Niemann, Christopher Reining, H\"ulya Bas and Sven Franke(参考訳) ヒューマンテクノロジーのコラボレーションは、言語コミュニケーションと非言語コミュニケーションに依存している。 機械は人間の動きを検出し、理解し、非言語コミュニケーションを促進する必要がある。 本稿では,イントラロジクスにおけるヒューマンアクティビティ認識に関する現在進行中の研究を紹介するとともに,産業環境での応用について述べる。 本研究では,人間の行動に柔軟に記述できる意味的属性と,文脈情報化によって分類器の性能が向上し,自動的に認識できることを示す。 さらに,人間の行動認識のためのトレーニングデータセットを作成するために必要な労力と時間を削減できる,サイバーフィジカル双生児に基づく概念を提案する。 将来的には,分類性能の維持や向上を図りつつ,現実的なシミュレーションデータのみで分類器を訓練することが可能となる。

Human-technology collaboration relies on verbal and non-verbal communication. Machines must be able to detect and understand the movements of humans to facilitate non-verbal communication. In this article, we introduce ongoing research on human activity recognition in intralogistics, and show how it can be applied in industrial settings. We show how semantic attributes can be used to describe human activities flexibly and how context informantion increases the performance of classifiers to recognise them automatically. Beyond that, we present a concept based on a cyber-physical twin that can reduce the effort and time necessary to create a training dataset for human activity recognition. In the future, it will be possible to train a classifier solely with realistic simulation data, while maintaining or even increasing the classification performance.
翻訳日:2022-12-06 15:54:34 公開日:2022-12-05
# 異なるノードがグラフアクティブラーニングを改善する

Dissimilar Nodes Improve Graph Active Learning ( http://arxiv.org/abs/2212.01968v1 )

ライセンス: Link先を確認
Zhicheng Ren, Yifu Yuan, Yuxin Wu, Xiaxuan Gao, Yewen Wang, Yizhou Sun(参考訳) グラフ埋め込みアルゴリズムのトレーニングラベルは、多くの実用的なシナリオにおいてコストがかかる可能性がある。 アクティブラーニング(AL)アルゴリズムは、特定の予算の下でラベルクエリの総数を維持しながら、トレーニングに最も有用なラベルを得るのに非常に役立ちます。 既存のアクティブグラフ埋め込みフレームワークは,ラベルなしノードの値を評価するために,集中度スコア,密度スコア,エントロピースコアを用いることを提案し,グラフ畳み込みネットワークのノード分類タスクにいくつかの改善をもたらすことが示されている。 しかし、ラベルなしノードの重要性を評価する際に、ラベルなしノードの値に対する既存のラベル付きノードの影響を考慮できない。 言い換えれば、同じラベル付きノードが与えられた場合、計算された情報的スコアは常に同じであり、ラベル付きノードセットに非依存である。 そこで本研究では,この制限に対処するために,機能的異種度スコア(fds),構造的異種度スコア(sds),組込み異種度スコア(eds)という,アクティブ学習のための3つの異種度に基づく情報スコアを導入する。 これら3つのスコアがラベル付きセットの影響をラベル付き候補の値に考慮し、alのパフォーマンスを向上できることが分かりました。 実験の結果,新たに提案したスコアにより,分類精度が平均2.1%向上し,異なるグラフニューラルネットワークアーキテクチャへの一般化が可能となった。

Training labels for graph embedding algorithms could be costly to obtain in many practical scenarios. Active learning (AL) algorithms are very helpful to obtain the most useful labels for training while keeping the total number of label queries under a certain budget. The existing Active Graph Embedding framework proposes to use centrality score, density score, and entropy score to evaluate the value of unlabeled nodes, and it has been shown to be capable of bringing some improvement to the node classification tasks of Graph Convolutional Networks. However, when evaluating the importance of unlabeled nodes, it fails to consider the influence of existing labeled nodes on the value of unlabeled nodes. In other words, given the same unlabeled node, the computed informative score is always the same and is agnostic to the labeled node set. With the aim to address this limitation, in this work, we introduce 3 dissimilarity-based information scores for active learning: feature dissimilarity score (FDS), structure dissimilarity score (SDS), and embedding dissimilarity score (EDS). We find out that those three scores are able to take the influence of the labeled set on the value of unlabeled candidates into consideration, boosting our AL performance. According to experiments, our newly proposed scores boost the classification accuracy by 2.1% on average and are capable of generalizing to different Graph Neural Network architectures.
翻訳日:2022-12-06 15:48:39 公開日:2022-12-05
# fedtiny: 専門的な小モデルに向けたフィード型フェデレーション学習

FedTiny: Pruned Federated Learning Towards Specialized Tiny Models ( http://arxiv.org/abs/2212.01977v1 )

ライセンス: Link先を確認
Hong Huang, Lan Zhang, Chaoyue Sun, Ruogu Fang, Xiaoyong Yuan, Dapeng Wu(参考訳) ニューラルネットワークのプルーニングは、リソースに制約のあるデバイス上でディープラーニングモデルを可能にする、確立された圧縮テクニックである。 prunedモデルは、通常、特定のハードウェアプラットフォームと(デプロイメントシナリオとして定義された)トレーニングタスクを満たすために特別です。 しかし、既存のプルーニングアプローチは、モデルのサイズ、効率、精度をトレードオフするトレーニングデータに大きく依存しており、分散および機密データセットよりもフェデレーション学習(FL)には効果がない。 さらに、既存のほとんどのアプローチのメモリおよび計算集約的なプルーニングプロセスは、リソース制限のあるほとんどのFLデバイスでは処理できない。 本稿では,FLの新しい分散プルーニングフレームワークであるFedTinyを開発し,秘密のローカルデータを持つメモリおよびコンピューティングに制約のある参加デバイスのための,特殊な小型モデルを得る。 デバイス上の不均一データによるバイアスドプルーニングを軽減するため、FedTinyは適応バッチ正規化(BN)選択モジュールを導入し、デプロイメントシナリオに適合する初期プルーニングモデルを適応的に取得する。 さらに、初期プルーニングをさらに改善するために、feedtinyは、タイトなメモリと計算予算の下で局所的なプルーニングのための軽量なプログレッシブプルーニングモジュールを開発し、全体的なディープモデル構造を評価するのではなく、各層に対するプルーニングポリシーを徐々に決定する。 FedTinyは最先端のベースラインアプローチよりも優れており、特に極小モデルに深層モデルを圧縮する場合に有効である。

Neural network pruning has been a well-established compression technique to enable deep learning models on resource-constrained devices. The pruned model is usually specialized to meet specific hardware platforms and training tasks (defined as deployment scenarios). However, existing pruning approaches rely heavily on training data to trade off model size, efficiency, and accuracy, which becomes ineffective for federated learning (FL) over distributed and confidential datasets. Moreover, the memory- and compute-intensive pruning process of most existing approaches cannot be handled by most FL devices with resource limitations. In this paper, we develop FedTiny, a novel distributed pruning framework for FL, to obtain specialized tiny models for memory- and computing-constrained participating devices with confidential local data. To alleviate biased pruning due to unseen heterogeneous data over devices, FedTiny introduces an adaptive batch normalization (BN) selection module to adaptively obtain an initially pruned model to fit deployment scenarios. Besides, to further improve the initial pruning, FedTiny develops a lightweight progressive pruning module for local finer pruning under tight memory and computational budgets, where the pruning policy for each layer is gradually determined rather than evaluating the overall deep model structure. Extensive experimental results demonstrate the effectiveness of FedTiny, which outperforms state-of-the-art baseline approaches, especially when compressing deep models to extremely sparse tiny models.
翻訳日:2022-12-06 15:48:13 公開日:2022-12-05
# LSTMと環境センサを用いた室内作業量計測

Indoor room Occupancy Counting based on LSTM and Environmental Sensor ( http://arxiv.org/abs/2212.02364v1 )

ライセンス: Link先を確認
Zheyu Zhang(参考訳) 本稿では,CO2センサとLong-Short-Term Memoryというディープラーニング技術を用いて,教室の占有率を推定する。 また,IoTと機械学習を関連づけた場合,CO2センサから抽出した環境データをもとに,教室内の人数を推定するモデルを実現し,実際の環境に適用できる可能性を示すモデルの性能を評価した。

This paper realizes the estimation of classroom occupancy by using the CO2 sensor and deep learning technique named Long-Short-Term Memory. As a case of connection with IoT and machine learning, I achieve the model to estimate the people number in the classroom based on the environmental data exported from the CO2 sensor, I also evaluate the performance of the model to show the feasibility to apply our module to the real environment.
翻訳日:2022-12-06 15:47:28 公開日:2022-12-05
# グラフニューラルネットワークにおけるオーバースモーシングとオーバースケーシングの関係の理解

Understanding the Relationship between Over-smoothing and Over-squashing in Graph Neural Networks ( http://arxiv.org/abs/2212.02374v1 )

ライセンス: Link先を確認
Jhony H. Giraldo, Fragkiskos D. Malliaros, Thierry Bouwmans(参考訳) グラフニューラルネットワーク(GNN)はコンピュータ科学における多くの応用に成功している。 他のドメインでのディープラーニングアーキテクチャの成功にもかかわらず、深いGNNは依然として浅いアーキテクチャよりもパフォーマンスが低い。 ディープGNNに関する多くのオープンな質問があるが、過度にスムースと過剰な議論はおそらく最も興味深い問題である。 複数のグラフ畳み込み層を積み重ねる際、オーバースムーシングとオーバースキャッシングの問題は、それぞれ遠いノードから深い表現を学習し情報を伝達するGNNのできない問題として定義される。 両問題の広範な定義は似ているが、これらの現象は独立して研究されている。 本研究は, オーバースムーシングとオーバースケーシングの関係を位相的観点から理解することを目的とする。 両問題はグラフのラプラシアンのスペクトルギャップと本質的に関係していることを示す。 したがって、この2つの問題、すなわち過密と過密の両方を同時に緩和することはできないというトレードオフがある。 また,Ollivier のリッチ曲率境界に基づく確率的Jost and Liu curvature Rewiring (SJLR)アルゴリズムを提案する。 SJLRは、基本的な特性を維持しながら、従来の曲率ベースの再配線法よりも安価である。 最後に,sjlrと従来の手法との徹底的な比較を行い,両者の問題点をよりよく理解することを目指す。

Graph Neural Networks (GNNs) have been successfully applied in many applications in computer sciences. Despite the success of deep learning architectures in other domains, deep GNNs still underperform their shallow counterparts. There are many open questions about deep GNNs, but over-smoothing and over-squashing are perhaps the most intriguing issues. When stacking multiple graph convolutional layers, the over-smoothing and over-squashing problems arise and have been defined as the inability of GNNs to learn deep representations and propagate information from distant nodes, respectively. Even though the widespread definitions of both problems are similar, these phenomena have been studied independently. This work strives to understand the underlying relationship between over-smoothing and over-squashing from a topological perspective. We show that both problems are intrinsically related to the spectral gap of the Laplacian of the graph. Therefore, there is a trade-off between these two problems, i.e., we cannot simultaneously alleviate both over-smoothing and over-squashing. We also propose a Stochastic Jost and Liu curvature Rewiring (SJLR) algorithm based on a bound of the Ollivier's Ricci curvature. SJLR is less expensive than previous curvature-based rewiring methods while retaining fundamental properties. Finally, we perform a thorough comparison of SJLR with previous techniques to alleviate over-smoothing or over-squashing, seeking to gain a better understanding of both problems.
翻訳日:2022-12-06 15:47:14 公開日:2022-12-05
# 確率勾配の構造を再考する:実証的および統計的証拠

Rethinking the Structure of Stochastic Gradients: Empirical and Statistical Evidence ( http://arxiv.org/abs/2212.02083v1 )

ライセンス: Link先を確認
Zeke Xie, Qian-Yuan Tang, Zheng He, Mingming Sun, Ping Li(参考訳) 確率勾配はディープニューラルネットワーク(DNN)の最適化と一般化の両方に密接に関係している。 いくつかの研究は、勾配雑音の重テール特性による深層学習における確率的最適化の成功を説明しようとしたが、他の研究は勾配雑音の重テール仮説に対する理論的および実証的な証拠を提示した。 残念ながら、深層学習における確率勾配の構造と重い尾の解析のための形式的な統計テストはまだ未検討である。 本稿では,主に2つの貢献をする。 まず,確率的勾配と勾配雑音の分布について,パラメータと反復をまたいだ形式的統計実験を行う。 我々の統計的テストでは、次元的勾配は典型的にはパワーロー重尾を示すが、反復的勾配とミニバッチトレーニングによる確率的勾配ノイズは通常パワーロー重尾を示すものではない。 第2に,確率勾配の共分散スペクトルが深層学習におけるパワー・ロー構造を持つことを明らかにする。 従来の論文では、確率勾配の異方性構造は深層学習に重要であると考えられていたが、勾配の共分散がそのようなエレガントな数学的構造を持つとは考えていなかった。 我々の研究は既存の信念に挑戦し、深層学習における確率的勾配の構造に関する新しい洞察を提供する。

Stochastic gradients closely relate to both optimization and generalization of deep neural networks (DNNs). Some works attempted to explain the success of stochastic optimization for deep learning by the arguably heavy-tail properties of gradient noise, while other works presented theoretical and empirical evidence against the heavy-tail hypothesis on gradient noise. Unfortunately, formal statistical tests for analyzing the structure and heavy tails of stochastic gradients in deep learning are still under-explored. In this paper, we mainly make two contributions. First, we conduct formal statistical tests on the distribution of stochastic gradients and gradient noise across both parameters and iterations. Our statistical tests reveal that dimension-wise gradients usually exhibit power-law heavy tails, while iteration-wise gradients and stochastic gradient noise caused by minibatch training usually do not exhibit power-law heavy tails. Second, we further discover that the covariance spectra of stochastic gradients have the power-law structures in deep learning. While previous papers believed that the anisotropic structure of stochastic gradients matters to deep learning, they did not expect the gradient covariance can have such an elegant mathematical structure. Our work challenges the existing belief and provides novel insights on the structure of stochastic gradients in deep learning.
翻訳日:2022-12-06 15:46:21 公開日:2022-12-05
# 3D-LatentMapper: 3次元形状の視認的単一視点再構成

3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes ( http://arxiv.org/abs/2212.02184v1 )

ライセンス: Link先を確認
Alara Dirik, Pinar Yanardag(参考訳) コンピュータグラフィックス、3Dコンピュータビジョン、ロボティクスのコミュニティは、3D形状を表現および生成するための複数のアプローチと、多数のユースケースを生み出している。 しかし、シングルビューの再構築はインタラクティブデザインのような様々な興味深いユースケースを解き放つ難題であり続けている。 本研究では、視覚変換器(ViT)の中間潜伏空間と、高速かつ効率的な単一ビュー再構成(SVR)のための共同画像テキスト表現モデルCLIPを利用する新しいフレームワークを提案する。 具体的には,ViTとCLIPから抽出した深部特徴と,ベース3D生成モデルの潜在空間とのマッピングを学習する,新しいマッピングネットワークアーキテクチャを提案する。 従来と異なり,本手法では大きな閉塞の存在下でも3次元形状の視認的再構成が可能であった。 shapenetv2 データセットを用いて sota 法との比較を行い,提案手法の有効性を実証した。

Computer graphics, 3D computer vision and robotics communities have produced multiple approaches to represent and generate 3D shapes, as well as a vast number of use cases. However, single-view reconstruction remains a challenging topic that can unlock various interesting use cases such as interactive design. In this work, we propose a novel framework that leverages the intermediate latent spaces of Vision Transformer (ViT) and a joint image-text representational model, CLIP, for fast and efficient Single View Reconstruction (SVR). More specifically, we propose a novel mapping network architecture that learns a mapping between deep features extracted from ViT and CLIP, and the latent space of a base 3D generative model. Unlike previous work, our method enables view-agnostic reconstruction of 3D shapes, even in the presence of large occlusions. We use the ShapeNetV2 dataset and perform extensive experiments with comparisons to SOTA methods to demonstrate our method's effectiveness.
翻訳日:2022-12-06 15:37:08 公開日:2022-12-05
# LinearTVにおける2次元広告配置フレームワーク

Framework for 2D Ad placements in LinearTV ( http://arxiv.org/abs/2212.02450v1 )

ライセンス: Link先を確認
Divya Bhargavi, Karan Sindwani and Sia Gholami(参考訳) 仮想製品配置(Virtual Product Placement, VPP)とは、映画やテレビ番組のシーンにブランドオブジェクトをデジタルに配置する広告手法である。 この種の広告は、商品が背景や小道具として見られるように、ブランドが商品の視聴体験を中断することなく消費者にリーチする機能を提供する。 これは10億ドル規模の業界だが、現在広告レンダリング技術は、VFxアーティストの助けを借りて、あるいは半自動化されたソリューションを使って、ポストプロダクション段階で実行されている。 本稿では,小型カメラを用いた単眼カメラを用いたリニアtv番組に2d広告をデジタル配置するための完全自動化フレームワークを提案する。 フルビデオやプロダクションカメラの構成がなければ、このフレームワークは以下のタスクを実行する。 i)2次元広告配置のための空き空間の特定 (ii)キッチンシーンの理解 (iii)閉塞の取扱い (iv)環境照明及び (v)広告追跡。

Virtual Product placement(VPP) is the advertising technique of digitally placing a branded object into the scene of a movie or TV show. This type of advertising provides the ability for brands to reach consumers without interrupting the viewing experience with a commercial break, as the products are seen in the background or as props. Despite this being a billion-dollar industry, ad rendering technique is currently executed at post production stage, manually either with the help of VFx artists or through semi-automated solutions. In this paper, we demonstrate a fully automated framework to digitally place 2-D ads in linear TV cooking shows captured using single-view camera with small camera movements. Without access to full video or production camera configuration, this framework performs the following tasks (i) identifying empty space for 2-D ad placement (ii) kitchen scene understanding (iii) occlusion handling (iv) ambient lighting and (v) ad tracking.
翻訳日:2022-12-06 15:36:50 公開日:2022-12-05
# タスク指向対話におけるインテント誘導による発話埋め込みとクラスタリング手法の解析

Analysis of Utterance Embeddings and Clustering Methods Related to Intent Induction for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.02021v1 )

ライセンス: Link先を確認
Jeiyoon Park, Yoonna Jang, Chanhee Lee, Heuiseok Lim(参考訳) 本稿では,タスク指向ダイアログスキーマの設計における非教師なしアプローチについて検討する。各ダイアログターンにインテントラベルを割り当てる(インテントクラスタリング)とともに,インテントクラスタリング手法(インテント誘導)に基づいたインテントセットを生成する。 意図の自動誘導には,(1)インテントラベリングのためのクラスタリングアルゴリズム,(2)ユーザ発話の埋め込み空間の2つの因果関係を仮定する。 既存の市販クラスタリングモデルとDSTC11評価に基づく埋め込みを比較した。 広範な実験により,インテント誘導タスクにおける発話埋め込みとクラスタリング方法の選択が非常に注意すべき2つの大きな注意点が付け加えられた。 また,Agglomerative clusteringによる事前学習したMiniLMは,NMI,ARI,F1,精度,インテント誘導タスクにおけるサンプルカバレッジを著しく向上させることを示した。 再実装のためのソースコードはgithubで入手できる。

This paper investigates unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that we sholud add two huge caveat that selection of utterance embedding and clustering method in intent induction task should be very careful. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source code for reimplementation will be available at Github.
翻訳日:2022-12-06 15:29:49 公開日:2022-12-05
# オープン情報抽出のための構文的多視点学習

Syntactic Multi-view Learning for Open Information Extraction ( http://arxiv.org/abs/2212.02068v1 )

ライセンス: Link先を確認
Kuicai Dong, Aixin Sun, Jung-Jae Kim, Xiaoli Li(参考訳) Open Information extract (OpenIE)は、オープンドメイン文から関係タプルを抽出することを目的としている。 従来のルールベースまたは統計モデルは、構文解析器によって識別される文の構文構造に基づいて開発された。 しかし、以前のニューラルなOpenIEモデルは、有用な構文情報を明らかにしていない。 本稿では,構成木と依存木の両方を単語レベルグラフにモデル化し,その構文構造からニューラルネットワークを学習可能にする。 両グラフからの異種情報をよりよく融合するため,多視点学習を用いて複数の関係を抽出する。 最後に、微調整された選挙区と依存関係の表現は、タプル生成のためのセンテンシャルセマンティック表現で集約される。 実験により、構成情報と依存性情報の両方と多視点学習が有効であることが示された。

Open Information Extraction (OpenIE) aims to extract relational tuples from open-domain sentences. Traditional rule-based or statistical models have been developed based on syntactic structures of sentences, identified by syntactic parsers. However, previous neural OpenIE models under-explore the useful syntactic information. In this paper, we model both constituency and dependency trees into word-level graphs, and enable neural OpenIE to learn from the syntactic structures. To better fuse heterogeneous information from both graphs, we adopt multi-view learning to capture multiple relationships from them. Finally, the finetuned constituency and dependency representations are aggregated with sentential semantic representations for tuple generation. Experiments show that both constituency and dependency information, and the multi-view learning are effective.
翻訳日:2022-12-06 15:29:30 公開日:2022-12-05
# 多言語法的判断予測のための法的プロンプトエンジニアリング

Legal Prompt Engineering for Multilingual Legal Judgement Prediction ( http://arxiv.org/abs/2212.02199v1 )

ライセンス: Link先を確認
Dietrich Trautmann, Alina Petrova, Frank Schilder(参考訳) Legal Prompt Engineering (LPE) または Legal Prompting は、自然言語処理(NLLP)技術を用いて、大規模言語モデル(LLM)をガイドし、支援するプロセスである。 我々の目標は、LJP(Lawal Judgement Prediction)タスクの長い法的文書にLPEとLLMを併用することです。 我々は、欧州人権裁判所(英語)およびスイス連邦最高裁判所(ドイツ語、フランス語、イタリア語)の判例文において、与えられた事実に対するゼロショットlpeのパフォーマンスを調査した。 以上の結果から, ゼロショットLPEはベースラインよりも優れているが, 美術監督アプローチの現況に比べ, 依然として不足していることがわかった。 にもかかわらず 結果は重要でした 1) 使用済みの明示的なドメイン固有データはなく, 汎用LLMにおいて, 法的ドメインへの転送が可能であること, 及び 2) LLMは、追加の訓練や微調整なしに直接適用され、それによって計算コストが大幅に削減される。

Legal Prompt Engineering (LPE) or Legal Prompting is a process to guide and assist a large language model (LLM) with performing a natural legal language processing (NLLP) skill. Our goal is to use LPE with LLMs over long legal documents for the Legal Judgement Prediction (LJP) task. We investigate the performance of zero-shot LPE for given facts in case-texts from the European Court of Human Rights (in English) and the Federal Supreme Court of Switzerland (in German, French and Italian). Our results show that zero-shot LPE is better compared to the baselines, but it still falls short compared to current state of the art supervised approaches. Nevertheless, the results are important, since there was 1) no explicit domain-specific data used - so we show that the transfer to the legal domain is possible for general-purpose LLMs, and 2) the LLMs where directly applied without any further training or fine-tuning - which in turn saves immensely in terms of additional computational costs.
翻訳日:2022-12-06 15:29:21 公開日:2022-12-05
# 注意としての検索:単一変圧器における検索と読みのエンドツーエンド学習

Retrieval as Attention: End-to-end Learning of Retrieval and Reading within a Single Transformer ( http://arxiv.org/abs/2212.02027v1 )

ライセンス: Link先を確認
Zhengbao Jiang, Luyu Gao, Jun Araki, Haibo Ding, Zhiruo Wang, Jamie Callan, Graham Neubig(参考訳) オープンドメイン質問応答(QA)のような知識集約的なタスクのためのシステムは、通常、大きなコーパスから関連文書の効率的な検索と、選択した文書の詳細な読解の2段階からなる。 レトリバーと読者は通常別々にモデル化され、面倒な実装が必要で、エンドツーエンドでトレーニングと適応が難しい。 本稿では、この設計を再検討し、個別のアーキテクチャとトレーニングを選定し、Retrieval as Attention(ReAtt)を実行する単一トランスフォーマーと、エンドQAタスクの監視のみに基づくエンドツーエンドのトレーニングを優先する。 我々は,1つのモデルで訓練されたエンドツーエンドが,競争力のある検索とQA性能の両方を達成できることを初めて実証した。 さらに、エンドツーエンドの適応は、教師なしと教師なしの両方の設定でドメイン外データセットのパフォーマンスを大幅に向上させ、モデルが知識集約的なタスクに対してシンプルで適応可能なソリューションになります。 コードとモデルはhttps://github.com/jzbjyb/ReAtt.comで入手できる。

Systems for knowledge-intensive tasks such as open-domain question answering (QA) usually consist of two stages: efficient retrieval of relevant documents from a large corpus and detailed reading of the selected documents to generate answers. Retrievers and readers are usually modeled separately, which necessitates a cumbersome implementation and is hard to train and adapt in an end-to-end fashion. In this paper, we revisit this design and eschew the separate architecture and training in favor of a single Transformer that performs Retrieval as Attention (ReAtt), and end-to-end training solely based on supervision from the end QA task. We demonstrate for the first time that a single model trained end-to-end can achieve both competitive retrieval and QA performance, matching or slightly outperforming state-of-the-art separately trained retrievers and readers. Moreover, end-to-end adaptation significantly boosts its performance on out-of-domain datasets in both supervised and unsupervised settings, making our model a simple and adaptable solution for knowledge-intensive tasks. Code and models are available at https://github.com/jzbjyb/ReAtt.
翻訳日:2022-12-06 15:28:01 公開日:2022-12-05
# 多言語文脈におけるヘイトスピーチ分類

Human-in-the-Loop Hate Speech Classification in a Multilingual Context ( http://arxiv.org/abs/2212.02108v1 )

ライセンス: Link先を確認
Ana Kotarcic, Dominik Hangartner, Fabrizio Gilardi, Selina Kurer, Karsten Donnay(参考訳) デジタル分野への公的な議論のシフトは、オンラインヘイトスピーチの増加に伴うものだ。 ヘイトスピーチ分類のための多くの有望なアプローチが提案されているが、研究はしばしば単一言語(通常英語)にのみ焦点をあて、デプロイ後のパフォーマンス、分類器の保守、インフラ上の制限という3つの主要な懸念に対処しない。 本稿では,新たなHuman-in-the-loop BERTベースのヘイトスピーチ分類パイプラインを導入し,初期データ収集とアノテーションからデプロイ後に至るまでの開発をトレースする。 我々の分類器は、もともとの422k以上の例のコーパスからのデータを用いて訓練され、スイスの本質的に多言語的な設定のために特別に開発され、F1スコアは80.5であり、現在最もパフォーマンスの良いBERTベースの多言語分類器はドイツ語で5.8F1ポイント、フランス語で3.6F1ポイントである。 12ヶ月にわたる体系的な評価は、配置後のロバストなヘイトスピーチ分類を保証するために、連続的かつループ内分類器のメンテナンスが重要であることをさらに強調する。

The shift of public debate to the digital sphere has been accompanied by a rise in online hate speech. While many promising approaches for hate speech classification have been proposed, studies often focus only on a single language, usually English, and do not address three key concerns: post-deployment performance, classifier maintenance and infrastructural limitations. In this paper, we introduce a new human-in-the-loop BERT-based hate speech classification pipeline and trace its development from initial data collection and annotation all the way to post-deployment. Our classifier, trained using data from our original corpus of over 422k examples, is specifically developed for the inherently multilingual setting of Switzerland and outperforms with its F1 score of 80.5 the currently best-performing BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points in French. Our systematic evaluations over a 12-month period further highlight the vital importance of continuous, human-in-the-loop classifier maintenance to ensure robust hate speech classification post-deployment.
翻訳日:2022-12-06 15:27:36 公開日:2022-12-05
# 連合型神経話題モデル

Federated Neural Topic Models ( http://arxiv.org/abs/2212.02269v1 )

ライセンス: Link先を確認
Lorena Calvo-Bartolom\'e and Jer\'onimo Arenas-Garc\'ia(参考訳) 過去数年間、トピックモデリングは、ドキュメントの大きなコレクションを整理しまとめたり、その中の特定のパターンを探すための強力なテクニックとして現れてきた。 しかし、異なるソースからデータをクロスアナライズする必要がある場合、プライバシの懸念が生じる。 フェデレーションされたトピックモデリングは、データを共有せずに複数のパーティが共同でトピックモデルをトレーニングできるようにすることで、この問題を解決します。 古典的トピックモデルの結合近似はいくつか存在するが、神経的トピックモデルへの応用に関する研究は行われていない。 このギャップを埋めるために,我々は,最先端のニューラルトピックモデリング実装に基づくフェデレーション実装の提案と解析を行い,ノードのドキュメントにまたがるトピックの多様性とジョイントモデルの構築の必要性を示す。 我々のアプローチは理論上、実際に中央集権的なアプローチと等価であるが、ノードのプライバシーを保っている。

Over the last years, topic modeling has emerged as a powerful technique for organizing and summarizing big collections of documents or searching for particular patterns in them. However, privacy concerns arise when cross-analyzing data from different sources is required. Federated topic modeling solves this issue by allowing multiple parties to jointly train a topic model without sharing their data. While several federated approximations of classical topic models do exist, no research has been carried out on their application for neural topic models. To fill this gap, we propose and analyze a federated implementation based on state-of-the-art neural topic modeling implementations, showing its benefits when there is a diversity of topics across the nodes' documents and the need to build a joint model. Our approach is by construction theoretically and in practice equivalent to a centralized approach but preserves the privacy of the nodes.
翻訳日:2022-12-06 15:27:13 公開日:2022-12-05
# 3d画像のためのビジュアルトランスフォーマーによるweather4castチャレンジの解決

Solving the Weather4cast Challenge via Visual Transformers for 3D Images ( http://arxiv.org/abs/2212.02456v1 )

ライセンス: Link先を確認
Yury Belousov and Sergey Polezhaev and Brian Pulfer(参考訳) 多くの現実世界のプロセスや決定が将来の気象条件に依存するため、正確な天気予報は重要な課題である。 NeurIPS 2022の挑戦「Weather4cast」は、衛星観測の前の時刻を文脈として、次の8時間にわたって降雨イベントを予測する問題を提起している。 近年,コンピュータビジョンにおけるトランスフォーマーアーキテクチャの成功に触発されて,このアーキテクチャに基づく2つの手法を実装し,提案する。 異なるトランスフォーマーをいくつかのベースラインモデルでセンシングすることで、見当たらないテストデータで測定できる最高の性能が得られることが分かりました。 我々のアプローチは競争で3位になった。

Accurately forecasting the weather is an important task, as many real-world processes and decisions depend on future meteorological conditions. The NeurIPS 2022 challenge entitled Weather4cast poses the problem of predicting rainfall events for the next eight hours given the preceding hour of satellite observations as a context. Motivated by the recent success of transformer-based architectures in computer vision, we implement and propose two methodologies based on this architecture to tackle this challenge. We find that ensembling different transformers with some baseline models achieves the best performance we could measure on the unseen test data. Our approach has been ranked 3rd in the competition.
翻訳日:2022-12-06 15:21:02 公開日:2022-12-05
# PhysDiff:物理誘導型人体運動拡散モデル

PhysDiff: Physics-Guided Human Motion Diffusion Model ( http://arxiv.org/abs/2212.02500v1 )

ライセンス: Link先を確認
Ye Yuan, Jiaming Song, Umar Iqbal, Arash Vahdat, Jan Kautz(参考訳) 拡散モデルをデノイングすることは、多様で現実的な人間の動きを生み出す大きな約束である。 しかし、既存の運動拡散モデルは拡散過程における物理法則をほとんど無視しており、しばしば浮動、足の滑動、地中浸透といった明瞭なアーティファクトを持つ物理的に実現可能な運動を生成する。 これは生成されたモーションの品質に深刻な影響を与え、現実世界のアプリケーションを制限する。 本稿では, 物理的制約を拡散過程に組み込んだ新しい物理誘導運動拡散モデル(physdiff)を提案する。 具体的には,物理シミュレータにおける運動模倣を用いて,拡散ステップの消音運動を物理的に可視的な運動に投影する物理ベースの運動投影モジュールを提案する。 投影された動きは次の拡散ステップでさらに使われ、消音拡散過程を導く。 直感的には、我々のモデルにおける物理学の使用は、物理的に証明可能な空間への運動を反復的に引き起こす。 大規模な人体運動データセットの実験により、我々の手法は最先端の運動品質を達成し、身体的可視性を大幅に向上する(全データセットの78%以上)。

Denoising diffusion models hold great promise for generating diverse and realistic human motions. However, existing motion diffusion models largely disregard the laws of physics in the diffusion process and often generate physically-implausible motions with pronounced artifacts such as floating, foot sliding, and ground penetration. This seriously impacts the quality of generated motions and limits their real-world application. To address this issue, we present a novel physics-guided motion diffusion model (PhysDiff), which incorporates physical constraints into the diffusion process. Specifically, we propose a physics-based motion projection module that uses motion imitation in a physics simulator to project the denoised motion of a diffusion step to a physically-plausible motion. The projected motion is further used in the next diffusion step to guide the denoising diffusion process. Intuitively, the use of physics in our model iteratively pulls the motion toward a physically-plausible space. Experiments on large-scale human motion datasets show that our approach achieves state-of-the-art motion quality and improves physical plausibility drastically (>78% for all datasets).
翻訳日:2022-12-06 15:20:50 公開日:2022-12-05
# PowRL: 電力ネットワークのロバスト管理のための強化学習フレームワーク

PowRL: A Reinforcement Learning Framework for Robust Management of Power Networks ( http://arxiv.org/abs/2212.02397v1 )

ライセンス: Link先を確認
Anandsingh Chauhan, Mayank Baranwal, Ansuma Basumatary(参考訳) 世界中の電力網は、いくつかの産業、企業、家庭消費者に不断で信頼性があり、過渡的な電力を提供することによって、社会と経済の重要な役割を担っている。 再生可能エネルギー資源とevが出現し、不安定な発電と高ダイナミックな負荷要求が発生し、過渡安定問題の適切な管理とブラックアウトのイベントのローカライズを通じて、電力ネットワークの堅牢な運用を確保することがますます重要になっている。 本稿では,最新のグリッドインフラストラクチャとグリッドオペレータに対するストレスがますます増大していることを踏まえ,予期せぬネットワークイベントの影響を軽減するとともに,ネットワークの至る所で確実に電力を維持するための強化学習(rl)フレームワーク,powrlを提案する。 PowRLは、グリッドの安全かつ確実な動作(オーバーロードなしで)を保証するために、RL誘導による最適なトポロジ選択に基づく決定とともに、新しいヒューリスティックなオーバーロード管理を活用している。 PowRLはL2RPN(Learning to Run a Power Network)がホストするさまざまな競合データセットでベンチマークされている。 アクションスペースの縮小にもかかわらず、PowRLはL2RPNのNeurIPS 2020チャレンジ(Robustness track)でリーダーボードのトップとなり、L2RPNのWCCI 2020チャレンジではトップのエージェントとなった。 さらに、いくつかのテストシナリオにおいて、PowRLエージェントによる最先端のパフォーマンスを詳細に分析する。

Power grids, across the world, play an important societal and economical role by providing uninterrupted, reliable and transient-free power to several industries, businesses and household consumers. With the advent of renewable power resources and EVs resulting into uncertain generation and highly dynamic load demands, it has become ever so important to ensure robust operation of power networks through suitable management of transient stability issues and localize the events of blackouts. In the light of ever increasing stress on the modern grid infrastructure and the grid operators, this paper presents a reinforcement learning (RL) framework, PowRL, to mitigate the effects of unexpected network events, as well as reliably maintain electricity everywhere on the network at all times. The PowRL leverages a novel heuristic for overload management, along with the RL-guided decision making on optimal topology selection to ensure that the grid is operated safely and reliably (with no overloads). PowRL is benchmarked on a variety of competition datasets hosted by the L2RPN (Learning to Run a Power Network). Even with its reduced action space, PowRL tops the leaderboard in the L2RPN NeurIPS 2020 challenge (Robustness track) at an aggregate level, while also being the top performing agent in the L2RPN WCCI 2020 challenge. Moreover, detailed analysis depicts state-of-the-art performances by the PowRL agent in some of the test scenarios.
翻訳日:2022-12-06 15:20:06 公開日:2022-12-05
# トランスデューサに基づく言語モデルを用いたメタデータ推論の構築

Building Metadata Inference Using a Transducer Based Language Model ( http://arxiv.org/abs/2212.01964v1 )

ライセンス: Link先を確認
David Waterworth and Subbu Sethuvenkatraman and Quan Z. Sheng(参考訳) Building Automation Systemのテキストメタデータの自動機械翻訳の課題を解決することは、スマートなビルディングアプリケーションを効率的にデプロイするための重要な第一歩です。 メタデータの構築に使われる語彙は、一般的な自然言語に比べて小さいように見えるが、各用語には複数の略語がある。 従来の機械学習技術は、同じ単語に対して多くの異なるフォームを学習する必要があるため、非効率であり、これらのモデルをトレーニングするために大量のデータを使用する必要がある。 トークン化のような標準技術を適用することも困難である。これは通常、複数の出力タグが単一の入力トークンに関連付けられるため、従来のシーケンスラベリングモデルでは不可能である。 有限状態トランスデューサは、入力シーケンスと出力シーケンスが異なる長さのシーケンス-シーケンスタスクをモデル化することができ、言語モデルと組み合わせて有効な出力シーケンスを生成することができる。 構築点メタデータを解析・正規化するために,トランスデューサを用いた言語モデルを用いた予備分析を行う。

Solving the challenges of automatic machine translation of Building Automation System text metadata is a crucial first step in efficiently deploying smart building applications. The vocabulary used to describe building metadata appears small compared to general natural languages, but each term has multiple commonly used abbreviations. Conventional machine learning techniques are inefficient since they need to learn many different forms for the same word, and large amounts of data must be used to train these models. It is also difficult to apply standard techniques such as tokenisation since this commonly results in multiple output tags being associated with a single input token, something traditional sequence labelling models do not allow. Finite State Transducers can model sequence-to-sequence tasks where the input and output sequences are different lengths, and they can be combined with language models to ensure a valid output sequence is generated. We perform a preliminary analysis into the use of transducer-based language models to parse and normalise building point metadata.
翻訳日:2022-12-06 15:18:05 公開日:2022-12-05
# QBERT: 質問を処理するためのジェネリストモデル

QBERT: Generalist Model for Processing Questions ( http://arxiv.org/abs/2212.01967v1 )

ライセンス: Link先を確認
Zhaozhen Xu, Nello Cristianini(参考訳) さまざまなタスクにまたがる単一のモデルを使用することは、深層ニューラルネットワークモデルのトレーニングと適用に有用である。 我々は、単一のアプリケーションに特化するのではなく、様々なタスクを実行するために使用できるテキストのジェネラリスト表現を開発する問題に対処する。 本稿では,質問トピックの分類,等価な質問認識,質問応答など,様々な問題に有効な,短い質問の処理とこれらの質問への埋め込みの開発に焦点をあてる。 本稿では,質問処理のための一般化モデルであるQBERTを紹介する。 QBERTでは、質問関連タスクをすべて実行し、対応するシングルタスクモデルと同等の性能を持つマルチタスクネットワークをトレーニングする方法を実証する。

Using a single model across various tasks is beneficial for training and applying deep neural sequence models. We address the problem of developing generalist representations of text that can be used to perform a range of different tasks rather than being specialised to a single application. We focus on processing short questions and developing an embedding for these questions that is useful on a diverse set of problems, such as question topic classification, equivalent question recognition, and question answering. This paper introduces QBERT, a generalist model for processing questions. With QBERT, we demonstrate how we can train a multi-task network that performs all question-related tasks and has achieved similar performance compared to its corresponding single-task models.
翻訳日:2022-12-06 15:12:35 公開日:2022-12-05
# 混合データセットからのオフライン強化学習のための逆kl正規化機能付きtd3

TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from Mixed Datasets ( http://arxiv.org/abs/2212.02125v1 )

ライセンス: Link先を確認
Yuanying Cai, Chuheng Zhang, Li Zhao, Wei Shen, Xuyun Zhang, Lei Song, Jiang Bian, Tao Qin, Tieyan Liu(参考訳) エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。 この設定には2つの課題があります。 1) RL信号の最適化と行動クローニング(BC)信号の最適トレードオフは, 異なる行動方針によって引き起こされる行動カバレッジの変化によって異なる状態に変化する。 以前の方法は、グローバルなトレードオフを制御するだけでは対処できない。 2) ある状態において、異なる行動ポリシーによって生成される行動分布は、複数のモードを持つことができる。 以前の多くの方法でのbc正規化は平均参照であり、結果としてモードの中央でout-of-distribution (ood) アクションを選択するポリシーとなる。 本稿では,td3アルゴリズムに基づくbc正規化器として,適応重み付き逆kullback-leibler(kl)の発散を用いた。 我々の方法は、RL信号とBC信号と状態単位の重み(例えば、狭めの動作カバレッジを持つ状態における強いBC正規化)を交換するだけでなく、逆KLのモード探索特性によるOOD動作の選択も避ける。 経験的に、我々のアルゴリズムは、MuJoCoのロコモーションタスクにおける既存のオフラインRLアルゴリズムを標準のD4RLデータセットと標準のデータセットを組み合わせた混合データセットで上回ることができる。

We consider an offline reinforcement learning (RL) setting where the agent need to learn from a dataset collected by rolling out multiple behavior policies. There are two challenges for this setting: 1) The optimal trade-off between optimizing the RL signal and the behavior cloning (BC) signal changes on different states due to the variation of the action coverage induced by different behavior policies. Previous methods fail to handle this by only controlling the global trade-off. 2) For a given state, the action distribution generated by different behavior policies may have multiple modes. The BC regularizers in many previous methods are mean-seeking, resulting in policies that select out-of-distribution (OOD) actions in the middle of the modes. In this paper, we address both challenges by using adaptively weighted reverse Kullback-Leibler (KL) divergence as the BC regularizer based on the TD3 algorithm. Our method not only trades off the RL and BC signals with per-state weights (i.e., strong BC regularization on the states with narrow action coverage, and vice versa) but also avoids selecting OOD actions thanks to the mode-seeking property of reverse KL. Empirically, our algorithm can outperform existing offline RL algorithms in the MuJoCo locomotion tasks with the standard D4RL datasets as well as the mixed datasets that combine the standard datasets.
翻訳日:2022-12-06 15:12:12 公開日:2022-12-05
# 後悔最小化制御のための観察的・介入的因果学習

Observational and Interventional Causal Learning for Regret-Minimizing Control ( http://arxiv.org/abs/2212.02435v1 )

ライセンス: Link先を確認
Christian Reiser(参考訳) 観察的および介入的因果発見法を組み合わせる方法について検討する。 lpcmciと呼ばれる、潜伏する共同創設者や同時代の効果を処理できる時系列の最先端の観察的因果発見アルゴリズムは、ランダム化制御試験で発見されたカジュアルな制約から利益を得るように拡張されている。 数値計算の結果, 完全な介入制約が与えられた場合, 拡張LPCMCIの再構成構造因果モデル(SCM)は, 目標変数の最適予測時間の84.6%を許容することがわかった。 干渉因果発見と観察因果発見の実装はモジュールであり、他のソースからの因果的制約を可能にする。 本論文の第2部では,因果モデルと計画行動を同時に学習することで,後悔の最小化制御の問題を検討する。 測定変数を最適化するエージェントは、観察的因果発見を通じてまずシステムの力学を学習する。 次にエージェントは、新しい介入データの利用と生成を可能にするランダム化された値で最も有望な変数に介入する。 エージェントは介入データを使用して因果モデルをさらに強化し、次に改善されたアクションを可能にする。 拡張LPCMCIは、元のLPCMCIアルゴリズムと比較して好適である。 計算結果から,介入制約の検出と利用は,元のLPCMCIアルゴリズムを用いた場合のベースライン53.6%とは対照的に,目標変数の最適予測に60.9%の時間を要した再構成SCMに繋がることが示された。 さらに,従来のLPCMCIアルゴリズムを介在的発見を伴う拡張LPCMCIアルゴリズムを使用する場合,誘発平均後悔は1.2から1.0に減少する。

We explore how observational and interventional causal discovery methods can be combined. A state-of-the-art observational causal discovery algorithm for time series capable of handling latent confounders and contemporaneous effects, called LPCMCI, is extended to profit from casual constraints found through randomized control trials. Numerical results show that, given perfect interventional constraints, the reconstructed structural causal models (SCMs) of the extended LPCMCI allow 84.6% of the time for the optimal prediction of the target variable. The implementation of interventional and observational causal discovery is modular, allowing causal constraints from other sources. The second part of this thesis investigates the question of regret minimizing control by simultaneously learning a causal model and planning actions through the causal model. The idea is that an agent to optimize a measured variable first learns the system's mechanics through observational causal discovery. The agent then intervenes on the most promising variable with randomized values allowing for the exploitation and generation of new interventional data. The agent then uses the interventional data to enhance the causal model further, allowing improved actions the next time. The extended LPCMCI can be favorable compared to the original LPCMCI algorithm. The numerical results show that detecting and using interventional constraints leads to reconstructed SCMs that allow 60.9% of the time for the optimal prediction of the target variable in contrast to the baseline of 53.6% when using the original LPCMCI algorithm. Furthermore, the induced average regret decreases from 1.2 when using the original LPCMCI algorithm to 1.0 when using the extended LPCMCI algorithm with interventional discovery.
翻訳日:2022-12-06 15:11:49 公開日:2022-12-05
# 適応的サンプリングによる公平な介入による条件付き生成のスプリアス因果関係の破れ

Breaking the Spurious Causality of Conditional Generation via Fairness Intervention with Corrective Sampling ( http://arxiv.org/abs/2212.02090v1 )

ライセンス: Link先を確認
Junhyun Nam, Sangwoo Mo, Jaeho Lee, Jinwoo Shin(参考訳) サンプルとラベルの関係を捉えようとすると、条件付き生成モデルはしばしばトレーニングデータセットのスプリアス相関を継承し、別の潜在属性でひどく不均衡なラベル条件分布を与える。 このような望ましくない相関を生成モデルに刻み込むために,我々はスプリアス因果関係と呼ぶ手法を提案する。 (a)Fairness Intervention (FI):トレーニングデータセットの急激な相関により生成が困難であるマイノリティサンプルを強調する。 b) 補正サンプリング(CS): 生成したサンプルを明示的にフィルタし、所望のラベル条件潜在属性分布に従う。 我々は,非教師あり,弱い教師あり,半教師ありのシナリオを含む,スプリアス属性に対する様々な監督の公正な介入をデザインする。 実験の結果,提案したFICSは,様々なデータセット上で生成したサンプルのスプリアス相関を解くことができることがわかった。

Trying to capture the sample-label relationship, conditional generative models often end up inheriting the spurious correlation in the training dataset, giving label-conditional distributions that are severely imbalanced in another latent attribute. To mitigate such undesirable correlations engraved into generative models, which we call spurious causality, we propose a general two-step strategy. (a) Fairness Intervention (FI): Emphasize the minority samples that are hard to be generated due to the spurious correlation in the training dataset. (b) Corrective Sampling (CS): Filter the generated samples explicitly to follow the desired label-conditional latent attribute distribution. We design the fairness intervention for various degrees of supervision on the spurious attribute, including unsupervised, weakly-supervised, and semi-supervised scenarios. Our experimental results show that the proposed FICS can successfully resolve the spurious correlation in generated samples on various datasets.
翻訳日:2022-12-06 15:09:45 公開日:2022-12-05
# MapInWild:自然を野生にする質問に答えるリモートセンシングデータセット

MapInWild: A Remote Sensing Dataset to Address the Question What Makes Nature Wild ( http://arxiv.org/abs/2212.02265v1 )

ライセンス: Link先を確認
Burak Ekim, Timo T. Stomberg, Ribana Roscher, Michael Schmitt(参考訳) 環境に対する音韻的圧力(すなわち人間の影響)は、生物多様性の喪失の最大の原因の1つである。 対照的に、荒野地域は乱れのない生態系の過程がある。 しかし、野生という用語の生物学的定義は存在しない。 その代わり、荒野はむしろ哲学的あるいは文化的概念であり、容易に定義したり、技術的に分類することは不可能である。 この論文で。 (i)衛星画像に適用した機械学習による荒野マッピングの課題について紹介する。 (ii)MapInWildは、そのタスクのためにキュレートされた大規模なベンチマークデータセットである。 MapInWildはマルチモーダルデータセットであり、様々な地球観測センサーから取得され、形成されている。 データセットは、1920 x 1920ピクセルの形状で約350gbの8144枚の画像で構成されている。 この画像は、世界自然保護区(Strict Nature Reserves)、荒野地域(Wilderness Areas)、国立公園(National Parks)の3つのクラスで、弱い注釈が付けられている。 このデータセットは、説明可能な機械学習や環境リモートセンシングといった分野の発展のためのテストベッドとして機能する。

Antrophonegic pressure (i.e. human influence) on the environment is one of the largest causes of the loss of biological diversity. Wilderness areas, in contrast, are home to undisturbed ecological processes. However, there is no biophysical definition of the term wilderness. Instead, wilderness is more of a philosophical or cultural concept and thus cannot be easily delineated or categorized in a technical manner. With this paper, (i) we introduce the task of wilderness mapping by means of machine learning applied to satellite imagery (ii) and publish MapInWild, a large-scale benchmark dataset curated for that task. MapInWild is a multi-modal dataset and comprises various geodata acquired and formed from a diverse set of Earth observation sensors. The dataset consists of 8144 images with a shape of 1920 x 1920 pixels and is approximately 350 GB in size. The images are weakly annotated with three classes derived from the World Database of Protected Areas - Strict Nature Reserves, Wilderness Areas, and National Parks. With the dataset, which shall serve as a testbed for developments in fields such as explainable machine learning and environmental remote sensing, we hope to contribute to a deepening of our understanding of the question "What makes nature wild?".
翻訳日:2022-12-06 15:09:27 公開日:2022-12-05
# ドメイン適応意味セグメンテーションのための幾何認識ネットワーク

Geometry-Aware Network for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2212.00920v2 )

ライセンス: Link先を確認
Yinghong Liao, Wending Zhou, Xu Yan, Shuguang Cui, Yizhou Yu, Zhen Li(参考訳) 合成(ソース)データと実際のシーン(ターゲット)データとの差異の測定と緩和は、ドメイン適応意味セグメンテーションの核となる問題である。 近年の研究では、幾何学的および意味的な知識伝達を強化するために、ソース領域に深度情報を導入しているが、2次元推定深度に基づいて位置や形状を含む固有3D情報を抽出することはできない。 本研究では,よりコンパクトな3次元幾何点雲表現を利用して領域ギャップを縮小する,ドメイン適応のための幾何認識ネットワーク(GANDA)を提案する。 特に,まずソース領域からの補助的な深度監視を利用して,対象領域の深度予測を行い,構造・テクスチャのゆがみを実現する。 深度推定の他に、RGB-D画像から生成された点雲上の3次元トポロジーを明示的に利用して、ターゲット領域における座標色展開と擬似ラベル改善を行う。 さらに,対象領域における2次元分類器の改良を目的として,ソースからターゲットへのドメイン不変幾何適応を行い,2次元意味的および3次元幾何学的セグメンテーション結果を2領域に統一する。 GANDAは既存のUDAフレームワークのプラグインとプレイです。 その結果,GTA5->CityscapesおよびSynTHIA->Cityscapesにおいて,我々のモデルが現状よりも優れていることが示された。

Measuring and alleviating the discrepancies between the synthetic (source) and real scene (target) data is the core issue for domain adaptive semantic segmentation. Though recent works have introduced depth information in the source domain to reinforce the geometric and semantic knowledge transfer, they cannot extract the intrinsic 3D information of objects, including positions and shapes, merely based on 2D estimated depth. In this work, we propose a novel Geometry-Aware Network for Domain Adaptation (GANDA), leveraging more compact 3D geometric point cloud representations to shrink the domain gaps. In particular, we first utilize the auxiliary depth supervision from the source domain to obtain the depth prediction in the target domain to accomplish structure-texture disentanglement. Beyond depth estimation, we explicitly exploit 3D topology on the point clouds generated from RGB-D images for further coordinate-color disentanglement and pseudo-labels refinement in the target domain. Moreover, to improve the 2D classifier in the target domain, we perform domain-invariant geometric adaptation from source to target and unify the 2D semantic and 3D geometric segmentation results in two domains. Note that our GANDA is plug-and-play in any existing UDA framework. Qualitative and quantitative results demonstrate that our model outperforms state-of-the-arts on GTA5->Cityscapes and SYNTHIA->Cityscapes.
翻訳日:2022-12-06 15:03:38 公開日:2022-12-05
# ObjectStitch: ジェネレーティブなオブジェクトコンポジション

ObjectStitch: Generative Object Compositing ( http://arxiv.org/abs/2212.00932v2 )

ライセンス: Link先を確認
Yizhi Song, Zhifei Zhang, Zhe Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, Daniel Aliaga(参考訳) 2次元画像に基づくオブジェクト合成は、一般的に色調和、幾何補正、影生成などの複数の処理段階を伴って現実的な結果を生成するため、難しい問題である。 さらに、構成のためのトレーニングデータペアの注釈付けには、専門家によるかなりの手作業が必要で、スケーラビリティはほとんどありません。 そこで本研究では,近年の生成モデルの発展に伴い,条件拡散モデルのパワーを生かして,オブジェクト合成のための自己教師付きフレームワークを提案する。 私たちのフレームワークは、オブジェクト合成タスクを統一モデルで包括的に扱うことができ、生成したオブジェクトのビュー、幾何、色、シャドーを、手動のラベリングを必要とせずに変換できます。 入力対象の特徴を保存するために,分類的意味論とオブジェクトの外観の維持を支援するコンテンツ適応器を導入する。 ジェネレータの忠実性を改善するために、データ拡張法がさらに採用される。 本手法は,様々な実世界画像に対するユーザスタディにおいて,合成結果画像のリアリズムと忠実性の両方において,関連するベースラインを上回っている。

Object compositing based on 2D images is a challenging problem since it typically involves multiple processing stages such as color harmonization, geometry correction and shadow generation to generate realistic results. Furthermore, annotating training data pairs for compositing requires substantial manual effort from professionals, and is hardly scalable. Thus, with the recent advances in generative models, in this work, we propose a self-supervised framework for object compositing by leveraging the power of conditional diffusion models. Our framework can hollistically address the object compositing task in a unified model, transforming the viewpoint, geometry, color and shadow of the generated object while requiring no manual labeling. To preserve the input object's characteristics, we introduce a content adaptor that helps to maintain categorical semantics and object appearance. A data augmentation method is further adopted to improve the fidelity of the generator. Our method outperforms relevant baselines in both realism and faithfulness of the synthesized result images in a user study on various real-world images.
翻訳日:2022-12-06 15:03:16 公開日:2022-12-05
# 制約付き線形逆問題に対する高速アルゴリズム

Fast Algorithm for Constrained Linear Inverse Problems ( http://arxiv.org/abs/2212.01068v2 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff, Floor Fenne Redel, Peyman Mohajerin Esfahani(参考訳) 制約付き線形逆問題 (LIP) を考えると、ある原子ノルム($\ell_1 $ や核ノルムなど)は二次的制約の対象として最小化される。 通常、そのようなコスト関数は微分不可能であり、実際に存在する高速な最適化手法には適用できない。 凸正則性を改善した制約付きLIPの2つの等価な再構成を提案する。 (i)滑らかな凸最小化問題、及び (ii) 強い凸 min-max 問題。 これらの問題は、より優れた \mmode{O \left( \nicefrac{1}{k^2} \right) } 理論収束を保証する既存の加速度に基づく凸最適化法を適用することで解決できる。 しかし、これらの改定の効用を完全に活用するために、LIPの改定を解決するために最適化されたFast Linear Inverse Problem Solver (FLIPS) と呼ばれる新しいアルゴリズムも提供する。 画像処理タスクで発生するスパース符号化問題に対してFLIPSの性能を示す。 この設定では、FLIPSはシャンブル・ポックとC-SALSAのアルゴリズムよりも一貫して優れており、文献上では最も優れた手法である。

We consider the constrained Linear Inverse Problem (LIP), where a certain atomic norm (like the $\ell_1 $ and the Nuclear norm) is minimized subject to a quadratic constraint. Typically, such cost functions are non-differentiable which makes them not amenable to the fast optimization methods existing in practice. We propose two equivalent reformulations of the constrained LIP with improved convex regularity: (i) a smooth convex minimization problem, and (ii) a strongly convex min-max problem. These problems could be solved by applying existing acceleration based convex optimization methods which provide better \mmode{ O \left( \nicefrac{1}{k^2} \right) } theoretical convergence guarantee. However, to fully exploit the utility of these reformulations, we also provide a novel algorithm, to which we refer as the Fast Linear Inverse Problem Solver (FLIPS), that is tailored to solve the reformulation of the LIP. We demonstrate the performance of FLIPS on the sparse coding problem arising in image processing tasks. In this setting, we observe that FLIPS consistently outperforms the Chambolle-Pock and C-SALSA algorithms--two of the current best methods in the literature.
翻訳日:2022-12-06 15:02:15 公開日:2022-12-05
# 効率的なビデオテキスト検索のためのマスキングコントラスト事前学習

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval ( http://arxiv.org/abs/2212.00986v2 )

ライセンス: Link先を確認
Fangxun Shu, Biaolong Chen, Yue Liao, Shuwen Xiao, Wenyu Sun, Xiaobo Li, Yousong Zhu, Jinqiao Wang and Si Liu(参考訳) ビデオテキスト検索タスクに対して,ビデオ言語事前学習(VidLP)フレームワークであるMasked Contrastive Video-Language Pretraining(MAC)を提案する。 我々のMACは,VidLPモデルにおける映像表現の空間的・時間的冗長性をマスクサンプリング機構により低減し,事前学習効率を向上させることを目的としている。 従来の時空間サンプリングと比較して,空間領域の高比をランダムにマスキングし,空間サンプリングとしてエンコーダに可視領域を供給することを提案する。 同様に,テキスト入力のためのマスクサンプリング技術も採用している。 mae のマスキング予測パラダイムを盲目的に適用する代わりに,効率的なビデオテキストアライメントのためのマスキング予測パラダイムを提案する。 モチベーションは、ビデオテキスト検索タスクが低レベルリコンストラクションよりも高レベルアライメントに依存しており、マスキングモデリングとのマルチモーダルアライメントは、不完全で不安定な入力から堅牢で一般的なマルチモーダル表現を学ぶことを奨励している。 これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。 我々のMACは、MSR-VTT、DiDeMo、ActivityNetなど、様々なビデオテキスト検索データセットの最先端結果を達成する。 私たちのアプローチは入力モダリティに全能的です。 最小限の変更で、画像テキスト検索タスクの競合的な結果が得られる。

We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
翻訳日:2022-12-06 14:52:52 公開日:2022-12-05
# 深層連関学習によるicu死亡リスクの早期予測

Early prediction of the risk of ICU mortality with Deep Federated Learning ( http://arxiv.org/abs/2212.00554v2 )

ライセンス: Link先を確認
Korbinian Randl, N\'uria Llad\'os Armengol, Lena Mondrejevski, Ioanna Miliou(参考訳) 集中治療室は通常、重篤な死亡リスクのある患者を搬送する。 近年の研究では、機械学習が患者の死亡リスクを示し、医師をケアの必要性が高まる個人に向ける能力が示されている。 それにもかかわらず、医療データは、しばしばプライバシー規制の対象となり、複数の病院の複合データを使用する集中型機械学習モデルを構築するために、簡単には共有できない。 Federated Learningは、データプライバシ用に設計された機械学習フレームワークで、この問題を回避するために使用できる。 本研究では,集中治療ユニットの死亡リスクを早期に予測するために,深層連関学習の能力を評価する。 我々は、AUPRC、F1スコア、AUROCの観点から、フェデレーション、集中型、局所機械学習の予測性能を比較した。 その結果,フェデレーテッド・ラーニングは集中型アプローチと同等に機能し,局所的アプローチよりも大幅に優れており,早期集中型ケア・ユニットの死亡予測に有効なソリューションであることがわかった。 また,患者の病歴ウィンドウが退院や死亡に近づくと,予測性能が高くなることを示す。 最後に,F1スコアを早期停止指標として使用することにより,課題に対する我々のアプローチの安定化と性能向上が図れることを示す。

Intensive Care Units usually carry patients with a serious risk of mortality. Recent research has shown the ability of Machine Learning to indicate the patients' mortality risk and point physicians toward individuals with a heightened need for care. Nevertheless, healthcare data is often subject to privacy regulations and can therefore not be easily shared in order to build Centralized Machine Learning models that use the combined data of multiple hospitals. Federated Learning is a Machine Learning framework designed for data privacy that can be used to circumvent this problem. In this study, we evaluate the ability of deep Federated Learning to predict the risk of Intensive Care Unit mortality at an early stage. We compare the predictive performance of Federated, Centralized, and Local Machine Learning in terms of AUPRC, F1-score, and AUROC. Our results show that Federated Learning performs equally well as the centralized approach and is substantially better than the local approach, thus providing a viable solution for early Intensive Care Unit mortality prediction. In addition, we show that the prediction performance is higher when the patient history window is closer to discharge or death. Finally, we show that using the F1-score as an early stopping metric can stabilize and increase the performance of our approach for the task at hand.
翻訳日:2022-12-06 14:52:09 公開日:2022-12-05
# 一般化マルチモーダル多目的最適化のための共進化フレームワーク

Coevolutionary Framework for Generalized Multimodal Multi-objective Optimization ( http://arxiv.org/abs/2212.01219v2 )

ライセンス: Link先を確認
Wenhua Li, Xingyi Yao, Kaiwen Li, Rui Wang, Tao Zhang, Ling Wang(参考訳) ほとんどのマルチモーダル多目的進化アルゴリズム(MMEA)は、マルチモーダル多目的最適化問題(MMOP)に対して全グローバルパレート最適集合(PS)を求める。 しかし、現実世界の問題では、意思決定者(DM)もローカルPSに興味を持っているかもしれない。 また、グローバルPSとローカルPSの両方を検索することは、一般化MMOPと見なされるMMOPを扱うという観点でより一般的である。 さらに、最先端のMMEAは、高次元MMOPにあまり収束しない。 そこで本研究では,マルチモーダル多目的最適化のための新しい共進化フレームワークcomeaを提案し,グローバルpsとローカルpssの双方をよりよく獲得し,同時に高次元mmopsを扱う際の収束性能を向上させる。 具体的には、CoMMEAは検索プロセスに2つのアーカイブを導入し、効果的な知識伝達を通じてそれらを同時に進化させる。 収束アーカイブはCoMMEAを支援し、パレート最適前線(PF)に素早く接近する。 収束解の知識は、局所収束指標と$\epsilon$-dominance-based methodを用いてグローバルおよびローカルPSを効果的に取得する多様性アーカイブに転送される。 実験結果から,CoMMEAは,54の複合MMOP上での7つの最先端MMEAと比較して競争力があることがわかった。

Most multimodal multi-objective evolutionary algorithms (MMEAs) aim to find all global Pareto optimal sets (PSs) for a multimodal multi-objective optimization problem (MMOP). However, in real-world problems, decision makers (DMs) may be also interested in local PSs. Also, searching for both global and local PSs is more general in view of dealing with MMOPs, which can be seen as a generalized MMOP. In addition, the state-of-the-art MMEAs exhibit poor convergence on high-dimension MMOPs. To address the above two issues, in this study, a novel coevolutionary framework termed CoMMEA for multimodal multi-objective optimization is proposed to better obtain both global and local PSs, and simultaneously, to improve the convergence performance in dealing with high-dimension MMOPs. Specifically, the CoMMEA introduces two archives to the search process, and coevolves them simultaneously through effective knowledge transfer. The convergence archive assists the CoMMEA to quickly approaching the Pareto optimal front (PF). The knowledge of the converged solutions is then transferred to the diversity archive which utilizes the local convergence indicator and the $\epsilon$-dominance-based method to obtain global and local PSs effectively. Experimental results show that CoMMEA is competitive compared to seven state-of-the-art MMEAs on fifty-four complex MMOPs.
翻訳日:2022-12-06 14:51:50 公開日:2022-12-05
# AIによる6G用Net-RCA

AI Empowered Net-RCA for 6G ( http://arxiv.org/abs/2212.00331v2 )

ライセンス: Link先を確認
Chengbo Qiu, Kai Yang, Ji Wang, and Shenjie Zhao(参考訳) 6Gは、より高いデータレート、信頼性の向上、ユビキタスAIサービス、大規模な接続デバイスのサポートを提供する予定である。 その結果、6gは前機種よりずっと複雑になる。 システムスケールと複雑性の増大、レガシネットワークとの共存、およびサービス要件の多様化は、必然的に、将来の6Gネットワークの保守コストと労力を増大させます。 ネットワークルート原因解析(Net-RCA)はネットワーク障害の根本原因を特定する上で重要な役割を果たしている。 本稿では,まず,想定される6Gネットワークについて紹介する。 次に,6gネットワーク運用と管理の課題と潜在的な解決策を議論し,既存のrca手法を包括的に調査する。 次に,人工知能を用いた6G用Net-RCAフレームワークを提案する。 合成および実世界のネットワークデータの性能比較を行い,提案手法が既存手法よりも優れていることを示す。

6G is envisioned to offer higher data rate, improved reliability, ubiquitous AI services, and support massive scale of connected devices. As a consequence, 6G will be much more complex than its predecessors. The growth of the system scale and complexity as well as the coexistence with the legacy networks and the diversified service requirements will inevitably incur huge maintenance cost and efforts for future 6G networks. Network Root Cause Analysis (Net-RCA) plays a critical role in identifying root causes of network faults. In this article, we first give an introduction about the envisioned 6G networks. Next, we discuss the challenges and potential solutions of 6G network operation and management, and comprehensively survey existing RCA methods. Then we propose an artificial intelligence (AI)-empowered Net-RCA framework for 6G. Performance comparisons on both synthetic and real-world network data are carried out to demonstrate that the proposed method outperforms the existing method considerably.
翻訳日:2022-12-06 14:51:09 公開日:2022-12-05