このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220628となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 設計構造型 povm のシャノンエントロピーと (un)certainty relations の推定 Estimating the Shannon entropy and (un)certainty relations for design-structured POVMs ( http://arxiv.org/abs/2009.13187v5 ) ライセンス: Link先を確認 | Alexey E. Rastegin | (参考訳) 確率分布の様々な特性間の相補関係は情報理論の核となる。
特に、エントロピー関数の下界と上界は非常に重要である。
応用トピックでは、確率の特定の能力の合計が知られている状況に対処することが多い。
主な問題は、課せられた制限をシャノンエントロピーの2面的な推定に変換する方法である。
それは2つの異なる方法で対処される。
より直感的なものはテイラー型の断続展開に基づいている。
別の方法は、シフトしたチェビシェフ多項式の係数の使用に基づいている。
以下からシャノンエントロピーを推定するための多項式の族を提案する。
結果として、特定の点でエラーが大きすぎないという意味で、見積もりはより均一である。
提案手法は、量子設計に割り当てられた正の演算子値測度に対する不確実性と確実性関係を導出するために用いられる。
量子設計は現在、量子情報科学における潜在的な使用のために活発な研究の対象となっている。
導出した推定値は、量子トモグラフィーおよび量子状態の操舵性の検出に適用可能である。 Complementarity relations between various characterizations of a probability distribution are at the core of information theory. In particular, lower and upper bounds for the entropic function are of great importance. In applied topics, we often deal with situations, where the sums of certain powers of probabilities are known. The main question is how to convert the imposed restrictions into two-sided estimates on the Shannon entropy. It is addressed in two different ways. The more intuitive of them is based on truncated expansions of the Taylor type. Another method is based on the use of coefficients of the shifted Chebyshev polynomials. We propose here a family of polynomials for estimating the Shannon entropy from below. As a result, estimates are more uniform in the sense that errors do not become too large in particular points. The presented method is used for deriving uncertainty and certainty relations for positive operator-valued measures assigned to a quantum design. Quantum designs are currently the subject of active researches due to potential use in quantum information science. It is shown that the derived estimates are applicable in quantum tomography and detecting steerability of quantum states. | 翻訳日:2023-04-30 18:49:00 公開日:2022-06-28 |
# 準核スケールにおける量子情報による量子理論の限界の証明 Probing the limits of quantum theory with quantum information at subnuclear scales ( http://arxiv.org/abs/2103.12000v2 ) ライセンス: Link先を確認 | Micha{\l} Eckstein, Pawe{\l} Horodecki | (参考訳) 現代の量子工学技術は量子力学の基礎実験を成功させた。
しかし、量子的仮定の普遍的妥当性は開問題である。
ここでは、量子理論の確立された妥当性を認識できるが、特定の物理状態においてより一般的な「後量子」シナリオを可能にする、q-データテストの新しい理論的枠組みを提案する。
修正された量子波動力学、絡み合いや一般的な確率的仮定を超えた相関を持つ大規模なモデルに対応できる。
強い核相互作用の性質を調べるのに適した実験実装について述べる。
現在の加速器実験とは対照的に、高輝度ビーム物理学から個々の粒子コヒーレント制御へと焦点を移す。 Modern quantum engineering techniques enabled successful foundational tests of quantum mechanics. Yet, the universal validity of quantum postulates is an open question. Here we propose a new theoretical framework of Q-data tests, which recognises the established validity of quantum theory, but allows for more general -- 'post-quantum' -- scenarios in certain physical regimes. It can accommodate a large class of models with modified quantum wave dynamics, correlations beyond entanglement or general probabilistic postulates. We discuss its experimental implementation suited to probe the nature of strong nuclear interactions. In contrast to the present accelerator experiments, it shifts the focus from high-luminosity beam physics to individual particle coherent control. | 翻訳日:2023-04-07 04:27:27 公開日:2022-06-28 |
# パフォーマンスのための量子命令セット設計 Quantum Instruction Set Design for Performance ( http://arxiv.org/abs/2105.06074v3 ) ライセンス: Link先を確認 | Cupjin Huang, Tenghui Wang, Feng Wu, Dawei Ding, Qi Ye, Linghang Kong, Fang Zhang, Xiaotong Ni, Zhijun Song, Yaoyun Shi, Hui-Hai Zhao, Chunqing Deng, Jianxin Chen | (参考訳) 量子命令セットは、量子ハードウェアとソフトウェアが交わる場所である。
異なる量子命令集合の設計を正確に評価するために,非クリフォードゲートに対する新しいキャラクタリゼーションとコンパイル手法を開発した。
具体的には、メインストリーム命令$\mathrm{iSWAP}$をサポートするフラキソニウムプロセッサに、その平方根$\mathrm{SQiSW}$を校正して特徴付ける。
平均$99.31\%$で最大$99.72\%$のゲート忠実度を測定し、平均忠実度$6.38\%$の$\mathrm{sqisw}$を用いてhaarランダムな2量子ビットゲートを実現する。
これは、前者に対して411\%、後者に対して50\%の平均エラー削減であり、同じプロセッサ上で$\mathrm{iSWAP}$を使用する場合と比較している。
これは、$\mathrm{SQiSW}$とそのようなプラットフォーム上のシングルキュービットゲートからなる量子命令セットを設計することで、ほとんどコストがかからないパフォーマンス向上につながることを示している。 A quantum instruction set is where quantum hardware and software meet. We develop new characterization and compilation techniques for non-Clifford gates to accurately evaluate different quantum instruction set designs. We specifically apply them to our fluxonium processor that supports mainstream instruction $\mathrm{iSWAP}$ by calibrating and characterizing its square root $\mathrm{SQiSW}$. We measure a gate fidelity of up to $99.72\%$ with an average of $99.31\%$ and realize Haar random two-qubit gates using $\mathrm{SQiSW}$ with an average fidelity of $96.38\%$. This is an average error reduction of $41\%$ for the former and a $50\%$ reduction for the latter compared to using $\mathrm{iSWAP}$ on the same processor. This shows designing the quantum instruction set consisting of $\mathrm{SQiSW}$ and single-qubit gates on such platforms leads to a performance boost at almost no cost. | 翻訳日:2023-03-31 06:42:52 公開日:2022-06-28 |
# コンパクト符号化における第二量子ハミルトニアンの量子シミュレーション Quantum Simulation of Second-Quantized Hamiltonians in Compact Encoding ( http://arxiv.org/abs/2105.10941v3 ) ライセンス: Link先を確認 | William M. Kirby, Sultana Hadi, Michael Kreshchuk, and Peter J. Love | (参考訳) 本稿では、量子ビット状態が物理占有数基底状態の占有モードのみを符号化するコンパクト符号化を用いて、一般第二量子化ハミルトニアンをシミュレートする方法について述べる。
これらの方法は、定数数の相互作用、すなわち固定形式のはしご作用素単項の線型結合からなる第二量子ハミルトニアンに適用される。
コンパクトエンコーディングは、対数的因子に最適なクビット要求をもたらす。
コンパクト符号化における第二量子化ハミルトン群に対するスパースハミルトニアンシミュレーション手法の使い方を示し、必要なオラクルに対する明示的な実装を与え、その方法を分析する。
また、自由ボソン理論やフェルミオン理論、$\phi^4$-理論、巨大な湯川モデルなど、いずれも等時量子化と光前量子化の両方の応用例についても述べる。
本手法は,2次量子化ハミルトニアンをシミュレーションするための汎用ツールであり,誤差パラメータとモデルパラメータを最適あるいはほぼ最適にスケーリングする。 We describe methods for simulating general second-quantized Hamiltonians using the compact encoding, in which qubit states encode only the occupied modes in physical occupation number basis states. These methods apply to second-quantized Hamiltonians composed of a constant number of interactions, i.e., linear combinations of ladder operator monomials of fixed form. Compact encoding leads to qubit requirements that are optimal up to logarithmic factors. We show how to use sparse Hamiltonian simulation methods for second-quantized Hamiltonians in compact encoding, give explicit implementations for the required oracles, and analyze the methods. We also describe several example applications including the free boson and fermion theories, the $\phi^4$-theory, and the massive Yukawa model, all in both equal-time and light-front quantization. Our methods provide a general-purpose tool for simulating second-quantized Hamiltonians, with optimal or near-optimal scaling with error and model parameters. | 翻訳日:2023-03-30 01:20:34 公開日:2022-06-28 |
# 適応バイアス場を持つ量子近似最適化アルゴリズム Quantum Approximate Optimization Algorithm with Adaptive Bias Fields ( http://arxiv.org/abs/2105.11946v3 ) ライセンス: Link先を確認 | Yunlong Yu, Chenfeng Cao, Carter Dewey, Xiang-Bin Wang, Nic Shannon, Robert Joynt | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、単純な多ビット波動関数を、難しい古典的最適化問題の解を符号化する関数に変換する。
これは、2つのユニタリ演算子がキュービットに交互に適用されるようにスケジュールを最適化することで実現される。
本稿では, 演算子自身を局所場を含むように更新し, 1つの繰り返しステップの最後に測定波動関数からの情報を用いて, 後続のステップで演算子を改善することでQAOAを改良する。
MaxCut問題に関する数値シミュレーションにより、この手順は固定精度でQAOAのランタイムを著しく減少させることを示した。
この改善は問題の大きさによって増加するようだ。
本手法は標準qaoaと同じ最適化ステップの量子ゲート数を本質的に必要とし,追加測定は行わない。
この修正アルゴリズムは、特定の最適化問題に対する量子優位の可能性を高める。 The quantum approximate optimization algorithm (QAOA) transforms a simple many-qubit wavefunction into one which encodes a solution to a difficult classical optimization problem. It does this by optimizing the schedule according to which two unitary operators are alternately applied to the qubits. In this paper, the QAOA is modified by updating the operators themselves to include local fields, using information from the measured wavefunction at the end of one iteration step to improve the operators at later steps. It is shown by numerical simulation on MaxCut problems that, for a fixed accuracy, this procedure decreases the runtime of QAOA very substantially. This improvement appears to increase with the problem size. Our method requires essentially the same number of quantum gates per optimization step as the standard QAOA, and no additional measurements. This modified algorithm enhances the prospects for quantum advantage for certain optimization problems. | 翻訳日:2023-03-29 21:01:27 公開日:2022-06-28 |
# 超伝導量子緩和時間のダイナミクス Dynamics of superconducting qubit relaxation times ( http://arxiv.org/abs/2105.15201v2 ) ライセンス: Link先を確認 | Malcolm Carroll, Sami Rosenblatt, Petar Jurcevic, Isaac Lauer, Abhinav Kandala | (参考訳) 超伝導量子ビットは量子コンピューティングの主要な候補であるが、エネルギー緩和時間t1で時間変動を示す。
これにより、マルチキュービットデバイスの性能が不安定になる。
さらに、これらの時間変動の自己相関は、プロセス最適化とデバイススクリーニングのためのT1の代表的尺度を得る上での課題をもたらす。
これらのT1ゆらぎは、量子ビットの時間的に異なる結合と欠陥、すなわち2レベルシステム(TLS)に起因することが多い。
本稿では, 単接合トランスモンにおけるT1のスペクトルと時間ダイナミクスを, AC-Stark効果による素量子遷移の周波数近傍における繰り返しT1測定により探索する手法を開発した。
10量子ビットにわたって、約9ヶ月の平均T1と、スタークシフト周波数範囲における等重T1の平均のスナップショットとの間に強い相関関係を観測した。
これらの観測は、TLSがT1を支配するエルゴード的なスペクトル拡散を示唆し、デバイススクリーニングとプロセス最適化のためのより高速なT1特徴付けへの道を提供する。 Superconducting qubits are a leading candidate for quantum computing but display temporal fluctuations in their energy relaxation times T1. This introduces instabilities in multi-qubit device performance. Furthermore, autocorrelation in these time fluctuations introduces challenges for obtaining representative measures of T1 for process optimization and device screening. These T1 fluctuations are often attributed to time varying coupling of the qubit to defects, putative two level systems (TLSs). In this work, we develop a technique to probe the spectral and temporal dynamics of T1 in single junction transmons by repeated T1 measurements in the frequency vicinity of the bare qubit transition, via the AC-Stark effect. Across 10 qubits, we observe strong correlations between the mean T1 averaged over approximately nine months and a snapshot of an equally weighted T1 average over the Stark shifted frequency range. These observations are suggestive of an ergodic-like spectral diffusion of TLSs dominating T1, and offer a promising path to more rapid T1 characterization for device screening and process optimization. | 翻訳日:2023-03-28 05:52:24 公開日:2022-06-28 |
# 約$T$ゲートの量子回路の学習 Learning quantum circuits of some $T$ gates ( http://arxiv.org/abs/2106.12524v3 ) ライセンス: Link先を確認 | Ching-Yi Lai and Hao-Chung Cheng | (参考訳) 本稿では,ある構造を持つ未知の量子回路を学習する問題について検討する。
未知のターゲットが$n$-qubit Clifford回路である場合、$O(n^2)$クエリを使って回路表現を再構築する効率的なアルゴリズムを考案する。
このケースでは安定化形式が適用できないため、何十年もの間、クリフォード群を超えて回路を扱う方法が分かっていない。
本稿では,計算量に基づいて,$T$-depthの量子回路について検討する。
我々は、$T$-depth 1 個の回路 {\textit{of full $T$-rank}} の出力状態が、特定の代数構造を持つ安定化器擬混合式で表されることを示す。
出力状態のコピーに対するpauliとbellの測定を用いて、計算基底状態の未知のターゲット回路と等価な仮説回路を入力として生成することができる。
対象の$t$ゲート数が$o({{\log n}})$である場合、アルゴリズムは$o(n^2)$クエリを必要とし、その等価回路表現を計算ベースで計算時間$o(n^3)$で生成する。
追加の$o(4^{3n})$古典計算を用いることで、任意の入力状態のターゲットを正確に記述することができる。
以上の結果から, 安定状態は安定状態形式に基づいて効率的に同定できるという既知の事実を大きく拡張した。 In this paper, we study the problem of learning an unknown quantum circuit of a certain structure. If the unknown target is an $n$-qubit Clifford circuit, we devise an efficient algorithm to reconstruct its circuit representation by using $O(n^2)$ queries to it. For decades, it has been unknown how to handle circuits beyond the Clifford group since the stabilizer formalism cannot be applied in this case. Herein, we study quantum circuits of $T$-depth one on the computational basis. We show that the output state of a $T$-depth one circuit {\textit{of full $T$-rank}} can be represented by a stabilizer pseudomixture with a specific algebraic structure. Using Pauli and Bell measurements on copies of the output states, we can generate a hypothesis circuit that is equivalent to the unknown target circuit on computational basis states as input. If the number of $T$ gates of the target is of the order $O({{\log n}})$, our algorithm requires $O(n^2)$ queries to it and produces its equivalent circuit representation on the computational basis in time $O(n^3)$. Using further additional $O(4^{3n})$ classical computations, we can derive an exact description of the target for arbitrary input states. Our results greatly extend the previously known facts that stabilizer states can be efficiently identified based on the stabilizer formalism. | 翻訳日:2023-03-25 18:21:07 公開日:2022-06-28 |
# 弱非線形計測による量子状態形成のための深部強化学習 Deep Reinforcement Learning for Quantum State Preparation with Weak Nonlinear Measurements ( http://arxiv.org/abs/2107.08816v3 ) ライセンス: Link先を確認 | Riccardo Porotti, Antoine Essig, Benjamin Huard, Florian Marquardt | (参考訳) 量子制御は近年、状態の初期化や安定化といったタスクへの関心が高まっている。
フィードバックベースの戦略は、指数関数的に増加する検索空間のため、特に強力だが見つけにくい。
深い強化学習は、この点において大きな可能性を秘めている。
非線形測定が線形で制約のある制御を補償できるかどうかなど、難しい問題に対する新たな答えを提供する可能性がある。
ここでは、事前知識がなければ、強化学習がフィードバック戦略の発見に成功することを示す。
簡単な線形駆動を制御として,光子数の量子非破壊検出を行うキャビティにおける状態生成について述べる。
フォック状態は非常に高い忠実度で生成および安定化することができる。
異なるフォック状態の測定速度も制御できるので、重ね合わせ状態に到達することも可能である。 Quantum control has been of increasing interest in recent years, e.g. for tasks like state initialization and stabilization. Feedback-based strategies are particularly powerful, but also hard to find, due to the exponentially increased search space. Deep reinforcement learning holds great promise in this regard. It may provide new answers to difficult questions, such as whether nonlinear measurements can compensate for linear, constrained control. Here we show that reinforcement learning can successfully discover such feedback strategies, without prior knowledge. We illustrate this for state preparation in a cavity subject to quantum-non-demolition detection of photon number, with a simple linear drive as control. Fock states can be produced and stabilized at very high fidelity. It is even possible to reach superposition states, provided the measurement rates for different Fock states can be controlled as well. | 翻訳日:2023-03-21 21:18:51 公開日:2022-06-28 |
# 任意のリンドブラッドマスター方程式に対する量子揺らぎ定理 A quantum fluctuation theorem for any Lindblad master equation ( http://arxiv.org/abs/2108.05937v2 ) ライセンス: Link先を確認 | Gabriele De Chiara and Alberto Imparato | (参考訳) 開量子系のエントロピー生成に対する一般的な量子ゆらぎ定理を複数の環境に結合するが、必ずしも平衡ではない。
このような一般的な定理は、弱カップリングとマルコフの体制に制限されるとき、局所的および大域的マスター方程式の両方を保ち、局所的量子マスター方程式の熱力学的一貫性を裏付ける。
この定理は真に量子的であり、系状態作用素のダイナミクスと浴槽のエントロピー変化を記述するエルミート作用素の保存の観点から表現することができる。
積分ゆらぎ定理はそのような作用素の性質から従う。
さらに、系が時間依存ハミルトニアンによって記述されるときも有効である。
このように、量子ジャジンスキー等式は、ここで示される一般結果の特別な場合である。
また, マイクロ可逆性を維持したまま, 非熱水浴に拡張することができる。
得られた正確な結果を示す数値的な例をいくつか提示する。
最終的に、ゆらぎ定理を、システムと浴の間の相互作用が明示的に考慮される場合に一般化する。
ゆらぎ定理は,大域密度行列の時間反転ダイナミクスと,浴槽のエントロピーのみを含むフォワードダイナミクスに沿った2時間相関関数との関係を示す。 We present a general quantum fluctuation theorem for the entropy production of an open quantum system coupled to multiple environments, not necessarily at equilibrium. Such a general theorem, when restricted to the weak-coupling and Markovian regime, holds for both local and global master equations, corroborating the thermodynamic consistency of local quantum master equations. The theorem is genuinely quantum, as it can be expressed in terms of conservation of a Hermitian operator, describing the dynamics of the system state operator and of the entropy change in the baths. The integral fluctuation theorem follows from the properties of such an operator. Furthermore, it is also valid when the system is described by a time-dependent Hamiltonian. As such, the quantum Jarzynski equality is a particular case of the general result presented here. Moreover, our result can be extended to nonthermal baths, as long as microreversibility is preserved. We present some numerical examples to showcase the exact results previously obtained. We finally generalize the fluctuation theorem to the case where the interaction between the system and the bath is explicitly taken into account. We show that the fluctuation theorem amounts to a relation between time-reversed dynamics of the global density matrix and a two-time correlation function along the forward dynamics involving the baths' entropy alone. | 翻訳日:2023-03-18 16:53:15 公開日:2022-06-28 |
# d = 2 における非自律点相互作用モデルの完全イオン化 Complete ionization for a non-autonomous point interaction model in d = 2 ( http://arxiv.org/abs/2108.06564v4 ) ライセンス: Link先を確認 | William Borrelli, Raffaele Carlone, Lorenzo Tentarelli | (参考訳) 時間に依存するデルタポテンシャルを持つ2次元シュリンガー方程式は、時間によって強度が変化する点相互作用を受ける量子粒子の力学のモデルを表す。
まず, ポテンシャルと初期データムに関する一般的な仮定の下で, コーシー問題の大域的適切性を証明する。
次に、単色周期ポテンシャル(適切な無共振条件を満たす)について、時間非依存問題の境界状態の生存確率の漸近的挙動について検討する。
そのような確率は次数 $\mathcal{o}(\log t/t)^2$ の時間減衰を持つことが示される。 We consider the two dimensional Schr\"odinger equation with time dependent delta potential, which represents a model for the dynamics of a quantum particle subject to a point interaction whose strength varies in time. First, we prove global well-posedness of the associated Cauchy problem under general assumptions on the potential and on the initial datum. Then, for a monochromatic periodic potential (which also satisfies a suitable no-resonance condition) we investigate the asymptotic behavior of the survival probability of a bound state of the time-independent problem. Such probability is shown to have a time decay of order $\mathcal{O}(\log t/t)^2$, up to lower order terms. | 翻訳日:2023-03-18 13:03:40 公開日:2022-06-28 |
# ブロックランチョスを用いた行列積状態における多重励起の直接解法 Direct solution of multiple excitations in a matrix product state with block Lanczos ( http://arxiv.org/abs/2109.08181v2 ) ライセンス: Link先を確認 | Thomas E. Baker, Alexandre Foley, and David S\'en\'echal | (参考訳) 行列積状態法は局所的ガッピングハミルトニアンの基底状態、特に1次元の計算に効率的であることが知られている。
我々は,多目的密度行列再正規化群法を導入し,多くの励起を持つ束行列積状態に作用する。
ブロックまたはバンド付きlanczosアルゴリズムを使用することで、励起束の同時、変動最適化が可能になる。
この手法はハイゼンベルクモデルや他の興味のあるケースで示される。
多数の励起は鎖全体で非常に信頼性の高い局所観測可能な小さな結合次元で得ることができる。 Matrix product state methods are known to be efficient for computing ground states of local, gapped Hamiltonians, particularly in one dimension. We introduce the multi-targeted density matrix renormalization group method that acts on a bundled matrix product state, holding many excitations. The use of a block or banded Lanczos algorithm allows for the simultaneous, variational optimization of the bundle of excitations. The method is demonstrated on a Heisenberg model and other cases of interest. A large of number of excitations can be obtained at a small bond dimension with highly reliable local observables throughout the chain. | 翻訳日:2023-03-14 20:49:47 公開日:2022-06-28 |
# 古典から量子確率過程へ From Classical to quantum stochastic process ( http://arxiv.org/abs/2110.03668v2 ) ライセンス: Link先を確認 | Gustavo Montes, Soham Biswas and Thomas Gorin | (参考訳) 本稿では,従来の確率過程から始まる量子アナログを,ランダムな経路決定を全経路の重ね合わせに置き換えることで,初めて構築する。
この手順は典型的には、コヒーレンスが連続的に生成され破壊される非単位量子進化につながる。
過渡的性質にもかかわらず、これらのコヒーレンスは古典的観測可能性のスケーリング挙動を変えることができる。
線形イジングスピン鎖におけるゼロ温度グラウバーダイナミクスを用いて、異なるドメイン成長指数を持つ量子アナログを見つける。
場合によっては、この指数は元の古典的過程よりもさらに小さいため、コヒーレンスが緩和過程を高速化するために重要な役割を果たすことができる。 In this paper for the first time, we construct quantum analogs starting from classical stochastic processes, by replacing random which path decisions with superpositions of all paths. This procedure typically leads to non-unitary quantum evolution, where coherences are continuously generated and destroyed. In spite of their transient nature, these coherences can change the scaling behavior of classical observables. Using the zero temperature Glauber dynamics in a linear Ising spin chain, we find quantum analogs with different domain growth exponents. In some cases, this exponent is even smaller than for the original classical process, which means that coherence can play an important role to speed up the relaxation process. | 翻訳日:2023-03-12 05:43:30 公開日:2022-06-28 |
# 少ないフェルミオンの低エネルギー混合における量子カオスのシグナチャ Signatures of quantum chaos in low-energy mixtures of few fermions ( http://arxiv.org/abs/2110.11218v3 ) ライセンス: Link先を確認 | Patrycja {\L}yd\.zba, Tomasz Sowi\'nski | (参考訳) メソスコピック系の低エネルギーダイナミクスは内部平衡の存在に強く依存する。
そのため、超低温原子実験のより良い解釈には、これらの系における量子カオスがどのように現れるかをより正確に理解する必要がある。
本稿では,二重ウェルポテンシャルで動く数個の超低温フェルミオンの,単純かつ実験的に関連する一次元系について考察する。
量子カオスの追跡によく用いられる多体スペクトル特性を解析する。
3つの粒子を持つ系で既に量子カオスのシグネチャが観測されている。
一般にこれらのシグネチャは、両方のコンポーネントに均等にフェルミオンを加えるとより発音される。
一方、粒子の不均衡が増大すると抑制される。 The low energy dynamics of mesoscopic systems strongly depends on the presence of internal equilibration. For this reason, a better interpretation of ultracold atom experiments requires a more accurate understanding of how quantum chaos manifests itself in these systems. In this paper, we consider a simple but experimentally relevant one-dimensional system of a few ultracold fermions moving in a double-well potential. We analyze its many-body spectral properties, which are commonly used to trace quantum chaos. We observe some signatures of quantum chaos already in the system with three particles. Generally, these signatures become more pronounced when fermions are evenly added to both components. On the contrary, they become suppressed when the particle imbalance is increased. | 翻訳日:2023-03-10 21:30:40 公開日:2022-06-28 |
# 無限次元ヒルベルト空間の有効次元:位相空間的アプローチ Effective dimensions of infinite-dimensional Hilbert spaces: A phase-space approach ( http://arxiv.org/abs/2111.09891v2 ) ライセンス: Link先を確認 | Sa\'ul Pilatowsky-Cameo, David Villase\~nor, Miguel A. Bastarrachea-Magnani, Sergio Lerma-Hern\'andez, and Jorge G. Hirsch | (参考訳) フシミ準確率分布を用いて、非有界位相空間の有界部分が無限次元ヒルベルト空間において有限実次元を誘導することを示す。
カオスエネルギー状態におけるスピンボソンディックモデルに対する一般式と数値結果を比較し、その非有界な4次元位相空間を古典的なカオスエネルギーシェルに制限する。
この有効次元は、局所化やスカーリングのような無限次元系の量子現象を特徴づけるために用いられる。 By employing Husimi quasiprobability distributions, we show that a bounded portion of an unbounded phase space induces a finite effective dimension in an infinite dimensional Hilbert space. We compare our general expressions with numerical results for the spin-boson Dicke model in the chaotic energy regime, restricting its unbounded four-dimensional phase space to a classically chaotic energy shell. This effective dimension can be employed to characterize quantum phenomena in infinite dimensional systems, such as localization and scarring. | 翻訳日:2023-03-07 12:27:46 公開日:2022-06-28 |
# 例外点の結び目位相と非エルミートノーゴー定理 Knot topology of exceptional point and non-Hermitian no-go theorem ( http://arxiv.org/abs/2111.11346v4 ) ライセンス: Link先を確認 | Haiping Hu, Shikang Sun, and Shu Chen | (参考訳) 例外点(EP)は特異なバンド特異点であり、異常な光学現象と非エルミートバンド理論の豊富な配列において重要な役割を果たす。
本稿では,ホモトピー理論に基づく孤立EPの位相分類について述べる。
特に、この分類は、2次元の$n$-次 EP がブレイド群 B$_n$ によって完全に特徴づけられ、そのアイジネギーは、EP を囲む閉経路に沿って幾何学的結び目に結び付けられていることを示している。
ep の量子化判別不変量(quantized discriminant invariant)は結び目の渦である。
結び目交差数は各EPから発するバルクフェルミ弧の数を与える。
さらに、EPの可能な構成と2次元格子上の分割規則を制御し、前のフェルミオン倍数定理を超越する非エルミタンノルゴ定理を提唱した。
非エルミートハミルトニアンを所定の結び目で生成する単純なアルゴリズムを提案する。
本フレームワークはEPの系統的トポロジカルな分類を構成し,エニグマティックな非エルミート的バンド・デジェネリズムに関連する興味深い現象を探求する道を開く。 Exceptional points (EPs) are peculiar band singularities and play a vital role in a rich array of unusual optical phenomena and non-Hermitian band theory. In this paper, we provide a topological classification of isolated EPs based on homotopy theory. In particular, the classification indicates that an $n$-th order EP in two dimensions is fully characterized by the braid group B$_n$, with its eigenenergies tied up into a geometric knot along a closed path enclosing the EP. The quantized discriminant invariant of the EP is the writhe of the knot. The knot crossing number gives the number of bulk Fermi arcs emanating from each EP. Furthermore, we put forward a non-Hermitian no-go theorem, which governs the possible configurations of EPs and their splitting rules on a two-dimensional lattice and goes beyond the previous fermion doubling theorem. We present a simple algorithm generating the non-Hermitian Hamiltonian with a prescribed knot. Our framework constitutes a systematic topological classification of the EPs and paves the way towards exploring the intriguing phenomena related to the enigmatic non-Hermitian band degeneracy. | 翻訳日:2023-03-07 04:22:05 公開日:2022-06-28 |
# 準周期鎖のバルク状態が異なる位相アンダーソン絶縁体 Topological Anderson insulators with different bulk states in quasiperiodic chains ( http://arxiv.org/abs/2201.00988v3 ) ライセンス: Link先を確認 | Ling-Zhi Tang, Shu-Na Liu, Guo-Qing Zhang, and Dan-Wei Zhang | (参考訳) 準周期ホッピング変調を用いた一次元エルミート鎖および非エルミート鎖 Su-Schrieffer-Heeger の位相と局在について検討する。
エルミートの場合、位相図は様々なトポロジカルおよびローカライゼーション文字を数値的に解析して得られる。
準周期性障害によって引き起こされる独立したトポロジカルおよび局在化相転移の共存によるトポロジカル・中間・局所化相の存在を示す。
一次元ランダム乱れ系におけるギャップレスおよび局所化されたTAI相とは異なり、このキラル鎖内の局所化されたバルク状態を持つ準周期非秩序誘起ギャップ付きトポロジカルアンダーソン絶縁体(TAI)の3種類のタイプが発見された。
さらに,非共役複素ホッピング相と非対称ホッピング強度の2種類の非ハーミティシティを考慮し,TAIに対する非エルミティアン効果について検討した。
3種類のtaisが非エルミート摂動の下で保存され、非エルミート実複体や局在遷移、その位相的性質などの特異な局在性と位相的性質を持つことが示されている。
我々の研究は、エルミート系および非エルミート系準周期系の障害誘起TAIがアンダーソン転移と結びついておらず、様々な局在特性を持つことを示した。 We investigate the topology and localization of one-dimensional Hermitian and non-Hermitian Su-Schrieffer-Heeger chains with quasiperiodic hopping modulations. In the Hermitian case, phase diagrams are obtained by numerically and analytically calculating various topological and localization characters. We show the presence of topological extended, intermediate, and localized phases due to the coexistence of independent topological and localization phase transitions driven by the quasiperiodic disorder. Unlike the gapless and localized TAI phase in one-dimensional random disordered systems, we uncover three types of quasiperiodic-disorder-induced gapped topological Anderson insulators (TAIs) with extended, intermediate (with mobility edges), and localized bulk states in this chiral chain. Moreover, we study the non-Hermitian effects on the TAIs by considering two kinds of non-Hermiticities from the non-conjugate complex hopping phase and asymmetric hopping strength, respectively. We demonstrate that three types of TAIs preserve under the non-Hermitian perturbations with some unique localization and topological properties, such as the non-Hermitian real-complex and localization transitions and their topological nature. Our work demonstrates that the disorder-induced TAIs in Hermitian and non-Hermitian quasiperiodic systems are not tied to Anderson transitions and have various localization properties. | 翻訳日:2023-03-02 07:51:37 公開日:2022-06-28 |
# 量子系のクープマン解析 Koopman analysis of quantum systems ( http://arxiv.org/abs/2201.12062v2 ) ライセンス: Link先を確認 | Stefan Klus, Feliks N\"uske, Sebastian Peitz | (参考訳) クープマン作用素理論は流体力学、分子動力学、気候科学、工学、生物学などの様々な研究分野の諸問題に適用されている。
応用例としては、メタスタブルまたはコヒーレントなセットの検出、粗粒化、システム識別、制御などがある。
確率微分方程式と量子力学によって駆動される力学系の間には複雑な関係がある。
本稿では、基底状態変換とネルソンの確率力学を比較し、クープマン作用素の近似のために開発されたデータ駆動法を用いて量子物理学の問題を分析する方法を示す。
さらに、Schr\odinger演算子と確率制御問題との関係を利用して、確率制御の現代的なデータ駆動手法が定常時間あるいは虚時間Schr\odinger方程式を解くことができることを示す。
我々の発見は、最近開発されたデータサイエンスのツールを使って、Schr\"odingerの方程式を解くための新しい道を開く。 Koopman operator theory has been successfully applied to problems from various research areas such as fluid dynamics, molecular dynamics, climate science, engineering, and biology. Applications include detecting metastable or coherent sets, coarse-graining, system identification, and control. There is an intricate connection between dynamical systems driven by stochastic differential equations and quantum mechanics. In this paper, we compare the ground-state transformation and Nelson's stochastic mechanics and demonstrate how data-driven methods developed for the approximation of the Koopman operator can be used to analyze quantum physics problems. Moreover, we exploit the relationship between Schr\"odinger operators and stochastic control problems to show that modern data-driven methods for stochastic control can be used to solve the stationary or imaginary-time Schr\"odinger equation. Our findings open up a new avenue towards solving Schr\"odinger's equation using recently developed tools from data science. | 翻訳日:2023-02-27 16:13:12 公開日:2022-06-28 |
# ニューラルネットワークを用いたクロストーク補償におけるシリコンの電荷雑音に対する2量子CZゲート Two-qubit CZ gates robust against charge noise in silicon while compensating for crosstalk using neural network ( http://arxiv.org/abs/2202.00572v3 ) ライセンス: Link先を確認 | David W. Kanaar, Utkan G\"ung\"ord\"u, J. P. Kestner | (参考訳) シリコンスピン量子ビットを用いた2量子ビットゲートの忠実性は電荷ノイズによって制限される。
局所エコーパルスを用いて帯電ノイズを動的に補償しようとすると、クロストークは合併症を引き起こす可能性がある。
本稿では,ディープニューラルネットワークを用いて解析的に設計された複合パルス列の成分を最適化する方法を提案する。
実験的な2つのシナリオを分析した。
強いEDSR駆動と無視可能なクロストークのシナリオでは、複合パルスシーケンスは単純なコサインパルスよりも最大で1桁改善される。
単純な分析制御フィールドが有効ではないような、適度なESR駆動と評価可能なクロストークのシナリオでは、ニューラルネットワークアプローチによる最適化により、クロストークにもかかわらず、マグニチュードの改善を維持できる。 The fidelity of two-qubit gates using silicon spin qubits is limited by charge noise. When attempting to dynamically compensate for charge noise using local echo pulses, crosstalk can cause complications. We present a method of using a deep neural network to optimize the components of an analytically designed composite pulse sequence, resulting in a two-qubit gate robust against charge noise errors while also taking crosstalk into account. We analyze two experimentally motivated scenarios. For a scenario with strong EDSR driving and negligible crosstalk, the composite pulse sequence yields up to an order of magnitude improvement over a simple cosine pulse. In a scenario with moderate ESR driving and appreciable crosstalk such that simple analytical control fields are not effective, optimization using the neural network approach allows one to maintain order-of-magnitude improvement despite the crosstalk. | 翻訳日:2023-02-27 03:06:35 公開日:2022-06-28 |
# AIVC:人工知能ベースのビデオコーデック AIVC: Artificial Intelligence based Video Codec ( http://arxiv.org/abs/2202.04365v3 ) ライセンス: Link先を確認 | Th\'eo Ladune, Pierrick Philippe | (参考訳) 本稿では,エンドツーエンドのニューラルビデオコーデックであるAIVCを紹介する。
動作補償と符号化のための2つの条件付きオートエンコーダMNetとCNetに基づいている。
AIVCは、単一のエンドツーエンドのレート-歪み最適化を通じて、任意のコーディング構成を使用してビデオを圧縮することを学ぶ。
さらに、いくつかの確立したテスト条件下では、最新のビデオコーダHEVCと性能を競う。
AIVCを構成する異なるモジュールの利点を評価するため、包括的アブレーション研究を行った。
実装はhttps://orange-opensource.github.io/aivc/で利用可能である。 This paper introduces AIVC, an end-to-end neural video codec. It is based on two conditional autoencoders MNet and CNet, for motion compensation and coding. AIVC learns to compress videos using any coding configurations through a single end-to-end rate-distortion optimization. Furthermore, it offers performance competitive with the recent video coder HEVC under several established test conditions. A comprehensive ablation study is performed to evaluate the benefits of the different modules composing AIVC. The implementation is made available at https://orange-opensource.github.io/AIVC/. | 翻訳日:2023-02-26 07:05:22 公開日:2022-06-28 |
# 冗長増幅情報は多体系における量子相関を抑制する Redundantly amplified information suppresses quantum correlations in many-body systems ( http://arxiv.org/abs/2202.09328v2 ) ライセンス: Link先を確認 | D. Girolami, A. Touil, B. Yan, S. Deffner, and W. H. Zurek | (参考訳) 多体系における量子相関の境界を定めている。
彼らは、量子システムに関するどんな情報を、その環境の異なる場所で同時に記録できるかを明らかにする。
具体的には、環境フラグメントを監視する独立したエージェントは、増幅され、冗長に分散された情報のみを盗聴することができる。
また, 古典的客観性の出現は, 条件付き相互情報の特有なスケーリングによって示唆され, ハード数値最適化を回避できることを示した。
客観的な古典的現実は仮定される必要はなく、偶然ではなく、デコヒーレンスや増幅がなければ「量子奇性」につながる量子理論の説得力のある創発的特徴である。
特に、環境フラグメントにアクセスするエージェント間の合意の欠如は、システムに関する情報の不完全性の尺度である情報不足によって制限される。 We establish bounds on quantum correlations in many-body systems. They reveal what sort of information about a quantum system can be simultaneously recorded in different parts of its environment. Specifically, independent agents who monitor environment fragments can eavesdrop only on amplified and redundantly disseminated - hence, effectively classical - information about the decoherence-resistant pointer observable. We also show that the emergence of classical objectivity is signaled by a distinctive scaling of the conditional mutual information, bypassing hard numerical optimizations. Our results validate the core idea of Quantum Darwinism: objective classical reality does not need to be postulated and is not accidental, but rather a compelling emergent feature of quantum theory that otherwise - in absence of decoherence and amplification - leads to "quantum weirdness". In particular, a lack of consensus between agents that access environment fragments is bounded by the information deficit, a measure of the incompleteness of the information about the system. | 翻訳日:2023-02-24 17:24:07 公開日:2022-06-28 |
# 適応変分量子アルゴリズムによる核構造問題の解法 Solving Nuclear Structure Problems with the Adaptive Variational Quantum Algorithm ( http://arxiv.org/abs/2203.01619v2 ) ライセンス: Link先を確認 | A.M. Romero, J. Engel, Ho Lun Tang, and Sophia E. Economou | (参考訳) 我々は,Lipkin-Meshkov-Glickモデルとvalence-space核シェルモデルを用いて,原子構造理論における変分量子固有解法の性能について検討する。
LMGモデルは、中質量核と重核の集合力学を特徴付ける特徴として、平均場レベルでの相転移と自発対称性の破れの両方を示す。
特に柔軟かつ正確な変分法であるadapt-vqeアルゴリズムは,適切な修正を行えば,これらの複雑化に支障をきたすことはない。
最大12個の粒子を扱い、基底状態エネルギーに近づくために必要な量子演算の数は量子ビット数と線形にスケールすることを示した。
同様のスケーリングは、アルゴリズムが$sd$ と $pf$ のシェルで現実的な相互作用を持つ核シェルモデルに適用されたときに見つかる。
これらのシミュレーションのほとんどはノイズを含まないが、実際のIBMハードウェアのノイズモデルを用いて、4つの粒子を持つLCGモデルの場合、弱いノイズはアルゴリズムの効率に影響を与えないことを示す。 We use the Lipkin-Meshkov-Glick (LMG) model and the valence-space nuclear shell model to examine the likely performance of variational quantum eigensolvers in nuclear-structure theory. The LMG model exhibits both a phase transition and spontaneous symmetry breaking at the mean-field level in one of the phases, features that characterize collective dynamics in medium-mass and heavy nuclei. We show that with appropriate modifications, the ADAPT-VQE algorithm, a particularly flexible and accurate variational approach, is not troubled by these complications. We treat up to 12 particles and show that the number of quantum operations needed to approach the ground-state energy scales linearly with the number of qubits. We find similar scaling when the algorithm is applied to the nuclear shell model with realistic interactions in the $sd$ and $pf$ shells. Although most of these simulations contain no noise, we use a noise model from real IBM hardware to show that for the LMG model with four particles, weak noise has no effect on the efficiency of the algorithm. | 翻訳日:2023-02-23 05:53:30 公開日:2022-06-28 |
# 可積分系における熱力学的対称性が解く絡み合いエントロピー Thermodynamic symmetry resolved entanglement entropies in integrable systems ( http://arxiv.org/abs/2203.09158v2 ) ライセンス: Link先を確認 | Lorenzo Piroli, Eric Vernier, Mario Collura, Pasquale Calabrese | (参考訳) 我々は、相互作用可積分系における熱力学マクロ状態の対称性分解R\'enyiとフォン・ノイマン絡み合いエントロピー(SREE)を計算するための一般的なアプローチを開発する。
本手法は,大偏差理論による熱力学 bethe ansatz と g\"artner-ellis 定理を組み合わせたものである。
我々はフォン・ノイマン・スリーの明示的な単純式を導出し、電荷セクターによって決定される有効マクロ状態の熱力学的ヤン=ヤンエントロピーと一致することを示す。
XXZハイゼンベルクスピン鎖に着目し, 熱状態に対するiTEBD計算の結果を検証し, 良好な一致を得た。
応用として、量子クエンチによるSREEの漸近値の解析的予測を提供する。 We develop a general approach to compute the symmetry-resolved R\'enyi and von Neumann entanglement entropies (SREE) of thermodynamic macrostates in interacting integrable systems. Our method is based on a combination of the thermodynamic Bethe ansatz and the G\"artner-Ellis theorem from large deviation theory. We derive an explicit simple formula for the von Neumann SREE, which we show to coincide with the thermodynamic Yang-Yang entropy of an effective macrostate determined by the charge sector. Focusing on the XXZ Heisenberg spin chain, we test our result against iTEBD calculations for thermal states, finding good agreement. As an application, we provide analytic predictions for the asymptotic value of the SREE following a quantum quench. | 翻訳日:2023-02-21 21:00:58 公開日:2022-06-28 |
# 信頼できるAIを実践で評価する方法 How to Assess Trustworthy AI in Practice ( http://arxiv.org/abs/2206.09887v2 ) ライセンス: Link先を確認 | Roberto V. Zicari, Julia Amann, Fr\'ed\'erick Bruneault, Megan Coffee, Boris D\"udder, Eleanore Hickman, Alessio Gallucci, Thomas Krendl Gilbert, Thilo Hagendorff, Irmhild van Halem, Elisabeth Hildt, Sune Holm, Georgios Kararigas, Pedro Kringen, Vince I. Madai, Emilie Wiinblad Mathez, Jesmin Jahan Tithi, Dennis Vetter, Magnus Westerlund, Renee Wurth | (参考訳) 本報告は Z-Inspection$^{\small{\circledR}}$ に関する方法論的考察である。
Z-Inspection$^{\small{\circledR}}$は、AIライフサイクルの異なる段階におけるAIベースの技術の信頼性を評価するために使用される総合的なプロセスである。
特に、社会技術的シナリオの解明を通じて倫理的問題と緊張の識別と議論に焦点を当てている。
欧州連合の高レベルエキスパートグループ(EU HLEG)のガイドラインを信頼に値するAIに用いている。
このレポートは、信頼できるAIのためのEU HLEGガイドラインを実際に適用する方法について、AI研究者とAI実践者の両方に説明します。
医療におけるaiシステムの信頼性を評価するために、一連の独立した評価を行うことから学んだ教訓を共有します。
また、AIシステムのライフサイクルを通じて、厳格な信頼できるAIアセスメントを確保するための重要な推奨事項と実践的な提案を共有します。 This report is a methodological reflection on Z-Inspection$^{\small{\circledR}}$. Z-Inspection$^{\small{\circledR}}$ is a holistic process used to evaluate the trustworthiness of AI-based technologies at different stages of the AI lifecycle. It focuses, in particular, on the identification and discussion of ethical issues and tensions through the elaboration of socio-technical scenarios. It uses the general European Union's High-Level Expert Group's (EU HLEG) guidelines for trustworthy AI. This report illustrates for both AI researchers and AI practitioners how the EU HLEG guidelines for trustworthy AI can be applied in practice. We share the lessons learned from conducting a series of independent assessments to evaluate the trustworthiness of AI systems in healthcare. We also share key recommendations and practical suggestions on how to ensure a rigorous trustworthy AI assessment throughout the life-cycle of an AI system. | 翻訳日:2023-02-19 17:52:10 公開日:2022-06-28 |
# 保証付きギグ:フードデリバリー労働者のための公正な賃金獲得 Gigs with Guarantees: Achieving Fair Wage for Food Delivery Workers ( http://arxiv.org/abs/2205.03530v2 ) ライセンス: Link先を確認 | Ashish Nair, Rahul Yadav, Anjali Gupta, Abhijnan Chakraborty, Sayan Ranu, Amitabha Bagchi | (参考訳) フードデリバリープラットフォームの普及に伴い、これらのプラットフォームにおける「ギグ」労働者の労働条件、特に公平な賃金、合理的な労働時間、仕事の可用性の透明性などを検討することが重要になっている。
しかしながら、これらの問題の解決策は、顧客エクスペリエンスを損なうことなく、プラットフォームがそれらを採用しようとすることを確実にするためにコスト効率を高くしなければなりません。
我々は,配送業者に収入保証を提供するwork4foodを提案し,プラットフォームのコストを最小化し,顧客満足度を確保する。
work4foodは、収入保証が労働時間の増加や環境影響の低下につながることのない方法で満たされることを保証する。
これらの目的を取り入れるために、WORK4FOODは、システム内のエージェント数を制御し、エージェントの位置、評価などの要因に基づいてエージェントに動的支払い保証を提供することにより、供給と需要のバランスをとる。
我々は,WORK4FOODをリードフードデリバリープラットフォームから実世界のデータセット上で評価し,目前にある多次元目標の観点から,その技術状況に対する優位性を確立する。 With the increasing popularity of food delivery platforms, it has become pertinent to look into the working conditions of the 'gig' workers in these platforms, especially providing them fair wages, reasonable working hours, and transparency on work availability. However, any solution to these problems must not degrade customer experience and be cost-effective to ensure that platforms are willing to adopt them. We propose WORK4FOOD, which provides income guarantees to delivery agents, while minimizing platform costs and ensuring customer satisfaction. WORK4FOOD ensures that the income guarantees are met in such a way that it does not lead to increased working hours or degrade environmental impact. To incorporate these objectives, WORK4FOOD balances supply and demand by controlling the number of agents in the system and providing dynamic payment guarantees to agents based on factors such as agent location, ratings, etc. We evaluate WORK4FOOD on a real-world dataset from a leading food delivery platform and establish its advantages over the state of the art in terms of the multi-dimensional objectives at hand. | 翻訳日:2023-02-19 16:45:13 公開日:2022-06-28 |
# コンテキスト対応スマートヘルスケアへの貢献:セキュリティとプライバシの観点から Contributions to Context-Aware Smart Healthcare: A Security and Privacy Perspective ( http://arxiv.org/abs/2206.14567v1 ) ライセンス: Link先を確認 | Edgar Batista | (参考訳) 健康データの管理は、収集から分析まで、非常に機密性の高い性質のため、多くの困難な問題を引き起こします。
特にこの論文は、スマートヘルスパラダイムにおけるいくつかのセキュリティとプライバシの課題に寄与している。
より具体的には、我々はまず、スマートヘルスシナリオを実現するコンテキスト対応環境へのコントリビューションを開発します。
このような環境に展開されるセンサやネットワークのセキュリティ面に関する広範な分析、ユビキタスコンピューティングシステムを分析するための新しいユーザ中心のプライバシフレームワーク、認知都市を適切に実装するために直面するセキュリティとプライバシの課題に関する完全な分析を示す。
第二に、プロセスマイニングは一般的な分析分野であり、組織内のビジネスプロセスの分析に役立ちます。
医療業界での人気にもかかわらず、医療プロセスの複雑さとプライバシーに関する研究の不足という2つの大きな問題に対処しています。
第1の課題について,複雑なプロセスを単純化するヒューリスティックを組み込んだ新しいプロセス発見アルゴリズムを提案し,第2に,精度とプライバシの顕著なトレードオフを実現する2つの新しいプライバシ保存プロセスマイニング手法を提案する。
最後に、我々は、ルートのコンテキスト対応レコメンデーションシステム、病院環境における早期動員プログラムをサポートするプラットフォーム、健康志向の地理情報システムなど、いくつかのスマートヘルスアプリケーションを紹介する。
この論文の成果は、研究コミュニティが将来の知的環境のセキュリティを強化し、市民の個人および健康データに関するプライバシーを強化することを目的としている。 The management of health data, from their gathering to their analysis, arises a number of challenging issues due to their highly confidential nature. In particular, this dissertation contributes to several security and privacy challenges within the smart health paradigm. More concretely, we firstly develop some contributions to context-aware environments enabling smart health scenarios. We present an extensive analysis on the security aspects of the underlying sensors and networks deployed in such environments, a novel user-centred privacy framework for analysing ubiquitous computing systems, and a complete analysis on the security and privacy challenges that need to be faced to implement cognitive cities properly. Second, we contribute to process mining, a popular analytical field that helps analyse business processes within organisations. Despite its popularity within the healthcare industry, we address two major issues: the high complexity of healthcare processes and the scarce research on privacy aspects. Regarding the first issue, we present a novel process discovery algorithm with a built-in heuristic that simplifies complex processes and, regarding the second, we propose two novel privacy-preserving process mining methods, which achieve a remarkable trade-off between accuracy and privacy. Last but not least, we present some smart health applications, namely a context-aware recommender system for routes, a platform supporting early mobilization programmes in hospital settings, and a health-oriented geographic information system. The results of this dissertation are intended to help the research community to enhance the security of the intelligent environments of the future as well as the privacy of the citizens regarding their personal and health data. | 翻訳日:2023-02-19 09:31:48 公開日:2022-06-28 |
# コンピューティングパワーの重要性 The Importance of (Exponentially More) Computing Power ( http://arxiv.org/abs/2206.14007v1 ) ライセンス: Link先を確認 | Neil C. Thompson, Shuning Ge, Gabriel F. Manso | (参考訳) シリコンバレーのデニジンはムーアの法則を「人類史上最も重要なグラフ」と呼び、経済学者はムーアの法則駆動のi.t.革命が国内生産性向上の最も重要な源の1つであることを見出した。
しかし、これらの主張を裏付けるデータは、例えば、I.T.自体ではなく、I.T.への支出を調べることによって、抽象化される傾向にある。
本稿では,2つの計算ベザー (Chess と Go) と3つの経済的重要な応用 (ウェザー予測,タンパク質の折り畳み,石油探査) の5つの領域にコンピュータパワーが与えた影響の直接的な定量的証拠を収集する。
計算能力はこれらの領域のパフォーマンス改善の49%から94%である。
しかし、経済理論は通常、入力と出力の間の電力-法則関係を仮定するが、これらの結果に線形改善を得るためには、計算能力の指数的な増加が必要である。
これは、ムーアの法則によるコンピューティングパワーの指数関数的な成長が進歩にとって非常に重要である理由と、ムーアの法則が崩壊するにつれて、多くのドメインのパフォーマンス改善が経済的に不安定になっている理由を明確にするのに役立つ。 Denizens of Silicon Valley have called Moore's Law "the most important graph in human history," and economists have found that Moore's Law-powered I.T. revolution has been one of the most important sources of national productivity growth. But data substantiating these claims tend to either be abstracted - for example by examining spending on I.T., rather than I.T. itself - or anecdotal. In this paper, we assemble direct quantitative evidence of the impact that computing power has had on five domains: two computing bellwethers (Chess and Go), and three economically important applications (weather prediction, protein folding, and oil exploration). Computing power explains 49%-94% of the performance improvements in these domains. But whereas economic theory typically assumes a power-law relationship between inputs and outputs, we find that an exponential increase in computing power is needed to get linear improvements in these outcomes. This helps clarify why the exponential growth of computing power from Moore's Law has been so important for progress, and why performance improvements across many domains are becoming economically tenuous as Moore's Law breaks down. | 翻訳日:2023-02-19 09:30:59 公開日:2022-06-28 |
# fire dragonとunicorn princess : 検索エンジン応答におけるジェンダーステレオタイプと子どもの製品 Fire Dragon and Unicorn Princess; Gender Stereotypes and Children's Products in Search Engine Responses ( http://arxiv.org/abs/2206.13747v1 ) ライセンス: Link先を確認 | Amifa Raj and Michael D. Ekstrand | (参考訳) 電子商取引設定の検索エンジンは、子どものアイテムを含むオンラインで利用可能な幅広い製品のアイテムを検索、閲覧、選択することができる。
おもちゃ、本、学習教材などの子供の製品は、しばしばステレオタイプに基づく性関係を持つ。
学術研究と公共キャンペーンは共に、ステレオタイプフリーの小児発達を促進するために活動している。
しかし、これまでeコマース検索エンジンは、ジェンダーステレオタイプの潜在的チャネルとして、物理店舗、製品デザイン、マーケティングほど注目されていない。
本稿では,このギャップを埋めるため,eコマースサイトにおける性ステレオタイプの出現を,子どもの製品に関する質問に応答する際に,質問の提案と検索結果を探索することによって検討する。
主な貢献は3つあります。
まず,既存の研究機関のジェンダーステレオタイプを関連づけた子ども製品のリストを提供する。
第2に,システム応答における性別のステレオタイプを特定し定量化するための予備的手法を提案する。
第3に,この問題に対処することの重要性を示すため,複数の電子商取引サイトにおける問合せ提案と検索結果におけるジェンダーステレオタイプの存在を明らかにする。 Search engines in e-commerce settings allow users to search, browse, and select items from a wide range of products available online including children's items. Children's products such as toys, books, and learning materials often have stereotype-based gender associations. Both academic research and public campaigns are working to promote stereotype-free childhood development. However, to date, e-commerce search engines have not received as much attention as physical stores, product design, or marketing as a potential channel of gender stereotypes. To fill this gap, in this paper, we study the manifestations of gender stereotypes in e-commerce sites when responding to queries related to children's products by exploring query suggestions and search results. We have three primary contributions. First, we provide an aggregated list of children's products with associated gender stereotypes from the existing body of research. Second, we provide preliminary methods for identifying and quantifying gender stereotypes in system's responses. Third, to show the importance of attending this problem, we identify the existence of gender stereotypes in query suggestions and search results across multiple e-commerce sites. | 翻訳日:2023-02-19 09:30:34 公開日:2022-06-28 |
# ヒューマンコンピュータシステムの性能評価のためのテスト A Test for Evaluating Performance in Human-Computer Systems ( http://arxiv.org/abs/2206.12390v2 ) ライセンス: Link先を確認 | Andres Campero, Michelle Vaccaro, Jaeyoon Song, Haoran Wen, Abdullah Almaatouq, Thomas W. Malone | (参考訳) コンピュータのパフォーマンスを人間のパフォーマンスと比較するチューリングテストはよく知られているが、驚くべきことに、人間のコンピュータシステムの性能が、人間単独、コンピュータ単独、その他のベースラインと比べてどの程度優れているかを比較するために広く使われているテストはない。
ここでは,効果の大きさの尺度として,手段の比率を用いて,そのようなテストを行う方法を示す。
そして、このテストの使用を3つの方法で実演します。
第1に,最近公表された79の実験結果の分析では,半数以上の研究で性能低下がみられ,性能改善の平均値と中央値の比はともに約1(改善なし)で,最大比は1.36(36%改善)であることが判明した。
第2に,大規模かつ最先端のAIシステムであるGPT-3を用いて,100人のプログラマがソフトウェアを作成した場合,高い性能向上率が得られるかどうかを実験的に検討する。
この場合、速度改善率は1.27(改善率27%)である。
最後に, GPT-3を用いた50人の非プログラマが, 人間のプログラマに劣らず, そのタスクを遂行できることを見出した。
この場合、非プログラマもコンピュータも単独でタスクを実行できなかったため、これは人間とコンピュータのシナジーの非常に強力な形態の例である。 The Turing test for comparing computer performance to that of humans is well known, but, surprisingly, there is no widely used test for comparing how much better human-computer systems perform relative to humans alone, computers alone, or other baselines. Here, we show how to perform such a test using the ratio of means as a measure of effect size. Then we demonstrate the use of this test in three ways. First, in an analysis of 79 recently published experimental results, we find that, surprisingly, over half of the studies find a decrease in performance, the mean and median ratios of performance improvement are both approximately 1 (corresponding to no improvement at all), and the maximum ratio is 1.36 (a 36% improvement). Second, we experimentally investigate whether a higher performance improvement ratio is obtained when 100 human programmers generate software using GPT-3, a massive, state-of-the-art AI system. In this case, we find a speed improvement ratio of 1.27 (a 27% improvement). Finally, we find that 50 human non-programmers using GPT-3 can perform the task about as well as--and less expensively than--the human programmers. In this case, neither the non-programmers nor the computer would have been able to perform the task alone, so this is an example of a very strong form of human-computer synergy. | 翻訳日:2023-02-19 09:28:13 公開日:2022-06-28 |
# 量子相対エントロピーに対する最適自己調和障壁 Optimal self-concordant barriers for quantum relative entropies ( http://arxiv.org/abs/2205.04581v3 ) ライセンス: Link先を確認 | Hamza Fawzi and James Saunderson | (参考訳) 量子相対エントロピー(quantum relative entropies)は、2つの正定値行列の連接凸関数であり、クルバック・リーバーの発散を一般化し、量子情報理論において自然に現れる。
本稿では,様々な量子相対エントロピーと発散のエピグラフに対する自然障壁関数の自己一致性を証明する。
さらに,これらの障壁は最適障壁パラメータを持つことを示す。
これらの障壁により、量子相対エントロピーを含む凸最適化問題は、非対称円錐の内点法を用いて直接解決され、以前のアプローチで用いられた近似やリフト技術を避けることができる。
より一般に、作用素凹凸関数の非可換的な観点に関連する様々な閉凸円錐に対する自然障壁の自己一致を確立し、その結果の障壁パラメータが最適であることを示す。 Quantum relative entropies are jointly convex functions of two positive definite matrices that generalize the Kullback-Leibler divergence and arise naturally in quantum information theory. In this paper, we prove self-concordance of natural barrier functions for the epigraphs of various quantum relative entropies and divergences. Furthermore we show that these barriers have optimal barrier parameter. These barriers allow convex optimization problems involving quantum relative entropies to be directly solved using interior point methods for non-symmetric cones, avoiding the approximations and lifting techniques used in previous approaches. More generally, we establish the self-concordance of natural barriers for various closed convex cones related to the noncommutative perspectives of operator concave functions, and show that the resulting barrier parameters are optimal. | 翻訳日:2023-02-13 20:11:29 公開日:2022-06-28 |
# 統計モデル選択によるベル不平等違反の異なる因果関係の実験的調整」について Comment on "Experimentally adjudicating between different causal accounts of Bell-inequality violations via statistical model selection" ( http://arxiv.org/abs/2206.10619v2 ) ライセンス: Link先を確認 | Jonte R. Hance and Sabine Hossenfelder | (参考訳) 最近の論文で(Phys)。
A 105, 042220 (2022), Daleyらによれば、超決定論的モデルは標準量子力学には不利である。
我々は、これらの主張は超決定論的モデルが何であるかの誤解に基づいていると論じている。 In a recent paper (Phys. Rev. A 105, 042220 (2022)), Daley et al claim that superdeterministic models are disfavoured against standard quantum mechanics, because such models overfit the statistics of a Bell-type experiment which the authors conducted. We argue here that their claim is based on a misunderstanding of what superdeterministic models are. | 翻訳日:2023-02-08 12:32:33 公開日:2022-06-28 |
# 重力量子系における3次結合の絡み合い試験 Entanglement Test of Third-Order Coupling in Gravitating Quantum Systems ( http://arxiv.org/abs/2206.12897v2 ) ライセンス: Link先を確認 | Ankit Kumar, Tanjung Krisnanda, Paramasivan Arumugam, Tomasz Paterek | (参考訳) 近くの2つの量子質量間の重力相互作用の精密な研究法について述べる。
変位は2つの質量の間の初期分離よりもはるかに小さいため、変位-分離比は重力ポテンシャルを拡大できる自然なパラメータである。
このような実験における絡み合いは、系が非ガウス状態へと進化した場合にのみ初期相対運動量に敏感である、すなわちポテンシャルは少なくとも3次(キュービック)項に拡張される。
絡み合い量に対する閉形式式が確立され、初期相対運動量に対する線形依存を示す。 We describe a method for precise study of gravitational interaction between two nearby quantum masses. Since the displacements are much smaller than initial separation between the two masses, the displacement-to-separation ratio is a natural parameter in which the gravitational potential can be expanded. We show that entanglement in such experiments is sensitive to the initial relative momentum only when the system evolves into non-gaussian states, i.e., the potential is expanded at least to the third-order (cubic) term. A closed-form expression for the amount of entanglement is established, which shows a linear dependence on the initial relative momentum. | 翻訳日:2023-02-07 23:47:55 公開日:2022-06-28 |
# 膨張時空における量子ビットと相対論的ボソンの量子相関 Quantum correlation between a qubit and a relativistic boson in an expanding spacetime ( http://arxiv.org/abs/2206.13733v1 ) ライセンス: Link先を確認 | Shu-Min Wu, Hao-Sheng Zeng, Tonghua Liu | (参考訳) 我々は、対数否定性と量子ビットと相対論的ボソンの間の相互情報の両方の量子相関を用いて宇宙膨張のダイナミクスを分析する。
これらの動的量子相関は、下層の時空構造に関する情報を符号化することができ、観測宇宙論における有望な応用を示唆している。
対数ネガティビティとクォービットとボソン間の相互情報の両方のダイナミクスは、非常によく似ている。
膨張体積と膨張率の増加に伴い単調に減少する。
より小さな運動量と中規模のボソンは、宇宙の膨張の歴史に関する情報を抽出するのにより好ましい。
しかし、量子ビットと反ボゾンの量子相関は全く異なる挙動を持つ:対数否定性は常にゼロであり、相互情報は宇宙の膨張を通じて生成される。
より小さい運動量と中型のアンチボゾンは相互情報の生成に有用である。
最後に、トリガー現象と相互情報の保存を目撃する。 We use the quantumcorrelation of both logarithmic negativity andmutual information between a qubit and a relativistic boson to analyze the dynamics of Universe expansion. These dynamical quantum correlations can encode the information about underlying spacetime structure, which suggests a promising application in observational cosmology. We find that the dynamics of both logarithmic negativity and mutual information between the qubit and the boson are very similar. They decrease monotonically with the growth of the expansion volume and the expansion rate. Smaller momentum and medium-sized mass of boson are more favourable for extracting the information about history of Universe expansion. The quantum correlation between the qubit and the antiboson however has very different behavior: the logarithmic negativity is always zero and the mutual information can be generated through the expansion of Universe. Smaller momentum and medium-sized mass of antiboson are beneficial for the production of mutual information. Finally, the trigger phenomenon and conservation for mutual information are witnessed. | 翻訳日:2023-02-07 13:02:39 公開日:2022-06-28 |
# ブロック符号化に基づく量子緩和行と列反復法 Quantum relaxed row and column iteration methods based on block-encoding ( http://arxiv.org/abs/2206.13730v1 ) ライセンス: Link先を確認 | Xiao-Qi Liu, Jing Wang, Ming Li, Shu-Qian Shen, Weiguo Li, Shao-Ming Fei | (参考訳) 反復法は方程式の線形系を解くのによく用いられる。
本研究では, 反復過程におけるユニタリ行列を構築し, 列反復法を一般化し, 線形系を量子コンピュータ上で解くことにより, 緩和列および列反復法の量子アルゴリズムを提案する。
従来の行と列の反復法と比較すると、適切なパラメータを選択すると収束が加速する。
量子状態が効率的に準備されると、緩和された行と列のメソッドの複雑さが指数関数的に改善され、繰り返しステップの数に線形になる。
さらに、これらのアルゴリズムでは位相推定やハミルトニアンシミュレーションは不要である。 Iteration method is commonly used in solving linear systems of equations. We present quantum algorithms for the relaxed row and column iteration methods by constructing unitary matrices in the iterative processes, which generalize row and column iteration methods to solve linear systems on a quantum computer. Comparing with the conventional row and column iteration methods, the convergence accelerates when appropriate parameters are chosen. Once the quantum states are efficiently prepared, the complexity of our relaxed row and column methods is improved exponentially and is linear with the number of the iteration steps. In addition, phase estimations and Hamiltonian simulations are not required in these algorithms. | 翻訳日:2023-02-07 13:02:19 公開日:2022-06-28 |
# 熱損失チャネル上の離散および連続可変量子鍵分配プロトコルの比較 Comparison of Discrete and Continuous Variable Quantum Key Distribution Protocols over a Thermal-Loss Channel ( http://arxiv.org/abs/2206.13724v1 ) ライセンス: Link先を確認 | Sebastian P. Kish, Ping Koy Lam, Syed M. Assad | (参考訳) 熱損失チャネルでは、離散可変(DV)または連続可変(CV)量子鍵分布(QKD)プロトコルがより最適であるかどうかは不明である。
本稿では,BB84 や圧縮状態プロトコルを含む一般的な DV-QKD および CV-QKD プロトコルを,温度損失条件下で検討する。
中間雑音環境では、bb84プロトコルは既知のcvプロトコルよりも高い正の鍵レートを達成する。
一方、圧縮状態プロトコルは、BB84プロトコルを高い熱雑音下で上回ることができる。
本分析では,QKDプラットフォームとそのプロトコルが,プロトコルが完全に動作すると仮定して,異なる熱損失チャネルパラメータに対して最適に動作するかという問題に対処する。 In a thermal-loss channel, it is uncertain whether a discrete-variable (DV) or a continuous-variable (CV) quantum key distribution (QKD) protocol is more optimal. In this paper, we investigate common DV-QKD and CV-QKD protocols, including the BB84 and squeezed-state protocols, in a thermal-loss setting but with the assumed availability of perfect sources and detectors. We find that in an intermediate-noise regime, the BB84 protocol attains positive key rates higher than any known CV protocol. On the other hand, the squeezed-state protocol can outperform the BB84 protocol in a high thermal noise regime. Our analysis addresses the question of which QKD platform and their respective protocols can perform optimally for different thermal-loss channel parameters assuming the protocols run perfectly. | 翻訳日:2023-02-07 13:02:08 公開日:2022-06-28 |
# 表面制御による非ドープダイヤモンド中中性シリコン空孔中心 Neutral silicon vacancy centers in undoped diamond via surface control ( http://arxiv.org/abs/2206.13698v1 ) ライセンス: Link先を確認 | Zi-Huai Zhang, Josh A. Zuber, Lila V. H. Rodgers, Xin Gui, Paul Stevenson, Minghao Li, Marietta Batzer, Marcel.li Grimau, Brendan Shields, Andrew M. Edmonds, Nicola Palmer, Matthew L. Markham, Robert J. Cava, Patrick Maletinsky, and Nathalie P. de Leon | (参考訳) ダイヤモンド中の中性シリコン空孔中心(SiV0)は、長いスピンコヒーレンス時間と安定した光学遷移のために量子ネットワークの候補となる。
しかし、SiV0の安定化には高純度、ホウ素をドープしたダイヤモンドが必要である。
ここでは,ダイヤモンド表面の化学制御による代替手法を示す。
我々は水素環境下での低損傷化学処理とアニール処理を用いて、未添加ダイヤモンドの可逆かつ高安定な電荷状態チューニングを実現する。
得られたSiV0中心は、光学的に検出された磁気共鳴とバルク状光学特性を示す。
表面終端による電荷状態チューニングの制御は、SiV0センターに基づくスケーラブルな技術と、他の欠陥の電荷状態工学の経路を提供する。 Neutral silicon vacancy centers (SiV0) in diamond are promising candidates for quantum networks because of their long spin coherence times and stable, narrow optical transitions. However, stabilizing SiV0 requires high purity, boron doped diamond, which is not a readily available material. Here, we demonstrate an alternative approach via chemical control of the diamond surface. We use low-damage chemical processing and annealing in a hydrogen environment to realize reversible and highly stable charge state tuning in undoped diamond. The resulting SiV0 centers display optically detected magnetic resonance and bulk-like optical properties. Controlling the charge state tuning via surface termination offers a route for scalable technologies based on SiV0 centers, as well as charge state engineering of other defects. | 翻訳日:2023-02-07 13:01:54 公開日:2022-06-28 |
# 量子状態移動と最適空間探索のためのイオントラップ長距離XYモデル Ion Trap Long-Range XY Model for Quantum State Transfer and Optimal Spatial Search ( http://arxiv.org/abs/2206.13685v1 ) ライセンス: Link先を確認 | Dylan Lewis, Leonardo Banchi, Yi Hong Teoh, Rajibul Islam, Sougato Bose | (参考訳) 線形イオントラップチェーンは量子計算とシミュレーションのための有望なプラットフォームである。
長距離相互作用を持つXYモデルは、シングルサイドバンドのモルマー・ソレンセンスキームで実装することができ、1/r^\alpha$で崩壊する相互作用を与え、$\alpha$は相互作用範囲をパラメータ化する。
より低い$\alpha$は、より長い範囲の相互作用をもたらし、量子コンピューティングのより高速な長距離ゲート演算を可能にする。
しかし、$\alpha$を下げるとコヒーレントフォノンの発生が増加し、効果的なXY相互作用モデルが崩壊するように見える。
我々は、この効果を完全に補正する方法を特徴付け、示すことにより、より低い$\alpha$相互作用をコヒーレントに実装することができる。
したがってイオントラップ鎖は、n$ ions に対して最適な $o(\sqrt{n})$ time における空間量子探索の有効なプラットフォームであることが示されている。
最後に、高い忠実性を維持する量子ビット符号化を備えた$O(\sqrt{N})$量子状態転送プロトコルを導入する。 Linear ion trap chains are a promising platform for quantum computation and simulation. The XY model with long-range interactions can be implemented with a single side-band Molmer-Sorensen scheme, giving interactions that decay as $1/r^\alpha$, where $\alpha$ parameterises the interaction range. Lower $\alpha$ leads to longer range interactions, allowing faster long-range gate operations for quantum computing. However, decreasing $\alpha$ causes an increased generation of coherent phonons and appears to dephase the effective XY interaction model. We characterise and show how to correct for this effect completely, allowing lower $\alpha$ interactions to be coherently implemented. Ion trap chains are thus shown to be a viable platform for spatial quantum search in optimal $O(\sqrt{N})$ time, for $N$ ions. Finally, we introduce a $O(\sqrt{N})$ quantum state transfer protocol, with a qubit encoding that maintains a high fidelity. | 翻訳日:2023-02-07 13:01:35 公開日:2022-06-28 |
# 単純現実量子系における非マルコフ散逸、量子ゼノ効果、非エルミート物理学の合体 Coalescence of non-Markovian dissipation, quantum Zeno effect and non-Hermitian physics, in a simple realistic quantum system ( http://arxiv.org/abs/2206.13849v1 ) ライセンス: Link先を確認 | G. Mouloudakis and P. Lambropoulos | (参考訳) 開量子系を記述する効果的なハミルトニアンの対角化は、その例外点を追跡する通常の方法である。
このような手法はマルコフ系におけるEPを追跡することに成功しているが、開系を記述する実効ハミルトニアンの閉表現が存在しない非マルコフ系では問題となる。
本研究では,実験により測定可能な量,すなわち量子ビットの有効減衰率を用いて,オープン量子システムにおけるepsの追跡方法を提案する。
検討中の量子系は、2つの非同一性相互作用量子ビットからなり、そのうちの1つは外部環境と結合される。
境界貯留層の任意のスペクトル密度に対する量子ビット振幅のラプラス変換の解析的閉形式解を提供する時間依存シュロディンガー運動方程式の観点から理論的枠組みを開発する。
環境と間接的に相互作用する量子ビットの有効減衰率のピーク構造と量子ゼノ効果の開始との関係を詳細に論じ、後者と例外点の存在との関係を明らかにする。
我々の治療と結果により、非マルコフ力学、量子ゼノ効果、非エルミート物理学の複雑な相互作用が明らかになった。 Diagonalization of the effective Hamiltonian describing an open quantum system is the usual method of tracking its exceptional points. Although, such a method is successful for tracking EPs in Markovian systems, it may be problematic in non-Markovian systems where a closed expression of the effective Hamiltonian describing the open system may not exist. In this work we provide an alternative method of tracking EPs in open quantum systems, using an experimentally measurable quantity, namely the effective decay rate of a qubit. The quantum system under consideration consists of two non-identical interacting qubits, one of which is coupled to an external environment. We develop a theoretical framework in terms of the time-dependent Schrodinger equation of motion, which provides analytical closed form solutions of the Laplace transforms of the qubit amplitudes for an arbitrary spectral density of the boundary reservoir. The link between the peaked structure of the effective decay rate of the qubit that interacts indirectly with the environment, and the onset of the quantum Zeno effect, is discussed in great detail revealing the connections between the latter and the presence of exceptional points. Our treatment and results have in addition revealed an intricate interplay between non-Markovian dynamics, quantum Zeno effect and non-Hermitian physics | 翻訳日:2023-02-07 12:56:44 公開日:2022-06-28 |
# 量子プログラムにおける抽象解釈、ホーア論理、不正確な論理 Abstract interpretation, Hoare logic, and incorrectness logic for quantum programs ( http://arxiv.org/abs/2206.13772v1 ) ライセンス: Link先を確認 | Yuan Feng and Sanjiang Li | (参考訳) 抽象解釈、フーア論理、および逆ホーア論理は、コンピュータプログラムの静的解析のための強力な技術である。
これらはすべて量子設定に拡張されたが、ほとんど並列に開発された。
本稿では,量子状態の抽象領域とアサーションの集合がよく構造化されている量子時効プログラムの検証におけるこれらの手法の関係について検討する。
特に、任意の完全量子抽象解釈は量子ホア論理と量子不正確な論理を誘導し、どちらも健全かつ相対的に完全であることを示す。
文献で提案された論理とは異なり、誘導論理系は前方向きであり、特定の応用においてより有用である。
逆に、健全で比較的完全な量子ホア論理や量子不正確な論理は完全な量子抽象解釈を引き起こす。
アプリケーションとして、局所部分空間のタプルがアサーションとして取り込まれている場合、音と相対的に完全な量子ホア論理や不正確な論理の非存在を示すことができる。 Abstract interpretation, Hoare logic, and incorrectness (or reverse Hoare) logic are powerful techniques for static analysis of computer programs. All of them have been successfully extended to the quantum setting, but largely developed in parallel. In this paper, we examine the relationship between these techniques in the context of verifying quantum while-programs, where the abstract domain and the set of assertions for quantum states are well-structured. In particular, we show that any complete quantum abstract interpretation induces a quantum Hoare logic and a quantum incorrectness logic, both of which are sound and relatively complete. Unlike the logics proposed in the literature, the induced logic systems are in a forward manner, making them more useful in certain applications. Conversely, any sound and relatively complete quantum Hoare logic or quantum incorrectness logic induces a complete quantum abstract interpretation. As an application, we are able to show the non-existence of any sound and relatively complete quantum Hoare logic or incorrectness logic if tuples of local subspaces are taken as assertions. | 翻訳日:2023-02-07 12:56:23 公開日:2022-06-28 |
# モードミスマッチによるマルチモード非ガウスセキュア通信 Multimode non-Gaussian secure communication under mode-mismatch ( http://arxiv.org/abs/2206.13763v1 ) ライセンス: Link先を確認 | Soumyakanti Bose and Hyunseok Jeong | (参考訳) 本稿では,モードミスマッチ下でのマルチモード光による連続可変(CV)量子鍵分布(QKD)における非ガウス性の役割を分析する。
2モード圧縮真空状態 (TMSV) 上で単光子サブトラクションとゼロ光子触媒によって生成される非ガウス資源との絡み合いに基づくプロトコルを考察する。
以上の結果から,モデムミスマッチによる騒音の影響下においても,これらの非ガウス的資源はCV-QKDの性能を合理的に向上させることが明らかとなった。
具体的には、TMSVの場合、最大伝送距離は47Kmに制限され、単光子置換TMSVとゼロ光子触媒TMSVはそれぞれ73Kmと152Kmにかなり高い距離を得る。
しかし、ゼロ光子触媒装置の実用上の懸念として、ゼロ光子触媒TMSVの透過距離は36Kmに制限される。
これにより、TMSV上の単光子サブトラクションは、大きな伝送距離を得るための絡み合いベースのCV-QKDにとって最良の選択となる。
しかし,非ゲージ性は検出非効率に対する絡み合い型cv-qkdスキームのロバスト性を改善するものではないことに注意した。
本研究は,実環境下でのマルチモード光を用いたcv-qkd実装の実用的視点を提供する。 In this paper, we analyse the role of non-Gaussianity in continuous-variable (CV) quantum key distribution (QKD) with multimode light under mode-mismatch. We consider entanglement-based protocol with non-Gaussian resources generated by single-photon-subtraction and zero-photon-catalysis on a two-mode squeezed vacuum state (TMSV). Our results indicate that, compared to the case of TMSV, these non-Gaussian resources reasonably enhances the performance of CV-QKD, even under the effect of noise arising due to mode-mismatch. To be specific, while in the case of TMSV the maximum transmission distance is limited to 47 Km, single-photon subtracted TMSV and zero-photon-catalysed TMSV yield much higher distance of 73 Km and 152 Km respectively. However, photon loss as a practical concern in zero-photon-catalysis setup limits the transmission distance for zero-photon-catalysed TMSV to 36 Km. This makes single-photon-subtraction on TMSV to be the best choice for entanglement-based CV-QKD in obtaining large transmission distance. Nonetheless, we note that the non-Gaussianity does not improve the robustness of entanglement-based CV-QKD scheme against detection inefficiency. We believe that our work provides a practical view of implementing CV-QKD with multimode light under realistic conditions. | 翻訳日:2023-02-07 12:56:06 公開日:2022-06-28 |
# 100ピクセル光子数分解検出器による光子統計の解明 Unveiling photon statistics with a 100-pixel photon-number-resolving detector ( http://arxiv.org/abs/2206.13753v1 ) ライセンス: Link先を確認 | Risheng Cheng, Yiyu Zhou, Sihao Wang, Mohan Shen, Towsif Taher, Hong X. Tang | (参考訳) 単一光子検出器は量子情報科学や量子センシングにおいてユビキタスである。
これらは、量子光学の多くの科学的発見と基礎的実験の鍵となる技術である。
光子数反転検出器は、究極の光測定ツールである。
しかし、これまでの検出器はほとんどなく、数光子レベルで高忠実度光子数分解能が得られる。
ここでは、超電導ナノワイヤの配列を1つの導波路に沿って時空間的多重化することにより、最大100光子を解決できるオンチップ検出器を示す。
高速応答と組み合わせた非平行光子数分解法により,Nから15までの高次相関関数 g^(N) を直接測定し,光子減算による光子数増大の観測とコヒーレント光源に対する量子制限状態の判別により,真の熱源の量子光子統計を初めて明らかにすることができる。
我々の検出器は、フォトニック量子計算や量子計測など、様々な重要な応用への有効な経路を提供する。 Single-photon detectors are ubiquitous in quantum information science and quantum sensing. They are key enabling technologies for numerous scientific discoveries and fundamental tests of quantum optics. Photon-number-revolving detectors are the ultimate measurement tool of light. However, few detectors to date can provide high-fidelity photon number resolution at few-photon levels. Here, we demonstrate an on-chip detector that can resolve up to 100 photons by spatiotemporally multiplexing an array of superconducting nanowires along a single waveguide. The unparalleled photon number resolution paired with the high-speed response exclusively allows us to unveil the quantum photon statistics of a true thermal light source for the first time, which is realized by direct measurement of high-order correlation function g^(N) with N up to 15, observation of photon-subtraction-induced photon number enhancement, and quantum-limited state discrimination against a coherent light source. Our detector provides a viable route towards various important applications, including photonic quantum computation and quantum metrology. | 翻訳日:2023-02-07 12:55:45 公開日:2022-06-28 |
# 量子測定の量子ノイズの検出と除去 Detecting and Eliminating Quantum Noise of Quantum Measurements ( http://arxiv.org/abs/2206.13743v1 ) ライセンス: Link先を確認 | Shuanghong Tang, Congcong Zheng, and Kun Wang | (参考訳) 本研究では,量子計測に固有の量子ノイズを体系的に対処する2段階手法を提案する。
その背後にあるアイデアは直感的であり、まず量子ノイズを検出して取り除き、古典的ノイズ仮定を満たし、測定誤差の軽減が機能するようにします。
第1段階では、量子コヒーレンス資源理論におけるコヒーレンス証人に触発され、効率的な量子ノイズ検出法を設計する。
2つの測度統計学の差をフーリエ級数に当てはめ、その統計学は相対位相を持つ最大コヒーレント状態と最大混合状態を用いて入力として得られる。
適合係数は量子ノイズを定量的にベンチマークする。
第2段階では、Pauli twirling技術に触発された量子ノイズを除去する様々な手法を設計する。
測定装置の前にランダムにサンプリングされたポーリゲートを実行し、有効測定装置が古典的ノイズのみを含むように、測定結果を条件的に反転させる。
Baidu Quantum Platform上での2段階手順の実現可能性を示す。
その結果, 測定装置の量子ノイズが著しく抑制され, 量子計算精度が大幅に向上した。
この2段階の手順は既存の測定誤差軽減手法を補完するもので, 短期量子デバイスにおける測定誤差を操作するための標準ツールボックスを構成する。 In this work, we propose a two-stage procedure to systematically address quantum noise inherent in quantum measurements. The idea behind it is intuitive: we first detect and then eliminate quantum noise so that the classical noise assumption is satisfied and measurement error mitigation works. In the first stage, inspired by coherence witness in the resource theory of quantum coherence, we design an efficient method to detect quantum noise. It works by fitting the difference between two measurement statistics to the Fourier series, where the statistics are obtained using maximally coherent states with relative phase and maximally mixed states as inputs. The fitting coefficients quantitatively benchmark quantum noise. In the second stage, we design various methods to eliminate quantum noise, inspired by the Pauli twirling technique. They work by executing randomly sampled Pauli gates before the measurement device and conditionally flipping the measurement outcomes in such a way that the effective measurement device contains only classical noise. We demonstrate the feasibility of the two-stage procedure numerically on Baidu Quantum Platform. Remarkably, the results show that quantum noise in measurement devices is significantly suppressed, and the quantum computation accuracy is substantially improved. We highlight that the two-stage procedure complements existing measurement error mitigation techniques, and they together form a standard toolbox for manipulating measurement errors in near-term quantum devices. | 翻訳日:2023-02-07 12:55:27 公開日:2022-06-28 |
# ハミルトン交替による非凸最適化 Non-Convex Optimization by Hamiltonian Alternation ( http://arxiv.org/abs/2206.14072v1 ) ライセンス: Link先を確認 | Anuj Apte, Kunal Marwaha, Arvind Murugan | (参考訳) 非凸最適化の大きな障害は、局所的なミニマで立ち往生する問題である。
この問題に対処するための新しいメタヒューリスティックを導入し、選択されたエネルギー範囲内でのみ、元のハミルトニアンとミニマを共有する代替ハミルトニアンを作成する。
それぞれのハミルトニアンを逐次最小化することで、アルゴリズムは局所ミニマを逃れることができる。
この技術は、基底状態のエネルギーが分かっていれば特に簡単であり、この知識がなくても改善が得られる。
我々は、この手法を用いて、シェリントン・カークパトリックスピンガラスの基底状態を見つけることで、この手法を実証する。 A major obstacle to non-convex optimization is the problem of getting stuck in local minima. We introduce a novel metaheuristic to handle this issue, creating an alternate Hamiltonian that shares minima with the original Hamiltonian only within a chosen energy range. We find that repeatedly minimizing each Hamiltonian in sequence allows an algorithm to escape local minima. This technique is particularly straightforward when the ground state energy is known, and one obtains an improvement even without this knowledge. We demonstrate this technique by using it to find the ground state for instances of a Sherrington-Kirkpatrick spin glass. | 翻訳日:2023-02-07 10:14:37 公開日:2022-06-28 |
# 古典アセンブラによるチューリング完全量子コンピューティングを目指して Towards Turing-Complete Quantum Computing Coming From Classical Assembler ( http://arxiv.org/abs/2206.14037v1 ) ライセンス: Link先を確認 | Thomas Gabor, Marian Lingsch Rosenfeld, Claudia Linnhoff-Popien | (参考訳) 現在の量子コンピュータに適した量子言語を生成する代わりに、標準的な古典的アセンブラから言語を構築し、量子アルゴリズムがそのサブセットになるように量子機能を拡張します。
これは、今日のハードウェアでは実現不可能だが、将来の量子プログラマを刺激する可能性がある、古典的ソフトウェアから直接ハイブリッドアルゴリズムを開発するための道を開くものだ。 Instead of producing quantum languages that are fit for current quantum computers, we build a language from standard classical assembler and augment it with quantum capabilities so that quantum algorithms become a subset of it. This paves the way for the development of hybrid algorithms directly from classical software, which is not feasible on today's hardware but might inspire future quantum programmers. | 翻訳日:2023-02-07 10:14:13 公開日:2022-06-28 |
# 量子コンピュータを用いた量子計測プロセスのスケーラブルシミュレーション Scalable Simulation of Quantum Measurement Process with Quantum Computers ( http://arxiv.org/abs/2206.14029v1 ) ライセンス: Link先を確認 | Meng-Jun Hu, Yanbei Chen, Yiqiu Ma, Xiang Li, Yubao Liu, Yong-Sheng Zhang, and Haixing Miao | (参考訳) 近年の量子情報科学・技術の発展、特にプログラマブル量子コンピュータの構築は、量子力学の基礎的な側面を研究する新たな機会を提供する。
本稿では,量子計測装置として動作する量子ビットの集合に量子ビットの量子情報をマッピングする量子計測過程をエミュレートする量子ビットモデルを提案する。
1つのモデルは単一光子検出によって動機付けられ、もう1つはスピン測定によって動機づけられる。
どちらのモデルもスケーラブルでSchr\"{o}dinger cat-like状態を生成し、対応する量子回路を明示的に示す。
大規模シミュレーションは短期量子コンピュータでは実現可能であり、古典的コンピュータではそのタスクを効率的に実行できない。
モデルのスケーラビリティのため、そのようなシミュレーションは量子測定問題における量子-古典境界の探索に役立つ。
さらに, 猫の状態を生成するプロトコルは, 量子コンピューティングや気象学に重要な応用をもたらす可能性がある。 Recent development in quantum information sciences and technologies, especially building programmable quantum computers, provide us new opportunities to study fundamental aspects of quantum mechanics. We propose qubit models to emulate the quantum measurement process, in which the quantum information of a qubit is mapped to a collection of qubits acting as the measurement device. One model is motivated by single-photon detection and the other by spin measurement. Both models are scalable to generate Schr\"{o}dinger cat-like state, and their corresponding quantum circuits are shown explicitly. Large-scale simulations could be realized in near-term quantum computers, while classical computers cannot perform the same task efficiently. Due to the scalability of the models, such simulations can help explore the quantum-to-classical boundary, if exists, in the quantum measurement problem. Besides, our protocol to generate cat states may have important applications in quantum computing and metrology. | 翻訳日:2023-02-07 10:14:07 公開日:2022-06-28 |
# 2+1)$-次元曲線時空におけるディラック方程式の零エネルギー状態 Zero energy states of Dirac equation in $(2+1)$-dimensional curved spacetime ( http://arxiv.org/abs/2206.14005v1 ) ライセンス: Link先を確認 | Choon-Lin Ho, Pinaki Roy | (参考訳) スカラーポテンシャルの存在下では、2+1) 次元の曲面時空におけるディラック方程式を考える。
すると、ゼロエネルギー状態は縮退し、$y$方向の運動量$k_y$が質量パラメータとスカラーポテンシャル結合を含む一定の制約を満たすときに得られることが示される。 We consider Dirac equation in $(2+1)$ dimensional curved spacetime in the presence of a scalar potential. It is then shown that the zero energy states are degenerate and they can be obtained when the momentum $k_y$ in the $y$ direction satisfies certain constraints involving the mass parameter and the scalar potential coupling. | 翻訳日:2023-02-07 10:13:53 公開日:2022-06-28 |
# スタントン:太い壁近似 Instantons: thick-wall approximation ( http://arxiv.org/abs/2206.13994v1 ) ライセンス: Link先を確認 | V. F. Mukhanov and A. S. Sorin | (参考訳) 正則化インスタントンを用いて偽真空の減衰確率を推定する新しい手法を開発した。
すなわち、ポテンシャルが下からアンバウンドである場合や、真の真空に対応する第2の最小値がポテンシャル障壁の高さを超える深さを持つ場合を考える。
この場合、真空崩壊を主成分とする成膜気泡は自然に厚い壁を有し、薄壁近似は適用されない。
このような場合、崩壊確率を決定する作用に対する主要な貢献は、摩擦項と比較してインスタントンの方程式のポテンシャル項を無視できる解の部分から生じることが証明される。
開発した近似は, 既知の完全可解ポテンシャルの先行順序結果を正確に再現することを示す。
提案手法は任意の次元の一般スカラー場電位に適用される。 We develop a new method for estimating the decay probability of the false vacuum via regularized instantons. Namely, we consider the case where the potential is either unbounded from below or the second minimum corresponding to the true vacuum has a depth exceeding the height of the potential barrier. In this case, the materialized bubbles dominating the vacuum decay naturally have a thick wall and the thin-wall approximation is not applicable. We prove that in such a case the main contribution to the action determining the decay probability comes from the part of the solution for which the potential term in the equation for instantons can be neglected compared to the friction term. We show that the developed approximation exactly reproduces the leading order results for the few known exactly solvable potentials. The proposed method is applied to generic scalar field potentials in an arbitrary number of dimensions. | 翻訳日:2023-02-07 10:13:45 公開日:2022-06-28 |
# S\o rensen-M\o lmer ゲートと Milburn ゲートの統一 Unifying S\o rensen-M\o lmer gate and Milburn gate with an optomechanical example ( http://arxiv.org/abs/2206.13950v1 ) ライセンス: Link先を確認 | Yue Ma and Manuel C. C. Pace and M. S. Kim | (参考訳) S\o rensen-M\o lmer gate と Milburn gate は2つの幾何学的位相ゲートであり、それぞれ連続的およびパルス的相互作用状態において、補助力学モードとの相互作用を介してターゲットモードの非線形自己相互作用を生成する。
本稿では,S\o rensen-M\o lmer gateがミルバーンゲートの連続極限であることを示し,メカニカル位相空間における幾何学的解釈を強調することにより,両ゲートの統一を目指す。
我々は,S\o rensen-M\o lmer ゲートの相対誤差と Milburn ゲートの位相角インクリメントに着目し,不完全ゲートパラメータを明示的に検討する。
両ゲート間の相互作用強度を減少させ, 機械的位相空間を複数回横切ることにより, 最終状態の純度は増大するが, 忠実度は異なる。
この違いは、相互作用強度がパルス状態から連続的な極限を取る際の相対誤差に依存するためであり、2つのゲートの数学的枠組みを統一するからである。
この統合を,機械的散逸も考慮したオプトメカニカルシステムの一例として示す。
我々は,統一フレームワークは微分方程式を解かずに連続的相互作用のダイナミクスを導出する新しい方法を促進することを強調する。 S\o rensen-M\o lmer gate and Milburn gate are two geometric phase gates, generating nonlinear self-interaction of a target mode via its interaction with an auxiliary mechanical mode, in the continuous and pulsed interaction regime, respectively. In this paper, we aim at unifying the two gates by demonstrating that S\o rensen-M\o lmer gate is the continuous limit of Milburn gate, emphasising the geometrical interpretation in the mechanical phase space. We explicitly consider imperfect gate parameters, focusing on relative errors in time for S\o rensen-M\o lmer gate and in phase angle increment for Milburn gate. We find that, although the purities of the final states increase for the two gates upon reducing the interaction strength together with traversing the mechanical phase space multiple times, the fidelities behave differently. We point out that, the difference exists because the interaction strength depends on the relative error when taking the continuous limit from the pulsed regime, thereby unifying the mathematical framework of the two gates. We demonstrate this unification in the example of an optomechanical system, where mechanical dissipation is also considered. We highlight that, the unified framework facilitates the new method of deriving the dynamics of the continuous interaction regime without solving differential equations. | 翻訳日:2023-02-07 10:13:33 公開日:2022-06-28 |
# 中性中間子の進化の量子速度 Quantum speed of evolution of neutral mesons ( http://arxiv.org/abs/2206.13938v1 ) ライセンス: Link先を確認 | Subhashish Banerjee and K. G. Paulson | (参考訳) 我々は、オープン量子システムの枠組みの中で、中性$K$および$B$中間子に対する量子速度制限時間について、単項および相関式の両方について検討する。
量子速度限界におけるコヒーレンス混合の役割について検討した。
量子速度制限時間に対するデコヒーレンスとCP違反の影響についても検討した。
量子速度制限時間は、単一中間子の進化時間とともに増加する。
相関中間子はより早く進化することが見られ、量子相関は進化を加速することを示唆している。 We investigate the quantum speed limit time for neutral $K$ and $B$ mesons, both single as well as correlated, within the framework of open quantum systems. The role of coherence-mixing on quantum speed limit is studied. The impact of decoherence and CP violation on quantum speed limit time is also investigated. Quantum speed limit time increases with the evolution time for the single mesons. Correlated mesons are seen to be evolved faster, suggesting that quantum correlations can speed up the evolution. | 翻訳日:2023-02-07 10:13:07 公開日:2022-06-28 |
# 演算子プールタイリングによる適応量子シミュレーションアルゴリズムのスケーリング Scaling adaptive quantum simulation algorithms via operator pool tiling ( http://arxiv.org/abs/2206.14215v1 ) ライセンス: Link先を確認 | John S. Van Dyke, George S. Barron, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou | (参考訳) 適応変分量子シミュレーションアルゴリズムは、量子コンピュータの情報を用いて、与えられた問題ハミルトニアンに対する最適な試行波動関数を動的に生成する。
これらのアルゴリズムの重要な要素は、トライアル波動関数が構築される事前定義された演算子プールである。
問題のサイズが大きくなるにつれて、適切なプールを見つけることがアルゴリズムの効率にとって重要である。
ここでは、任意に大きな問題インスタンスのための問題調整プールの構築を容易にする演算子プールタイリングという手法を提案する。
まず,大規模だが非効率な演算子プールを用いて,問題の小さなインスタンスに対してADAPT-VQE計算を行うことにより,最も関連性の高い演算子を抽出し,より効率的な演算子プールの設計を行う。
凝縮物質物理学において生じる問題など多くの問題が自然に繰り返される(格子)構造を持つことを考えると、プールタイリング法は広く適用できると期待できる。
この手法を1次元と2次元の強い相関量子スピンモデル上で実証し、得られた状態準備回路が既存の方法に比べて著しく短いことを示す。 Adaptive variational quantum simulation algorithms use information from the quantum computer to dynamically create optimal trial wavefunctions for a given problem Hamiltonian. A key ingredient in these algorithms is a predefined operator pool from which trial wavefunctions are constructed. Finding suitable pools is critical for the efficiency of the algorithm as the problem size increases. Here, we present a technique called operator pool tiling that facilitates the construction of problem-tailored pools for arbitrarily large problem instances. By first performing an ADAPT-VQE calculation on a smaller instance of the problem using a large, but computationally inefficient operator pool, we extract the most relevant operators and use them to design more efficient pools for larger instances. Given that many problems, such as those arising in condensed matter physics, have a naturally repeating (lattice) structure, we expect the pool tiling method to be widely applicable. We demonstrate the technique here on strongly correlated quantum spin models in one and two dimensions, finding that the resulting state preparation circuits are significantly shorter compared to existing methods. | 翻訳日:2023-02-07 10:05:42 公開日:2022-06-28 |
# 遷移確率に対する資源可変近距離量子アルゴリズムの改良と物理学および変分量子線形代数への応用 Improved resource-tunable near-term quantum algorithms for transition probabilities, with applications in physics and variational quantum linear algebra ( http://arxiv.org/abs/2206.14213v1 ) ライセンス: Link先を確認 | Nicolas PD Sawaya, Joonsuk Huh | (参考訳) 遷移振幅と遷移確率は、応答特性と相関関数の計算を含む物理学シミュレーションの多くの領域に関係している。
これらの量は、量子線形代数における方程式の線形系の解法とも密接に関連している。
ここでは、任意の演算子や状態に対する遷移確率を計算するための3つの関連するアルゴリズムを提案する。
まず、2つの入力量子状態が非直交的になるように、前述した短距離アルゴリズムを拡張する。
この拡張は1つのアンシラキュービットと少なくとも4つの追加の2キュービットゲートのコストがかかる。
この最初の手順に基づいて、トロータライズとリチャードソン外挿に基づくより深いアプローチを導出し、回路評価を少なくする。
第3に、低深さ法と回路評価の少ない方法とを事実上補間するチューナブルな手法を提案する。
この回路深さと測定複雑性の間の調整性により、アルゴリズムは特定のハードウェア特性に合わせて調整される。
最後に,物理学および化学における玩具モデルおよび変分量子線形解法(vqls)におけるサブルーチンの使用のための原理証明数値を実装した。
私たちのアプローチの一番の利点は
(a) 任意の非直交状態は、量子資源の無視可能な増加と共に用いることができる。
b) 3ビットゲートの分解を必要とするハダマールテストのようなサブルーチンを完全に回避し、
c) 遷移確率に対するnisqアルゴリズムの以前の状態と比較して、量子回路評価がより少ない場合も少なくなる。 Transition amplitudes and transition probabilities are relevant to many areas of physics simulation, including the calculation of response properties and correlation functions. These quantities are also closely related to solving linear systems of equations in quantum linear algebra. Here we present three related algorithms for calculating transition probabilities with respect to arbitrary operators and states. First, we extend a previously published short-depth algorithm, allowing for the two input quantum states to be non-orthogonal. The extension comes at the cost of one ancilla qubit and at most only a constant four additional two-qubit gates. Building on this first procedure, we then derive a higher-depth approach based on Trotterization and Richardson extrapolation that requires fewer circuit evaluations. Third, we introduce a tunable approach that in effect interpolates between the low-depth method and the method of fewer circuit evaluations. This tunability between circuit depth and measurement complexity allows the algorithm to be tailored to specific hardware characteristics. Finally, we implement proof-of-principle numerics for toy models in physics and chemistry and for use a subroutine in variational quantum linear solving (VQLS). The primary benefits of our approaches are that (a) arbitrary non-orthogonal states may now be used with negligible increases in quantum resources, (b) we entirely avoid subroutines such as the Hadamard test that may require three-qubit gates to be decomposed, and (c) in some cases fewer quantum circuit evaluations are required as compared to the previous state-of-the-art in NISQ algorithms for transition probabilities. | 翻訳日:2023-02-07 10:05:24 公開日:2022-06-28 |
# ブラウン力学による回路複雑性の線形成長 Linear Growth of Circuit Complexity from Brownian Dynamics ( http://arxiv.org/abs/2206.14205v1 ) ライセンス: Link先を確認 | Shao-Kai Jian, Gregory Bentsen, Brian Swingle | (参考訳) 我々は、時間に依存した全対全相互作用を持つn$スピンまたはフェルミオンのブラウンクラスターのフレームポテンシャルを計算する。
どちらの場合においても、この問題は経路積分法を用いて研究する効果的な統計力学問題にマッピングすることができる。
我々は、$k$のフレームポテンシャルは、順序 $t \sim k n + k \log k + \log \epsilon^{-1}$ の後にhaar値の$\epsilon$になると主張する。
このことは、ダイヤモンドノルムの有界性を用いて、そのような回路は位数 $t \sim k N$ の後に単項 $k$-design に非常に近づくことができることを意味する。
また、時間に依存しないハミルトニアンを持つ系についても同様の疑問を考察し、基礎となるハミルトニアンが量子カオスであるならば、線形時間で$k$-Designを生成するのに、少量の時間依存的ランダム性は十分であると主張する。
これらのモデルは、解析的に抽出可能な線形複雑性成長の明確な例を提供する。 We calculate the frame potential for Brownian clusters of $N$ spins or fermions with time-dependent all-to-all interactions. In both cases the problem can be mapped to an effective statistical mechanics problem which we study using a path integral approach. We argue that the $k$th frame potential comes within $\epsilon$ of the Haar value after a time of order $t \sim k N + k \log k + \log \epsilon^{-1}$. Using a bound on the diamond norm, this implies that such circuits are capable of coming very close to a unitary $k$-design after a time of order $t \sim k N$. We also consider the same question for systems with a time-independent Hamiltonian and argue that a small amount of time-dependent randomness is sufficient to generate a $k$-design in linear time provided the underlying Hamiltonian is quantum chaotic. These models provide explicit examples of linear complexity growth that are also analytically tractable. | 翻訳日:2023-02-07 10:05:01 公開日:2022-06-28 |
# 単純立方体格子における2レベル原子の力学の量子平均場処理 Quantum mean-field treatment of the dynamics of a two-level atom in a simple cubic lattice ( http://arxiv.org/abs/2206.14156v1 ) ライセンス: Link先を確認 | Yamen Hamdouni | (参考訳) 平均場近似はキュリー温度に近い強磁性格子中の2レベル原子の動力学の一般的な特徴を調べるために用いられる。
我々は格子ハミルトニアンを線型化し、相転移の順序パラメータに対する自己整合方程式を導出する。
減少ダイナミクスは格子の自由度を追跡することによって導かれる。
格子スピンへの原子の等方的結合については、前者の初期状態に応じて、$x$-$y$平面にある磁場を印加することにより、劣化と励起状態の占有確率を高めることができる。
また,温度変化とスピンの大きさに対する依存性についても検討した。
熱揺らぎの増加は励起状態の占有確率を減少させる可能性があることが判明した。 The mean field approximation is used to investigate the general features of the dynamics of a two-level atom in a ferromagnetic lattice close to the Curie temperature. We linearize the lattice Hamiltonian, and we derive the self-consistency equation for the order parameter of the phase transition. The reduced dynamics is deduced by tracing out the degrees of freedom of the lattice. It is found that for a isotropic coupling of the atom to the lattice spins, depending on the initial state of the former, the dephasing and the excited state occupation probability may be enhanced by applying a magnetic field that lies in the $x$-$y$ plane. The dependence on the change of the temperature and the magnitude of spin is also investigated. It turns out that the increase of thermal fluctuations may reduce the occupation probability of the excited state. | 翻訳日:2023-02-07 10:04:29 公開日:2022-06-28 |
# 時間依存複素周波数を持つ非結合モード間の絡み合い Entanglement between uncoupled modes with time-dependent complex frequency ( http://arxiv.org/abs/2206.14149v1 ) ライセンス: Link先を確認 | D. Cius, G. M. Uhdre, A. S. M. de Castro, F. M. Andrade | (参考訳) 本稿では、時間に依存しない非エルミート的ハミルトニアンによって生成されるユニタリな時間発展に関する一般的な統一記述を、$\mathfrak{su}(1,1)$ および $\mathfrak{su}(2)$ リー代数のボソニック表現に埋め込む。
時間依存のエルミートダイソン写像をこれらの代数の元の項で記述し、非エルミート写像とエルミート写像のエルミート写像は代数実現とは独立である。
その結果、時間に依存しない複素周波数で変調された非結合モードの時間発展状態は、モード間の相互作用の典型であるクロスオペレータが不在であっても、非ゼロの絡み合いを示す可能性がある。
これは、複素周波数の虚部に依存する一般エルミート・ダイソン写像の時間依存パラメータに符号化された非自明な力学ヒルベルト空間計量の非局所性に起因する。 In this work we present the general unified description for the unitary time-evolution generated by time-dependent non-Hermitian Hamiltonians embedding the bosonic representations of $\mathfrak{su}(1,1)$ and $\mathfrak{su}(2)$ Lie algebras. We take into account a time-dependent Hermitian Dyson maps written in terms of the elements of those algebras with the relation between non-Hermitian and its Hermitian counterpart being independent of the algebra realization. As a direct consequence, we verify that a time-evolved state of uncoupled modes modulated by a time-dependent complex frequency may exhibits a non-zero entanglement even when the cross-operators, typical of the interaction between modes, are absent. This is due the non-local nature of the non-trivial dynamical Hilbert space metric encoded in the time-dependent parameters of the general Hermitian Dyson map, which depend on the imaginary part of the complex frequency. | 翻訳日:2023-02-07 10:04:15 公開日:2022-06-28 |
# 古典・量子アニーリングによるqkdネットワークの最適化 Optimization of QKD Networks with Classical and Quantum Annealing ( http://arxiv.org/abs/2206.14109v1 ) ライセンス: Link先を確認 | Bob Godar, Christoph Roch, Jonas Stein, Marc Geitz, Bettina Lehmann, Matthias Gunkel, Volker F\"urst and Fred Hofmann | (参考訳) 本稿では,量子鍵分散(qkd)ハードウェアをティア1プロバイダネットワークに最小配置するための,古典的および量子アニーリング手法の解析を行う。
QKDシステムのアンサンブルは、トラフィック需要行列によって定義されるデータペイロードを暗号化するために、すべてのネットワークノード間で、できるだけ多くの暗号化キーを交換する必要がある。
冗長性とレイテンシ要件により、境界条件が追加される。
最適化問題の結果として、古典的ヒューリスティックなネットワークプランナーが将来のQKD量子ネットワークの計画に利用できる。 This paper analyses a classical and a quantum annealing approach to compute the minimum deployment of Quantum Key Distribution (QKD) hardware in a tier 1 provider network. The ensemble of QKD systems needs to be able to exchange as many encryption keys between all network nodes in order to encrypt the data payload, which is defined by traffic demand matrices. Redundancy and latency requirements add additional boundary conditions. The result of the optimization problem yields a classical heuristic network planners may utilize for planning future QKD quantum networks. | 翻訳日:2023-02-07 10:03:58 公開日:2022-06-28 |
# シリコンにおける光子とホールスピンの強い結合 Strong coupling between a photon and a hole spin in silicon ( http://arxiv.org/abs/2206.14082v1 ) ライセンス: Link先を確認 | C\'ecile X. Yu, Simon Zihlmann, Jos\'e C. Abadillo-Uriel, Vincent P. Michal, Nils Rambal, Heimanu Niebojewski, Thomas Bedecarrats, Maud Vinet, Etienne Dumur, Michele Filippone, Benoit Bertrand, Silvano De Franceschi, Yann-Michel Niquet, and Romain Maurand | (参考訳) 半導体量子ドットのスピンはスケーラブルな量子情報処理のための有望なプラットフォームである。
超伝導マイクロ波共振器のフォトニックモードに強く結合することで、高速な非破壊読み出しと長距離のオンチップ接続が可能になる。
ここでは、超伝導共振器内のマイクロ波光子と、鋳型互換mos製造プロセスから発生するシリコン系二重量子ドットのホールスピンとの強い結合を示す。
シリコン原子価帯に内在する強いスピン軌道相互作用を利用して、スピン光子結合速度を330mhzとすることで、スピン光子デコヒーレンス速度を大きく超えることができる。
この結果は、シリコン中のホールスピンの長いコヒーレンスとともに、半導体量子ドット内のスピンを持つ回路量子電磁力学の発展への新たな現実的な道を開く。 Spins in semiconductor quantum dots constitute a promising platform for scalable quantum information processing. Coupling them strongly to the photonic modes of superconducting microwave resonators would enable fast non-demolition readout and long-range, on-chip connectivity, well beyond nearest-neighbor quantum interactions. Here we demonstrate strong coupling between a microwave photon in a superconducting resonator and a hole spin in a silicon-based double quantum dot issued from a foundry-compatible MOS fabrication process. By leveraging the strong spin-orbit interaction intrinsically present in the valence band of silicon, we achieve a spin-photon coupling rate as high as 330 MHz largely exceeding the combined spin-photon decoherence rate. This result, together with the recently demonstrated long coherence of hole spins in silicon, opens a new realistic pathway to the development of circuit quantum electrodynamics with spins in semiconductor quantum dots. | 翻訳日:2023-02-07 10:03:20 公開日:2022-06-28 |
# 専門家の模倣によるエネルギー効率の高い運転行動の学習 Learning energy-efficient driving behaviors by imitating experts ( http://arxiv.org/abs/2208.12534v1 ) ライセンス: Link先を確認 | Abdul Rahman Kreidieh, Zhe Fu and Alexandre M. Bayen | (参考訳) 自動車自動化の台頭は、将来の自動走行車(AV)の潜在的な役割に大きな関心を呼んだ。
特に,高度に密集した交通条件下では,AVが渋滞防止剤として機能し,様々な原因から生じる不安定性の存在を緩和することが期待されている。
しかし、多くのアプリケーションでは、こうした操作は非局所的なセンシングやAVの相互作用による調整に大きく依存しているため、現実の環境への適応は特に難しい課題である。
本稿では,このような制御戦略とコミュニケーションとセンシングにおける現実的な制限との橋渡しにおいて,模倣学習が果たす役割について考察する。
このようなコントローラを「専門家」として扱うことで、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上できるような、模倣学習が成功することを示す。
結果とコードはhttps://sites.google.com/view/il-traffic/homeで入手できる。 The rise of vehicle automation has generated significant interest in the potential role of future automated vehicles (AVs). In particular, in highly dense traffic settings, AVs are expected to serve as congestion-dampeners, mitigating the presence of instabilities that arise from various sources. However, in many applications, such maneuvers rely heavily on non-local sensing or coordination by interacting AVs, thereby rendering their adaptation to real-world settings a particularly difficult challenge. To address this challenge, this paper examines the role of imitation learning in bridging the gap between such control strategies and realistic limitations in communication and sensing. Treating one such controller as an "expert", we demonstrate that imitation learning can succeed in deriving policies that, if adopted by 5% of vehicles, may boost the energy-efficiency of networks with varying traffic conditions by 15% using only local observations. Results and code are available online at https://sites.google.com/view/il-traffic/home. | 翻訳日:2023-02-07 09:56:32 公開日:2022-06-28 |
# 不均一電界における固有スピンホール効果の幾何学的起源 Geometric Origin of Intrinsic Spin Hall Effect in an Inhomogeneous Electric Field ( http://arxiv.org/abs/2207.01500v1 ) ライセンス: Link先を確認 | Anwei Zhang and Jun-Won Rhim | (参考訳) 近年、スピンホール効果はスピントロニクスや量子情報処理やストレージに応用される可能性から大きな注目を集めている。
しかし、この効果は通常外部等質電場の下で研究される。
不均質な電場がスピンホール効果にどのように影響するかの理解はまだ不十分である。
本稿では,2次元の2バンド時間反転対称系について検討し,ゲージ不変な幾何学的量で表される不均質な電界の存在下で固有スピンホール伝導率を示す。
一方、ウェーブパケットから輸送現象を物理的に直観すると、一つの問題が現れる。
従来の波束法による導電率は,kubo-greenwood式で予測した導電率と完全に一致しないことが示された。
ここでは、この問題を解決しようと試みる。 In recent years, the spin Hall effect has received great attention because of its potential application in spintronics and quantum information processing and storage. However, this effect is usually studied under the external homogeneous electric field. Understanding how the inhomogeneous electric field affects the spin Hall effect is still lacking. Here, we investigate a two-dimensional two-band time-reversal symmetric system and give an expression for the intrinsic spin Hall conductivity in the presence of the inhomogeneous electric field, which is shown to be expressed through gauge-invariant geometric quantities. On the other hand, when people get physical intuition on transport phenomena from the wave packet, one issue appears. It is shown that the conductivity obtained from the conventional wave packet approach cannot be fully consistent with the one predicted by the Kubo-Greenwood formula. Here, we attempt to solve this problem. | 翻訳日:2023-02-07 09:56:00 公開日:2022-06-28 |
# 変分原理,波動-粒子双対性,およびSchr\"{o}dinger方程式 A variational principle, wave-particle duality, and the Schr\"{o}dinger equation ( http://arxiv.org/abs/2206.14601v1 ) ライセンス: Link先を確認 | N. L. Chuprikov | (参考訳) 1次元構成空間(OCS)における量子粒子の力学は、ハミルトン作用素の平均値に基づく2つの函数の変分問題によって決定され、もう1つは一般化されたプランク・アインシュタイン関係の助けを借りて波動関数の位相を通じて決定される粒子の総エネルギーの平均値に基づいて決定される。
第1の汎関数は量子粒子のコーパスクラー特性に関する情報を含み、第2の関数はその波動特性を含む。
真の力学は、これらの2つの関数のバリエーションが等しい波動関数によって記述される。
この変分原理は、波動と粒子の双対性の数学的定式化としても見ることができ、シュレーディンガー方程式(schr\"{o}dinger equation)につながる。 A principle is proposed according to which the dynamics of a quantum particle in a one-dimensional configuration space (OCS) is determined by a variational problem for two functionals: one is based on the mean value of the Hamilton operator, while the second one is based on the mean value of the total energy of the particle, which is determined through the phase of the wave function with help of the generalized Planck-Einstein relation. The first functional contains information about the corpuscular properties of a quantum particle, and the second one comprises its wave properties. The true dynamics is described by a wave function for which the variations of these two functionals are equal. This variational principle, which can also be viewed as a mathematical formulation of wave-particle duality, leads to the Schr\"{o}dinger equation. | 翻訳日:2023-02-07 09:55:37 公開日:2022-06-28 |
# 狭帯域複合二量子相ゲート Narrowband composite two-qubit phase gates ( http://arxiv.org/abs/2206.14283v1 ) ライセンス: Link先を確認 | Boyan T. Torosov, Nikolay V. Vitanov | (参考訳) スピンスピンカップリングに関して,狭帯域プロファイルを持つ複合2量子ビットゲートを構成する手法を提案する。
合成配列はスピンスピン-スピンカップリングの振幅と持続時間の変動に選択的であり、クロストーク、量子論理分光法、量子センシングを大幅に削減した高選択性量子ビットアドレスに使用できる。 We propose a method to construct composite two-qubit gates with narrowband profiles with respect to the spin-spin coupling. The composite sequences are selective to the variations in the amplitude and duration of the spin-spin coupling, and can be used for highly-selective qubit addressing with greatly reduced cross talk, quantum logic spectroscopy, and quantum sensing. | 翻訳日:2023-02-07 09:55:21 公開日:2022-06-28 |
# 境界キャンセルによる誤差抑制量子アニールの実証 Demonstration of error-suppressed quantum annealing via boundary cancellation ( http://arxiv.org/abs/2206.14269v1 ) ライセンス: Link先を確認 | Humberto Munoz-Bauza, Lorenzo Campos Venuti, Daniel Lidar | (参考訳) 開系に対するバウンダリキャンセル定理は、標準量子断熱定理を拡張し、リウヴィリアンのギャップが消えないことを仮定すると、境界キャンセル断熱プロトコルによって準備された状態と系の定常状態の間の距離は、準備の終わりにハミルトニアンの消滅する時間微分の数のパワーとして減少する。
ここでは境界キャンセル定理を一般化し、リウヴィリアギャップが消える場合にも適用し、進化の動的凍結の効果を考える。
量子アニーリングハードウェアを用いて境界キャンセル定理の予測を実験的に検証し,必要となるスムーズなスケジュールのみを近似したアニーリングスケジュールを用いても予測誤差抑制と質的一致を見いだす。
量子アニーリング補正により性能がさらに向上し,境界除去プロトコルは基底状態の発見可能性を高めるためにpausingを採用するプロトコルよりもパラメータ変動に対して著しく頑健であることを示す。 The boundary cancellation theorem for open systems extends the standard quantum adiabatic theorem: assuming the gap of the Liouvillian does not vanish, the distance between a state prepared by a boundary cancelling adiabatic protocol and the steady state of the system shrinks as a power of the number of vanishing time derivatives of the Hamiltonian at the end of the preparation. Here we generalize the boundary cancellation theorem so that it applies also to the case where the Liouvillian gap vanishes, and consider the effect of dynamical freezing of the evolution. We experimentally test the predictions of the boundary cancellation theorem using quantum annealing hardware, and find qualitative agreement with the predicted error suppression despite using annealing schedules that only approximate the required smooth schedules. Performance is further improved by using quantum annealing correction, and we demonstrate that the boundary cancellation protocol is more significantly more robust to parameter variations than protocols which employ pausing to enhance the probability of finding the ground state. | 翻訳日:2023-02-07 09:55:01 公開日:2022-06-28 |
# 決定的かなり良い量子状態転移を持つスタガードハイゼンベルク鎖の族に関する厳密な解法 Exact solution of a family of staggered Heisenberg chains with conclusive pretty good quantum state transfer ( http://arxiv.org/abs/2206.14230v1 ) ライセンス: Link先を確認 | Pablo Serra, Alejandro Ferr\'on and Omar Osenda | (参考訳) 一半スピン鎖の族に対する正確な解を明示的に構築する。
スピン鎖ハミルトニアンは等方性ハイゼンベルクハミルトニアンに対応し、2つの異なる値しか持たないスタッガー交換結合を持つ。
我々は 1-励起部分空間における厳密な解を解き明かす。
量子状態伝達の問題に関して、不合理数の近似に関する解といくつかの定理を用いて、特定の長さの鎖に対して決定的に良い伝達が現れることを示す。
我々は、長さが2の力を持たない鎖によってかなり良い伝送が達成されるという数値的な証拠を示す。
かなり良い伝達を示すスピン鎖の集合は、正確な解を持つ族の部分集合である。
摂動理論を用いて,交換結合強度の一方が他方よりも桁違いに大きい場合を徹底的に解析する。
この強い結合限界は、単純な方法で、非常に良い伝達の外観を研究することができる。
固有値、固有ベクトル、伝達確率に対する解析的閉式の使用により、非常に良好な伝達が観測された時の正確な漸近的挙動を得ることができる。
さらに,この時間は,チェーン長の増大する関数が指数関数である電力法則としてスケールすることを示す。
また, 交換結合が等級のときに観測される強い結合限界の条件と, 非常に良好な伝達時間で得られる交差挙動についても検討した。 We construct the exact solution for a family of one-half spin chains explicitly. The spin chains Hamiltonian corresponds to an isotropic Heisenberg Hamiltonian, with staggered exchange couplings that take only two different values. We work out the exact solutions in the one-excitation subspace. Regarding the problem of quantum state transfer, we use the solution and some theorems concerning the approximation of irrational numbers, to show the appearance of conclusive pretty good transmission for chains with particular lengths. We present numerical evidence that pretty good transmission is achieved by chains whose length is not a power of two. The set of spin chains that shows pretty good transmission is a subset of the family with an exact solution. Using perturbation theory, we thoroughly analyze the case when one of the exchange coupling strengths is orders of magnitude larger than the other. This strong coupling limit allows us to study, in a simple way, the appearance of pretty good transmission. The use of analytical closed expressions for the eigenvalues, eigenvectors, and transmission probabilities allows us to obtain the precise asymptotic behavior of the time where the pretty good transmission is observed. Moreover, we show that this time scales as a power law whose exponent is an increasing function of the chain length. We also discuss the crossover behavior obtained for the pretty good transmission time between the regimes of strong coupling limit and the one observed when the exchange couplings are of the same order of magnitude. | 翻訳日:2023-02-07 09:54:32 公開日:2022-06-28 |
# MurTree: 動的プログラミングと検索による最適な分類木 MurTree: Optimal Classification Trees via Dynamic Programming and Search ( http://arxiv.org/abs/2007.12652v4 ) ライセンス: Link先を確認 | Emir Demirovi\'c, Anna Lukina, Emmanuel Hebrard, Jeffrey Chan, James Bailey, Christopher Leckie, Kotagiri Ramamohanarao, Peter J. Stuckey | (参考訳) 決定木学習は機械学習において広く使われているアプローチであり、簡潔で解釈可能なモデルを必要とするアプリケーションに好まれる。
ヒューリスティック法は伝統的に、合理的に高い精度で素早くモデルを生産するために使用される。
しかし、一般的に批判されるポイントは、結果のツリーが必ずしも正確さとサイズの観点からデータの最良の表現であるとは限らないことである。
近年では、局所最適決定のシーケンスを実行するヒューリスティックな手法とは対照的に、決定木をグローバルに最適化する最適分類木アルゴリズムの開発が動機となっている。
そこで本研究では,動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
本アルゴリズムは,木の深さとノード数に関する制約をサポートする。
本手法の成功は,分類木に特有の特性を生かした,一連の特殊技術によるものである。
最適な分類木に対するアルゴリズムは、伝統的に高いランタイムと限られたスケーラビリティに悩まされてきたが、我々の手法は最先端技術で要求される時間のごく一部しか使用せず、数万のインスタンスでデータセットを処理可能であることを示し、いくつかの大幅な改善を提供し、特に最適な決定木の実現に寄与している。 Decision tree learning is a widely used approach in machine learning, favoured in applications that require concise and interpretable models. Heuristic methods are traditionally used to quickly produce models with reasonably high accuracy. A commonly criticised point, however, is that the resulting trees may not necessarily be the best representation of the data in terms of accuracy and size. In recent years, this motivated the development of optimal classification tree algorithms that globally optimise the decision tree in contrast to heuristic methods that perform a sequence of locally optimal decisions. We follow this line of work and provide a novel algorithm for learning optimal classification trees based on dynamic programming and search. Our algorithm supports constraints on the depth of the tree and number of nodes. The success of our approach is attributed to a series of specialised techniques that exploit properties unique to classification trees. Whereas algorithms for optimal classification trees have traditionally been plagued by high runtimes and limited scalability, we show in a detailed experimental study that our approach uses only a fraction of the time required by the state-of-the-art and can handle datasets with tens of thousands of instances, providing several orders of magnitude improvements and notably contributing towards the practical realisation of optimal decision trees. | 翻訳日:2022-11-07 05:57:02 公開日:2022-06-28 |
# sologan: 単一の生成型adversarial networkによるマルチドメインマルチモーダル画像対画像変換 SoloGAN: Multi-domain Multimodal Unpaired Image-to-Image Translation via a Single Generative Adversarial Network ( http://arxiv.org/abs/2008.01681v3 ) ライセンス: Link先を確認 | Shihua Huang, Cheng He, Ran Cheng | (参考訳) 画像から画像への変換 (I2I) はGAN (Generative Adversarial Network) と大きく進歩しているが, 単一のジェネレータと識別器を用いて, 複数領域の多様な画像に効果的に変換することは困難である。
既存のI2I翻訳手法では、異なるドメインに対して複数のドメイン固有のコンテンツエンコーダが採用されている。
それでも、すべての領域のイメージからコンテンツ(ドメイン不変性)の特徴を学習すべきである。
したがって、既存のスキームの各ドメイン固有のコンテンツエンコーダは、ドメイン不変の特徴を効率的に抽出することができない。
この問題に対処するために、複数のドメイン間の効率的なマルチモーダルI2I翻訳のためのフレキシブルで汎用的なSoloGANモデルを提案する。
既存の手法とは対照的に、SoloGANアルゴリズムは追加の補助分類器を備えた単一の射影判別器を使用し、すべてのドメインに対してエンコーダとジェネレータを共有する。
これにより、ドメイン不変コンテンツ表現を効率的に抽出できるように、SoloGANを全ドメインの画像で効果的に訓練することができる。
幅広いデータセットに対する質的かつ定量的な結果が、この方法のメリット、特にi2i翻訳データセットへの挑戦、すなわち極端な形状の変化を伴うデータセット、あるいは翻訳後の複雑な背景を不変に保つ必要があることのメリットを示している。
さらに,ソロガン中の各成分のアブレーション研究による寄与を示す。 Despite significant advances in image-to-image (I2I) translation with generative adversarial networks (GANs), it remains challenging to effectively translate an image to a set of diverse images in multiple target domains using a single pair of generator and discriminator. Existing I2I translation methods adopt multiple domain-specific content encoders for different domains, where each domain-specific content encoder is trained with images from the same domain only. Nevertheless, we argue that the content (domain-invariance) features should be learned from images among all of the domains. Consequently, each domain-specific content encoder of existing schemes fails to extract the domain-invariant features efficiently. To address this issue, we present a flexible and general SoloGAN model for efficient multimodal I2I translation among multiple domains with unpaired data. In contrast to existing methods, the SoloGAN algorithm uses a single projection discriminator with an additional auxiliary classifier and shares the encoder and generator for all domains. Consequently, the SoloGAN can be trained effectively with images from all domains such that the domain-invariance content representation can be efficiently extracted. Qualitative and quantitative results over a wide range of datasets against several counterparts and variants of the SoloGAN demonstrate the merits of the method, especially for challenging I2I translation datasets, i.e., datasets involving extreme shape variations or need to keep the complex backgrounds unchanged after translations. Furthermore, we demonstrate the contribution of each component in SoloGAN by ablation studies. | 翻訳日:2022-11-03 00:40:57 公開日:2022-06-28 |
# MineNaviによるデータセットから単眼深度推定(MDE)モデルへのインパクトの探索 Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE) Models with MineNavi ( http://arxiv.org/abs/2008.08454v2 ) ライセンス: Link先を確認 | Xiangtong Wang, Binbin Liang, Menglong Yang and Wei Li | (参考訳) ディープラーニングに基づく現在のコンピュータビジョンタスクは、特に光学フローのセグメンテーションや深度推定のような高密度な推定タスクにおいて、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、密な見積もりタスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは、しばしば小さな範囲に制限され、コミュニティの発展を劇的に制限する。
この欠点を克服するために,手作業を負担することなく拡張可能なデータセットを得るための合成データセット生成手法を提案する。
本手法により,航空機ナビゲーションにおける深度推定のための正確な地上真実と一致した航空機の1周視映像を含むMineNaviというデータセットを構築した。
また,ミネナビデータセットによる事前トレーニングにより,深度推定モデルの性能が向上し,実シーンデータに対するモデルの収束が高速化できることを示す定量的実験を行った。
合成データセットは,深部モデルの訓練過程における実世界のデータセットと類似した効果を持つため,光条件や運動モードなどのデータセットにおける様々な要因の影響を示すために,単眼深度推定法を用いて追加実験を行う。 Current computer vision tasks based on deep learning require a huge amount of data with annotations for model training or testing, especially in some dense estimation tasks, such as optical flow segmentation and depth estimation. In practice, manual labeling for dense estimation tasks is very difficult or even impossible, and the scenes of the dataset are often restricted to a small range, which dramatically limits the development of the community. To overcome this deficiency, we propose a synthetic dataset generation method to obtain the expandable dataset without burdensome manual workforce. By this method, we construct a dataset called MineNavi containing video footages from first-perspective-view of the aircraft matched with accurate ground truth for depth estimation in aircraft navigation application. We also provide quantitative experiments to prove that pre-training via our MineNavi dataset can improve the performance of depth estimation model and speed up the convergence of the model on real scene data. Since the synthetic dataset has a similar effect to the real-world dataset in the training process of deep model, we also provide additional experiments with monocular depth estimation method to demonstrate the impact of various factors in our dataset such as lighting conditions and motion mode. | 翻訳日:2022-10-27 12:25:17 公開日:2022-06-28 |
# ブラインド画像復元に向けた深部変動ネットワーク Deep Variational Network Toward Blind Image Restoration ( http://arxiv.org/abs/2008.10796v3 ) ライセンス: Link先を確認 | Zongsheng Yue, Hongwei Yong, Qian Zhao, Lei Zhang, Deyu Meng and Kwan-Yen K. Wong | (参考訳) ブラインド画像復元(IR)はコンピュータビジョンにおいて一般的な問題である。
古典的モデルに基づく手法と最近のディープラーニング(DL)に基づく手法は、この問題に対する2つの異なる方法論を表現している。
本稿では,その両方の利点を統合することを目的とした,新しいブラインド画像復元手法を提案する。
具体的には,劣化過程を明示的に表現したブラインドirの一般ベイズ生成モデルを構築する。
提案モデルでは,画素方向非i.i.d.ガウス分布を用いて画像雑音に適合する。
従来のほとんどの方法で採用されている単純なガウス分布やラプラシア分布よりも柔軟性があり、画像劣化に含まれるより複雑なノイズタイプを扱うことができる。
モデル解くために,予測されるすべての後部分布をディープニューラルネットワークとしてパラメータ化してモデル能力を向上する変分推論アルゴリズムを設計する。
特に、このような推論アルゴリズムは、劣化推定と画像復元のタスクを共同で処理する統一フレームワークを誘導する。
また、前処理で推定される劣化情報を利用して後者のIRプロセスを導出する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を発揮することを示した。 Blind image restoration (IR) is a common yet challenging problem in computer vision. Classical model-based methods and recent deep learning (DL)-based methods represent two different methodologies for this problem, each with their own merits and drawbacks. In this paper, we propose a novel blind image restoration method, aiming to integrate both the advantages of them. Specifically, we construct a general Bayesian generative model for the blind IR, which explicitly depicts the degradation process. In this proposed model, a pixel-wise non-i.i.d. Gaussian distribution is employed to fit the image noise. It is with more flexibility than the simple i.i.d. Gaussian or Laplacian distributions as adopted in most of conventional methods, so as to handle more complicated noise types contained in the image degradation. To solve the model, we design a variational inference algorithm where all the expected posteriori distributions are parameterized as deep neural networks to increase their model capability. Notably, such an inference algorithm induces a unified framework to jointly deal with the tasks of degradation estimation and image restoration. Further, the degradation information estimated in the former task is utilized to guide the latter IR process. Experiments on two typical blind IR tasks, namely image denoising and super-resolution, demonstrate that the proposed method achieves superior performance over current state-of-the-arts. | 翻訳日:2022-10-25 04:29:17 公開日:2022-06-28 |
# Align-RUDDER: Reward reistribution によるいくつかのデモから学ぶ Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution ( http://arxiv.org/abs/2009.14108v2 ) ライセンス: Link先を確認 | Vihang P. Patil, Markus Hofmarcher, Marius-Constantin Dinu, Matthias Dorfer, Patrick M. Blies, Johannes Brandstetter, Jose A. Arjona-Medina, Sepp Hochreiter | (参考訳) 強化学習アルゴリズムは、スパースと遅延報酬で複雑な階層的タスクを解決する際に多くのサンプルを必要とする。
このような複雑なタスクに対して、最近提案されたRUDDERは、サブタスクの達成に関連するQ-関数のステップを活用するために報酬再分配を利用する。
しかし、現在の探査戦略では妥当な時間で発見できないため、報酬の高いエピソードがデモとして利用できることが多い。
本稿では,実演の複数シーケンスアライメントから得られる報酬再分配のためのプロファイルモデルであるAlign-RUDDERを紹介する。
その結果、Align-RUDDERは報酬再分配を効果的に採用し、その結果、少数のデモンストレーションでの学習を大幅に改善する。
align-rudderは、報酬の遅れとデモの少ない複雑な人工的なタスクの競合を上回っている。
Minecraft ObtainDiamondタスクでは、Align-RUDDERはダイヤモンドを採掘できるが、あまり多くはない。
コードはhttps://github.com/ml-jku/align-rudderで入手できる。
YouTube: https://youtu.be/HO-_8zul-UY Reinforcement learning algorithms require many samples when solving complex hierarchical tasks with sparse and delayed rewards. For such complex tasks, the recently proposed RUDDER uses reward redistribution to leverage steps in the Q-function that are associated with accomplishing sub-tasks. However, often only few episodes with high rewards are available as demonstrations since current exploration strategies cannot discover them in reasonable time. In this work, we introduce Align-RUDDER, which utilizes a profile model for reward redistribution that is obtained from multiple sequence alignment of demonstrations. Consequently, Align-RUDDER employs reward redistribution effectively and, thereby, drastically improves learning on few demonstrations. Align-RUDDER outperforms competitors on complex artificial tasks with delayed rewards and few demonstrations. On the Minecraft ObtainDiamond task, Align-RUDDER is able to mine a diamond, though not frequently. Code is available at https://github.com/ml-jku/align-rudder. YouTube: https://youtu.be/HO-_8ZUl-UY | 翻訳日:2022-10-13 05:09:17 公開日:2022-06-28 |
# ランダム化数値線形代数による量子インスピレーションアルゴリズム Quantum-Inspired Algorithms from Randomized Numerical Linear Algebra ( http://arxiv.org/abs/2011.04125v7 ) ライセンス: Link先を確認 | Nadiia Chepurko, Kenneth L. Clarkson, Lior Horesh, Honghao Lin, David P. Woodruff | (参考訳) 我々は古典的(量子でない)動的データ構造を作成し、リコメンダシステムのためのクエリと、量子アナログに匹敵する最小二乗回帰をサポートする。
近年,このようなアルゴリズムの非量子化が注目されている。
さらに、これらの改善は、これらの問題に対する以前の量子インスパイアされたアルゴリズムが、擬似的にレバレッジやリッジ平均スコアのサンプリングを行っていることを論じることで達成される。
この認識により、数値線形代数において、既存のアプローチよりも単純で(あるいはより高速な)これらの問題に対するアルゴリズムを得るために、大きな仕事の本体を利用できる。
実験により,提案するデータ構造が実世界のデータセットでもうまく機能することを実証した。 We create classical (non-quantum) dynamic data structures supporting queries for recommender systems and least-squares regression that are comparable to their quantum analogues. De-quantizing such algorithms has received a flurry of attention in recent years; we obtain sharper bounds for these problems. More significantly, we achieve these improvements by arguing that the previous quantum-inspired algorithms for these problems are doing leverage or ridge-leverage score sampling in disguise; these are powerful and standard techniques in randomized numerical linear algebra. With this recognition, we are able to employ the large body of work in numerical linear algebra to obtain algorithms for these problems that are simpler or faster (or both) than existing approaches. Our experiments demonstrate that the proposed data structures also work well on real-world datasets. | 翻訳日:2022-09-28 02:40:37 公開日:2022-06-28 |
# 線形対称性に基づく絡み合いの定量化と学習 Quantifying and Learning Linear Symmetry-Based Disentanglement ( http://arxiv.org/abs/2011.06070v4 ) ライセンス: Link先を確認 | Loek Tonnaer, Luis A. P\'erez Rey, Vlado Menkovski, Mike Holenderski, Jacobus W. Portegies | (参考訳) 線形対称性に基づくアンタングルメント(LSBD)の定義は線形非アンタングル表現の概念を定式化するが、現在ではLSBDを定量化する計量は存在しない。
このような計量は、LSBD法の評価と、従来の非絡み合いの理解との比較に不可欠である。
LSBDを定量化するための数学的に健全な計量である$\mathcal{D}_\mathrm{LSBD}$を提案し、$\mathrm{SO}(2)$ groupに対して実用的な実装を提供する。
さらに、この指標からLSBD表現を学習するための半教師付き手法LSBD-VAEを導出する。
本稿では,(1)一般的なVAEに基づく非絡合法はLSBD表現を学習しない,(2)LSBD-VAEはLSBD表現を学習できない,(3)既存の非絡合法で表される様々な望ましい特性はLSBD表現によっても達成できることを示す。 The definition of Linear Symmetry-Based Disentanglement (LSBD) formalizes the notion of linearly disentangled representations, but there is currently no metric to quantify LSBD. Such a metric is crucial to evaluate LSBD methods and to compare to previous understandings of disentanglement. We propose $\mathcal{D}_\mathrm{LSBD}$, a mathematically sound metric to quantify LSBD, and provide a practical implementation for $\mathrm{SO}(2)$ groups. Furthermore, from this metric we derive LSBD-VAE, a semi-supervised method to learn LSBD representations. We demonstrate the utility of our metric by showing that (1) common VAE-based disentanglement methods don't learn LSBD representations, (2) LSBD-VAE as well as other recent methods can learn LSBD representations, needing only limited supervision on transformations, and (3) various desirable properties expressed by existing disentanglement metrics are also achieved by LSBD representations. | 翻訳日:2022-09-27 00:33:03 公開日:2022-06-28 |
# No-Regret Reinforcement Learningのためのカーネル埋め込みによる値関数近似 Value Function Approximations via Kernel Embeddings for No-Regret Reinforcement Learning ( http://arxiv.org/abs/2011.07881v3 ) ライセンス: Link先を確認 | Sayak Ray Chowdhury, Rafael Oliveira | (参考訳) エピソディクス設定における強化学習(rl)における後悔の最小化問題を考える。
多くの実世界のRL環境では、状態空間と作用空間は連続的あるいは非常に大きい。
既存のアプローチは、確率遷移モデルの低次元表現または$Q$-函数の近似によって、後悔の保証を確立する。
しかし、状態値関数に対する関数近似スキームの理解はほとんど失われていない。
本稿では,再生成カーネルHilbert空間への埋め込みとして遷移分布の表現を学習し,エクスプロレーションと探索のトレードオフを慎重にバランスさせるオンラインモデルベースRLアルゴリズム,すなわちCME-RLを提案する。
我々は,次数 $\tilde{O}\big(H\gamma_N\sqrt{N}\big)$\footnote{ $\tilde{O}(\cdot)$ 絶対定数と多元対数要素のみを隠蔽する頻繁な(Worst-case)後悔境界を証明することによって,アルゴリズムの効率を実証する。
h$ がエピソードの長さ、$n$ は時間ステップの総数、$\gamma_n$ は状態-アクション特徴空間の有効次元に関する情報理論量である。
提案手法は遷移確率を推定する必要性を回避し,カーネル定義可能な任意の領域に適用する。
また、近似推論とRL後悔最小化のためのカーネルメソッドの一般理論に新たな洞察をもたらす。 We consider the regret minimization problem in reinforcement learning (RL) in the episodic setting. In many real-world RL environments, the state and action spaces are continuous or very large. Existing approaches establish regret guarantees by either a low-dimensional representation of the stochastic transition model or an approximation of the $Q$-functions. However, the understanding of function approximation schemes for state-value functions largely remains missing. In this paper, we propose an online model-based RL algorithm, namely the CME-RL, that learns representations of transition distributions as embeddings in a reproducing kernel Hilbert space while carefully balancing the exploitation-exploration tradeoff. We demonstrate the efficiency of our algorithm by proving a frequentist (worst-case) regret bound that is of order $\tilde{O}\big(H\gamma_N\sqrt{N}\big)$\footnote{ $\tilde{O}(\cdot)$ hides only absolute constant and poly-logarithmic factors.}, where $H$ is the episode length, $N$ is the total number of time steps and $\gamma_N$ is an information theoretic quantity relating the effective dimension of the state-action feature space. Our method bypasses the need for estimating transition probabilities and applies to any domain on which kernels can be defined. It also brings new insights into the general theory of kernel methods for approximate inference and RL regret minimization. | 翻訳日:2022-09-25 00:41:18 公開日:2022-06-28 |
# kubernetesクラスタ上の異常を監視,検出する状態マシンの学習 Learning State Machines to Monitor and Detect Anomalies on a Kubernetes Cluster ( http://arxiv.org/abs/2207.12087v1 ) ライセンス: Link先を確認 | Clinton Cao, Agathe Blaise, Sicco Verwer, Filippo Rebecchi | (参考訳) 最近では、クラウド環境を利用してクライアントにサービスを提供する企業が増えている。
クラウド環境のセットアップは簡単だが、システムの実行時の動作を監視し、運用中に発生する異常な動作を特定することは同様に重要である。
近年では、実行中に発生する可能性のある異常を検出するために \ac{rnn} と \ac{dnn} の利用がトレンドとなっている。
しかし、これらのネットワークによる決定と、それらのネットワークがモデル化する実行時の振る舞いを理解するためにどのように解釈されるべきなのかは、明らかになっていない。
それとは対照的に、ステートマシンモデルは、モデルする振る舞いを解釈し理解するための簡単な方法を提供する。
本稿では,複数のマイクロサービスアプリケーションを実行するクラウド環境のランタイム動作をモデル化するために,ステートマシンモデルを学習する手法を提案する。
私たちの知る限りでは、ステートマシンモデルをマイクロサービスアーキテクチャに適用しようとする最初の作業です。
ステートマシンモデルは、クラウド環境で起動するさまざまなタイプの攻撃を検出するために使用されます。
実験結果から,攻撃の精度は99.2%,F1スコアは0.982。 These days more companies are shifting towards using cloud environments to provide their services to their client. While it is easy to set up a cloud environment, it is equally important to monitor the system's runtime behaviour and identify anomalous behaviours that occur during its operation. In recent years, the utilisation of \ac{rnn} and \ac{dnn} to detect anomalies that might occur during runtime has been a trending approach. However, it is unclear how to explain the decisions made by these networks and how these networks should be interpreted to understand the runtime behaviour that they model. On the contrary, state machine models provide an easier manner to interpret and understand the behaviour that they model. In this work, we propose an approach that learns state machine models to model the runtime behaviour of a cloud environment that runs multiple microservice applications. To the best of our knowledge, this is the first work that tries to apply state machine models to microservice architectures. The state machine model is used to detect the different types of attacks that we launch on the cloud environment. From our experiment results, our approach can detect the attacks very well, achieving a balanced accuracy of 99.2% and an F1 score of 0.982. | 翻訳日:2022-07-31 14:47:05 公開日:2022-06-28 |
# (参考訳) 単純で複雑なスパイクニューロン : 単純なSTDPシナリオにおける視点と解析 Simple and complex spiking neurons: perspectives and analysis in a simple STDP scenario ( http://arxiv.org/abs/2207.04881v1 ) ライセンス: CC BY-SA 4.0 | Davide Liberato Manna, Alex Vicente Sola, Paul Kirkland, Trevor Bihl, Gaetano Di Caterina | (参考訳) スパイキングニューラルネットワーク(SNN)は主に生物学や神経科学に触発され、アイデアと理論を活用して高速で効率的な学習システムを構築する。
スパイキングニューロンモデルは、イベントベースの処理を可能にするため、ニューロモルフィックシステムのコア処理単位として採用されている。
I&F(Integration-and-fire)モデルはよく採用され、単純なLeaky I&F(LIF)が最も使われている。
このようなモデルを採用する理由は、その効率性や生物学的妥当性である。
それにもかかわらず、学習システムで使用する他のニューロンモデルよりもlifを採用するという厳密な正当化はまだ研究されていない。
この研究は、文献の中で様々なニューロンモデルを考察し、単変量、効率的、異なる種類の複雑度を示す計算ニューロンモデルを選択する。
この選択から, LIF, Quadratic I&F (QIF) および Exponential I&F (EIF) の3つの単純なI&Fニューロンモデルの比較研究を行い, より複雑なモデルの使用によってシステムの性能が向上し, ニューロンモデルの選択が完了すべきタスクによって指示できるかどうかを考察する。
ニューロンモデルは、N-MNISTとDVS Gesturesデータセットの分類タスクにおいて、Spike-Timing Dependent Plasticity (STDP)でトレーニングされたSNN内でテストされる。
実験の結果、より複雑なニューロンは単純なデータセット(N-MNIST)で高いレベルの精度を達成するための単純なニューロンと同じ能力を示すことが明らかとなった。
しかし、データがよりリッチな時空間的特徴を持つ場合、QIF と EIF ニューロンモデルは着実により良い結果が得られる。
このことは、データの特徴スペクトルの豊かさに基づいてモデルを正確に選択することで、システム全体の性能を向上させることを示唆している。
最後に、spyketorchフレームワークでスパイクニューロンを実装するコードは、公開されている。 Spiking neural networks (SNNs) are largely inspired by biology and neuroscience and leverage ideas and theories to create fast and efficient learning systems. Spiking neuron models are adopted as core processing units in neuromorphic systems because they enable event-based processing. The integrate-and-fire (I&F) models are often adopted, with the simple Leaky I&F (LIF) being the most used. The reason for adopting such models is their efficiency and/or biological plausibility. Nevertheless, rigorous justification for adopting LIF over other neuron models for use in artificial learning systems has not yet been studied. This work considers various neuron models in the literature and then selects computational neuron models that are single-variable, efficient, and display different types of complexities. From this selection, we make a comparative study of three simple I&F neuron models, namely the LIF, the Quadratic I&F (QIF) and the Exponential I&F (EIF), to understand whether the use of more complex models increases the performance of the system and whether the choice of a neuron model can be directed by the task to be completed. Neuron models are tested within an SNN trained with Spike-Timing Dependent Plasticity (STDP) on a classification task on the N-MNIST and DVS Gestures datasets. Experimental results reveal that more complex neurons manifest the same ability as simpler ones to achieve high levels of accuracy on a simple dataset (N-MNIST), albeit requiring comparably more hyper-parameter tuning. However, when the data possess richer Spatio-temporal features, the QIF and EIF neuron models steadily achieve better results. This suggests that accurately selecting the model based on the richness of the feature spectrum of the data could improve the whole system's performance. Finally, the code implementing the spiking neurons in the SpykeTorch framework is made publicly available. | 翻訳日:2022-07-17 19:45:04 公開日:2022-06-28 |
# (参考訳) 脳波データからのてんかん発作検出のための自己教師付き事前訓練モデルの改良 Improving self-supervised pretraining models for epileptic seizure detection from EEG data ( http://arxiv.org/abs/2207.06911v1 ) ライセンス: CC BY 4.0 | Sudip Das, Pankaj Pandey, and Krishna Prasad Miyapuram | (参考訳) インターネットには豊富な医療データがあり、そのほとんどはラベルが付けられていない。
従来の教師付き学習アルゴリズムは、ラベル付けされたデータの量によって制限されることが多い。
また、人間の誤りを犯しがちで、専門家のアノテータを数名選んでラベル付けしている。
これらの問題は自己スーパービジョンによって軽減され、データ自体を見ることでラベルのないデータから擬似ラベルを生成する。
本稿では、時系列に基づく拡散畳み込みリカレントニューラルネットワーク(DCRNN)モデルの性能を高めるための様々な自己超越戦略を提案する。
自己スーパービジョンプリトレーニングフェーズにおける学習重みは、モデルの予測能力を高めるために教師付きトレーニングフェーズに移すことができる。
本手法は,脳波信号に存在する時空間依存性をモデル化した,グラフ拡散畳み込みを持つrnnである拡散畳み込みリカレントニューラルネットワーク(dcrnn)モデルを拡張したものである。
トレーニング段階から学習した重みがDCRNNモデルに転送され、脳波の時間窓に特徴的な発作信号があるかどうかを判定すると、本手法は、TUH EEGの発作コーパスにおける現在の最先端モデルよりも1.56\%のAUROCスコアが得られる。 There is abundant medical data on the internet, most of which are unlabeled. Traditional supervised learning algorithms are often limited by the amount of labeled data, especially in the medical domain, where labeling is costly in terms of human processing and specialized experts needed to label them. They are also prone to human error and biased as a select few expert annotators label them. These issues are mitigated by Self-supervision, where we generate pseudo-labels from unlabelled data by seeing the data itself. This paper presents various self-supervision strategies to enhance the performance of a time-series based Diffusion convolution recurrent neural network (DCRNN) model. The learned weights in the self-supervision pretraining phase can be transferred to the supervised training phase to boost the model's prediction capability. Our techniques are tested on an extension of a Diffusion Convolutional Recurrent Neural network (DCRNN) model, an RNN with graph diffusion convolutions, which models the spatiotemporal dependencies present in EEG signals. When the learned weights from the pretraining stage are transferred to a DCRNN model to determine whether an EEG time window has a characteristic seizure signal associated with it, our method yields an AUROC score $1.56\%$ than the current state-of-the-art models on the TUH EEG seizure corpus. | 翻訳日:2022-07-17 19:23:41 公開日:2022-06-28 |
# ヘビアン連続表現学習 Hebbian Continual Representation Learning ( http://arxiv.org/abs/2207.04874v1 ) ライセンス: Link先を確認 | Pawe{\l} Morawiecki, Andrii Krutsylo, Maciej Wo{\l}czyk, Marek \'Smieja | (参考訳) 継続的学習は、タスクが逐次学習され、i.d.仮定が保存されない、より現実的なシナリオに機械学習をもたらすことを目的としている。
この設定は生物学的システムには自然であるが、人工ニューラルネットワークのような機械学習モデルでは極めて困難である。
このパフォーマンスギャップを軽減するために,生物学的にインスパイアされたヘビー学習が継続的な課題に取り組む上で有用かどうかを考察する。
特に、現実的でしばしば見落とされがちな教師なしの設定を強調し、学習者は監督なしに表現を構築しなければならない。
疎ニューラルネットワークとヘビー学習原理を組み合わせることで、勾配降下によって学習される典型的なニューラルネットワークモデルに対して、単純で効果的な代替(hebbcl)を構築する。
Hebbianの学習により、ネットワークは容易に解釈可能な重みを持ち、セキュリティや医療といった重要な応用に欠かせない。
MNISTおよびOmniglotデータセットに適用した教師なし学習環境におけるHebbCLの有効性を示す。
また,教師付きシナリオにアルゴリズムを適用し,授業実践学習において有望な結果を得る。 Continual Learning aims to bring machine learning into a more realistic scenario, where tasks are learned sequentially and the i.i.d. assumption is not preserved. Although this setting is natural for biological systems, it proves very difficult for machine learning models such as artificial neural networks. To reduce this performance gap, we investigate the question whether biologically inspired Hebbian learning is useful for tackling continual challenges. In particular, we highlight a realistic and often overlooked unsupervised setting, where the learner has to build representations without any supervision. By combining sparse neural networks with Hebbian learning principle, we build a simple yet effective alternative (HebbCL) to typical neural network models trained via the gradient descent. Due to Hebbian learning, the network have easily interpretable weights, which might be essential in critical application such as security or healthcare. We demonstrate the efficacy of HebbCL in an unsupervised learning setting applied to MNIST and Omniglot datasets. We also adapt the algorithm to the supervised scenario and obtain promising results in the class-incremental learning. | 翻訳日:2022-07-17 17:09:24 公開日:2022-06-28 |
# (参考訳) 垂直フェデレーションニューラルネットワークのためのセキュアなフォワードアグリゲーション Secure Forward Aggregation for Vertical Federated Neural Networks ( http://arxiv.org/abs/2207.00165v1 ) ライセンス: CC BY 4.0 | Shuowei Cai, Di Chai, Liu Yang, Junxue Zhang, Yilun Jin, Leye Wang, Kun Guo, Kai Chen | (参考訳) 垂直連合学習(VFL)は、プライバシ保護方式でクロスサイロデータの協調を可能にするため、多くの注目を集めている。
VFLにおけるほとんどの研究は線形モデルとツリーモデルに焦点を当てているが、ディープモデル(例えばニューラルネットワーク)はVFLでは十分に研究されていない。
本稿では、VFLでよく知られたニューラルネットワークフレームワークであるSplitNNに注目し、SplitNNにおけるデータセキュリティとモデルパフォーマンスのトレードオフを特定する。
簡単に言えば、SplitNNは勾配と変換データを交換することでモデルをトレーニングする。
一方、SplitNNは、原データの代わりに変換データを用いてモデルを共同で訓練し、大量の低レベル特徴情報を破棄するため、モデル性能の喪失に悩まされている。
一方、SplitNNの下位層に集約することでモデル性能を向上する簡単なソリューション(つまり、データは変換されにくく、低レベルの機能が保存される)は、生データを推論攻撃に弱いものにする。
上記のトレードオフを軽減するために,セキュリティフォワードアグリゲーション(SFA)と呼ばれる,VFLの新しいニューラルネットワークプロトコルを提案する。
変換されたデータを集約する方法を変更し、削除可能なマスクを採用して生データを保護する。
実験の結果,SFAのネットワークはデータセキュリティと高モデル性能の両方を実現していることがわかった。 Vertical federated learning (VFL) is attracting much attention because it enables cross-silo data cooperation in a privacy-preserving manner. While most research works in VFL focus on linear and tree models, deep models (e.g., neural networks) are not well studied in VFL. In this paper, we focus on SplitNN, a well-known neural network framework in VFL, and identify a trade-off between data security and model performance in SplitNN. Briefly, SplitNN trains the model by exchanging gradients and transformed data. On the one hand, SplitNN suffers from the loss of model performance since multiply parties jointly train the model using transformed data instead of raw data, and a large amount of low-level feature information is discarded. On the other hand, a naive solution of increasing the model performance through aggregating at lower layers in SplitNN (i.e., the data is less transformed and more low-level feature is preserved) makes raw data vulnerable to inference attacks. To mitigate the above trade-off, we propose a new neural network protocol in VFL called Security Forward Aggregation (SFA). It changes the way of aggregating the transformed data and adopts removable masks to protect the raw data. Experiment results show that networks with SFA achieve both data security and high model performance. | 翻訳日:2022-07-10 12:34:41 公開日:2022-06-28 |
# (参考訳) ウェアラブルECGと加速度センサを用いた転倒検出のためのスマート応用 Smart Application for Fall Detection Using Wearable ECG & Accelerometer Sensors ( http://arxiv.org/abs/2207.00008v1 ) ライセンス: CC BY 4.0 | Harry Wixley | (参考訳) 滝のタイムリーで信頼性の高い検出は、常に成長する高齢者の医療と財政の需要のために、大きくて急速に成長している研究分野である。
過去20年以内に、高品質なハードウェア(高品質なセンサーとaiマイクロチップ)とソフトウェア(機械学習アルゴリズム)技術が利用可能になり、開発者はそのようなシステムを開発することができるようになった。
本研究では,転倒検知システムの開発課題と選択を調査し,今後の研究のための資料を提供するため,複数のアプリケーションコンポーネントを開発した。
この手法を用いて開発されたスマートアプリケーションは、フォール検出モデル実験とモデルモバイルデプロイメントの結果によって検証された。
ResNet152は、92.8%のAUC、7.28%の感度、98.33%の特異性を達成した2sウィンドウサイズで標準化されシャッフルされたデータセットである。
これらの結果から,加速度センサと心電センサは転倒検出に有用であり,転倒と他の活動の区別が可能であることが示唆された。
この研究は、結果データセットで特定された弱点により、改善の余地がかなり残されている。
これらの改善には、フォールのクリティカルフェーズのためのラベル付けプロトコルの使用、データセットサンプルの数の増加、テスト対象の表現の改善、周波数ドメイン前処理の実験が含まれる。 Timely and reliable detection of falls is a large and rapidly growing field of research due to the medical and financial demand of caring for a constantly growing elderly population. Within the past 2 decades, the availability of high-quality hardware (high-quality sensors and AI microchips) and software (machine learning algorithms) technologies has served as a catalyst for this research by giving developers the capabilities to develop such systems. This study developed multiple application components in order to investigate the development challenges and choices for fall detection systems, and provide materials for future research. The smart application developed using this methodology was validated by the results from fall detection modelling experiments and model mobile deployment. The best performing model overall was the ResNet152 on a standardised, and shuffled dataset with a 2s window size which achieved 92.8% AUC, 7.28% sensitivity, and 98.33% specificity. Given these results it is evident that accelerometer and ECG sensors are beneficial for fall detection, and allow for the discrimination between falls and other activities. This study leaves a significant amount of room for improvement due to weaknesses identified in the resultant dataset. These improvements include using a labelling protocol for the critical phase of a fall, increasing the number of dataset samples, improving the test subject representation, and experimenting with frequency domain preprocessing. | 翻訳日:2022-07-10 12:22:52 公開日:2022-06-28 |
# 地球から見た微分可能シミュレーションによる最適化の再考 Rethinking Optimization with Differentiable Simulation from a Global Perspective ( http://arxiv.org/abs/2207.00167v1 ) ライセンス: Link先を確認 | Rika Antonova, Jingyun Yang, Krishna Murthy Jatavallabhula, Jeannette Bohg | (参考訳) 微分可能シミュレーションは、高速勾配に基づくポリシー最適化とシステム同定のための有望なツールキットである。
しかし、微分可能なシミュレーションに対する既存のアプローチは、滑らかな勾配を得るのが比較的容易であるようなシナリオに主に取り組まれている。
本研究では,一つの降下がグローバルな最適値に達することを期待できない場合に,微分可能シミュレーションがもたらす課題について検討する。
剛体と変形可能な物体の両方を含む多様なシナリオの最適化状況を分析する。
高度に変形可能な物体や流体を持つ動的環境において、微分可能なシミュレータは、空間の一部で有用な勾配を持つ頑丈な風景を作り出す。
本研究では,ベイズ最適化を半局所的な「リープ」と組み合わせて,勾配を効果的に活用できる大域的探索法を提案する。
提案手法は,シミュレーション実験の大規模セットにおいて,勾配ベースおよび勾配フリーベースラインよりも優れており,実ロボットと変形可能ロボットを用いた実験による検証も可能であることを示す。
ビデオと補足資料はhttps://tinyurl.com/globdiffで入手できる。 Differentiable simulation is a promising toolkit for fast gradient-based policy optimization and system identification. However, existing approaches to differentiable simulation have largely tackled scenarios where obtaining smooth gradients has been relatively easy, such as systems with mostly smooth dynamics. In this work, we study the challenges that differentiable simulation presents when it is not feasible to expect that a single descent reaches a global optimum, which is often a problem in contact-rich scenarios. We analyze the optimization landscapes of diverse scenarios that contain both rigid bodies and deformable objects. In dynamic environments with highly deformable objects and fluids, differentiable simulators produce rugged landscapes with nonetheless useful gradients in some parts of the space. We propose a method that combines Bayesian optimization with semi-local 'leaps' to obtain a global search method that can use gradients effectively, while also maintaining robust performance in regions with noisy gradients. We show that our approach outperforms several gradient-based and gradient-free baselines on an extensive set of experiments in simulation, and also validate the method using experiments with a real robot and deformables. Videos and supplementary materials are available at https://tinyurl.com/globdiff | 翻訳日:2022-07-10 11:21:41 公開日:2022-06-28 |
# 熱地図発生器を用いた放射線医学における深層学習モデルの分類性能と説明可能性の向上 Improving Disease Classification Performance and Explainability of Deep Learning Models in Radiology with Heatmap Generators ( http://arxiv.org/abs/2207.00157v1 ) ライセンス: Link先を確認 | Akino Watanabe, Sara Ketabi, Khashayar (Ernest) Namdar, and Farzad Khalvati | (参考訳) 放射線学分野では深層学習が広く用いられているため, 診断に使用する際, 臨床医の信頼を得るためには, このようなモデルの説明可能性もますます不可欠になりつつある。
本研究では,3つの実験セットをU-Netアーキテクチャを用いて実施し,トレーニング中のヒートマップ生成装置を組み込むことで,モデルの焦点に対応するヒートマップを向上し,分類性能を向上した。
全ての実験では、胸部X線写真、正常な3つの条件のうちの1つ(「正常」、「腐食性心不全(CHF)」、「肺炎」)のラベル、および画像上の放射線技師の視線座標に関する数値情報を含むデータセットを使用していた。
このデータセットを導入した論文 (A. Karargyris and Moradi, 2021) では, マルチモーダルトレーニングにおける視線データを用いた説明可能性向上のためのベースラインモデルとして扱われたU-Netモデルが開発された。
分類性能を比較するため, 受信器動作特性曲線(AUC)の下での領域の95%信頼区間(CI)を測定した。
最良の方法は 0.913 (CI: 0.860-0.966) である。
最も大きな改善は「肺炎」クラスと「chf」クラスで、ベースラインモデルは分類に最も苦労し、それぞれ0.859 (ci: 0.732-0.957) と0.962 (ci: 0.933-0.989) となった。
提案手法のデコーダは、放射線科医のアイガゼデータと同様に、モデル分類における画像部分を決定する確率マスクを作成することも可能であった。
そこで本研究は, 熱マップ生成装置と眼球運動情報をトレーニングに組み込むことで, 疾患の分類と診断時の胸部X線像の観察方法とよく一致した説明可能な視覚を提供することができた。 As deep learning is widely used in the radiology field, the explainability of such models is increasingly becoming essential to gain clinicians' trust when using the models for diagnosis. In this research, three experiment sets were conducted with a U-Net architecture to improve the classification performance while enhancing the heatmaps corresponding to the model's focus through incorporating heatmap generators during training. All of the experiments used the dataset that contained chest radiographs, associated labels from one of the three conditions ("normal", "congestive heart failure (CHF)", and "pneumonia"), and numerical information regarding a radiologist's eye-gaze coordinates on the images. The paper (A. Karargyris and Moradi, 2021) that introduced this dataset developed a U-Net model, which was treated as the baseline model for this research, to show how the eye-gaze data can be used in multi-modal training for explainability improvement. To compare the classification performances, the 95% confidence intervals (CI) of the area under the receiver operating characteristic curve (AUC) were measured. The best method achieved an AUC of 0.913 (CI: 0.860-0.966). The greatest improvements were for the "pneumonia" and "CHF" classes, which the baseline model struggled most to classify, resulting in AUCs of 0.859 (CI: 0.732-0.957) and 0.962 (CI: 0.933-0.989), respectively. The proposed method's decoder was also able to produce probability masks that highlight the determining image parts in model classifications, similarly as the radiologist's eye-gaze data. Hence, this work showed that incorporating heatmap generators and eye-gaze information into training can simultaneously improve disease classification and provide explainable visuals that align well with how the radiologist viewed the chest radiographs when making diagnosis. | 翻訳日:2022-07-10 11:21:23 公開日:2022-06-28 |
# ステイン翻訳改善のためのステイン分離に基づくガイダンス Stain Isolation-based Guidance for Improved Stain Translation ( http://arxiv.org/abs/2207.00431v1 ) ライセンス: Link先を確認 | Nicolas Brieu, Felix J. Segerer, Ansh Kapil, Philipp Wortmann, Guenter Schmidt | (参考訳) 生成的対向神経ネットワーク、より正確にはCycleGANを用いた教師なしドメイン翻訳は、病理組織像の染色翻訳の最先端技術である。
しかし、しばしばサイクル一貫性があるが、非構造保存エラーに苦しむ。
セグメンテーションの一貫性に依拠して病理構造の保存を可能にする方法の組に対する別のアプローチを提案する。
免疫組織化学(ihc)とmif(multiplexed immunofluorescence)に着目し,染色翻訳と染色分離の一貫性を活かした損失機能として,簡便かつ効果的な指導法を提案する。
定性的かつ定量的な実験は、2つの領域間の翻訳を改善するための提案手法の能力を示している。 Unsupervised and unpaired domain translation using generative adversarial neural networks, and more precisely CycleGAN, is state of the art for the stain translation of histopathology images. It often, however, suffers from the presence of cycle-consistent but non structure-preserving errors. We propose an alternative approach to the set of methods which, relying on segmentation consistency, enable the preservation of pathology structures. Focusing on immunohistochemistry (IHC) and multiplexed immunofluorescence (mIF), we introduce a simple yet effective guidance scheme as a loss function that leverages the consistency of stain translation with stain isolation. Qualitative and quantitative experiments show the ability of the proposed approach to improve translation between the two domains. | 翻訳日:2022-07-10 11:20:48 公開日:2022-06-28 |
# 要求分割を考慮した衛星画像データダウンリンクスケジューリング問題に対する適応的双方向最適化アルゴリズム An adaptive bi-objective optimization algorithm for the satellite image data downlink scheduling problem considering request split ( http://arxiv.org/abs/2207.00168v1 ) ライセンス: Link先を確認 | Zhongxiang Chang and Abraham P. Punnen and Zhongbao Zhou | (参考訳) 衛星画像データダウンリンクスケジューリング問題(SIDSP)は、従来の衛星の文献でよく研究されている。
近年の衛星技術の発展により、現代の衛星のSIDSPはより複雑になり、衛星を効果的に利用するための新たな次元と機会が加わった。
本稿では,画像データのセグメンテーションと画像データダウンリンクの2つの相互接続操作を動的に組み合わせ,さらなるモデリングの柔軟性と能力の更新を実現する,d-sidsp(dynamic two-phase satellite image data downlink scheduling problem)を提案する。
D-SIDSPは、画像データ伝送率とサービスバランス度を最適化する双目的問題として定式化される。
適応型大近傍探索アルゴリズム (ALNS) と非支配型ソート遺伝的アルゴリズム (NSGA-II) を併用した適応型大近傍探索アルゴリズム (ALNS+NSGA-II) の能力を利用してD-SIDSPを解く。
ベンチマークインスタンスを用いた広範囲な計算実験の結果も示す。
実験の結果,アルゴリズムALNS+NSGA-IIはより効率的にD-SIDSPを解くための代替手段であり,様々な性能指標に基づいて優れた結果を示す。
論文はまた、D-SIDSPの新しいベンチマークインスタンスを提供し、このトピックに関する将来の研究で使用することができる。 The satellite image data downlink scheduling problem (SIDSP) is well studied in literature for traditional satellites. With recent developments in satellite technology, SIDSP for modern satellites became more complicated, adding new dimensions of complexities and additional opportunities for the effective use of the satellite. In this paper, we introduce the dynamic two-phase satellite image data downlink scheduling problem (D-SIDSP) which combines two interlinked operations of image data segmentation and image data downlink, in a dynamic way, and thereby offering additional modelling flexibility and renewed capabilities. D-SIDSP is formulated as a bi-objective problem of optimizing the image data transmission rate and the service-balance degree. Harnessing the power of an adaptive large neighborhood search algorithm (ALNS) with a nondominated sorting genetic algorithm II (NSGA-II), an adaptive bi-objective memetic algorithm, ALNS+NSGA-II, is developed to solve D-SIDSP. Results of extensive computational experiments carried out using benchmark instances are also presented. Our experimental results disclose that the algorithm ALNS+NSGA-II is a viable alternative to solve D-SIDSP more efficiently and demonstrates superior outcomes based on various performance metrics. The paper also offers new benchmark instances for D-SIDSP that can be used in future research works on the topic. | 翻訳日:2022-07-10 11:20:34 公開日:2022-06-28 |
# (参考訳) スパイクニューラルネットワークにおける神経修飾シナプス可塑性によるオンライン学習 Learning to learn online with neuromodulated synaptic plasticity in spiking neural networks ( http://arxiv.org/abs/2206.12520v2 ) ライセンス: CC BY 4.0 | Samuel Schmidgall, Joe Hays | (参考訳) 機械学習に対する神経科学の理解を活用するためには、まず脳に似た学習モデルを訓練するための強力なツールが必要である。
脳における学習のダイナミクスを理解するための大きな進歩はあったが、神経科学から派生した学習モデルは、勾配降下のような深層学習の方法と同じ性能をまだ示していない。
勾配勾配を用いた機械学習の成功に触発されて,神経科学からのシナプス可塑性のモデルがスパイキングニューラルネットワーク(SNN)で学習し,勾配勾配から学習し,困難なオンライン学習問題に対処できることを実証した。
このフレームワークは、神経科学に触発されたオンライン学習アルゴリズムを開発するための新しい道を開く。 We propose that in order to harness our understanding of neuroscience toward machine learning, we must first have powerful tools for training brain-like models of learning. Although substantial progress has been made toward understanding the dynamics of learning in the brain, neuroscience-derived models of learning have yet to demonstrate the same performance capabilities as methods in deep learning such as gradient descent. Inspired by the successes of machine learning using gradient descent, we demonstrate that models of neuromodulated synaptic plasticity from neuroscience can be trained in Spiking Neural Networks (SNNs) with a framework of learning to learn through gradient descent to address challenging online learning problems. This framework opens a new path toward developing neuroscience inspired online learning algorithms. | 翻訳日:2022-07-03 09:44:04 公開日:2022-06-28 |
# (参考訳) グラフ注意ネットワークを用いた画像美学評価 Image Aesthetics Assessment Using Graph Attention Network ( http://arxiv.org/abs/2206.12869v2 ) ライセンス: CC BY 4.0 | Koustav Ghosal, Aljosa Smolic | (参考訳) アスペクト比と空間配置は、写真の美的価値を決定する主要な要因の2つである。
しかし、これらを画像美学評価のための従来の畳み込みベースのフレームワークに組み込むことは問題となる。
画像のアスペクト比は、バッチサンプリングのトレーニングを容易にするために、サイズ/クロッピングを一定次元に再構成するときに歪む。
一方、畳み込みフィルタは局所的に情報を処理し、写真のグローバルな空間配置をモデル化する能力に制限がある。
本稿では,グラフニューラルネットワークに基づく2段階フレームワークを提案し,これら2つの課題を共同で解決する。
まず,入力画像をグラフとしてモデル化し,元のアスペクト比と解像度を維持した特徴グラフ表現を提案する。
次に,この特徴グラフを用いて,視覚的注意を用いて入力画像の異なる領域間の意味的関係をキャプチャするグラフニューラルネットワークアーキテクチャを提案する。
実験の結果,提案手法は,AVA(Aesthetic Visual Analysis)ベンチマークにおいて,美的スコアのレグレッションを向上することが示された。 Aspect ratio and spatial layout are two of the principal factors determining the aesthetic value of a photograph. But, incorporating these into the traditional convolution-based frameworks for the task of image aesthetics assessment is problematic. The aspect ratio of the photographs gets distorted while they are resized/cropped to a fixed dimension to facilitate training batch sampling. On the other hand, the convolutional filters process information locally and are limited in their ability to model the global spatial layout of a photograph. In this work, we present a two-stage framework based on graph neural networks and address both these problems jointly. First, we propose a feature-graph representation in which the input image is modelled as a graph, maintaining its original aspect ratio and resolution. Second, we propose a graph neural network architecture that takes this feature-graph and captures the semantic relationship between the different regions of the input image using visual attention. Our experiments show that the proposed framework advances the state-of-the-art results in aesthetic score regression on the Aesthetic Visual Analysis (AVA) benchmark. | 翻訳日:2022-07-03 01:47:13 公開日:2022-06-28 |
# (参考訳) SAR-to-Optical画像変換タスクにおけるPix2pix手法の最適化 A Strategy Optimized Pix2pix Approach for SAR-to-Optical Image Translation Task ( http://arxiv.org/abs/2206.13042v2 ) ライセンス: CC BY 4.0 | Fujian Cheng, Yashu Kang, Chunlei Chen, Kezhao Jiang | (参考訳) 本報告は,地球環境問題のためのマルチモーダル学習(multiearth 2022)における画像から画像への翻訳タスクの分析とアプローチを要約する。
戦略最適化の観点では、クラウド分類は、教師あり学習のようなアプローチを支援するために、濃密なクラウドカバレッジを持つ光学画像のフィルタリングに利用される。
いくつかの最適化を備えたpix2pixフレームワークは、モデルの構築に適用される。
損失関数には平均二乗誤差と平均絶対誤差の重み付けの組み合わせが組み込まれている。
予備分析では,ピーク・ツー・シグナル比と構造的類似性について検討した。
最後に,最終誤差スコア0.0412で2位となった。
その結果,リモートセンシングタスクにおけるSAR-to-optical Translationへの大きな可能性,特に長期環境モニタリングと保護の支援が示唆された。 This technical report summarizes the analysis and approach on the image-to-image translation task in the Multimodal Learning for Earth and Environment Challenge (MultiEarth 2022). In terms of strategy optimization, cloud classification is utilized to filter optical images with dense cloud coverage to aid the supervised learning alike approach. The commonly used pix2pix framework with a few optimizations is applied to build the model. A weighted combination of mean squared error and mean absolute error is incorporated in the loss function. As for evaluation, peak to signal ratio and structural similarity were both considered in our preliminary analysis. Lastly, our method achieved the second place with a final error score of 0.0412. The results indicate great potential towards SAR-to-optical translation in remote sensing tasks, specifically for the support of long-term environmental monitoring and protection. | 翻訳日:2022-07-03 00:47:12 公開日:2022-06-28 |
# (参考訳) 二元系および三元系ニューラルネットワークの表現力 Expressive power of binary and ternary neural networks ( http://arxiv.org/abs/2206.13280v2 ) ライセンス: CC BY 4.0 | Aleksandr Beknazaryan | (参考訳) 3次重みの深いReLUネットワークと2次重みの深いReLUネットワークは、[0,1]^d$で$\beta$-H\"older関数を近似できることを示す。
また、$[0,1]^d$ 上の連続函数は、二進活性化関数 $\mathds{1}_{[0,1)}$ の深さ 2$ のネットワークで近似することができる。 We show that deep sparse ReLU networks with ternary weights and deep ReLU networks with binary weights can approximate $\beta$-H\"older functions on $[0,1]^d$. Also, continuous functions on $[0,1]^d$ can be approximated by networks of depth $2$ with binary activation function $\mathds{1}_{[0,1)}$. | 翻訳日:2022-07-03 00:26:09 公開日:2022-06-28 |
# (参考訳) Benchopt: 再現可能、効率的、協調的な最適化ベンチマーク Benchopt: Reproducible, efficient and collaborative optimization benchmarks ( http://arxiv.org/abs/2206.13424v2 ) ライセンス: CC BY 4.0 | Thomas Moreau, Mathurin Massias, Alexandre Gramfort, Pierre Ablin, Pierre-Antoine Bannier, Benjamin Charlier, Mathieu Dagr\'eou, Tom Dupr\'e la Tour, Ghislain Durif, Cassio F. Dantas, Quentin Klopfenstein, Johan Larsson, En Lai, Tanguy Lefort, Benoit Mal\'ezieux, Badr Moufad, Binh T. Nguyen, Alain Rakotomamonjy, Zaccharie Ramzi, Joseph Salmon, Samuel Vaiter | (参考訳) 数値検証は、新しい手法の実際の影響を評価し、理論と実践の一致を確認することを可能にするため、機械学習研究の中核である。
しかし、この分野の急速な発展にはいくつかの課題がある。研究者は、ベストプラクティスに関する透明性とコンセンサスを限定する手法と、退屈な再実装作業に直面する。
その結果、検証は非常に部分的であることが多く、研究の進行を遅らせる間違った結論につながる可能性がある。
プログラミング言語とハードウェアアーキテクチャをまたいだ機械学習における最適化ベンチマークを自動化し、再現し、公開するための協調フレームワークであるbenchoptを提案する。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
幅広いユーザビリティを示すために、イメージ分類のための$\ell_2$-regularized logistic regression、Lasso、ResNet18トレーニングの3つの標準学習タスクのベンチマークを示す。
これらのベンチマークは、これらの問題の最先端をより微妙に見るための重要な実践的な発見を浮き彫りにし、実際的な評価のために、悪魔が細部にあることを示す。
研究成果の再現性を向上させるため、コミュニティにおける共同作業の促進を期待する。 Numerical validation is at the core of machine learning research as it allows to assess the actual impact of new methods, and to confirm the agreement between theory and practice. Yet, the rapid development of the field poses several challenges: researchers are confronted with a profusion of methods to compare, limited transparency and consensus on best practices, as well as tedious re-implementation work. As a result, validation is often very partial, which can lead to wrong conclusions that slow down the progress of research. We propose Benchopt, a collaborative framework to automate, reproduce and publish optimization benchmarks in machine learning across programming languages and hardware architectures. Benchopt simplifies benchmarking for the community by providing an off-the-shelf tool for running, sharing and extending experiments. To demonstrate its broad usability, we showcase benchmarks on three standard learning tasks: $\ell_2$-regularized logistic regression, Lasso, and ResNet18 training for image classification. These benchmarks highlight key practical findings that give a more nuanced view of the state-of-the-art for these problems, showing that for practical evaluation, the devil is in the details. We hope that Benchopt will foster collaborative work in the community hence improving the reproducibility of research findings. | 翻訳日:2022-07-02 23:48:29 公開日:2022-06-28 |
# (参考訳) EMVLight:緊急車両分散型ルーティング・交通信号制御システムのためのマルチエージェント強化学習フレームワーク EMVLight: a Multi-agent Reinforcement Learning Framework for an Emergency Vehicle Decentralized Routing and Traffic Signal Control System ( http://arxiv.org/abs/2206.13441v2 ) ライセンス: CC BY 4.0 | Haoran Su, Yaofeng D. Zhong, Joseph Y.J. Chow, Biswadip Dey, Li Jin | (参考訳) 救急車(EMV)は、都市部における救急医療や火災発生などの時間的危機対応に重要な役割を果たしている。
既存のemvディスパッチ手法では,過去のトラヒックフローデータに基づいて経路を最適化し,それに従ってトラヒック信号のプリエンプションを設計するが,emvルーティングとトラヒック信号制御の結合に対処する体系的な手法に欠ける。
本稿では,共同動的EMVルーティングと交通信号プリエンプションのための分散強化学習(RL)フレームワークであるEMVLightを提案する。
ポリシー共有と空間割引係数を備えたマルチエージェント・アドバンテージ・アクター・クリティカルな手法を採用する。
本フレームワークは,マルチクラスRLエージェントの革新的な設計と新しい圧力に基づく報酬関数により,EMVナビゲーションと交通信号制御の結合に対処する。
提案手法により,emvの移動時間を短縮するだけでなく,非emvの移動時間を短縮するネットワークレベルの協調交通信号フェース戦略を学習できる。
シミュレーションに基づく実験により、emvlightは、既存のアプローチと比較して平均走行時間を23.5セント短縮するだけでなく、emvの走行時間を最大42.6セント削減できることが示された。 Emergency vehicles (EMVs) play a crucial role in responding to time-critical calls such as medical emergencies and fire outbreaks in urban areas. Existing methods for EMV dispatch typically optimize routes based on historical traffic-flow data and design traffic signal pre-emption accordingly; however, we still lack a systematic methodology to address the coupling between EMV routing and traffic signal control. In this paper, we propose EMVLight, a decentralized reinforcement learning (RL) framework for joint dynamic EMV routing and traffic signal pre-emption. We adopt the multi-agent advantage actor-critic method with policy sharing and spatial discounted factor. This framework addresses the coupling between EMV navigation and traffic signal control via an innovative design of multi-class RL agents and a novel pressure-based reward function. The proposed methodology enables EMVLight to learn network-level cooperative traffic signal phasing strategies that not only reduce EMV travel time but also shortens the travel time of non-EMVs. Simulation-based experiments indicate that EMVLight enables up to a $42.6\%$ reduction in EMV travel time as well as an $23.5\%$ shorter average travel time compared with existing approaches. | 翻訳日:2022-07-02 23:45:43 公開日:2022-06-28 |
# (参考訳) データ平均化による一般化の研究 Studying Generalization Through Data Averaging ( http://arxiv.org/abs/2206.13669v1 ) ライセンス: CC BY 4.0 | Carlos A. Gomez-Uribe | (参考訳) 機械学習モデルの一般化は、データ、モデル、学習アルゴリズムに複雑な依存を持つ。
学習とテストのパフォーマンス、および異なるデータセットのサンプルに対する差の平均による一般化ギャップを調べ、それらの‘定型的’な振る舞いを理解する。
モデルパラメータ分布と列車損失の共分散関数としてのギャップの表現と、テスト一般化がデータ平均パラメータ分布とデータ平均損失のみに依存することを示す平均試験性能の表現とを導出する。
モデルパラメータ分布の大きなクラスに対して、修正された一般化ギャップは常に非負であることを示す。
確率的勾配降下(sgd)によって生成されるパラメータ分布にさらに特化することにより,sgdノイズの関数として一般化ギャップとモデルトレインおよびテスト性能がどのように変化するかに関するいくつかの側面を予測できる。
ResNetアーキテクチャに基づくCifar10分類タスクにおいて,これらの予測を実証的に評価する。 The generalization of machine learning models has a complex dependence on the data, model and learning algorithm. We study train and test performance, as well as the generalization gap given by the mean of their difference over different data set samples to understand their ``typical" behavior. We derive an expression for the gap as a function of the covariance between the model parameter distribution and the train loss, and another expression for the average test performance, showing test generalization only depends on data-averaged parameter distribution and the data-averaged loss. We show that for a large class of model parameter distributions a modified generalization gap is always non-negative. By specializing further to parameter distributions produced by stochastic gradient descent (SGD), along with a few approximations and modeling considerations, we are able to predict some aspects about how the generalization gap and model train and test performance vary as a function of SGD noise. We evaluate these predictions empirically on the Cifar10 classification task based on a ResNet architecture. | 翻訳日:2022-07-02 17:20:56 公開日:2022-06-28 |
# (参考訳) Few-Shot Open-Set Keyword Spottingのためのダミープロトタイプネットワーク Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting ( http://arxiv.org/abs/2206.13691v1 ) ライセンス: CC BY 4.0 | Byeonggeun Kim, Seunghan Yang, Inseop Chung, Simyung Chang | (参考訳) キーワードスポッティングは、ストリーミングオーディオのキーワードを検出するタスクである。
従来のキーワードスポッティングは定義済みのキーワード分類をターゲットとしているが、Mショットのサポートサンプルが与えられた場合のNウェイ分類など、少数ショット(クエリ・バイ・サンプル)キーワードスポッティングでは注目が集まっている。
さらに、実世界のシナリオでは、Nクラスの1つに分類されるのではなく、拒絶される必要がある予期せぬカテゴリ(オープンセット)からの発声がある。
2つのニーズを組み合わせることで、splitGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
本稿では,オープンセットをよりよく検出するために,メトリック学習に基づくエピソード既知のダミープロトタイプを提案し,ダミープロトタイプネットワーク(d-protonets)を提案する。
我々のD-ProtoNetsは、最近提案されたsplitGSCにおけるFSOSRアプローチと比較して明らかなマージンを示している。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。 Keyword spotting is the task of detecting a keyword in streaming audio. Conventional keyword spotting targets predefined keywords classification, but there is growing attention in few-shot (query-by-example) keyword spotting, e.g., N-way classification given M-shot support samples. Moreover, in real-world scenarios, there can be utterances from unexpected categories (open-set) which need to be rejected rather than classified as one of the N classes. Combining the two needs, we tackle few-shot open-set keyword spotting with a new benchmark setting, named splitGSC. We propose episode-known dummy prototypes based on metric learning to detect an open-set better and introduce a simple and powerful approach, Dummy Prototypical Networks (D-ProtoNets). Our D-ProtoNets shows clear margins compared to recent few-shot open-set recognition (FSOSR) approaches in the suggested splitGSC. We also verify our method on a standard benchmark, miniImageNet, and D-ProtoNets shows the state-of-the-art open-set detection rate in FSOSR. | 翻訳日:2022-07-02 17:19:55 公開日:2022-06-28 |
# (参考訳) 話者検証のためのドメイン非依存的なファウショット学習 Domain Agnostic Few-shot Learning for Speaker Verification ( http://arxiv.org/abs/2206.13700v1 ) ライセンス: CC BY 4.0 | Seunghan Yang, Debasmit Das, Janghoon Cho, Hyoungwoo Park, Sungrack Yun | (参考訳) 検証システムのディープラーニングモデルは、高い差別的特徴を学習しても、新しいユーザや新しい環境に一般化できないことが多い。
この問題に対処するために,新しいユーザや新しいドメインの分散シフトに取り組むための,数ショットのドメイン一般化フレームワークを提案する。
私たちのフレームワークはドメイン固有のネットワークとドメイン集約ネットワークで構成されており、それぞれ特定のドメインと結合ドメインの専門家です。
これらのネットワークを用いて,学習段階における新規ユーザと新規ドメインの両方の存在を模倣したエピソードを生成し,最終的によりよい一般化を実現する。
メモリを節約するため、同様のドメインをクラスタ化することで、ドメイン固有のネットワークの数を減らす。
人工雑音領域を広範囲に評価することにより,フレームワークの一般化能力を明確に示すことができる。
さらに,提案手法を標準ベンチマーク上の既存の競合アーキテクチャに適用し,さらなる性能向上を示す。 Deep learning models for verification systems often fail to generalize to new users and new environments, even though they learn highly discriminative features. To address this problem, we propose a few-shot domain generalization framework that learns to tackle distribution shift for new users and new domains. Our framework consists of domain-specific and domain-aggregation networks, which are the experts on specific and combined domains, respectively. By using these networks, we generate episodes that mimic the presence of both novel users and novel domains in the training phase to eventually produce better generalization. To save memory, we reduce the number of domain-specific networks by clustering similar domains together. Upon extensive evaluation on artificially generated noise domains, we can explicitly show generalization ability of our framework. In addition, we apply our proposed methods to the existing competitive architecture on the standard benchmark, which shows further performance improvements. | 翻訳日:2022-07-02 17:05:27 公開日:2022-06-28 |
# (参考訳) マルチタスク学習による個人化キーワードスポッティング Personalized Keyword Spotting through Multi-task Learning ( http://arxiv.org/abs/2206.13708v1 ) ライセンス: CC BY 4.0 | Seunghan Yang, Byeonggeun Kim, Inseop Chung, Simyung Chang | (参考訳) キーワードスポッティング(KWS)は,スマートデバイス上での音声ベースのユーザインタラクションを実現する上で重要な役割を担っている。
しかし、実際には、ほとんどのユーザーインタラクションは、パーソナライズされたキーワードスポッティングを構築する動機となるデバイスに登録されたターゲットユーザーから来ている。
我々は,(1)ターゲットユーザバイアスドKWS(TB-KWS)と(2)ターゲットユーザのみKWS(TO-KWS)の2つの個別KWSタスクを設計する。
本研究では,マルチタスク学習とタスク適応からなるマルチタスク学習(pk-mtl)によるパーソナライズされたキーワードスポッティングを提案する。
まず,キーワードスポッティングと話者検証にマルチタスク学習を適用し,キーワードスポッティングシステムにユーザ情報を活用する。
次にタスク固有のスコアリング機能を設計し、パーソナライズされたkwsタスクに完全に適応する。
従来のシナリオとパーソナライズされたシナリオの枠組みを評価し,PK-MTLは,特に様々なシナリオにおいて,誤警報率を大幅に低減できることを示す。 Keyword spotting (KWS) plays an essential role in enabling speech-based user interaction on smart devices, and conventional KWS (C-KWS) approaches have concentrated on detecting user-agnostic pre-defined keywords. However, in practice, most user interactions come from target users enrolled in the device which motivates to construct personalized keyword spotting. We design two personalized KWS tasks; (1) Target user Biased KWS (TB-KWS) and (2) Target user Only KWS (TO-KWS). To solve the tasks, we propose personalized keyword spotting through multi-task learning (PK-MTL) that consists of multi-task learning and task-adaptation. First, we introduce applying multi-task learning on keyword spotting and speaker verification to leverage user information to the keyword spotting system. Next, we design task-specific scoring functions to adapt to the personalized KWS tasks thoroughly. We evaluate our framework on conventional and personalized scenarios, and the results show that PK-MTL can dramatically reduce the false alarm rate, especially in various practical scenarios. | 翻訳日:2022-07-02 16:53:53 公開日:2022-06-28 |
# (参考訳) 理論的に支援されたサンプル再利用を用いた一般政策改善アルゴリズム Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse ( http://arxiv.org/abs/2206.13714v1 ) ライセンス: CC BY 4.0 | James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras | (参考訳) 実世界のシーケンシャルな意思決定には、トレーニングを通じてパフォーマンスを実践的に保証すると同時に、データの効率的な利用を可能にするデータ駆動アルゴリズムが必要である。
モデルなしの深層強化学習は、そのようなデータ駆動型意思決定のためのフレームワークであるが、既存のアルゴリズムは、通常、これらの目標の1つにのみ焦点を合わせ、他方のパフォーマンスを犠牲にする。
オンポリシーアルゴリズムはトレーニングを通してポリシーの改善を保証するが、高いサンプル複雑さに苦しむ一方、オフポリシーアルゴリズムはサンプル再利用を通じてデータの効率的な利用を行うが、理論的保証は欠如している。
これらの競合する目標のバランスをとるために、オン政治手法の政策改善保証と理論的に支持されたサンプル再利用の効率を組み合わせた一般化政策改善アルゴリズムのクラスを開発する。
本稿では,DeepMind Control Suiteの各種連続制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。 Real-world sequential decision making requires data-driven algorithms that provide practical guarantees on performance throughout training while also making efficient use of data. Model-free deep reinforcement learning represents a framework for such data-driven decision making, but existing algorithms typically only focus on one of these goals while sacrificing performance with respect to the other. On-policy algorithms guarantee policy improvement throughout training but suffer from high sample complexity, while off-policy algorithms make efficient use of data through sample reuse but lack theoretical guarantees. In order to balance these competing goals, we develop a class of Generalized Policy Improvement algorithms that combines the policy improvement guarantees of on-policy methods with the efficiency of theoretically supported sample reuse. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a variety of continuous control tasks from the DeepMind Control Suite. | 翻訳日:2022-07-02 16:40:02 公開日:2022-06-28 |
# (参考訳) NERDA-Con: 連続学習のためのNERモデルの拡張 -- 個別タスクの統合と分散シフトの更新 NERDA-Con: Extending NER models for Continual Learning -- Integrating Distinct Tasks and Updating Distribution Shifts ( http://arxiv.org/abs/2206.14607v1 ) ライセンス: CC BY 4.0 | Supriti Vijay and Aman Priyanshu | (参考訳) バイオメディカル情報抽出パイプラインやソーシャルメディア分析などの分野の応用が進むにつれ、名前付きエンティティ認識(NER)は知識抽出にとって欠かせないツールとなっている。
しかし、言語構造や語彙の段階的な変化により、nerは分散シフトに苦しめられ、再トレーニングなしでは冗長か利益を得られない。
LLM(Large Language Models)に基づくNERの再訓練は、新たに取得したデータに対してゼロから行われる。
対照的に、新たに取得したデータのみによる再トレーニングは、以前に取得した知識の破滅的な獲得につながる。
そこで我々は,NER微調整NERDAパイプラインにElastic Weight Consolidation(EWC)の概念を組み込むことで,NERをLLMベースでトレーニングするためのパイプラインであるNERDA-Conを提案する。
私たちの作業が継続的学習とNERのパイプラインで利用されると信じているので、コードをオープンソース化するとともに、https://github.com/SupritiVijay/NERDA-Conとhttps://pypi.org/project/NERDA-Con/で、NERDA-Conという同じ名前の微調整ライブラリを提供しています。 With increasing applications in areas such as biomedical information extraction pipelines and social media analytics, Named Entity Recognition (NER) has become an indispensable tool for knowledge extraction. However, with the gradual shift in language structure and vocabulary, NERs are plagued with distribution shifts, making them redundant or not as profitable without re-training. Re-training NERs based on Large Language Models (LLMs) from scratch over newly acquired data poses economic disadvantages. In contrast, re-training only with newly acquired data will result in Catastrophic Forgetting of previously acquired knowledge. Therefore, we propose NERDA-Con, a pipeline for training NERs with LLM bases by incorporating the concept of Elastic Weight Consolidation (EWC) into the NER fine-tuning NERDA pipeline. As we believe our work has implications to be utilized in the pipeline of continual learning and NER, we open-source our code as well as provide the fine-tuning library of the same name NERDA-Con at https://github.com/SupritiVijay/NERDA-Con and https://pypi.org/project/NERDA-Con/. | 翻訳日:2022-07-02 16:39:01 公開日:2022-06-28 |
# (参考訳) メタラッパー: CTR予測におけるユーザ興味選択のための微分可能なラッピング演算子 Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction ( http://arxiv.org/abs/2206.14647v1 ) ライセンス: CC0 1.0 | Tianwei Cao, Qianqian Xu, Zhiyong Yang, and Qingming Huang | (参考訳) クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、推薦システムではますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
本研究では, ctr予測器の性能向上を目的として, ユーザの過去の行動に対する関心項目の選択に注意機構を用いる。
通常、これらの注意モジュールは勾配降下を用いてベース予測器と共同で訓練することができる。
本稿では,ユーザの興味のモデリングを特徴選択問題として捉え,ユーザの関心の選択と呼ぶ。
このような問題に対して,ラッパー法(meta-wrapper)の枠組みに基づく新しいアプローチを提案する。
より具体的には、ラッピング演算子として微分可能なモジュールを使用し、学習問題を連続的な2レベル最適化として再キャストします。
さらに,メタ学習アルゴリズムを用いて最適化を解き,その収束を理論的に証明する。
一方,提案手法の理論的解析も提案する。
1)ラッパーに基づく特徴選択の効率性,及び
2) オーバーフィッティングに対する抵抗性が向上する。
最後に,3つの公開データセットに対する広範な実験により,CTR予測の性能向上に本手法の優位性が示された。 Click-through rate (CTR) prediction, whose goal is to predict the probability of the user to click on an item, has become increasingly significant in the recommender systems. Recently, some deep learning models with the ability to automatically extract the user interest from his/her behaviors have achieved great success. In these work, the attention mechanism is used to select the user interested items in historical behaviors, improving the performance of the CTR predictor. Normally, these attentive modules can be jointly trained with the base predictor by using gradient descents. In this paper, we regard user interest modeling as a feature selection problem, which we call user interest selection. For such a problem, we propose a novel approach under the framework of the wrapper method, which is named Meta-Wrapper. More specifically, we use a differentiable module as our wrapping operator and then recast its learning problem as a continuous bilevel optimization. Moreover, we use a meta-learning algorithm to solve the optimization and theoretically prove its convergence. Meanwhile, we also provide theoretical analysis to show that our proposed method 1) efficiencies the wrapper-based feature selection, and 2) achieves better resistance to overfitting. Finally, extensive experiments on three public datasets manifest the superiority of our method in boosting the performance of CTR prediction. | 翻訳日:2022-07-02 16:29:16 公開日:2022-06-28 |
# (参考訳) H-GCN:Versal ACAPアーキテクチャ上のグラフ畳み込みネットワーク加速器 H-GCN: A Graph Convolutional Network Accelerator on Versal ACAP Architecture ( http://arxiv.org/abs/2206.13734v1 ) ライセンス: CC BY 4.0 | Chengming Zhang, Tong Geng, Anqi Guo, Jiannan Tian, Martin Herbordt, Ang Li, Dingwen Tao | (参考訳) グラフニューラルネットワーク(GNN)は、機械学習(ML)アプローチを、非構造化データ、特にグラフを持つと広く定義されているアプリケーションに拡張するユニークな機能のために、大きな注目を集めている。
他の機械学習(ML)モダリティと比較して、グラフ型から派生した不規則性と不均一性のため、グラフニューラルネットワーク(GNN)の加速はより困難である。
しかし、既存の努力は主にグラフの不規則性を扱うことに集中しており、それらの不均一性について研究していない。
この目的のために,Xilinx Versal Adaptive Compute Acceleration Platforms (ACAPs) の新たな異質性を活用し,高性能なGNN推論を実現するためのPL(Programmable Logic)とAI Engine(AI Engine)ベースのハイブリッドアクセラレータであるH-GCNを提案する。
特に、h-gcnはそれぞれのグラフを3つのサブグラフに分割し、それぞれplとaieを用いて処理する。
さらに性能向上のために,AIE の疎性サポートについて検討し,スパース行列行列行列乗法 (SpMM) のタイルをサイストリックテンソルアレイに自動的にマッピングする効率的な密度認識法を開発した。
最先端のGCNアクセラレータと比較して、H-GCNは平均して1.1~2.3Xのスピードアップを達成する。 Graph Neural Networks (GNNs) have drawn tremendous attention due to their unique capability to extend Machine Learning (ML) approaches to applications broadly-defined as having unstructured data, especially graphs. Compared with other Machine Learning (ML) modalities, the acceleration of Graph Neural Networks (GNNs) is more challenging due to the irregularity and heterogeneity derived from graph typologies. Existing efforts, however, have focused mainly on handling graphs' irregularity and have not studied their heterogeneity. To this end we propose H-GCN, a PL (Programmable Logic) and AIE (AI Engine) based hybrid accelerator that leverages the emerging heterogeneity of Xilinx Versal Adaptive Compute Acceleration Platforms (ACAPs) to achieve high-performance GNN inference. In particular, H-GCN partitions each graph into three subgraphs based on its inherent heterogeneity, and processes them using PL and AIE, respectively. To further improve performance, we explore the sparsity support of AIE and develop an efficient density-aware method to automatically map tiles of sparse matrix-matrix multiplication (SpMM) onto the systolic tensor array. Compared with state-of-the-art GCN accelerators, H-GCN achieves, on average, speedups of 1.1~2.3X. | 翻訳日:2022-07-02 15:50:56 公開日:2022-06-28 |
# (参考訳) 医用画像セグメンテーションにおける単一領域一般化のための逆整合性 Adversarial Consistency for Single Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2206.13737v1 ) ライセンス: CC BY 4.0 | Yanwu Xu, Shaoan Xie, Maxwell Reynolds1, Matthew Ragoza1, Mingming Gong, and Kayhan Batmanghelich | (参考訳) 未認識のコントラストやスキャナの設定に一般化できるオルガンセグメンテーションは、ディープラーニングモデルの再トレーニングの必要性を大幅に減らすことができる。
ドメイン一般化(DG)はこの目標を達成することを目指している。
しかし、ほとんどのDGメソッドは、トレーニング中に複数のドメインからのトレーニングデータを必要とする。
そこで本稿では,emph{single} ドメインのデータに基づいて訓練された臓器分節に対する新しい対向領域一般化手法を提案する。
新しいドメインをads(adversarial domain synthesizer)を学習することで合成し、合成ドメインが十分な面積の可算分布をカバーできると仮定し、未発見のドメインを合成ドメインから補間できると仮定する。
パッチレベルのコントラスト学習によって推定できる合成領域の画像間のセマンティック一貫性を強制する相互情報正規化器を提案する。
本手法は,未認識のモダリティ,走査プロトコル,スキャナサイトに対する各種臓器セグメンテーションの評価を行う。 An organ segmentation method that can generalize to unseen contrasts and scanner settings can significantly reduce the need for retraining of deep learning models. Domain Generalization (DG) aims to achieve this goal. However, most DG methods for segmentation require training data from multiple domains during training. We propose a novel adversarial domain generalization method for organ segmentation trained on data from a \emph{single} domain. We synthesize the new domains via learning an adversarial domain synthesizer (ADS) and presume that the synthetic domains cover a large enough area of plausible distributions so that unseen domains can be interpolated from synthetic domains. We propose a mutual information regularizer to enforce the semantic consistency between images from the synthetic domains, which can be estimated by patch-level contrastive learning. We evaluate our method for various organ segmentation for unseen modalities, scanning protocols, and scanner sites. | 翻訳日:2022-07-02 15:18:53 公開日:2022-06-28 |
# (参考訳) 光コヒーレンストモグラフィーにおけるGANによる網膜層の超解像とセグメンテーション GAN-based Super-Resolution and Segmentation of Retinal Layers in Optical coherence tomography Scans ( http://arxiv.org/abs/2206.13740v1 ) ライセンス: CC BY 4.0 | Paria Jeihouni, Omid Dehzangi, Annahita Amireskandari, Ali Rezai, Nasser M. Nasrabadi | (参考訳) 本稿では,網膜層の光コヒーレンストモグラフィー(OCT)スキャンの超高分解能化とセグメンテーションのためのGAN(Generative Adversarial Network)ベースのソリューションを設計する。
OCTは、アルツハイマー病(AD)などの神経変性疾患の診断と進行判定のための潜在的なバイオマーカーを発見するために、非侵襲的で安価な画像モダリティとして同定されている。
現在の仮説では、OCTスキャンで分析可能な網膜層の厚さが有効なバイオマーカーとなる。
論理的な第一歩として、この研究は網膜層セグメンテーションの挑戦的な課題に集中し、高明度と精度のために超高解像度化を行う。
本稿では,ganベースのセグメンテーションモデルを提案し,u-net と resnet という一般的なネットワークを gan アーキテクチャに組み込むことにより,低解像度から高解像度の oct イメージを4倍に拡大するタスクについて評価する。
また, この統合最適化タスクの性能を向上させるため, diceロスを追加の再構成損失項として取り入れた。
我々の最良のモデル構成は経験的に0.867のサイス係数と0.765のmiouを達成した。 In this paper, we design a Generative Adversarial Network (GAN)-based solution for super-resolution and segmentation of optical coherence tomography (OCT) scans of the retinal layers. OCT has been identified as a non-invasive and inexpensive modality of imaging to discover potential biomarkers for the diagnosis and progress determination of neurodegenerative diseases, such as Alzheimer's Disease (AD). Current hypotheses presume the thickness of the retinal layers, which are analyzable within OCT scans, can be effective biomarkers. As a logical first step, this work concentrates on the challenging task of retinal layer segmentation and also super-resolution for higher clarity and accuracy. We propose a GAN-based segmentation model and evaluate incorporating popular networks, namely, U-Net and ResNet, in the GAN architecture with additional blocks of transposed convolution and sub-pixel convolution for the task of upscaling OCT images from low to high resolution by a factor of four. We also incorporate the Dice loss as an additional reconstruction loss term to improve the performance of this joint optimization task. Our best model configuration empirically achieved the Dice coefficient of 0.867 and mIOU of 0.765. | 翻訳日:2022-07-02 15:08:23 公開日:2022-06-28 |
# (参考訳) DistSPECTRL:マルチエージェント強化学習システムにおける仕様の配布 DistSPECTRL: Distributing Specifications in Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2206.13754v1 ) ライセンス: CC BY 4.0 | Joe Eappen and Suresh Jagannathan | (参考訳) 一般的なサイバー物理システムの目標の特定や学習において注目すべき進歩はあったが、分散マルチエージェントシステムへのこれらの手法の適用は依然として大きな課題となっている。
その中でも必要なのは
(a)局所目的とグローバル目的の両方の表現と相互運用を可能にするクラフト仕様プリミティブ。
b) 効果的な学習を可能にする状態と行動空間におけるテーム爆発
(c) 調整頻度を最小化し、グローバルな目的のために参加する参加者の集合。
これらの課題に対処するため、我々は、マルチエージェントシステムのトレーニングをガイドするために、ローカルおよびグローバルな目的の自然な構成を可能にする新しい仕様フレームワークを提案する。
本手法は,グローバル化のための分散通信プロトコルを用いながら,エージェントが局所目的に対して協調フリーで操作できるような表現力のあるポリシーを学習することを可能にする。
実験結果は,高度なマルチエージェント分散計画問題を仕様学習を用いて効果的に実現できるという主張を裏付ける。 While notable progress has been made in specifying and learning objectives for general cyber-physical systems, applying these methods to distributed multi-agent systems still pose significant challenges. Among these are the need to (a) craft specification primitives that allow expression and interplay of both local and global objectives, (b) tame explosion in the state and action spaces to enable effective learning, and (c) minimize coordination frequency and the set of engaged participants for global objectives. To address these challenges, we propose a novel specification framework that allows natural composition of local and global objectives used to guide training of a multi-agent system. Our technique enables learning expressive policies that allow agents to operate in a coordination-free manner for local objectives, while using a decentralized communication protocol for enforcing global ones. Experimental results support our claim that sophisticated multi-agent distributed planning problems can be effectively realized using specification-guided learning. | 翻訳日:2022-07-02 14:58:22 公開日:2022-06-28 |
# (参考訳) 畳み込みニューラルネットワークとSTFTを用いた深部伝達学習による心電図心拍分類 ECG Heartbeat classification using deep transfer learning with Convolutional Neural Network and STFT technique ( http://arxiv.org/abs/2206.14200v1 ) ライセンス: CC BY 4.0 | Minh Cao, Tianqi Zhao, Yanxun Li, Wenhao Zhang, Peyman Benharash, Ramin Ramezani | (参考訳) 心電図(Electrocardiogram、ECG)は、不整脈と呼ばれる不整脈などの心臓関連疾患を特定するための単純な非侵襲的尺度である。
人工知能と機械学習は、幅広い医療関連アプリケーションやデータセットで利用されているが、ディープラーニング手法を用いた多くの不整脈分類器が近年提案されている。
しかし、機械学習モデルの構築と評価のための利用可能なデータセットのサイズは非常に小さく、十分に注釈付けされたパブリックECGデータセットがないことは明らかである。
本稿では,小規模の学習データセットで分類を行うための深層伝達学習フレームワークを提案する。
提案手法は、AAMI EC57規格に従って、汎用画像分類器ResNet-18をMIT-BIH不整脈データセットで微調整する。
本稿では,aamiレコメンデーションに対するデータ漏洩の回避に失敗した既存のディープラーニングモデルについてさらに検討する。
異なるデータ分割手法がモデルの性能に与える影響を比較する。
この比較研究は、MIT-BIH不整脈データセットを含む任意のデータを使用する場合、不整脈分類における今後の研究はAAMI EC57標準に従うべきであることを示唆している。 Electrocardiogram (ECG) is a simple non-invasive measure to identify heart-related issues such as irregular heartbeats known as arrhythmias. While artificial intelligence and machine learning is being utilized in a wide range of healthcare related applications and datasets, many arrhythmia classifiers using deep learning methods have been proposed in recent years. However, sizes of the available datasets from which to build and assess machine learning models is often very small and the lack of well-annotated public ECG datasets is evident. In this paper, we propose a deep transfer learning framework that is aimed to perform classification on a small size training dataset. The proposed method is to fine-tune a general-purpose image classifier ResNet-18 with MIT-BIH arrhythmia dataset in accordance with the AAMI EC57 standard. This paper further investigates many existing deep learning models that have failed to avoid data leakage against AAMI recommendations. We compare how different data split methods impact the model performance. This comparison study implies that future work in arrhythmia classification should follow the AAMI EC57 standard when using any including MIT-BIH arrhythmia dataset. | 翻訳日:2022-07-02 14:35:26 公開日:2022-06-28 |
# (参考訳) クラウドソーシングによる音声翻訳における雑音の影響について On the Impact of Noises in Crowd-Sourced Data for Speech Translation ( http://arxiv.org/abs/2206.13756v1 ) ライセンス: CC BY-SA 4.0 | Siqi Ouyang, Rong Ye, Lei Li | (参考訳) 訓練用音声翻訳(ST)モデルは大規模かつ高品質なデータセットを必要とする。
MuST-Cは最も広く使われているSTベンチマークデータセットの1つである。
8つの翻訳方向ごとに約400時間の音声書き起こしデータが含まれている。
このデータセットは、作成中にいくつかの品質制御フィルタを通過する。
しかし、MST-Cはオーディオテキストの誤り、不正確な翻訳、不必要な話者名という3つの大きな問題に悩まされている。
データ品質の問題がモデルの開発と評価にどのような影響を及ぼすか?
本稿では,上記の品質問題に対して,英語-ドイツ語(en-de)翻訳を例に用いた自動修正・フィルタリング手法を提案する。
実験の結果,stモデルの方がクリーンなテストセットで性能が良く,提案モデルのランクは異なるテストセットで一貫していることがわかった。
さらに、トレーニングセットから不整合データポイントを削除するだけでは、より良いSTモデルにはならない。 Training speech translation (ST) models requires large and high-quality datasets. MuST-C is one of the most widely used ST benchmark datasets. It contains around 400 hours of speech-transcript-translation data for each of the eight translation directions. This dataset passes several quality-control filters during creation. However, we find that MuST-C still suffers from three major quality issues: audio-text misalignment, inaccurate translation, and unnecessary speaker's name. What are the impacts of these data quality issues for model development and evaluation? In this paper, we propose an automatic method to fix or filter the above quality issues, using English-German (En-De) translation as an example. Our experiments show that ST models perform better on clean test sets, and the rank of proposed models remains consistent across different test sets. Besides, simply removing misaligned data points from the training set does not lead to a better ST model. | 翻訳日:2022-07-02 14:27:53 公開日:2022-06-28 |
# (参考訳) 対物フェアネス探索のためのフレキシブルテキスト生成 Flexible text generation for counterfactual fairness probing ( http://arxiv.org/abs/2206.13757v1 ) ライセンス: CC BY 4.0 | Zee Fryer, Vera Axelrod, Ben Packer, Alex Beutel, Jilin Chen, Kellie Webster | (参考訳) テキストベースの分類器における公平性問題をテストするための一般的なアプローチは、偽物の使用である:入力の機密属性が変更された場合、分類器の出力は変更されるか?
既存の偽物生成メソッドは通常、wordlistやテンプレートに依存し、文法やコンテキスト、微妙な繊細な属性参照を考慮しない単純な偽物を生成し、wordlistの作者が考慮していなかった問題を見逃す可能性がある。
本稿では,これらの欠点を克服する反事実を生成するタスクを紹介し,このタスクの進展にいかに大きな言語モデル(llm)を活用できるかを示す。
本手法は, 既存の手法ではできないような複雑な反事実を生成できることを示し, 市民コメントデータセット上での様々な反事実生成手法の性能を比較し, 毒性分類器の評価におけるそれらの価値を示す。 A common approach for testing fairness issues in text-based classifiers is through the use of counterfactuals: does the classifier output change if a sensitive attribute in the input is changed? Existing counterfactual generation methods typically rely on wordlists or templates, producing simple counterfactuals that don't take into account grammar, context, or subtle sensitive attribute references, and could miss issues that the wordlist creators had not considered. In this paper, we introduce a task for generating counterfactuals that overcomes these shortcomings, and demonstrate how large language models (LLMs) can be leveraged to make progress on this task. We show that this LLM-based method can produce complex counterfactuals that existing methods cannot, comparing the performance of various counterfactual generation methods on the Civil Comments dataset and showing their value in evaluating a toxicity classifier. | 翻訳日:2022-07-02 14:18:22 公開日:2022-06-28 |
# (参考訳) カーネル階層型エクストリーム学習マシンを用いたADHD患者の分類 Classification of ADHD Patients Using Kernel Hierarchical Extreme Learning Machine ( http://arxiv.org/abs/2206.13761v1 ) ライセンス: CC BY 4.0 | Sartaj Ahmed Salman, Zhichao Lian, Milad Taleby Ahvanooey, Hiroki Takahashi and Yuduo Zhang | (参考訳) 近年,脳画像データから神経精神疾患を診断するためのディープラーニングモデルの応用がますます注目されている。
しかし、実際には、運転磁気共鳴画像データに基づく脳機能接続の相互作用の探索は精神疾患の研究に不可欠である。
注意欠陥・多動性障害(ADHD)は早期診断が極めて困難である慢性疾患の1つであり,その診断精度を,重症化前に患者を治療する機械学習モデルを用いて向上させる必要がある。
本研究では,脳機能結合のダイナミクスを利用して医療画像データから特徴をモデル化し,正常制御(NC)とADHDの脳機能相互作用の違いを抽出する。
この要件を満たすために,我々は,局所バイナリエンコーディング手法とカーネル階層型エクストリームラーニングマシンを用いて特徴を分類するために,ベイズ接続変化点モデルを用いて脳のダイナミックスを検出する。
本モデルを検証するために,いくつかの実世界の児童データセットを用いて実験を行い,最新モデルと比較して優れた分類率を得た。 Recently, the application of deep learning models to diagnose neuropsychiatric diseases from brain imaging data has received more and more attention. However, in practice, exploring interactions in brain functional connectivity based on operational magnetic resonance imaging data is critical for studying mental illness. Since Attention-Deficit and Hyperactivity Disorder (ADHD) is a type of chronic disease that is very difficult to diagnose in the early stages, it is necessary to improve the diagnosis accuracy of such illness using machine learning models treating patients before the critical condition. In this study, we utilize the dynamics of brain functional connectivity to model features from medical imaging data, which can extract the differences in brain function interactions between Normal Control (NC) and ADHD. To meet that requirement, we employ the Bayesian connectivity change-point model to detect brain dynamics using the local binary encoding approach and kernel hierarchical extreme learning machine for classifying features. To verify our model, we experimented with it on several real-world children's datasets, and our results achieved superior classification rates compared to the state-of-the-art models. | 翻訳日:2022-07-02 13:50:42 公開日:2022-06-28 |
# (参考訳) 可変電位推定による3次元多対象追跡 3D Multi-Object Tracking with Differentiable Pose Estimation ( http://arxiv.org/abs/2206.13785v1 ) ライセンス: CC BY 4.0 | Dominik Schmauser, Zeju Qiu, Norman M\"uller, Matthias Nie{\ss}ner | (参考訳) 室内環境におけるRGB-Dシーケンスからの3次元多対象追跡と再構成のための新しい手法を提案する。
この目的のために,正規化対象空間への密対応写像を予測しながら,各フレーム内の物体を検出し,再構成する。
これらの対応を利用して、グラフニューラルネットワークに、すべてのオブジェクトの最適で時間的に一貫性のある7自由度ポーズの軌跡を知らせる。
提案手法の新規性は2つある: まず、最適ポーズ軌跡を学習するために時間とともに微分可能なポーズ推定のための新しいグラフベースのアプローチを提案する; 次に、頑健で幾何的に整合した多対象追跡のための時間軸に沿って、再構成とポーズ推定の合同的な定式化を提案する。
提案手法を検証するために,多目的追跡のための6kレンダリングされたrgb-d画像を含む,2381のユニークな屋内シーケンスからなる合成データセットと,合成3d-frontデータセットから派生したカメラ位置を提案する。
本手法は,すべてのテストシーケンスの累積motaスコアを,既存手法と比較して24.8%向上させることを実証する。
合成および実世界の配列に関するいくつかの議論において、我々のグラフベースの完全エンドツーエンド学習可能なアプローチは、追跡性能を著しく向上させることを示した。 We propose a novel approach for joint 3D multi-object tracking and reconstruction from RGB-D sequences in indoor environments. To this end, we detect and reconstruct objects in each frame while predicting dense correspondences mappings into a normalized object space. We leverage those correspondences to inform a graph neural network to solve for the optimal, temporally-consistent 7-DoF pose trajectories of all objects. The novelty of our method is two-fold: first, we propose a new graph-based approach for differentiable pose estimation over time to learn optimal pose trajectories; second, we present a joint formulation of reconstruction and pose estimation along the time axis for robust and geometrically consistent multi-object tracking. In order to validate our approach, we introduce a new synthetic dataset comprising 2381 unique indoor sequences with a total of 60k rendered RGB-D images for multi-object tracking with moving objects and camera positions derived from the synthetic 3D-FRONT dataset. We demonstrate that our method improves the accumulated MOTA score for all test sequences by 24.8% over existing state-of-the-art methods. In several ablations on synthetic and real-world sequences, we show that our graph-based, fully end-to-end-learnable approach yields a significant boost in tracking performance. | 翻訳日:2022-07-02 13:34:21 公開日:2022-06-28 |
# (参考訳) fedrare: 効果的なまれな疾患分類のためのクライアント間コントラストとクライアント間コントラストを用いたフェデレーション学習 FedRare: Federated Learning with Intra- and Inter-Client Contrast for Effective Rare Disease Classification ( http://arxiv.org/abs/2206.13803v1 ) ライセンス: CC BY 4.0 | Nannan Wu, Li Yu, Xin Yang, Kwang-Ting Cheng, and Zengqiang Yan | (参考訳) 異なる医療機関やクライアントがデータのプライバシーリークなしに協調的にモデルを訓練できるフェデレーション・ラーニング(fl)は、近年医療画像コミュニティに大きな注目を集めている。
クライアント間データの不均一性は十分に研究されているが、希少な疾患の存在によるクラス不均衡の問題はまだ未発見である。
本稿では,医療画像分類のための新しいFLフレームワークであるFedRareを提案する。
FedRareでは、各クライアントがローカルにモデルをトレーニングし、クライアント内で教師付きコントラスト学習を通じて、分類のための高度に分離可能な潜在特徴を抽出する。
稀な疾患に関する限られたデータを考えると、増大のための正のサンプルキュー(データ再サンプリング)を構築する。
fedrareのサーバはクライアントから潜在機能を収集し、クライアントに送信されるガイダンスとして最も信頼できる潜在機能を自動的に選択する。
次に、各クライアントは、クライアント間のコントラスト損失によって共同でトレーニングされ、潜在機能と全クラスの潜在機能とを一致させる。
このようにして、クライアント間のパラメータ/機能分散が効果的に最小化され、コンバージェンスとパフォーマンスが向上する。
皮膚病変診断の公開データセットにおける実験結果から,fedrareの優れた性能が示された。
4つのクライアントがまれな疾患のサンプルを持っていない10クライアントフェデレーションの環境では、fedrareはベースラインフレームワークfedavgと最先端アプローチfedermと比較して平均9.60%と5.90%のバランスのとれた精度を達成している。
臨床シナリオにおけるまれな疾患のボードの存在を考えると、FedRareは将来の医療画像分類のためのFLフレームワーク設計に役立つだろう。
本論文のソースコードはhttps://github.com/wnn2000/FedRare.comで公開されている。 Federated learning (FL), enabling different medical institutions or clients to train a model collaboratively without data privacy leakage, has drawn great attention in medical imaging communities recently. Though inter-client data heterogeneity has been thoroughly studied, the class imbalance problem due to the existence of rare diseases still is under-explored. In this paper, we propose a novel FL framework FedRare for medical image classification especially on dealing with data heterogeneity with the existence of rare diseases. In FedRare, each client trains a model locally to extract highly-separable latent features for classification via intra-client supervised contrastive learning. Considering the limited data on rare diseases, we build positive sample queues for augmentation (i.e. data re-sampling). The server in FedRare would collect the latent features from clients and automatically select the most reliable latent features as guidance sent back to clients. Then, each client is jointly trained by an inter-client contrastive loss to align its latent features to the federated latent features of full classes. In this way, the parameter/feature variances across clients are effectively minimized, leading to better convergence and performance improvements. Experimental results on the publicly-available dataset for skin lesion diagnosis demonstrate FedRare's superior performance. Under the 10-client federated setting where four clients have no rare disease samples, FedRare achieves an average increase of 9.60% and 5.90% in balanced accuracy compared to the baseline framework FedAvg and the state-of-the-art approach FedIRM respectively. Considering the board existence of rare diseases in clinical scenarios, we believe FedRare would benefit future FL framework design for medical image classification. The source code of this paper is publicly available at https://github.com/wnn2000/FedRare. | 翻訳日:2022-07-02 13:17:26 公開日:2022-06-28 |
# (参考訳) MOS予測システムにおける音声表現の比較 Comparison of Speech Representations for the MOS Prediction System ( http://arxiv.org/abs/2206.13817v1 ) ライセンス: CC BY 4.0 | Aki Kunikoshi, Jaebok Kim, Wonsuk Jun and K\r{a}re Sj\"olander (ReadSpeaker) | (参考訳) 聴取者の平均オピニオンスコア(MOS)を自動予測してテキスト音声システムの品質を保証する手法が研究されている。
以前の多くの研究は、スペクトル特徴とMOSの関係をより効果的に捉え、高い精度を達成するためのアーキテクチャの進歩(MBNet、LDNetなど)に焦点を当てていた。
しかし、一般化能力の観点からの最適表現はいまだに不明である。
この目的のために、wav2vecフレームワークによって得られた自己監視学習(SSL)機能と、スペクトル図やメロトログラム等のスペクトル特徴の比較を行った。
さらに,自動MOSに重要な情報を保持すると信じているSSL機能と機能を組み合わせることで,その欠点を補うことを提案する。
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスについて包括的な実験を行った。
その結果,Wav2vecは必ずしも信頼できないにもかかわらず,最適の一般化を示した。
さらに,これらの組み合わせが最善を尽くし,スペクトルとwav2vec特徴セットのギャップを埋める方法について分析した。 Automatic methods to predict Mean Opinion Score (MOS) of listeners have been researched to assure the quality of Text-to-Speech systems. Many previous studies focus on architectural advances (e.g. MBNet, LDNet, etc.) to capture relations between spectral features and MOS in a more effective way and achieved high accuracy. However, the optimal representation in terms of generalization capability still largely remains unknown. To this end, we compare the performance of Self-Supervised Learning (SSL) features obtained by the wav2vec framework to that of spectral features such as magnitude of spectrogram and melspectrogram. Moreover, we propose to combine the SSL features and features which we believe to retain essential information to the automatic MOS to compensate each other for their drawbacks. We conduct comprehensive experiments on a large-scale listening test corpus collected from past Blizzard and Voice Conversion Challenges. We found that the wav2vec feature set showed the best generalization even though the given ground-truth was not always reliable. Furthermore, we found that the combinations performed the best and analyzed how they bridged the gap between spectral and the wav2vec feature sets. | 翻訳日:2022-07-02 12:58:52 公開日:2022-06-28 |
# (参考訳) 内在性適合性景観の協調的マルチエージェント探索 Cooperative Multi-Agent Search on Endogenously-Changing Fitness Landscapes ( http://arxiv.org/abs/2206.13844v1 ) ライセンス: CC BY 4.0 | Chin Woei Lim, Richard Allmendinger, Joshua Knowles, Ayesha Alhosani, Mercedes Bleda | (参考訳) 我々は、エージェント(代表会社)が協力し、より影響力のある企業が他の企業の景観を形成する権限を与えられるビジネス「ランドスケープ」に適応する方法をモデル化するために、マルチエージェントシステムを使用します。
私たちが研究しているランドスケープは、Kauffmanのよく知られたNKモデルに基づいており、"シェーパー"が追加された。
我々の研究は、認知的および経験的な検索と、他の企業とのコラボレーションを構築する能力によって、これらの能力がより迅速かつ順応的に適応できるかどうかを調査する。
協力的なグループでは、企業は自分自身の考えを持ち続け、より強力なパートナーの直接の模倣に抵抗して、団結して高みを得る必要があることが分かっています。
より大きなグループやより影響力のあるグループの方が、一般的にはうまく機能するので、ターゲットとするインテリジェントな協力は有益です。
これらの結論は仮のものであり,この結果から,景観の頑固さや「可搬性」(造形会社によって変化する景観のキャパシティ)に対する感受性が示された。
我々の研究は、これらの複雑な環境でのビジネス戦略に貢献するコンピュータサイエンス、進化、機械学習の可能性を示している。 We use a multi-agent system to model how agents (representing firms) may collaborate and adapt in a business 'landscape' where some, more influential, firms are given the power to shape the landscape of other firms. The landscapes we study are based on the well-known NK model of Kauffman, with the addition of 'shapers', firms that can change the landscape's features for themselves and all other players. Our work investigates how firms that are additionally endowed with cognitive and experiential search, and the ability to form collaborations with other firms, can use these capabilities to adapt more quickly and adeptly. We find that, in a collaborative group, firms must still have a mind of their own and resist direct mimicry of stronger partners to attain better heights collectively. Larger groups and groups with more influential members generally do better, so targeted intelligent cooperation is beneficial. These conclusions are tentative, and our results show a sensitivity to landscape ruggedness and "malleability" (i.e. the capacity of the landscape to be changed by the shaper firms). Overall, our work demonstrates the potential of computer science, evolution, and machine learning to contribute to business strategy in these complex environments. | 翻訳日:2022-07-02 12:50:59 公開日:2022-06-28 |
# (参考訳) SMTに基づく重み付きモデル統合と構造認識 SMT-based Weighted Model Integration with Structure Awareness ( http://arxiv.org/abs/2206.13856v1 ) ライセンス: CC BY 4.0 | Giuseppe Spallitta, Gabriele Masina, Paolo Morettin, Andrea Passerini and Roberto Sebastiani | (参考訳) 重み付きモデル統合(WMI)は、論理的および代数的制約を含むハイブリッドドメインにおける確率的推論のアプローチを統合することを目的とした一般的な形式主義である。
最近の膨大な作業にもかかわらず、ハイブリッド問題の複雑さを伴ってWMIアルゴリズムをスケール可能にすることは依然として課題である。
本稿では,既存の最先端ソリューションの限界を浮き彫りにして,形式検証における効率的な手法であるsmtに基づく列挙法と,問題構造の効果的なエンコーディングを組み合わせるアルゴリズムを開発した。
これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。
合成と実世界の両方のデータセットに対する広範な実験的評価は、既存の代替よりも提案されたソリューションの利点を裏付けるものである。 Weighted Model Integration (WMI) is a popular formalism aimed at unifying approaches for probabilistic inference in hybrid domains, involving logical and algebraic constraints. Despite a considerable amount of recent work, allowing WMI algorithms to scale with the complexity of the hybrid problem is still a challenge. In this paper we highlight some substantial limitations of existing state-of-the-art solutions, and develop an algorithm that combines SMT-based enumeration, an efficient technique in formal verification, with an effective encoding of the problem structure. This allows our algorithm to avoid generating redundant models, resulting in substantial computational savings. An extensive experimental evaluation on both synthetic and real-world datasets confirms the advantage of the proposed solution over existing alternatives. | 翻訳日:2022-07-02 12:38:37 公開日:2022-06-28 |
# (参考訳) litecon: エネルギー効率の高いディープラーニング(プレプリント)のためのオールフォトニックニューロモルフィックアクセラレータ LiteCON: An All-Photonic Neuromorphic Accelerator for Energy-efficient Deep Learning (Preprint) ( http://arxiv.org/abs/2206.13861v1 ) ライセンス: CC BY 4.0 | Dharanidhar Dang, Bill Lin, Debashis Sahoo | (参考訳) ディープラーニングは、今日のデータ集約時代において非常に普及している。
特に畳み込みニューラルネットワーク(cnns)は、精度を高めるために様々な分野で広く採用されている。
しかし、従来のcpuとgpuで深いcnnを計算することは、いくつかのパフォーマンスとエネルギーの落とし穴をもたらす。
近年,ASIC,FPGA,抵抗メモリデバイスをベースとした新しい手法が提案されている。
その多くは、ディープラーニングの推論(テスト)フェーズのみを対象としています。
トレーニングと推論の両方が可能な、本格的なディープラーニングアクセラレータの設計には、非常に限定的な試みがあります。
これは、トレーニングフェーズの高度に計算され、メモリ集約的な性質のためです。
本稿では,新しいアナログフォトニクスcnn加速器liteconを提案する。
LiteCONは、エネルギー効率と超高速深層学習にシリコンマイクロディスクベースの畳み込み、メムリスタベースのメモリ、高密度波長分割多重化を用いる。
LeNetやVGG-Netといったディープラーニングベンチマークモデル上で,商用CADフレームワーク(IPKISS)を用いてLiteCONを評価した。
最先端と比較して、LiteCONはCNNのスループット、エネルギー効率、計算効率をそれぞれ32x、37x、および5xまで改善し、精度を低下させる。 Deep learning is highly pervasive in today's data-intensive era. In particular, convolutional neural networks (CNNs) are being widely adopted in a variety of fields for superior accuracy. However, computing deep CNNs on traditional CPUs and GPUs brings several performance and energy pitfalls. Several novel approaches based on ASIC, FPGA, and resistive-memory devices have been recently demonstrated with promising results. Most of them target only the inference (testing) phase of deep learning. There have been very limited attempts to design a full-fledged deep learning accelerator capable of both training and inference. It is due to the highly compute and memory-intensive nature of the training phase. In this paper, we propose LiteCON, a novel analog photonics CNN accelerator. LiteCON uses silicon microdisk-based convolution, memristor-based memory, and dense-wavelength-division-multiplexing for energy-efficient and ultrafast deep learning. We evaluate LiteCON using a commercial CAD framework (IPKISS) on deep learning benchmark models including LeNet and VGG-Net. Compared to the state-of-the-art, LiteCON improves the CNN throughput, energy efficiency, and computational efficiency by up to 32x, 37x, and 5x respectively with trivial accuracy degradation. | 翻訳日:2022-07-02 12:15:17 公開日:2022-06-28 |
# (参考訳) mlモデルを説明する?
--XAIの目標と能力について Explaining Any ML Model? -- On Goals and Capabilities of XAI ( http://arxiv.org/abs/2206.13888v1 ) ライセンス: CC BY-SA 4.0 | Moritz Renftle, Holger Trittenbach, Michael Poznic, Reinhard Heil | (参考訳) 機械学習(ML)の普及は、機械学習モデルとその予測(いわゆるeXplainable Artificial Intelligence(XAI))を説明するアルゴリズムの研究を動機付けている。
多くの調査論文や議論にもかかわらず、XAIアルゴリズムの目標と能力はよく理解されていない。
XAIアルゴリズムは「解釈可能性」や「説明可能性」など、望ましい特性を持つMLモデルを補完すると言われている。
これらの特性は、MLシステムの"信頼"のようなゴールに寄与すると仮定される。
しかし、ほとんどの特性は正確な定義がなく、それらの目標との関係は明確ではない。
その結果、研究結果を曖昧にし、xaiアルゴリズムに何が期待できるのかという重要な疑問が残る推論スキームが生まれました。
本稿では,具体的な視点から,XAIアルゴリズムの目標と能力を明らかにする。
MLモデルの説明は、ユーザが疑問を持つ場合にのみ必要である。
ユーザは多様な質問をすることができるが、その中の1つだけが現在のXAIアルゴリズムで答えられる。
この中核的な疑問に答えることは、MLアプリケーションによっては、簡単、困難、あるいは不可能である。
これらの知見に基づき、政策立案者、研究者、社会がXAIアルゴリズムから合理的に期待できる能力について概説する。 An increasing ubiquity of machine learning (ML) motivates research on algorithms to explain ML models and their predictions -- so-called eXplainable Artificial Intelligence (XAI). Despite many survey papers and discussions, the goals and capabilities of XAI algorithms are far from being well understood. We argue that this is because of a problematic reasoning scheme in XAI literature: XAI algorithms are said to complement ML models with desired properties, such as "interpretability", or "explainability". These properties are in turn assumed to contribute to a goal, like "trust" in an ML system. But most properties lack precise definitions and their relationship to such goals is far from obvious. The result is a reasoning scheme that obfuscates research results and leaves an important question unanswered: What can one expect from XAI algorithms? In this article, we clarify the goals and capabilities of XAI algorithms from a concrete perspective: that of their users. Explaining ML models is only necessary if users have questions about them. We show that users can ask diverse questions, but that only one of them can be answered by current XAI algorithms. Answering this core question can be trivial, difficult or even impossible, depending on the ML application. Based on these insights, we outline which capabilities policymakers, researchers and society can reasonably expect from XAI algorithms. | 翻訳日:2022-07-02 11:53:44 公開日:2022-06-28 |
# (参考訳) マルウェア検出のための並列インスタンスフィルタリング Parallel Instance Filtering for Malware Detection ( http://arxiv.org/abs/2206.13889v1 ) ライセンス: CC BY 4.0 | Martin Jure\v{c}ek and Olha Jure\v{c}kov\'a | (参考訳) 機械学習アルゴリズムはマルウェア検出の分野で広く使われている。
サンプル量の増加に伴い、分類アルゴリズムの訓練はますます高価になる。
さらに、トレーニングデータセットは冗長またはノイズの多いインスタンスを含むことができる。
解決すべき問題は、精度を低下させることなく、大規模なトレーニングデータセットから代表インスタンスを選択する方法である。
本稿では並列インスタンス選択アルゴリズムであるParallel Instance Filtering(PIF)を提案する。
アルゴリズムの主な考え方は、データセット全体をカバーしているインスタンスの重複しないサブセットにデータセットを分割し、各サブセットにフィルタリングプロセスを適用することである。
各サブセットは、同じ最も近い敵を持つインスタンスで構成される。
その結果、PIFアルゴリズムは並列計算を用いてサブセットを独立に処理するため、高速である。
500,000の悪意のあるサンプルと良質なサンプルからなる大規模なデータセット上で、pifアルゴリズムと最先端のインスタンス選択アルゴリズムを比較した。
機能セットは静的解析を用いて抽出され、ポータブルな実行ファイルフォーマットからのメタデータを含んでいる。
実験の結果,提案するインスタンス選択アルゴリズムは,精度をわずかに低下させるだけで,トレーニングデータセットのサイズを大幅に削減できることがわかった。
PIFアルゴリズムは、平均分類精度と記憶率との比で実験で使用される既存のインスタンス選択法より優れている。 Machine learning algorithms are widely used in the area of malware detection. With the growth of sample amounts, training of classification algorithms becomes more and more expensive. In addition, training data sets may contain redundant or noisy instances. The problem to be solved is how to select representative instances from large training data sets without reducing the accuracy. This work presents a new parallel instance selection algorithm called Parallel Instance Filtering (PIF). The main idea of the algorithm is to split the data set into non-overlapping subsets of instances covering the whole data set and apply a filtering process for each subset. Each subset consists of instances that have the same nearest enemy. As a result, the PIF algorithm is fast since subsets are processed independently of each other using parallel computation. We compare the PIF algorithm with several state-of-the-art instance selection algorithms on a large data set of 500,000 malicious and benign samples. The feature set was extracted using static analysis, and it includes metadata from the portable executable file format. Our experimental results demonstrate that the proposed instance selection algorithm reduces the size of a training data set significantly with the only slightly decreased accuracy. The PIF algorithm outperforms existing instance selection methods used in the experiments in terms of the ratio between average classification accuracy and storage percentage. | 翻訳日:2022-07-02 11:43:00 公開日:2022-06-28 |
# (参考訳) スプリットギブス・サンプラーの再検討:アルゴリズム構造の改善とターゲット分布の強化 The split Gibbs sampler revisited: improvements to its algorithmic structure and augmented target distribution ( http://arxiv.org/abs/2206.13894v1 ) ライセンス: CC BY 4.0 | Marcelo Pereyra, Luis A. Vargas-Mieles, Konstantinos C. Zygalakis | (参考訳) 本稿では,画像逆問題においてベイズ計算を効率的に行うための,新しい加速度的近位マルコフ連鎖モンテカルロ法を提案する。
提案手法はLangevin拡散過程から導かれ,SK-ROCKと分割ギブスサンプリング(SGS)という2つの最先端の近近距離MCMCサンプリング器を密に統合することにより,収束速度の向上を図っている。
より正確には、ランジュバン拡散過程のレベルにおいて、確率的ランジュ-クッタ-チェビシェフ近似に基づく近位sk-ロックサンプラーと、sgsが漸近バイアスを犠牲にしてベイズ計算を高速化するために利用するモデル拡張と緩和戦略を統合する方法を示す。
これにより、元のsk-rockサンプラーの加速品質と拡張と緩和の計算上の利点を組み合わせた、新しく高速なsk-rockサンプラーが誕生した。
さらに、拡張緩和モデルを対象モデルの近似として見るのではなく、バイアス分散トレードオフにおける緩和の位置を定め、対象モデルの一般化として拡張緩和モデルを考えることを提案する。
これにより、モデルの精度(モデルエビデンスによって測定されるように)とサンプルの収束速度を同時に向上させるため、緩和量を慎重に調整することができる。
これを実現するために経験ベイズ法を導出し,最大限界確率推定による最適緩和量を自動的に推定する。
提案手法は, 画像の劣化と塗装に関する様々な数値実験と, 技術の現状から得られた代替手法との比較により実証された。 This paper proposes a new accelerated proximal Markov chain Monte Carlo (MCMC) methodology to perform Bayesian computation efficiently in imaging inverse problems. The proposed methodology is derived from the Langevin diffusion process and stems from tightly integrating two state-of-the-art proximal Langevin MCMC samplers, SK-ROCK and split Gibbs sampling (SGS), which employ distinctively different strategies to improve convergence speed. More precisely, we show how to integrate, at the level of the Langevin diffusion process, the proximal SK-ROCK sampler which is based on a stochastic Runge-Kutta-Chebyshev approximation of the diffusion, with the model augmentation and relaxation strategy that SGS exploits to speed up Bayesian computation at the expense of asymptotic bias. This leads to a new and faster proximal SK-ROCK sampler that combines the accelerated quality of the original SK-ROCK sampler with the computational benefits of augmentation and relaxation. Moreover, rather than viewing the augmented and relaxed model as an approximation of the target model, positioning relaxation in a bias-variance trade-off, we propose to regard the augmented and relaxed model as a generalisation of the target model. This then allows us to carefully calibrate the amount of relaxation in order to simultaneously improve the accuracy of the model (as measured by the model evidence) and the sampler's convergence speed. To achieve this, we derive an empirical Bayesian method to automatically estimate the optimal amount of relaxation by maximum marginal likelihood estimation. The proposed methodology is demonstrated with a range of numerical experiments related to image deblurring and inpainting, as well as with comparisons with alternative approaches from the state of the art. | 翻訳日:2022-07-02 11:30:20 公開日:2022-06-28 |
# (参考訳) QTIのDCASE 2021への提出:効率的な設計によるデバイス不均衡音場分類のための残留正規化 QTI Submission to DCASE 2021: residual normalization for device-imbalanced acoustic scene classification with efficient design ( http://arxiv.org/abs/2206.13909v1 ) ライセンス: CC BY 4.0 | Byeonggeun Kim, Seunghan Yang, Jangho Kim, Simyung Chang | (参考訳) 本技術報告では,DCASE2021チャレンジのTASK1A提出の詳細について述べる。
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
まず,Residual Normalizationを提案する。Residual Normalizationは,ショートカットパスによるインスタンス正規化を利用して不要なデバイス固有の情報を,分類に有用な情報を失うことなく破棄する機能正規化手法である。
第2に,レセプティブフィールドが限定されたベースラインアーキテクチャの修正版である,効率的なアーキテクチャ bc-resnet-mod を設計した。
第3に,1台から複数のデバイスへのスペクトログラム変換を利用してトレーニングデータを増強する。
最後に, 3つのモデル圧縮スキーム, プルーニング, 量子化, 知識蒸留を用いて, モデルの複雑性を低減する。
提案システムは,tau都市音響シーン2020における平均テスト精度76.3%,315kパラメータを用いた開発データセット,圧縮後の平均テスト精度75.3%を61.0kbの非ゼロパラメータで達成する。 This technical report describes the details of our TASK1A submission of the DCASE2021 challenge. The goal of the task is to design an audio scene classification system for device-imbalanced datasets under the constraints of model complexity. This report introduces four methods to achieve the goal. First, we propose Residual Normalization, a novel feature normalization method that uses instance normalization with a shortcut path to discard unnecessary device-specific information without losing useful information for classification. Second, we design an efficient architecture, BC-ResNet-Mod, a modified version of the baseline architecture with a limited receptive field. Third, we exploit spectrogram-to-spectrogram translation from one to multiple devices to augment training data. Finally, we utilize three model compression schemes: pruning, quantization, and knowledge distillation to reduce model complexity. The proposed system achieves an average test accuracy of 76.3% in TAU Urban Acoustic Scenes 2020 Mobile, development dataset with 315k parameters, and average test accuracy of 75.3% after compression to 61.0KB of non-zero parameters. | 翻訳日:2022-07-02 11:02:56 公開日:2022-06-28 |
# (参考訳) 深層強化学習を用いたバックトラックによる依存関係解析 Dependency Parsing with Backtracking using Deep Reinforcement Learning ( http://arxiv.org/abs/2206.13914v1 ) ライセンス: CC BY 4.0 | Franck Dary, Maxime Petit, Alexis Nasr | (参考訳) 遷移ベース解析などのNLPのグレディアルゴリズムは、エラーの伝播が困難である。
この問題を解決する方法の1つは、これまで探索された解に矛盾する新しい証拠がある場合、アルゴリズムが別の解を追跡、探索できるようにすることである。
このような動作を実装するために、強化学習を使い、現在のソリューションを探求し続けるよりも、そのようなアクションが報われる場合にアルゴリズムをバックトラックします。
POSタグ付けと依存性解析の両方でこの考え方を検証し、バックトラッキングがエラーの伝播に対抗する効果的な手段であることを示す。 Greedy algorithms for NLP such as transition based parsing are prone to error propagation. One way to overcome this problem is to allow the algorithm to backtrack and explore an alternative solution in cases where new evidence contradicts the solution explored so far. In order to implement such a behavior, we use reinforcement learning and let the algorithm backtrack in cases where such an action gets a better reward than continuing to explore the current solution. We test this idea on both POS tagging and dependency parsing and show that backtracking is an effective means to fight against error propagation. | 翻訳日:2022-07-02 10:51:25 公開日:2022-06-28 |
# (参考訳) SLOVA: Single Label One-Vs-All Classifier を用いた不確かさ推定 SLOVA: Uncertainty Estimation Using Single Label One-Vs-All Classifier ( http://arxiv.org/abs/2206.13923v1 ) ライセンス: CC BY 4.0 | Bartosz W\'ojcik, Jacek Grela, Marek \'Smieja, Krzysztof Misztal, Jacek Tabor | (参考訳) ディープニューラルネットワークは印象的なパフォーマンスを示すが、予測信頼度を確実に見積もることはできず、リスクの高い領域での適用性が制限される。
複数ラベルのone-vs-all損失を適用すると,分類の曖昧さが顕在化し,モデルの信頼性が低下する。
導入されたSLOVA(Single Label One-Vs-All)モデルは、典型的な1-vs-all予測確率を1つのラベルの状況に再定義する。
提案された分類器は、単一のクラスが高い確率を持ち、他の確率が無視できる場合に限り、自信を持つ。
典型的なソフトマックス関数とは異なり、SLOVAは、他の全てのクラスの確率が小さい場合、分布外サンプルを自然に検出する。
このモデルは指数的校正で微調整され、信頼度スコアとモデルの精度を正確に調整できます。
我々はアプローチを3つのタスクで検証する。
まず、SLOVAは分布内キャリブレーションの最先端技術と競合することを示す。
第二に、SLOVAのパフォーマンスはデータセットシフト下で堅牢である。
最後に,本手法は分布外サンプルの検出に非常に有効である。
したがって、SLOVAは不確実性モデリングが必要な様々なアプリケーションで使用できるツールである。 Deep neural networks present impressive performance, yet they cannot reliably estimate their predictive confidence, limiting their applicability in high-risk domains. We show that applying a multi-label one-vs-all loss reveals classification ambiguity and reduces model overconfidence. The introduced SLOVA (Single Label One-Vs-All) model redefines typical one-vs-all predictive probabilities to a single label situation, where only one class is the correct answer. The proposed classifier is confident only if a single class has a high probability and other probabilities are negligible. Unlike the typical softmax function, SLOVA naturally detects out-of-distribution samples if the probabilities of all other classes are small. The model is additionally fine-tuned with exponential calibration, which allows us to precisely align the confidence score with model accuracy. We verify our approach on three tasks. First, we demonstrate that SLOVA is competitive with the state-of-the-art on in-distribution calibration. Second, the performance of SLOVA is robust under dataset shifts. Finally, our approach performs extremely well in the detection of out-of-distribution samples. Consequently, SLOVA is a tool that can be used in various applications where uncertainty modeling is required. | 翻訳日:2022-07-02 10:35:56 公開日:2022-06-28 |
# (参考訳) 巨大なラベルなし歩行ビデオから歩行表現を学ぶ:ベンチマーク Learning Gait Representation from Massive Unlabelled Walking Videos: A Benchmark ( http://arxiv.org/abs/2206.13964v1 ) ライセンス: CC BY 4.0 | Chao Fan, Saihui Hou, Jilong Wang, Yongzhen Huang, and Shiqi Yu | (参考訳) ゲイトは個人独自の歩行パターンを描き、人間の識別において最も有望な生体認証の特徴の1つとなった。
細かな認識タスクとして、歩容認識は多くの要因に影響を受けやすく、通常、費用がかかり、満足できない大量の完全な注釈付きデータを必要とする。
本論文は,大規模非ラベル歩行ビデオから一般の歩行表現を学習することを目的とした,コントラスト学習を用いた歩行認識のための大規模自己教師付ベンチマークを提案する。
具体的には,1.02万個の歩行シーケンスからなる大規模歩行データセットGaitLU-1Mを収集し,概念的にシンプルだが実証的に強力なベースラインモデルGaitSSBを提案する。
実験では,casia-b,ou-mvlp,grove,gait3dの4つのgaitベンチマークにおいて,トランスファー学習の有無で事前学習モデルを評価する。
教師なしの結果は、初期のモデルベースやGEIベースの方法と同等か、それ以上に優れている。
移動学習では,ほとんどの場合,既存の手法よりも大きな差がある。
理論的には,歩行特有のコントラストフレームワークの重要な問題について議論し,さらなる研究のための洞察を与える。
われわれが知る限り、GaitLU-1Mは最初の大規模未ラベル歩行データセットであり、GaitSSBは前述のベンチマークで目立った教師なしの結果を得る最初の方法である。
GaitSSBのソースコードはOpenGaitに統合され、https://github.com/ShiqiYu/OpenGaitで入手できる。 Gait depicts individuals' unique and distinguishing walking patterns and has become one of the most promising biometric features for human identification. As a fine-grained recognition task, gait recognition is easily affected by many factors and usually requires a large amount of completely annotated data that is costly and insatiable. This paper proposes a large-scale self-supervised benchmark for gait recognition with contrastive learning, aiming to learn the general gait representation from massive unlabelled walking videos for practical applications via offering informative walking priors and diverse real-world variations. Specifically, we collect a large-scale unlabelled gait dataset GaitLU-1M consisting of 1.02M walking sequences and propose a conceptually simple yet empirically powerful baseline model GaitSSB. Experimentally, we evaluate the pre-trained model on four widely-used gait benchmarks, CASIA-B, OU-MVLP, GREW and Gait3D with or without transfer learning. The unsupervised results are comparable to or even better than the early model-based and GEI-based methods. After transfer learning, our method outperforms existing methods by a large margin in most cases. Theoretically, we discuss the critical issues for gait-specific contrastive framework and present some insights for further study. As far as we know, GaitLU-1M is the first large-scale unlabelled gait dataset, and GaitSSB is the first method that achieves remarkable unsupervised results on the aforementioned benchmarks. The source code of GaitSSB will be integrated into OpenGait which is available at https://github.com/ShiqiYu/OpenGait. | 翻訳日:2022-07-02 10:34:50 公開日:2022-06-28 |
# (参考訳) 第二言語学習のためのタンデムテレコラボレーションにおける個人の会話的ボラティリティの分析 Analysis of Individual Conversational Volatility in Tandem Telecollaboration for Second Language Learning ( http://arxiv.org/abs/2206.13965v1 ) ライセンス: CC BY 4.0 | Alan F. Smeaton, Aparajita Dey-Plissonneau, Hyowon Lee, Mingming Liu, Michael Scriney | (参考訳) 第二言語学習は、学生がビデオ会議コールにグループ化され、他の学生のネイティブ言語をコールで学習するタンデムコラボレーションによって実現することができる。
これは、学生が積極的にコントリビュートしたり、会話をしたりできるオンライン環境に置かれる一方で、恥ずかしがり屋や第二言語スキルを知らない人でも、電話を通じて着席できる。
通話中のすべての参加者から会話発話のタイミングを記録するL2Lシステムを構築し,展開した。
各コールにおける各生徒の参加率やタイムラインを含む視覚化を生成し,それをダッシュボードに表示します。
我々は最近,各学生が各通話における対話への貢献がいかに動的であったかを示す,個人会話のボラティリティという尺度を開発した。
小学校1学期における86件のテレコラボレーションコールにおいて, フランス語を学習している英語話者19名を対象に, 会話のボラティリティ尺度の分析を行った。
分析の結果,インタラクションの性質を考察し,議論トピックの選択が一部の学生にとって難しすぎるか,何らかの形で関与に影響を与えているかを見極める必要があることがわかった。 Second language learning can be enabled by tandem collaboration where students are grouped into video conference calls while learning the native language of other student(s) on the calls. This places students in an online environment where the more outgoing can actively contribute and engage in dialogue while those more shy and unsure of their second language skills can sit back and coast through the calls. We have built and deployed the L2L system which records timings of conversational utterances from all participants in a call. We generate visualisations including participation rates and timelines for each student in each call and present these on a dashboard. We have recently developed a measure called personal conversational volatility for how dynamic has been each student's contribution to the dialogue in each call. We present an analysis of conversational volatility measures for a sample of 19 individual English-speaking students from our University who are learning Frenchm, in each of 86 tandem telecollaboration calls over one teaching semester. Our analysis shows there is a need to look into the nature of the interactions and see if the choices of discussion topics assigned to them were too difficult for some students and that may have influenced their engagement in some way. | 翻訳日:2022-07-02 09:52:48 公開日:2022-06-28 |
# Test2Vec: テストケース優先順位付けのための実行トレース埋め込み Test2Vec: An Execution Trace Embedding for Test Case Prioritization ( http://arxiv.org/abs/2206.15428v1 ) ライセンス: Link先を確認 | Emad Jabbar, Soheila Zangeneh, Hadi Hemmati, Robert Feldt | (参考訳) ほとんどの自動化されたソフトウェアテストタスクは、テストケースの抽象表現の恩恵を受けることができる。
伝統的に、これはテストケースをコードカバレッジに基づいてエンコードすることで行われる。
仕様レベルの基準は、テストケースの振る舞いをより良く表現するためにコードカバレッジを置き換えることができるが、コスト効率が良くないことが多い。
本稿では,テストケースの実行トレースが,自動テストタスクの動作を抽象化するための優れた代替手段となると仮定する。
本稿では,テスト実行トレースを潜在空間にマッピングする新しい埋め込み手法Test2Vecを提案する。
この表現をテストケース優先順位付け(TP)タスクで評価する。
デフォルトのtpメソッドは、組込みベクターと過去の失敗したテストベクターの類似性に基づいています。
また,テストベクトルの多様性に基づく代替案についても検討する。
最後に、与えられたテストスイートに対して、どのTPを選択するかを決定する方法を提案する。
この実験は、100万以上の実行トレースを持つ、実およびシードされたいくつかの障害に基づいている。
その結果,提案したTPは,第1回フェールテストケース(FFR)の平均正規化ランクにおいて,41.80%向上した。
従来のコードカバレッジベースのアプローチでは、中央値APFDと中央値正規化FFRで25.05%、59.25%を上回っている。 Most automated software testing tasks can benefit from the abstract representation of test cases. Traditionally, this is done by encoding test cases based on their code coverage. Specification-level criteria can replace code coverage to better represent test cases' behavior, but they are often not cost-effective. In this paper, we hypothesize that execution traces of the test cases can be a good alternative to abstract their behavior for automated testing tasks. We propose a novel embedding approach, Test2Vec, that maps test execution traces to a latent space. We evaluate this representation in the test case prioritization (TP) task. Our default TP method is based on the similarity of the embedded vectors to historical failing test vectors. We also study an alternative based on the diversity of test vectors. Finally, we propose a method to decide which TP to choose, for a given test suite. The experiment is based on several real and seeded faults with over a million execution traces. Results show that our proposed TP improves best alternatives by 41.80% in terms of the median normalized rank of the first failing test case (FFR). It outperforms traditional code coverage-based approaches by 25.05% and 59.25% in terms of median APFD and median normalized FFR. | 翻訳日:2022-07-01 15:24:40 公開日:2022-06-28 |
# 変分自己ブーストサンプリングによる宇宙の再構築 Reconstructing the Universe with Variational self-Boosted Sampling ( http://arxiv.org/abs/2206.15433v1 ) ライセンス: Link先を確認 | Chirag Modi, Yin Li, David Blei | (参考訳) 宇宙論におけるフォワードモデリングのアプローチは、観測された調査データから宇宙の初期状態の再構築を可能にした。
しかし、パラメータ空間の高次元性は、相関サンプルの生成による計算的に非効率なハミルトン・モンテ・カルロ (HMC) のような伝統的なアルゴリズムや、発散(損失)関数の選択に大きく依存する変分推論の性能など、完全な後部を探索する上での課題である。
本稿では,モンテカルロサンプリングの提案分布に対する変分近似を学習し,hmcと組み合わせることにより,両アルゴリズムの欠点を軽減すべく,変分自己ブーストサンプリング(vbs)と呼ばれるハイブリッドスキームを開発した。
変動分布は正規化フローとしてパラメータ化され、フライで生成されたサンプルで学習されるが、mcmc鎖の自己相関長を減少させる。
我々の正規化フローはフーリエ空間の畳み込みと高次元にスケールするために要素演算を用いる。
簡単なVIアプローチよりも短い初期ウォームアップとトレーニングフェーズの後、VBSはサンプルの品質を向上し、64$^3$と128$^3$の3次元問題において初期条件の後部を探索するためにHMCのみを用いることでサンプリングフェーズの相関長を10~50倍に削減し、高信号-雑音データ観測においてより大きな利得が得られることを示した。 Forward modeling approaches in cosmology have made it possible to reconstruct the initial conditions at the beginning of the Universe from the observed survey data. However the high dimensionality of the parameter space still poses a challenge to explore the full posterior, with traditional algorithms such as Hamiltonian Monte Carlo (HMC) being computationally inefficient due to generating correlated samples and the performance of variational inference being highly dependent on the choice of divergence (loss) function. Here we develop a hybrid scheme, called variational self-boosted sampling (VBS) to mitigate the drawbacks of both these algorithms by learning a variational approximation for the proposal distribution of Monte Carlo sampling and combine it with HMC. The variational distribution is parameterized as a normalizing flow and learnt with samples generated on the fly, while proposals drawn from it reduce auto-correlation length in MCMC chains. Our normalizing flow uses Fourier space convolutions and element-wise operations to scale to high dimensions. We show that after a short initial warm-up and training phase, VBS generates better quality of samples than simple VI approaches and reduces the correlation length in the sampling phase by a factor of 10-50 over using only HMC to explore the posterior of initial conditions in 64$^3$ and 128$^3$ dimensional problems, with larger gains for high signal-to-noise data observations. | 翻訳日:2022-07-01 15:15:07 公開日:2022-06-28 |
# (参考訳) 最適センサ配置のための情報エントロピー初期化コンクリートオートエンコーダと物理分野の再構築 Information Entropy Initialized Concrete Autoencoder for Optimal Sensor Placement and Reconstruction of Geophysical Fields ( http://arxiv.org/abs/2206.13968v1 ) ライセンス: CC BY 4.0 | Nikita Turko, Alexander Lobashev, Konstantin Ushakov, Maxim Kaurkin, Rashit Ibrayev | (参考訳) そこで本稿では,スパーク計測による地場再構成問題に対するセンサ配置の最適化手法を提案する。
我々の方法は2つの段階からなる。
第1段階では、条件付きPixelCNNネットワークを介して情報エントロピーを近似することにより、空間座標の関数として物理場の可変性を推定する。
エントロピーを計算するために,2次元データアレイ(スピラルオーダー)の新たな順序付けを提案し,複数の空間スケールで物理場のエントロピーを同時に得られるようにした。
第2段階では、物理場のエントロピーを用いて最適なセンサ位置の分布を初期化する。
この分布は、ストレートスルー勾配推定器と逆損失を伴うコンクリートオートエンコーダアーキテクチャによりさらに最適化され、センサ数を最小化し、再構成精度を最大化する。
一般的な主成分分析とは異なり,本手法はデータサイズと線形にスケールする。
以下の2つの例を例に示す。
(a)温度と
(b)バレンツ海及びスバルバード諸島群周辺の塩分田
これらの例では,提案手法の再構成誤差といくつかのベースラインを計算する。
QRファクター付きPCAと気候学の2つの基準線に対するアプローチを検証した。
得られた最適センサ位置は, 物理的解釈が明確であり, 海流の境界に対応することが判明した。 We propose a new approach to the optimal placement of sensors for the problem of reconstructing geophysical fields from sparse measurements. Our method consists of two stages. In the first stage, we estimate the variability of the physical field as a function of spatial coordinates by approximating its information entropy through the Conditional PixelCNN network. To calculate the entropy, a new ordering of a two-dimensional data array (spiral ordering) is proposed, which makes it possible to obtain the entropy of a physical field simultaneously for several spatial scales. In the second stage, the entropy of the physical field is used to initialize the distribution of optimal sensor locations. This distribution is further optimized with the Concrete Autoencoder architecture with the straight-through gradient estimator and adversarial loss to simultaneously minimize the number of sensors and maximize reconstruction accuracy. Our method scales linearly with data size, unlike commonly used Principal Component Analysis. We demonstrate our method on the two examples: (a) temperature and (b) salinity fields around the Barents Sea and the Svalbard group of islands. For these examples, we compute the reconstruction error of our method and a few baselines. We test our approach against two baselines (1) PCA with QR factorization and (2) climatology. We find out that the obtained optimal sensor locations have clear physical interpretation and correspond to the boundaries between sea currents. | 翻訳日:2022-07-01 13:07:56 公開日:2022-06-28 |
# (参考訳) 自然言語生成のためのジョイントジェネレータ・ランカー学習 Joint Generator-Ranker Learning for Natural Language Generation ( http://arxiv.org/abs/2206.13974v1 ) ライセンス: CC BY 4.0 | Weizhou Shen, Yeyun Gong, Yelong Shen, Song Wang, Xiaojun Quan, Nan Duan, Weizhu Chen | (参考訳) 露光バイアスのため、ほとんどの既存の自然言語生成(NLG)モデルは、推論段階でのテキスト結果の予測を最大化することで訓練されている。
本稿では,この問題に対処するため,テキスト生成タスクのための生成列フレームワークを再検討し,JGR(Joint Generator-ranker)トレーニングアルゴリズムを提案する。
JGRでは、ジェネレータモデルは、トレーニングコーパスの確率とランサーモデルが与える期待報酬の2つの目標を最大化することによって訓練される。
一方、ランサーモデルでは、ジェネレータモデルから入力サンプルを取得し、生成プールから良いサンプルを区別することを学ぶ。
ジェネレータとランチャーモデルは収束するまで交互に最適化される。
実証実験において,提案したJGRモデルは,要約,質問生成,応答生成の3つの一般的なタスクをカバーする5つの公開ベンチマークに対して,新しい最先端性能を実現する。
コード、データ、モデルはhttps://github.com/microsoft/AdvNLG.comで公開します。 Due to exposure bias, most existing natural language generation (NLG) models trained by maximizing the likelihood objective predict poor text results during the inference stage. In this paper, to tackle this problem, we revisit the generate-then-rank framework and propose a joint generator-ranker (JGR) training algorithm for text generation tasks. In JGR, the generator model is trained by maximizing two objectives: the likelihood of the training corpus and the expected reward given by the ranker model. Meanwhile, the ranker model takes input samples from the generator model and learns to distinguish good samples from the generation pool. The generator and ranker models are alternately optimized till convergence. In the empirical study, the proposed JGR model achieves new state-of-the-art performance on five public benchmarks covering three popular generation tasks: summarization, question generation, and response generation. We will make code, data, and models available at https://github.com/microsoft/AdvNLG. | 翻訳日:2022-07-01 12:54:47 公開日:2022-06-28 |
# (参考訳) satnetによる対称規則の学習 Learning Symmetric Rules with SATNet ( http://arxiv.org/abs/2206.13998v1 ) ライセンス: CC BY 4.0 | Sangho Lim, Eun-Gyeol Oh, Hongseok Yang | (参考訳) SATNetは、独自のバックプロパゲーションアルゴリズムを備えた、微分可能な制約解決器であり、ディープラーニングシステムのレイヤとして使用できる。
これは深層学習と論理的推論を橋渡しする有望な提案である。
実際、SATNetは、入力がイメージとして与えられる入力ペアと出力ペアからのみ、sudokuのような複雑な論理パズルのルールを学ぶためにうまく応用されている。
本稿では、与えられたが未知の論理パズルのターゲットルールやより一般に論理公式の対称性を利用してSATNetの学習を改善する方法について述べる。
SATNet のパラメータの条件に対象ルールの所定の対称性を変換する SATNet の変種である SymSATNet を提案する。
この要件は、十分な対称性でルールを学ぶためのパラメータ数を劇的に減らし、SymSATNetのパラメータ学習をSATNetよりもはるかに容易にする。
また,対象ルールの対称性を例から自動的に発見する手法についても述べる。
本研究では,SymSATNetをベースラインSATNetよりも大幅に改善したことを示す。 SATNet is a differentiable constraint solver with a custom backpropagation algorithm, which can be used as a layer in a deep-learning system. It is a promising proposal for bridging deep learning and logical reasoning. In fact, SATNet has been successfully applied to learn, among others, the rules of a complex logical puzzle, such as Sudoku, just from input and output pairs where inputs are given as images. In this paper, we show how to improve the learning of SATNet by exploiting symmetries in the target rules of a given but unknown logical puzzle or more generally a logical formula. We present SymSATNet, a variant of SATNet that translates the given symmetries of the target rules to a condition on the parameters of SATNet and requires that the parameters should have a particular parametric form that guarantees the condition. The requirement dramatically reduces the number of parameters to learn for the rules with enough symmetries, and makes the parameter learning of SymSATNet much easier than that of SATNet. We also describe a technique for automatically discovering symmetries of the target rules from examples. Our experiments with Sudoku and Rubik's cube show the substantial improvement of SymSATNet over the baseline SATNet. | 翻訳日:2022-07-01 11:34:07 公開日:2022-06-28 |
# (参考訳) 顔を見せて 話し方を教えてやる Show Me Your Face, And I'll Tell You How You Speak ( http://arxiv.org/abs/2206.14009v1 ) ライセンス: CC BY 4.0 | Christen Millerdurai, Lotfy Abdel Khaliq, and Timon Ulrich | (参考訳) 話すとき、音声の韻律と内容は唇の動きから推測できる。
本研究では, 話者の唇の動きのみを学習し, 話者の唇の動きのみを学習し, 複数の話者に対する音声マッピングを, 制約のない, 大規模な語彙設定で学習する。
話者の身元を年齢、性別、民族性などの顔の特徴によって捉え、唇の動きとともに条件付けし、話者の身元を認識する音声を生成する。
そこで本研究では,リップと音声の正確な合成を実現するための重要な設計手法であるlip2speechを提案する。
また,量的,質的指標と人的評価を用いて,様々な実験を行い,広範な評価を行った。 When we speak, the prosody and content of the speech can be inferred from the movement of our lips. In this work, we explore the task of lip to speech synthesis, i.e., learning to generate speech given only the lip movements of a speaker where we focus on learning accurate lip to speech mappings for multiple speakers in unconstrained, large vocabulary settings. We capture the speaker's voice identity through their facial characteristics, i.e., age, gender, ethnicity and condition them along with the lip movements to generate speaker identity aware speech. To this end, we present a novel method "Lip2Speech", with key design choices to achieve accurate lip to speech synthesis in unconstrained scenarios. We also perform various experiments and extensive evaluation using quantitative, qualitative metrics and human evaluation. | 翻訳日:2022-07-01 10:51:05 公開日:2022-06-28 |
# (参考訳) RISPの場合: 命令スパイク処理の削減 The Case for RISP: A Reduced Instruction Spiking Processor ( http://arxiv.org/abs/2206.14016v1 ) ライセンス: CC BY 4.0 | James S. Plank, ChaoHui Zheng, Bryson Gullett, Nicholas Skuda, Charles Rizzo, Catherine D. Schuman, Garrett S. Rose | (参考訳) 本稿では,リダクション・スパイキング・プロセッサであるRISPを紹介する。
スパイクニューロプロセッサの多くは脳や脳の概念に基づいていますが、複雑ではなく単純化されたスパイクプロセッサのケースを紹介します。
そのため、個別の統合サイクル、設定可能なリーク、その他はほとんどない。
我々は、RISPの計算モデルを示し、その単純さの利点を強調した。
我々は、簡単な計算タスクのための手作りニューラルネットワークの開発を支援する方法、より複雑な機械学習技術で構築されたニューラルネットワークを単純化する方法について詳述し、他のスパイクニューロプロセッサと同等の性能を示す。 In this paper, we introduce RISP, a reduced instruction spiking processor. While most spiking neuroprocessors are based on the brain, or notions from the brain, we present the case for a spiking processor that simplifies rather than complicates. As such, it features discrete integration cycles, configurable leak, and little else. We present the computing model of RISP and highlight the benefits of its simplicity. We demonstrate how it aids in developing hand built neural networks for simple computational tasks, detail how it may be employed to simplify neural networks built with more complicated machine learning techniques, and demonstrate how it performs similarly to other spiking neurprocessors. | 翻訳日:2022-07-01 10:36:17 公開日:2022-06-28 |
# (参考訳) 位置情報プライバシー保護のための敵事例の再考 Rethinking Adversarial Examples for Location Privacy Protection ( http://arxiv.org/abs/2206.14020v1 ) ライセンス: CC BY 4.0 | Trung-Nghia Le, Ta Gu, Huy H. Nguyen, Isao Echizen | (参考訳) ランドマーク認識システムに対する位置プライバシー保護という,敵の新たな応用について検討した。
マスク誘導型マルチモーダル射影勾配勾配 (MM-PGD) を導入し, 異なる深層モデルで逆例を訓練する。
画像内容は、相手の例に最も適した領域を識別するために、領域の特性を分析して保護される。
本研究では,クラスアクティベーションマップに基づくMM-PGDと,人間の注意を惹きつける領域を対象とする人間ビジョンに基づくMM-PGDの2つの領域識別戦略を検討した。
Places365データセットの実験では、これらの戦略が画像操作を必要とせず、ブラックボックスのランドマーク認識システムに対する防御に有効であることが示された。 We have investigated a new application of adversarial examples, namely location privacy protection against landmark recognition systems. We introduce mask-guided multimodal projected gradient descent (MM-PGD), in which adversarial examples are trained on different deep models. Image contents are protected by analyzing the properties of regions to identify the ones most suitable for blending in adversarial examples. We investigated two region identification strategies: class activation map-based MM-PGD, in which the internal behaviors of trained deep models are targeted; and human-vision-based MM-PGD, in which regions that attract less human attention are targeted. Experiments on the Places365 dataset demonstrated that these strategies are potentially effective in defending against black-box landmark recognition systems without the need for much image manipulation. | 翻訳日:2022-07-01 10:25:56 公開日:2022-06-28 |
# (参考訳) ビジネスプロセスシミュレーションにおける活動遅延のモデル化 Modeling Extraneous Activity Delays in Business Process Simulation ( http://arxiv.org/abs/2206.14051v1 ) ライセンス: CC BY 4.0 | David Chapela-Campa and Marlon Dumas | (参考訳) ビジネスプロセスシミュレーション(Business Process Simulation, BPS)は、ビジネスプロセスの変更がパフォーマンス指標に与える影響を推定する一般的な手法である。
例えば、BPSは、アクティビティの1つを自動化した場合、プロセスのサイクルタイムを見積もることができます。
BPSの出発点は、シミュレーションパラメータ(BPSモデル)を付加したビジネスプロセスモデルである。
いくつかの研究では、プロセスマイニングによってイベントログからBPSモデルを自動的に検出する方法が提案されている。
しかし、この領域の現在の技術は、リソース競合やリソース利用不可能に起因する待ち時間のみをキャプチャするBPSモデルを発見している。
多くの場合、ビジネスプロセスにおける待ち時間のかなりの部分は、リソースが顧客が電話を返すのを待つなど、余計な遅延によって引き起こされます。
本稿では,入力データから異常遅延を検出し,BPSモデルにタイマイベントを注入し,検出した遅延をキャプチャする手法を提案する。
合成および実生活ログを含む実証的な評価は、この手法がプロセスの時間的ダイナミクスをよりよく反映するBPSモデルを生成することを示している。 Business Process Simulation (BPS) is a common approach to estimate the impact of changes to a business process on its performance measures. For example, BPS allows us to estimate what would be the cycle time of a process if we automated one of its activities. The starting point of BPS is a business process model annotated with simulation parameters (a BPS model). Several studies have proposed methods to automatically discover BPS models from event logs via process mining. However, current techniques in this space discover BPS models that only capture waiting times caused by resource contention or resource unavailability. Oftentimes, a considerable portion of the waiting time in a business process is caused by extraneous delays, e.g. a resource waits for the customer to return a phone call. This paper proposes a method that discovers extraneous delays from input data, and injects timer events into a BPS model to capture the discovered delays. An empirical evaluation involving synthetic and real-life logs shows that the approach produces BPS models that better reflect the temporal dynamics of the process, relative to BPS models that do not capture extraneous delays. | 翻訳日:2022-07-01 10:15:04 公開日:2022-06-28 |
# (参考訳) 自動音声認識のためのベンガル音声データセット Bengali Common Voice Speech Dataset for Automatic Speech Recognition ( http://arxiv.org/abs/2206.14053v1 ) ライセンス: CC BY 4.0 | Samiul Alam, Asif Sushmit, Zaowad Abdullah, Shahrin Nakkhatra, MD. Nazmuddoha Ansary, Syed Mobassir Hossen, Sazia Morshed Mehnaz, Tahsin Reasat, Ahmed Imtiaz Humayun | (参考訳) ベンガル語は世界でも有数の言語であり、3億人を超える話者がいる。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットの欠如のために妨げられている。
そこで我々は,文レベル自動音声認識コーパスであるBengali Common Voice Speech Datasetをクラウドソーシングした。
Mozilla Common Voiceプラットフォームで収集されたデータセットは、現在進行中のキャンペーンの一部であり、2ヶ月で400時間を超えるデータの収集につながっており、急速に成長している。
我々の分析によると、我々のデータセットはOpenSLR Bengali ASRデータセットよりも話者、音素、環境の多様性が高い。
我々は、データセットから得られた知見を示し、将来のバージョンで対処すべき重要な言語的課題について論じる。
さらに、いくつかの自動音声認識(ASR)アルゴリズムの現在の性能を報告し、将来の研究のためのベンチマークを設定した。 Bengali is one of the most spoken languages in the world with over 300 million speakers globally. Despite its popularity, research into the development of Bengali speech recognition systems is hindered due to the lack of diverse open-source datasets. As a way forward, we have crowdsourced the Bengali Common Voice Speech Dataset, which is a sentence-level automatic speech recognition corpus. Collected on the Mozilla Common Voice platform, the dataset is part of an ongoing campaign that has led to the collection of over 400 hours of data in 2 months and is growing rapidly. Our analysis shows that our dataset has more speaker, phoneme, and environmental diversity compared to the OpenSLR Bengali ASR dataset, the largest existing open-source Bengali speech dataset. We present insights obtained from the dataset and discuss key linguistic challenges that need to be addressed in future versions. Additionally, we report the current performance of a few Automatic Speech Recognition (ASR) algorithms and set a benchmark for future research. | 翻訳日:2022-07-01 09:44:36 公開日:2022-06-28 |
# (参考訳) 語彙性推論に向けて:オンラインデータベースを用いたスケーラブルな方法論 Towards Lexical Gender Inference: A Scalable Methodology using Online Databases ( http://arxiv.org/abs/2206.14055v1 ) ライセンス: CC BY 4.0 | Marion Bartl and Susan Leavy | (参考訳) 本稿では,大規模言語データセットにおける語彙性のある単語を自動的に検出する手法を提案する。
現在、自然言語処理におけるジェンダーバイアスの評価は、代名詞(「彼」・「彼女」など)や語彙的ジェンダー(「母」・「ボーイフレンド」・「政治家」など)などの人手による性表現の語彙に依存している。
しかし、これらのリストの手動コンパイルは、定期的に更新されず、個々の注釈家や研究者による価値判断を伴う場合、静的な情報に繋がる可能性がある。
さらに、リストに含まれていない用語は、分析の範囲から外れます。
これらの問題に対処するために、我々は、動的で最新の分析を高いカバレッジで提供できる語彙性を自動的に検出するスケーラブルな辞書ベースの方法を開発した。
提案手法は,wikipediaのサンプルからランダムに検索された名詞の語彙的性別を判定し,前回の研究で使用した単語のリスト上でテストする場合,80%以上の精度に達する。 This paper presents a new method for automatically detecting words with lexical gender in large-scale language datasets. Currently, the evaluation of gender bias in natural language processing relies on manually compiled lexicons of gendered expressions, such as pronouns ('he', 'she', etc.) and nouns with lexical gender ('mother', 'boyfriend', 'policewoman', etc.). However, manual compilation of such lists can lead to static information if they are not periodically updated and often involve value judgments by individual annotators and researchers. Moreover, terms not included in the list fall out of the range of analysis. To address these issues, we devised a scalable, dictionary-based method to automatically detect lexical gender that can provide a dynamic, up-to-date analysis with high coverage. Our approach reaches over 80% accuracy in determining the lexical gender of nouns retrieved randomly from a Wikipedia sample and when testing on a list of gendered words used in previous research. | 翻訳日:2022-07-01 09:29:11 公開日:2022-06-28 |
# (参考訳) 未知方向を有する圧縮センシングの同変前駆 Equivariant Priors for Compressed Sensing with Unknown Orientation ( http://arxiv.org/abs/2206.14069v1 ) ライセンス: CC BY 4.0 | Anna Kuzina, Kumar Pratik, Fabio Valerio Massoli, Arash Behboodi | (参考訳) 圧縮センシングでは、未決定の線形測定システムから信号を再構成することが目的である。
したがって、興味のシグナルとその構造に関する事前知識が必要である。
さらに、多くのシナリオでは、信号は測定に先立って未知の向きを持つ。
このようなリカバリ問題に対処するため,同変生成モデルを先行として,その潜在空間における配向情報をカプセル化する手法を提案する。
これにより、未知の向きを持つ信号は、これらのモデルの潜在空間に反復的な勾配降下により復元できることを示し、さらなる理論的回復保証を提供する。
等価な変分オートエンコーダを構築し,圧縮センシングのための生成前処理としてデコーダを使用する。
提案手法のさらなる可能性について,収束性とレイテンシの観点から検討する。 In compressed sensing, the goal is to reconstruct the signal from an underdetermined system of linear measurements. Thus, prior knowledge about the signal of interest and its structure is required. Additionally, in many scenarios, the signal has an unknown orientation prior to measurements. To address such recovery problems, we propose using equivariant generative models as a prior, which encapsulate orientation information in their latent space. Thereby, we show that signals with unknown orientations can be recovered with iterative gradient descent on the latent space of these models and provide additional theoretical recovery guarantees. We construct an equivariant variational autoencoder and use the decoder as generative prior for compressed sensing. We discuss additional potential gains of the proposed approach in terms of convergence and latency. | 翻訳日:2022-07-01 09:14:20 公開日:2022-06-28 |
# (参考訳) 量子回路を用いた量子ニューラルアーキテクチャ探索とベイズ最適化 Quantum Neural Architecture Search with Quantum Circuits Metric and Bayesian Optimization ( http://arxiv.org/abs/2206.14115v1 ) ライセンス: CC BY 4.0 | Trong Duong, Sang T. Truong, Minh Tam, Bao Bach, Ju-Young Ryu, June-Koo Kevin Rhee | (参考訳) 量子ニューラルネットワークは、ノイズ中間スケール量子時代において幅広い応用を約束している。
そのため、量子ニューラルネットワークの自動探索の需要が高まっている。
ガウス過程を用いてベイズ最適化のための量子回路計量を設計することでこの問題に取り組む。
この目的のために,各量子状態に対するゲートの作用を特徴付ける新しい量子ゲート距離を提案し,その幾何学的性質を理論的に考察する。
このアプローチは,量子生成逆ネットワークのトレーニング,マックスカット問題における組合せ最適化の解法,量子フーリエ変換のシミュレーションなど,3つの経験的量子機械学習問題のベンチマークを著しく上回っている。
本手法は,様々な量子機械学習モデルの動作を特徴付けるために拡張することができる。 Quantum neural networks are promising for a wide range of applications in the Noisy Intermediate-Scale Quantum era. As such, there is an increasing demand for automatic quantum neural architecture search. We tackle this challenge by designing a quantum circuits metric for Bayesian optimization with Gaussian process. To this goal, we propose a new quantum gates distance that characterizes the gates' action over every quantum state and provide a theoretical perspective on its geometrical properties. Our approach significantly outperforms the benchmark on three empirical quantum machine learning problems including training a quantum generative adversarial network, solving combinatorial optimization in the MaxCut problem, and simulating quantum Fourier transform. Our method can be extended to characterize behaviors of various quantum machine learning models. | 翻訳日:2022-07-01 08:54:53 公開日:2022-06-28 |
# (参考訳) 離散状態発見のためのガウス的潜在ディリクレ割当て Gaussian Latent Dirichlet Allocation for Discrete Human State Discovery ( http://arxiv.org/abs/2206.14233v1 ) ライセンス: CC BY 4.0 | Congyu Wu, Aaron Fisher, David Schnyer | (参考訳) 本稿では,複数の個人から収集された多変量精神生理学的標本の離散状態発見問題に対して,教師なし確率モデルであるGaussian Latent Dirichlet Allocation (GLDA)を提案し,検証する。
心理学と医学研究は、診断を導き、クラスタリング分析を必要とする参加者のコホートから潜在的に関連があるが、個別に決定的な変数を測定することを含む。
ガウス混合モデル(GMM)のような従来の確率的クラスタリングモデルは、異なる患者からの観察では現実的ではないかもしれない成分分布のグローバルな混合を前提としている。
GLDAモデルは、自然言語処理において人気のあるトピックモデルであるLatent Dirichlet Allocation (LDA)から個々の混合構造を借り、GMMのガウス成分分布とマージして連続型データに適合させる。
われわれは,STAN (probabilistic modeling language) を用いてGLDAを実装し,Ecological Momentary Assessments (EMA) と心電図およびインピーダンス心電図による心拍計を含む2つのデータセットに適用した。
両データセットにおいて,GLDAを学習したクラスウェイトは,臨床評価したうつ病,不安,ストレススコアと,ベースラインのGMMよりも有意に高い相関性を示した。
本研究は, 従来の有限混合モデルよりも, 多変量連続データによる人体状態の発見に有利であることを示すものである。
幅広いアプリケーションでこのモデルの有用性を検証するためには、今後の作業が必要である。 In this article we propose and validate an unsupervised probabilistic model, Gaussian Latent Dirichlet Allocation (GLDA), for the problem of discrete state discovery from repeated, multivariate psychophysiological samples collected from multiple, inherently distinct, individuals. Psychology and medical research heavily involves measuring potentially related but individually inconclusive variables from a cohort of participants to derive diagnosis, necessitating clustering analysis. Traditional probabilistic clustering models such as Gaussian Mixture Model (GMM) assume a global mixture of component distributions, which may not be realistic for observations from different patients. The GLDA model borrows the individual-specific mixture structure from a popular topic model Latent Dirichlet Allocation (LDA) in Natural Language Processing and merges it with the Gaussian component distributions of GMM to suit continuous type data. We implemented GLDA using STAN (a probabilistic modeling language) and applied it on two datasets, one containing Ecological Momentary Assessments (EMA) and the other heart measures from electrocardiogram and impedance cardiograph. We found that in both datasets the GLDA-learned class weights achieved significantly higher correlations with clinically assessed depression, anxiety, and stress scores than those produced by the baseline GMM. Our findings demonstrate the advantage of GLDA over conventional finite mixture models for human state discovery from repeated multivariate data, likely due to better characterization of potential underlying between-participant differences. Future work is required to validate the utility of this model on a broader range of applications. | 翻訳日:2022-07-01 08:25:48 公開日:2022-06-28 |
# (参考訳) PyEPO: 線形および整数プログラミングのためのPyTorchベースの予測テーマ最適化ライブラリ PyEPO: A PyTorch-based End-to-End Predict-then-Optimize Library for Linear and Integer Programming ( http://arxiv.org/abs/2206.14234v1 ) ライセンス: CC BY 4.0 | Bo Tang, Elias B. Khalil | (参考訳) 決定論的最適化では、問題の全てのパラメータが固定され、知られていると仮定される。
しかし実際には、いくつかのパラメータは前もって不明であるが、歴史的データから推定できる。
典型的な予測テーマ最適化アプローチは、予測と最適化を2段階に分ける。
近年,エンド・ツー・エンドの予測最適化が魅力的な選択肢となっている。
本稿ではPythonのPyTorchベースのエンドツーエンド予測最適化ライブラリであるPyEPOパッケージを紹介する。
我々の知る限り、PyEPO(サイレントな「n」を持つ「パイナップル」と発音される)は、予測対象関数係数を持つ線形および整数プログラミングのための最初の汎用ツールである。
1つはエルマハトウ・アンド・グリガス(英語版)(2021年)の精巧な研究に基づく凸代理損失関数(英語版)(convex surrogate loss function)、もう1つはVlastelica et al.(2019年)の微分可能なブラックボックス解法に基づくアルゴリズムである。
pyepoは、新しい最適化問題の定義のためのシンプルなインターフェース、最先端の予測最適化トレーニングアルゴリズムの実装、カスタムニューラルネットワークアーキテクチャの使用、エンドツーエンドアプローチと2段階アプローチの比較を提供する。
PyEPOにより、予測精度、意思決定品質、最短経路、複数クナップサック、旅行セールスパーソン問題といった問題に対する実行時間など、複数のエンドツーエンドおよび2段階のアプローチを比較した総合的な実験を行うことができる。
これらの実験から得られたいくつかの経験的知見を議論し、今後の研究を導く。
PyEPOとそのドキュメントはhttps://github.com/khalil-research/PyEPOで公開されている。 In deterministic optimization, it is typically assumed that all parameters of the problem are fixed and known. In practice, however, some parameters may be a priori unknown but can be estimated from historical data. A typical predict-then-optimize approach separates predictions and optimization into two stages. Recently, end-to-end predict-then-optimize has become an attractive alternative. In this work, we present the PyEPO package, a PyTorch-based end-to-end predict-then-optimize library in Python. To the best of our knowledge, PyEPO (pronounced like "pineapple" with a silent "n") is the first such generic tool for linear and integer programming with predicted objective function coefficients. It provides two base algorithms: the first is based on the convex surrogate loss function from the seminal work of Elmachtoub & Grigas (2021), and the second is based on the differentiable black-box solver approach of Vlastelica et al. (2019). PyEPO provides a simple interface for the definition of new optimization problems, the implementation of state-of-the-art predict-then-optimize training algorithms, the use of custom neural network architectures, and the comparison of end-to-end approaches with the two-stage approach. PyEPO enables us to conduct a comprehensive set of experiments comparing a number of end-to-end and two-stage approaches along axes such as prediction accuracy, decision quality, and running time on problems such as Shortest Path, Multiple Knapsack, and the Traveling Salesperson Problem. We discuss some empirical insights from these experiments which could guide future research. PyEPO and its documentation are available at https://github.com/khalil-research/PyEPO. | 翻訳日:2022-07-01 08:13:07 公開日:2022-06-28 |
# (参考訳) SImProv:ロバストコンテンツ属性のためのスケーラブルな画像プロファイナンスフレームワーク SImProv: Scalable Image Provenance Framework for Robust Content Attribution ( http://arxiv.org/abs/2206.14245v1 ) ライセンス: CC BY 4.0 | Alexander Black, Tu Bui, Simon Jenni, Zhifei Zhang, Viswanathan Swaminanthan, John Collomosse | (参考訳) SImProv - クエリイメージをオリジナルの信頼できるデータベースにマッチさせ、クエリの操作の可能性を特定する、スケーラブルな画像証明フレームワーク。
SImProvは3つのステージから構成される: トップkの最も類似した画像を検索するスケーラブルな検索ステージ、候補の中からオリジナルを識別する再分類とほぼ重複した検出ステージ、そして最後に、元のものと異なるように操作された可能性のあるクエリ内の領域をローカライズする操作検出と可視化ステージ。
SImProvは、ノイズや圧縮劣化によるアーティファクトや、画像パディングやワープ、サイズや形状の変化など、オンライン再配布時に一般的に発生する画像変換の良し悪しに対して堅牢である。
アウトオブプレース変換に対する堅牢性は、コンパレータアーキテクチャ内の微分可能なワーピングモジュールのエンドツーエンドトレーニングによって達成される。
1億画像のデータセット上で効果的な検索および操作検出を行う。 We present SImProv - a scalable image provenance framework to match a query image back to a trusted database of originals and identify possible manipulations on the query. SImProv consists of three stages: a scalable search stage for retrieving top-k most similar images; a re-ranking and near-duplicated detection stage for identifying the original among the candidates; and finally a manipulation detection and visualization stage for localizing regions within the query that may have been manipulated to differ from the original. SImProv is robust to benign image transformations that commonly occur during online redistribution, such as artifacts due to noise and recompression degradation, as well as out-of-place transformations due to image padding, warping, and changes in size and shape. Robustness towards out-of-place transformations is achieved via the end-to-end training of a differentiable warping module within the comparator architecture. We demonstrate effective retrieval and manipulation detection over a dataset of 100 million images. | 翻訳日:2022-07-01 08:10:49 公開日:2022-06-28 |
# (参考訳) サンプル高効率強化学習のためのganに基づく内在的探索 GAN-based Intrinsic Exploration For Sample Efficient Reinforcement Learning ( http://arxiv.org/abs/2206.14256v1 ) ライセンス: CC BY 4.0 | Do\u{g}ay Kamar (1), Naz{\i}m Kemal \"Ure (1 and 2), G\"ozde \"Unal (1 and 2) ((1) Faculty of Computer and Informatics, Istanbul Technical University (2) Artificial Intelligence and Data Science Research Center, Istanbul Technical University) | (参考訳) 本研究では,強化学習における効率的な探索の問題に対処する。
一般的な探索アプローチはランダムな行動選択に依存しているが、報酬がほとんどないし全くない環境ではうまく機能しない。
本稿では,観測状態の分布を学習し,未探索状態にエージェントを誘導するために,分布外状態に対して高い確率で計算された固有報酬を送信する,ジェネレーティブ・アドバイサル・ネットワークに基づく固有リワード・モジュールを提案する。
我々は,スーパーマリオブラザーズにおける無報酬設定とモンテズマの軽微な報酬設定に対する復讐について評価し,我々のアプローチが効率的に探索できることを示す。
我々は,いくつかの弱点について議論し,今後の課題について論じる。 In this study, we address the problem of efficient exploration in reinforcement learning. Most common exploration approaches depend on random action selection, however these approaches do not work well in environments with sparse or no rewards. We propose Generative Adversarial Network-based Intrinsic Reward Module that learns the distribution of the observed states and sends an intrinsic reward that is computed as high for states that are out of distribution, in order to lead agent to unexplored states. We evaluate our approach in Super Mario Bros for a no reward setting and in Montezuma's Revenge for a sparse reward setting and show that our approach is indeed capable of exploring efficiently. We discuss a few weaknesses and conclude by discussing future works. | 翻訳日:2022-07-01 07:49:35 公開日:2022-06-28 |
# (参考訳) Pseudo expectation Maximization (SCOPE) のための半教師付きコントラスト外乱除去法 Semi-supervised Contrastive Outlier removal for Pseudo Expectation Maximization (SCOPE) ( http://arxiv.org/abs/2206.14261v1 ) ライセンス: CC0 1.0 | Sumeet Menon, David Chapman | (参考訳) 半教師付き学習は、小さなラベル付きデータセットとおそらくはるかに大きなラベル付きデータセットを組み合わせることで、正確な予測モデルをトレーニングする問題である。
擬似ラベリング、一貫性規則化、コントラスト学習技術など、半教師付き深層学習のための多くの手法が開発されている。
しかし、擬似ラベルは初期の反復において真のラベルであると仮定されるため、擬似ラベル法は先行バイアスを補強し、強い予測性能に一般化することができない。
本稿では, Pseudo expectation Maximization (SCOPE) のための半教師付きコントラスト外乱除去法を用いて, 境界誤差を抑制する新しい手法を提案する。
SCOPEは、基本的な擬似ラベル化と同様に、クラスタ推定深層半教師付きアルゴリズムを理解するために拡張できる潜在変数フレームワークである期待最大化(EM)に関連している。
しかし、モデルが与えられた未ラベルのサンプルの確率を適切に考慮できない基本的な擬似ラベルとは異なり、SCOPEは、外れ値の存在下でのDNNバックボーンが与えられたときのEMイテレーションの挙動を改善するために設計された外れ値抑制項を導入する。
その結果,SCOPEはベースライン上での半教師付き分類精度を大幅に向上し,さらに整合正則化と組み合わせた場合,250と4000のラベル付きサンプルを用いた半教師付きCIFAR-10分類タスクにおいて最も高い精度が得られた。
さらに,SCOPEは,後続の反復においてラベル付きセットを汚染する誤信の高い疑似ラベル付きサンプルを抽出することにより,擬似ラベル付け繰り返しにおける誤り発生率を低下させることを示した。 Semi-supervised learning is the problem of training an accurate predictive model by combining a small labeled dataset with a presumably much larger unlabeled dataset. Many methods for semi-supervised deep learning have been developed, including pseudolabeling, consistency regularization, and contrastive learning techniques. Pseudolabeling methods however are highly susceptible to confounding, in which erroneous pseudolabels are assumed to be true labels in early iterations, thereby causing the model to reinforce its prior biases and thereby fail to generalize to strong predictive performance. We present a new approach to suppress confounding errors through a method we describe as Semi-supervised Contrastive Outlier removal for Pseudo Expectation Maximization (SCOPE). Like basic pseudolabeling, SCOPE is related to Expectation Maximization (EM), a latent variable framework which can be extended toward understanding cluster-assumption deep semi-supervised algorithms. However, unlike basic pseudolabeling which fails to adequately take into account the probability of the unlabeled samples given the model, SCOPE introduces an outlier suppression term designed to improve the behavior of EM iteration given a discrimination DNN backbone in the presence of outliers. Our results show that SCOPE greatly improves semi-supervised classification accuracy over a baseline, and furthermore when combined with consistency regularization achieves the highest reported accuracy for the semi-supervised CIFAR-10 classification task using 250 and 4000 labeled samples. Moreover, we show that SCOPE reduces the prevalence of confounding errors during pseudolabeling iterations by pruning erroneous high-confidence pseudolabeled samples that would otherwise contaminate the labeled set in subsequent retraining iterations. | 翻訳日:2022-07-01 07:33:29 公開日:2022-06-28 |
# (参考訳) ZoDIAC:ゾーンアウトドロップアウト注入注意計算 ZoDIAC: Zoneout Dropout Injection Attention Calculation ( http://arxiv.org/abs/2206.14263v1 ) ライセンス: CC BY 4.0 | Zanyar Zohourianshahzadi and Jugal Kalita | (参考訳) 近年,画像キャプションなどの視覚言語タスクや自然言語理解・生成(nlu,nlg)タスク,画像分類などのコンピュータビジョンタスクにおいて,自己認識の利用が最先端の成果となっている。
これは、セルフアテンションが入力元とターゲットシーケンスの要素間の内部相互作用をマッピングするためである。
自己注意はアテンション値の計算に成功し、入力元とターゲットシーケンスの要素間の関係をマッピングするが、アテンションの強度を制御するメカニズムは存在しない。
実世界では、対面や発声でコミュニケーションをとる場合、異なる視覚的・言語的文脈を様々な強度で表現する傾向がある。
いくつかの単語は、文全体の文脈において、その単語の重要性を示すよりストレスと重みを持つ(話される)。
この直感に基づいて,入力列の要素の文脈に対して,入力列の要素における注意値の強度を計算したゾーンアウト・ドロップアウト・インジェクション・アテンション計算(zodiac)を提案する。
実験の結果,ZoDIACはトランスフォーマーモデルにおける自己保持モジュールと比較して性能が向上することがわかった。
究極の目標は、トランスフォーマーモデルで自己アテンションモジュールを、コアで自己アテンションを利用する他のモデルに拡張可能なメソッドで修正できるかどうかを見つけることです。
以上の結果から,この目標が研究コミュニティのさらなる注目と調査に値することが示唆された。
ZoDIACのコードはwww.github.com/zanyarz/zodiacで入手できる。 Recently the use of self-attention has yielded to state-of-the-art results in vision-language tasks such as image captioning as well as natural language understanding and generation (NLU and NLG) tasks and computer vision tasks such as image classification. This is since self-attention maps the internal interactions among the elements of input source and target sequences. Although self-attention successfully calculates the attention values and maps the relationships among the elements of input source and target sequence, yet there is no mechanism to control the intensity of attention. In real world, when communicating with each other face to face or vocally, we tend to express different visual and linguistic context with various amounts of intensity. Some words might carry (be spoken with) more stress and weight indicating the importance of that word in the context of the whole sentence. Based on this intuition, we propose Zoneout Dropout Injection Attention Calculation (ZoDIAC) in which the intensities of attention values in the elements of the input sequence are calculated with respect to the context of the elements of input sequence. The results of our experiments reveal that employing ZoDIAC leads to better performance in comparison with the self-attention module in the Transformer model. The ultimate goal is to find out if we could modify self-attention module in the Transformer model with a method that is potentially extensible to other models that leverage on self-attention at their core. Our findings suggest that this particular goal deserves further attention and investigation by the research community. The code for ZoDIAC is available on www.github.com/zanyarz/zodiac . | 翻訳日:2022-07-01 07:14:15 公開日:2022-06-28 |
# (参考訳) 人間とループ内のモデルを用いた機械読解作業のための高品質逆データ収集 Collecting high-quality adversarial data for machine reading comprehension tasks with humans and models in the loop ( http://arxiv.org/abs/2206.14272v1 ) ライセンス: CC BY 4.0 | Damian Y. Romero Diaz, Magdalena Anio{\l}, John Culnan | (参考訳) 本稿では,第1回動的逆数データ収集ワークショップ(DADC)第1タスクの抽出QAのための高品質・逆数機械読解データ作成におけるアノテータとしての経験を紹介する。
DADCは、モデルと人間の両方がループにある緊急データ収集パラダイムである。
我々は,仮想実験的なアノテーション設計を行い,様々なアノテータを持つグループ間で定量的解析を行い,敵意攻撃,コスト分析,アノテータ信頼度相関に焦点をあてた。
我々はさらに,データセット内の各節の異なるトピックを考慮し,タスクの難易度を定性的に分析し,今後のdadcタスクや関連するアノテーションインターフェースに取り組む人々にとって価値のあるレコメンデーションや提案をまとめる。 We present our experience as annotators in the creation of high-quality, adversarial machine-reading-comprehension data for extractive QA for Task 1 of the First Workshop on Dynamic Adversarial Data Collection (DADC). DADC is an emergent data collection paradigm with both models and humans in the loop. We set up a quasi-experimental annotation design and perform quantitative analyses across groups with different numbers of annotators focusing on successful adversarial attacks, cost analysis, and annotator confidence correlation. We further perform a qualitative analysis of our perceived difficulty of the task given the different topics of the passages in our dataset and conclude with recommendations and suggestions that might be of value to people working on future DADC tasks and related annotation interfaces. | 翻訳日:2022-07-01 06:53:30 公開日:2022-06-28 |
# (参考訳) 神経積分微分方程式 Neural Integro-Differential Equations ( http://arxiv.org/abs/2206.14282v1 ) ライセンス: CC BY 4.0 | Emanuele Zappala, Antonio Henrique de Oliveira Fonseca, Andrew Henry Moberly, Michael James Higley, Chadi Abdallah, Jessica Cardin, David van Dijk | (参考訳) 離散サンプリング観測から連続力学系をモデル化することは、データ科学の基本的な問題である。
しばしば、そのような力学は時間とともに積分を与える非局所過程の結果である。
このように、これらの系は積分微分方程式(ide)でモデル化され、積分と微分成分の両方からなる微分方程式の一般化である。
例えば、脳力学は非マルコフ的であるため、微分方程式によって正確にモデル化されるわけではない。
本稿では,ニューラルネットワークを用いたIDEの通常の統合コンポーネントをモデル化するフレームワークであるNeural IDE(NIDE)を紹介する。
我々はNIDEをいくつかのおもちゃおよび脳活動データセット上でテストし、NIDEがNeural ODEを含む他のモデルよりも優れていることを示す。
これらのタスクには、時間外挿や、目に見えない初期状態からのダイナミクスの予測が含まれます。
さらに,nideは,ケタミンのヒトのfmri脳活動記録を用いて,学習積分演算子を介して,そのマルコフ成分と非マルコフ成分にダイナミクスを分解できることを示した。
最後に、積分演算子の積分は、基礎となるダイナミクスに関する洞察を与える潜在空間を提供し、広視野脳イメージング記録で実証する。
さらに、NIDEはニューラルネットワークによる複雑な非局所力学のモデリングを可能にする新しいアプローチである。 Modeling continuous dynamical systems from discretely sampled observations is a fundamental problem in data science. Often, such dynamics are the result of non-local processes that present an integral over time. As such, these systems are modeled with Integro-Differential Equations (IDEs); generalizations of differential equations that comprise both an integral and a differential component. For example, brain dynamics are not accurately modeled by differential equations since their behavior is non-Markovian, i.e. dynamics are in part dictated by history. Here, we introduce the Neural IDE (NIDE), a framework that models ordinary and integral components of IDEs using neural networks. We test NIDE on several toy and brain activity datasets and demonstrate that NIDE outperforms other models, including Neural ODE. These tasks include time extrapolation as well as predicting dynamics from unseen initial conditions, which we test on whole-cortex activity recordings in freely behaving mice. Further, we show that NIDE can decompose dynamics into its Markovian and non-Markovian constituents, via the learned integral operator, which we test on fMRI brain activity recordings of people on ketamine. Finally, the integrand of the integral operator provides a latent space that gives insight into the underlying dynamics, which we demonstrate on wide-field brain imaging recordings. Altogether, NIDE is a novel approach that enables modeling of complex non-local dynamics with neural networks. | 翻訳日:2022-07-01 06:41:39 公開日:2022-06-28 |
# (参考訳) tpu-knn: ピークフロップ/sでk最寄りの近傍探索 TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s ( http://arxiv.org/abs/2206.14286v1 ) ライセンス: CC BY 4.0 | Felix Chern, Blake Hechtman, Andy Davis, Ruiqi Guo, David Majnemer, Sanjiv Kumar | (参考訳) 本稿では、TPU(Google Tensor Processing Unit)のピーク性能を達成し、類似のリコールレベルを持つ最先端のGPUアルゴリズムより優れている新しい近接探索アルゴリズムを提案する。
提案アルゴリズムの設計は,メモリと命令のボトルネックを考慮した精度の高いアクセラレーション性能モデルによって動機付けられている。
提案アルゴリズムは,予測時のリコールを解析的に保証し,高精度なインデックスデータ構造やチューニングを必要とせず,頻繁な更新を伴うアプリケーションに適している。
私たちの仕事は、TPU上のJoxとTensorflowのオープンソースパッケージで利用可能です。 This paper presents a novel nearest neighbor search algorithm achieving TPU (Google Tensor Processing Unit) peak performance, outperforming state-of-the-art GPU algorithms with similar level of recall. The design of the proposed algorithm is motivated by an accurate accelerator performance model that takes into account both the memory and instruction bottlenecks. Our algorithm comes with an analytical guarantee of recall in expectation and does not require maintaining sophisticated index data structure or tuning, making it suitable for applications with frequent updates. Our work is available in the open-source package of Jax and Tensorflow on TPU. | 翻訳日:2022-07-01 06:25:23 公開日:2022-06-28 |
# (参考訳) 神経常微分方程式を用いた学習時間遅延システム Learning Time Delay Systems with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2206.14288v1 ) ライセンス: CC BY 4.0 | Xunbi A. Ji and Gabor Orosz | (参考訳) 時系列データから時間遅延システムのダイナミクスを学ぶために,ニューラルネットワークを用いた新しい手法を提案する。
学習可能な遅延を有するニューラルネットワークは、遅延微分方程式の右手側を近似するために使用される。
時間履歴を離散化することで遅延微分方程式を常微分方程式に関連付け、対応する神経常微分方程式(ノード)を訓練してダイナミクスを学ぶ。
カオス的挙動からのデータを用いたマッキーグラス方程式のダイナミクスの学習例を示す。
非線形性と時間遅延の両方を学習した後、ニューラルネットワークの分岐図が元のシステムと一致することを実証する。 A novel way of using neural networks to learn the dynamics of time delay systems from sequential data is proposed. A neural network with trainable delays is used to approximate the right hand side of a delay differential equation. We relate the delay differential equation to an ordinary differential equation by discretizing the time history and train the corresponding neural ordinary differential equation (NODE) to learn the dynamics. An example on learning the dynamics of the Mackey-Glass equation using data from chaotic behavior is given. After learning both the nonlinearity and the time delay, we demonstrate that the bifurcation diagram of the neural network matches that of the original system. | 翻訳日:2022-07-01 05:56:44 公開日:2022-06-28 |
# (参考訳) R'{e}nyiクロスエントロピーについて On the R\'{e}nyi Cross-Entropy ( http://arxiv.org/abs/2206.14329v1 ) ライセンス: CC BY 4.0 | Ferenc Cole Thierrin, Fady Alajaji, Tam\'as Linder | (参考訳) 2つの分布間のr\'{e}nyiクロスエントロピー測度(シャノンクロスエントロピーの一般化)は、ディープラーニング生成逆ネットワークの設計を改善するための損失関数として最近用いられた。
本研究では,この測度の性質を考察し,分布の1つが固定され,両分布が指数関数族に属する場合の閉形式表現を導出する。
また、定常ガウス過程および有限アルファベットマルコフ源に対するクロスエントロピー率の式を解析的に決定する。 The R\'{e}nyi cross-entropy measure between two distributions, a generalization of the Shannon cross-entropy, was recently used as a loss function for the improved design of deep learning generative adversarial networks. In this work, we examine the properties of this measure and derive closed-form expressions for it when one of the distributions is fixed and when both distributions belong to the exponential family. We also analytically determine a formula for the cross-entropy rate for stationary Gaussian processes and for finite-alphabet Markov sources. | 翻訳日:2022-07-01 05:46:43 公開日:2022-06-28 |
# nums: クラウド用のスケーラブルな配列プログラミング NumS: Scalable Array Programming for the Cloud ( http://arxiv.org/abs/2206.14276v1 ) ライセンス: Link先を確認 | Melih Elibol, Vinamra Benara, Samyu Yagati, Lianmin Zheng, Alvin Cheung, Michael I. Jordan, Ion Stoica | (参考訳) 科学者は、リッチでnumpyライクな式を使ってスケーラブルな分散メモリ配列操作を行うために、pythonツールにますます依存している。
しかし、これらのツールの多くは、抽象的なタスクグラフに最適化された動的スケジューラに依存しており、メモリやネットワーク帯域幅に関連するボトルネックにしばしば遭遇する。
メッセージパッシングインターフェース(MPI)上に構築されたScaLAPACKやSLATEのようなツールは、より優れたスケーリング特性を持つが、これらのソリューションを使うには特別な知識が必要である。
本研究では,タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、分散システム内の任意のノード上の最大メモリとネットワーク負荷を最小限に抑えることで、オペレータ配置を最適化するローカル検索手法である。
負荷バランスデータレイアウトのヒューリスティックと組み合わせることで、一般的な数値演算における通信低境界を実現することができ、実験により、LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題に対して実行時間を10倍減らして、Rayの性能を向上させることを示す。
テラバイト規模のデータでは、NumSはDGEMM上でのSLATEの競合性能、テンソル分解のキー操作でのDaskの最大20倍のスピードアップ、Dask MLやSparkのMLlibと比較してロジスティック回帰の2倍のスピードアップを実現している。 Scientists increasingly rely on Python tools to perform scalable distributed memory array operations using rich, NumPy-like expressions. However, many of these tools rely on dynamic schedulers optimized for abstract task graphs, which often encounter memory and network bandwidth-related bottlenecks due to sub-optimal data and operator placement decisions. Tools built on the message passing interface (MPI), such as ScaLAPACK and SLATE, have better scaling properties, but these solutions require specialized knowledge to use. In this work, we present NumS, an array programming library which optimizes NumPy-like expressions on task-based distributed systems. This is achieved through a novel scheduler called Load Simulated Hierarchical Scheduling (LSHS). LSHS is a local search method which optimizes operator placement by minimizing maximum memory and network load on any given node within a distributed system. Coupled with a heuristic for load balanced data layouts, our approach is capable of attaining communication lower bounds on some common numerical operations, and our empirical study shows that LSHS enhances performance on Ray by decreasing network load by a factor of 2x, requiring 4x less memory, and reducing execution time by 10x on the logistic regression problem. On terabyte-scale data, NumS achieves competitive performance to SLATE on DGEMM, up to 20x speedup over Dask on a key operation for tensor factorization, and a 2x speedup on logistic regression compared to Dask ML and Spark's MLlib. | 翻訳日:2022-06-30 21:32:28 公開日:2022-06-28 |
# 生成型ニューラルArticulated Radiance Fields Generative Neural Articulated Radiance Fields ( http://arxiv.org/abs/2206.14314v1 ) ライセンス: Link先を確認 | Alexander W. Bergman, Petr Kellnhofer, Yifan Wang, Eric R. Chan, David B. Lindell, Gordon Wetzstein | (参考訳) 単視点2D画像のみを用いた3次元認識型生成敵ネットワーク(GAN)の教師なし学習は,近年,非常に進歩している。
しかし、これらの3D GANは人体では実証されておらず、既存のフレームワークの放射界は直接編集できないため、下流タスクにおける適用性が制限されている。
本研究では,人体や顔の放射界を標準的なポーズで生成し,所望の身体ポーズや表情に明示的な変形場を用いてワープする3D GANフレームワークを開発することで,これらの課題に対する解決策を提案する。
本フレームワークを用いて,人体に対する最初の高品質な放射場生成結果を示す。
さらに, この変形認識訓練は, 明示的な変形を訓練していない3D GANと比較して, ポーズや表情を編集する際に生成体や顔の質を著しく向上させることを示した。 Unsupervised learning of 3D-aware generative adversarial networks (GANs) using only collections of single-view 2D photographs has very recently made much progress. These 3D GANs, however, have not been demonstrated for human bodies and the generated radiance fields of existing frameworks are not directly editable, limiting their applicability in downstream tasks. We propose a solution to these challenges by developing a 3D GAN framework that learns to generate radiance fields of human bodies or faces in a canonical pose and warp them using an explicit deformation field into a desired body pose or facial expression. Using our framework, we demonstrate the first high-quality radiance field generation results for human bodies. Moreover, we show that our deformation-aware training procedure significantly improves the quality of generated bodies or faces when editing their poses or facial expressions compared to a 3D GAN that is not trained with explicit deformations. | 翻訳日:2022-06-30 21:05:22 公開日:2022-06-28 |
# 金融における強化学習の応用 --ダブルディープq-ネットワークによる取引- Applications of Reinforcement Learning in Finance -- Trading with a Double Deep Q-Network ( http://arxiv.org/abs/2206.14267v1 ) ライセンス: Link先を確認 | Frensi Zejnullahu, Maurice Moser, Joerg Osterrieder | (参考訳) 本稿では,単一資産,すなわちE-mini S&P 500連続先物契約を取引するためのDouble Deep Q-Networkアルゴリズムを提案する。
複数の拡張を備えた環境の基盤として、実績のあるセットアップを使用します。
当社のトレーディングエージェントの機能は常に拡張され、商品などの追加資産が含まれています。
コストや危機など環境条件にも対応しています。
我々のトレーディングエージェントは、まず特定の期間にトレーニングされ、新しいデータでテストされ、長期戦略をベンチマーク(市場)として比較されます。
環境に対する各種モデルとサンプル内/サンプル内性能の違いを分析する。
実験の結果,取引業者は適切な行動をとることが判明した。
取引コストが存在する場合の中立的な立場をより広範囲に活用するなど、さまざまな状況で政策を調整することができる。
さらに、純資産価値はベンチマーク値を超え、エージェントはテストセットで市場を上回った。
DDQNアルゴリズムを用いて,金融分野におけるエージェントの行動に関する初期知見を提供する。
本研究の結果はさらなる発展に有効である。 This paper presents a Double Deep Q-Network algorithm for trading single assets, namely the E-mini S&P 500 continuous futures contract. We use a proven setup as the foundation for our environment with multiple extensions. The features of our trading agent are constantly being expanded to include additional assets such as commodities, resulting in four models. We also respond to environmental conditions, including costs and crises. Our trading agent is first trained for a specific time period and tested on new data and compared with the long-and-hold strategy as a benchmark (market). We analyze the differences between the various models and the in-sample/out-of-sample performance with respect to the environment. The experimental results show that the trading agent follows an appropriate behavior. It can adjust its policy to different circumstances, such as more extensive use of the neutral position when trading costs are present. Furthermore, the net asset value exceeded that of the benchmark, and the agent outperformed the market in the test set. We provide initial insights into the behavior of an agent in a financial domain using a DDQN algorithm. The results of this study can be used for further development. | 翻訳日:2022-06-30 21:01:25 公開日:2022-06-28 |
# ディープリコメンデーションにおける協調レトリバーとランカ Cooperative Retriever and Ranker in Deep Recommenders ( http://arxiv.org/abs/2206.14649v1 ) ライセンス: Link先を確認 | Xu Huang, Defu Lian, Jin Chen, Zheng Liu, Xing Xie, Enhong Chen | (参考訳) ディープレコメンダシステムは、検索とランキング操作を共同で活用し、レコメンデーション結果を生成する。
検索者は、項目全体から少数の関連候補を高い効率で選択することを目標とし、ランカは、通常より正確だが時間を要するが、検索候補の中から最も優れた項目を高精度に識別する。
しかしながら、レトリバーとランサーは、通常、非協力的な方法で訓練され、全体として働く際の推奨パフォーマンスが制限される。
本研究では,検索者とランカの相互強化が可能な新しいdrm学習フレームワークcorr(collaborative retriever and ranker)を提案する。
一方、レトリバーは、リコメンデーションデータおよびインフォメーション蒸留によりローダを学習し、インフォメーション蒸留がより正確であることを知ることにより、検索品質の向上のためにさらに弱いスーパービジョン信号を提供することができる。
一方、ランク付け者は、検索者からサンプリングされた硬い負の候補から真偽の正の項目を判別する学習によって訓練される。
反復が進むと、ランサーはより正確になり、それと引き換えにレトリバーに対する情報的訓練信号がもたらされるが、レトリバーの改善により、より厳しい負の候補をサンプリングすることができ、ローダのより高い識別能力に寄与する。
CoRRの有効実行を容易にするため, 試料を蒸留した知識蒸留において, KL分散の漸近的非バイアス近似を導入し, さらに, 効率よく試料を採取するためのスケーラブルで適応的な戦略を開発した。
4つの大規模ベンチマークデータセットに対して総合的な実験を行い、CoRRはレシーバーとランサーの協調による全体的な推奨品質を改善する。 Deep recommender systems jointly leverage the retrieval and ranking operations to generate the recommendation result. The retriever targets selecting a small set of relevant candidates from the entire items with high efficiency; while the ranker, usually more precise but time-consuming, is supposed to identify the best items out of the retrieved candidates with high precision. However, the retriever and ranker are usually trained in poorly-cooperative ways, leading to limited recommendation performances when working as an entirety. In this work, we propose a novel DRS training framework CoRR(short for Cooperative Retriever and Ranker), where the retriever and ranker can be mutually reinforced. On one hand, the retriever is learned from recommendation data and the ranker via knowledge distillation; knowing that the ranker is more precise, the knowledge distillation may provide extra weak-supervision signals for the improvement of retrieval quality. On the other hand, the ranker is trained by learning to discriminate the truth positive items from hard negative candidates sampled from the retriever. With the iteration going on, the ranker may become more precise, which in return gives rise to informative training signals for the retriever; meanwhile, with the improvement of retriever, harder negative candidates can be sampled, which contributes to a higher discriminative capability of the ranker. To facilitate the effective conduct of CoRR, an asymptotic-unbiased approximation of KL divergence is introduced for the knowledge distillation over sampled items; besides, a scalable and adaptive strategy is developed to efficiently sample from the retriever. Comprehensive experimental studies are performed over four large-scale benchmark datasets, where CoRR improves the overall recommendation quality resulting from the cooperation between retriever and ranker. | 翻訳日:2022-06-30 20:58:17 公開日:2022-06-28 |
# 左重機とDNNによるソコバン計画ベストファースト探索における政策・価値ネットワークの有効性 Left Heavy Tails and the Effectiveness of the Policy and Value Networks in DNN-based best-first search for Sokoban Planning ( http://arxiv.org/abs/2206.14298v1 ) ライセンス: Link先を確認 | Dieqiao Feng, Carla Gomes, Bart Selman | (参考訳) SATやCSPなどのNP完全ドメインでの実践的な問題解決の成功や、Goのような2プレイヤーゲームへの深い強化学習にもかかわらず、PSPACEのハードプランニング問題の一部クラスは未解決のままである。
さらに注意深い設計のドメイン特化解法は、ハードインスタンス上の指数探索空間のために迅速に失敗する。
近年,最優先探索やモンテカルロ木探索,Deep Neural Networks (DNN) のヒューリスティックスといった従来の探索手法と組み合わせた研究は,有望な進歩を示し,特殊な解法を超越した多くのハードプランニングインスタンスを解くことができる。
これらの手法がなぜ機能するのかをより深く理解するため、我々は、DNNによるソコバン上でのベストファースト検索のポリシーと価値ネットワークの相互作用を研究し、さらにバリューネットワークによって強化されたポリシーネットワークの驚くべき効果を示す。
この現象をより深く理解するために,探索アルゴリズムのコスト分布を調べたところ,ソコバンインスタンスは左と右の両方に尾を持つ重尾のランタイム分布を持つことができた。
特に, 初めて \textit{left heavy tails} の存在を示し, これらの尾の出現を経験的に説明できる抽象木モデルを提案する。
これらの実験は, 指数関数的にサイズのサブツリーを探索することを避けることで, 多項式スケーリングによる左重みの増大につながるような, 探索を導く強力なヒューリスティックとして, 政策ネットワークが重要な役割を担っていることを示す。
また,DNNをベースとした探索手法において,従来の組合せ解法で広く用いられているように,ランダム再起動の重要性も示している。 Despite the success of practical solvers in various NP-complete domains such as SAT and CSP as well as using deep reinforcement learning to tackle two-player games such as Go, certain classes of PSPACE-hard planning problems have remained out of reach. Even carefully designed domain-specialized solvers can fail quickly due to the exponential search space on hard instances. Recent works that combine traditional search methods, such as best-first search and Monte Carlo tree search, with Deep Neural Networks' (DNN) heuristics have shown promising progress and can solve a significant number of hard planning instances beyond specialized solvers. To better understand why these approaches work, we studied the interplay of the policy and value networks of DNN-based best-first search on Sokoban and show the surprising effectiveness of the policy network, further enhanced by the value network, as a guiding heuristic for the search. To further understand the phenomena, we studied the cost distribution of the search algorithms and found that Sokoban instances can have heavy-tailed runtime distributions, with tails both on the left and right-hand sides. In particular, for the first time, we show the existence of \textit{left heavy tails} and propose an abstract tree model that can empirically explain the appearance of these tails. The experiments show the critical role of the policy network as a powerful heuristic guiding the search, which can lead to left heavy tails with polynomial scaling by avoiding exploring exponentially sized subtrees. Our results also demonstrate the importance of random restarts, as are widely used in traditional combinatorial solvers, for DNN-based search methods to avoid left and right heavy tails. | 翻訳日:2022-06-30 20:32:19 公開日:2022-06-28 |
# 建築問題:冬期における温熱快適予測に基づく機械学習の空間変動 Building Matters: Spatial Variability in Machine Learning Based Thermal Comfort Prediction in Winters ( http://arxiv.org/abs/2206.14202v1 ) ライセンス: Link先を確認 | Betty Lala, Srikant Manas Kala, Anmol Rastogi, Kunal Dahiya, Hirozumi Yamaguchi, Aya Hagishima | (参考訳) 室内環境の熱的快適さは、居住者の健康、幸福、そしてパフォーマンスに大きな影響を及ぼす。
エネルギー効率とIoT(Internet-of-Things)が有効になったスマートな建物を考えると、機械学習(ML)はデータ駆動熱快適(TC)予測にますます利用されている。
一般に、MLベースのソリューションは、空調またはHVAC換気された建物に対して提案され、モデルは主に大人向けに設計されている。
一方で、ほとんどの国では自然換気式(nv)建物が一般的である。
また、エネルギー保全や長期持続可能性目標にも適している。
しかし、NVビルの室内環境は温度調節に欠けており、空間的文脈によって大きく異なる。
これらの要因により、TC予測は非常に難しい。
したがって,建築環境がTCモデルの性能に与える影響を判断することが重要である。
さらに,様々なnv屋内空間におけるtc予測モデルの一般化について検討する必要がある。
この仕事はこれらの問題に対処する。
512人の小学校学生を対象とし, 自然換気施設5棟で1ヶ月にわたるフィールド実験を行った。
空間的変動が生徒の快適性に及ぼす影響は,予測精度の変動(最大71%)によって示される。
また, 建築環境がtc予測に及ぼす影響を, 特徴量の変化から示す。
さらに, 子ども(我々のデータセット)と成人(ASHRAE-IIデータベース)を対象に, モデル性能の空間変動性の比較分析を行った。
最後に,NV教室におけるサーマルコンディションモデルの一般化能力を評価し,大きな課題を浮き彫りにした。 Thermal comfort in indoor environments has an enormous impact on the health, well-being, and performance of occupants. Given the focus on energy efficiency and Internet-of-Things enabled smart buildings, machine learning (ML) is being increasingly used for data-driven thermal comfort (TC) prediction. Generally, ML-based solutions are proposed for air-conditioned or HVAC ventilated buildings and the models are primarily designed for adults. On the other hand, naturally ventilated (NV) buildings are the norm in most countries. They are also ideal for energy conservation and long-term sustainability goals. However, the indoor environment of NV buildings lacks thermal regulation and varies significantly across spatial contexts. These factors make TC prediction extremely challenging. Thus, determining the impact of the building environment on the performance of TC models is important. Further, the generalization capability of TC prediction models across different NV indoor spaces needs to be studied. This work addresses these problems. Data is gathered through month-long field experiments conducted in 5 naturally ventilated school buildings, involving 512 primary school students. The impact of spatial variability on student comfort is demonstrated through variation in prediction accuracy (by as much as 71%). The influence of building environment on TC prediction is also demonstrated through variation in feature importance. Further, a comparative analysis of spatial variability in model performance is done for children (our dataset) and adults (ASHRAE-II database). Finally, the generalization capability of thermal comfort models in NV classrooms is assessed and major challenges are highlighted. | 翻訳日:2022-06-30 20:26:16 公開日:2022-06-28 |
# 条件付きモンジュマップの監督訓練 Supervised Training of Conditional Monge Maps ( http://arxiv.org/abs/2206.14262v1 ) ライセンス: Link先を確認 | Charlotte Bunne, Andreas Krause, Marco Cuturi | (参考訳) 最適輸送(OT)理論は、多くの可能な選択の中から確率測度を他のものにマッピングする最も効率的な方法を定義し、選択する一般的な原理を記述している。
この理論は、ソースとターゲットの確率測度の組$(\mu,\nu)$を考えると、パラメータ化された写像 $t_\theta$ は、$\mu$ を$\nu$ に効率的にマッピングできる。
治療に対する細胞応答の予測のような多くの応用において、最適な輸送問題を定義するための$\mu,\nu$(未処理/処理細胞の特徴)は単独では発生せず、文脈$c$(治療)と関連づけられる。
OT推定にそのコンテキストを考慮し、組み込むために、コンテキストラベル$c_i$でタグ付けされた数組の測度$(\mu_i, \nu_i)$ taggedを用いて、コンテキスト変数に条件付きOTマップを推定するアプローチであるCondOTを導入する。
我々のゴールは、ラベル付きペアのデータセットから%抽出することである。 $\{(c_i, (\mu_i, \nu_i))\} グローバルマップの$\mathcal{T}_{\theta}$は、データセットの$\{(c_i, (\mu_i, \nu_i))\}$、すなわち$\mathcal{T}_{\theta}(c_i) \sharp\mu_i \approx \nu_i$であるが、意味のあるマップの$\mathcal{T}_{\theta}(c_{\text{new}})$条件付きである。
提案手法は,部分的に入力された凸ニューラルネットワークに対して,ガウス近似にインスパイアされた堅牢で効率的な初期化戦略を導入し,新しい用途を提供する。
本研究では,CondOTが単一細胞に対する遺伝的・治療的摂動の任意の組み合わせの効果を推測する能力を示した。 Optimal transport (OT) theory describes general principles to define and select, among many possible choices, the most efficient way to map a probability measure onto another. That theory has been mostly used to estimate, given a pair of source and target probability measures $(\mu,\nu)$, a parameterized map $T_\theta$ that can efficiently map $\mu$ onto $\nu$. In many applications, such as predicting cell responses to treatments, the data measures $\mu,\nu$ (features of untreated/treated cells) that define optimal transport problems do not arise in isolation but are associated with a context $c$ (the treatment). To account for and incorporate that context in OT estimation, we introduce CondOT, an approach to estimate OT maps conditioned on a context variable, using several pairs of measures $(\mu_i, \nu_i)$ tagged with a context label $c_i$. Our goal is to % extract from a dataset of labeled pairs $\{(c_i, (\mu_i, \nu_i))\}$ learn a global map $\mathcal{T}_{\theta}$ which is not only expected to fit em all pairs in the dataset $\{(c_i, (\mu_i, \nu_i))\}$, i.e., $\mathcal{T}_{\theta}(c_i) \sharp\mu_i \approx \nu_i$, but should generalize to produce meaningful maps $\mathcal{T}_{\theta}(c_{\text{new}})$ conditioned on unseen contexts $c_{\text{new}}$. Our approach harnesses and provides a novel usage for partially input convex neural networks, for which we introduce a robust and efficient initialization strategy inspired by Gaussian approximations. We demonstrate the ability of CondOT to infer the effect of an arbitrary combination of genetic or therapeutic perturbations on single cells, using only observations of the effects of said perturbations separately. | 翻訳日:2022-06-30 20:25:01 公開日:2022-06-28 |
# 貯留層サンプリングとIoTデバイスのLOFに基づくオンライン異常検出 Online Anomaly Detection Based On Reservoir Sampling and LOF for IoT devices ( http://arxiv.org/abs/2206.14265v1 ) ライセンス: Link先を確認 | Tomasz Szydlo | (参考訳) マシンや機器の動作を監視するIoTデバイスの増加と使用により、デバイス上で動作する異常検出アルゴリズムへの関心が高まっている。
しかし、困難はデバイス上の利用可能な計算資源とメモリ資源の制限である。
マイクロコントローラ(mcus)の場合、これらは1メガバイトのプログラムと数百キロバイトの動作メモリである。
したがって、アルゴリズムはデバイスの能力と適切に一致しなければならない。
本稿では,MCU上の局所アウトライン因子(LOF)アルゴリズムの異常検出と実装のための処理パイプラインの解析を行う。
また,このようなアルゴリズムをデバイス上で直接トレーニングすることは可能であり,実際のデバイスでソリューションを使用する可能性も高い。 The growing number of IoT devices and their use to monitor the operation of machines and equipment increases interest in anomaly detection algorithms running on devices. However, the difficulty is the limitations of the available computational and memory resources on the devices. In the case of microcontrollers (MCUs), these are single megabytes of program and several hundred kilobytes of working memory. Consequently, algorithms must be appropriately matched to the capabilities of the devices. In the paper, we analyse the processing pipeline for anomaly detection and implementation of the Local Outliner Factor (LOF) algorithm on a MCU. We also show that it is possible to train such an algorithm directly on the device, which gives great potential to use the solution in real devices. | 翻訳日:2022-06-30 20:24:01 公開日:2022-06-28 |
# ディープラーニングモデル変換における課題の実証的研究 An Empirical Study of Challenges in Converting Deep Learning Models ( http://arxiv.org/abs/2206.14322v1 ) ライセンス: Link先を確認 | Moses Openja, Amin Nikanjam, Ahmed Haj Yahmed, Foutse Khomh, Zhen Ming (Jack) Jiang | (参考訳) 現実世界のアプリケーションにディープラーニング(DL)ベースのソフトウェアシステムのデプロイが増加している。
通常、DLモデルは、DLモデルを表現し、訓練するための独自の内部メカニズム/フォーマットを持つDLフレームワークを使用して開発され、訓練される。
さらに、訓練されたモデルは、通常、開発場所とは異なる環境でデプロイされる。
相互運用性の問題を解決し、異なるフレームワーク/環境とDLモデルを互換性を持たせるために、ONNXやCoreMLのようなDLモデルにいくつかの交換フォーマットが導入されている。
しかし、ONNXとCoreMLは、変換後の予測精度、性能、堅牢性を明らかにするために、コミュニティによって実験的に評価されなかった。
変換されたモデルの粗悪な精度や非破壊的な振る舞いは、DLベースのソフトウェアシステムの品質の低下につながる可能性がある。
本稿では,ONNX と CoreML を訓練された DL モデルを変換するための実験的検討を行った。
私たちの体系的なアプローチでは、KerasとPyTorchという2つの人気のあるDLフレームワークを使用して、3つの人気のあるデータセット上で5つの広く使われているDLモデルをトレーニングしています。
トレーニングされたモデルはONNXとCoreMLに変換され、そのようなフォーマット用に指定された2つのランタイム環境に変換され、評価される。
変換前後の予測精度について検討する。
その結果,変換モデルの予測精度は原文と同程度であることが判明した。
また,変換モデルの性能(時間コストとメモリ消費)についても検討した。
モデルのサイズは変換後に縮小され、DLベースのソフトウェアデプロイメントが最適化される可能性がある。
変換モデルは一般的に、同じオリジナルレベルで堅牢であると評価される。
しかし,ONNXと比較してCoreMLモデルは敵攻撃に対して脆弱であることがわかった。 There is an increase in deploying Deep Learning (DL)-based software systems in real-world applications. Usually DL models are developed and trained using DL frameworks that have their own internal mechanisms/formats to represent and train DL models, and usually those formats cannot be recognized by other frameworks. Moreover, trained models are usually deployed in environments different from where they were developed. To solve the interoperability issue and make DL models compatible with different frameworks/environments, some exchange formats are introduced for DL models, like ONNX and CoreML. However, ONNX and CoreML were never empirically evaluated by the community to reveal their prediction accuracy, performance, and robustness after conversion. Poor accuracy or non-robust behavior of converted models may lead to poor quality of deployed DL-based software systems. We conduct, in this paper, the first empirical study to assess ONNX and CoreML for converting trained DL models. In our systematic approach, two popular DL frameworks, Keras and PyTorch, are used to train five widely used DL models on three popular datasets. The trained models are then converted to ONNX and CoreML and transferred to two runtime environments designated for such formats, to be evaluated. We investigate the prediction accuracy before and after conversion. Our results unveil that the prediction accuracy of converted models are at the same level of originals. The performance (time cost and memory consumption) of converted models are studied as well. The size of models are reduced after conversion, which can result in optimized DL-based software deployment. Converted models are generally assessed as robust at the same level of originals. However, obtained results show that CoreML models are more vulnerable to adversarial attacks compared to ONNX. | 翻訳日:2022-06-30 20:23:51 公開日:2022-06-28 |
# 低リソース音声理解のためのボトルネック低ランクトランスフォーマ Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding ( http://arxiv.org/abs/2206.14318v1 ) ライセンス: Link先を確認 | Pu Wang and Hugo Van hamme | (参考訳) エンド・ツー・エンドの音声言語理解(SLU)システムは、大規模コーパスの事前学習の恩恵を受ける。
結果として得られるモデルは、オンプレミスアプリケーションには大きすぎる。
例えば、bertベースのシステムは110m以上のパラメータを含む。
モデルが過度にパラメータ化されていることを観測し,グループスパルシティを用いて注意機構の次元を自動低減するリーントランスフォーマ構造を提案する。
学習した注目部分空間を注目ボトルネック層に転送する変種を提案する。
低リソース環境では、事前訓練なしで、結果として得られるコンパクトなSLUモデルは、事前訓練された大規模モデルと競合する精度を達成する。 End-to-end spoken language understanding (SLU) systems benefit from pretraining on large corpora, followed by fine-tuning on application-specific data. The resulting models are too large for on-edge applications. For instance, BERT-based systems contain over 110M parameters. Observing the model is overparameterized, we propose lean transformer structure where the dimension of the attention mechanism is automatically reduced using group sparsity. We propose a variant where the learned attention subspace is transferred to an attention bottleneck layer. In a low-resource setting and without pre-training, the resulting compact SLU model achieves accuracies competitive with pre-trained large models. | 翻訳日:2022-06-30 20:08:35 公開日:2022-06-28 |
# 時系列データセットの生成異常検出 Generative Anomaly Detection for Time Series Datasets ( http://arxiv.org/abs/2206.14597v1 ) ライセンス: Link先を確認 | Zhuangwei Kang, Ayan Mukhopadhyay, Aniruddha Gokhale, Shijie Wen, Abhishek Dubey | (参考訳) 交通渋滞異常検出は知的交通システムにおいて最重要事項である。
交通機関の目標は2つある:利害関係の一般的な交通状況を監視し、異常な混雑状態にある道路セグメントを見つけることである。
混雑パターンのモデル化は,多変量時系列(MTS)の分布を学習するために,都市全体の道路におけるこれらの目標を達成することができる。
しかし、既存の作品はスケーラブルでないか、mtsの空間的時間的情報を同時に捉えることができない。
そこで本研究では,トラヒック異常検出のためのトラクタブル密度推定が可能なデータ駆動型生成手法を基本的かつ包括的なフレームワークとして提案する。
提案手法では,まず特徴空間内のクラスタセグメントを抽出し,次に条件付き正規化フローを用いてクラスタレベルの異常な時間スナップショットを教師なし設定で識別する。
次に,異常クラスタ上のカーネル密度推定器を用いてセグメントレベルの異常を同定する。
合成データセットに関する広範囲な実験により,本手法はリコールとf1-scoreの点で,最先端の混雑異常検出と診断手法を著しく上回っていることが示された。
生成モデルを用いてラベル付きデータをサンプル化し、教師付き設定で分類器を訓練し、スパース設定での異常検出のためのラベル付きデータの欠如を軽減する。 Traffic congestion anomaly detection is of paramount importance in intelligent traffic systems. The goals of transportation agencies are two-fold: to monitor the general traffic conditions in the area of interest and to locate road segments under abnormal congestion states. Modeling congestion patterns can achieve these goals for citywide roadways, which amounts to learning the distribution of multivariate time series (MTS). However, existing works are either not scalable or unable to capture the spatial-temporal information in MTS simultaneously. To this end, we propose a principled and comprehensive framework consisting of a data-driven generative approach that can perform tractable density estimation for detecting traffic anomalies. Our approach first clusters segments in the feature space and then uses conditional normalizing flow to identify anomalous temporal snapshots at the cluster level in an unsupervised setting. Then, we identify anomalies at the segment level by using a kernel density estimator on the anomalous cluster. Extensive experiments on synthetic datasets show that our approach significantly outperforms several state-of-the-art congestion anomaly detection and diagnosis methods in terms of Recall and F1-Score. We also use the generative model to sample labeled data, which can train classifiers in a supervised setting, alleviating the lack of labeled data for anomaly detection in sparse settings. | 翻訳日:2022-06-30 20:08:08 公開日:2022-06-28 |
# truncated kernel ridge regressionにおけるターゲットアライメント Target alignment in truncated kernel ridge regression ( http://arxiv.org/abs/2206.14255v1 ) ライセンス: Link先を確認 | Arash A. Amini, Richard Baumgartner, Dai Feng | (参考訳) kernel ridge regression(krr)は最近、ニューラルネットワークトレーニング中に発生する二重降下のような一時的な効果を説明する可能性から、新たな関心を集めている。
本研究では,対象関数とカーネルのアライメントがKRRの性能に与える影響について検討する。
我々は、カーネル行列のスペクトル切り離しを制御する追加パラメータを利用する切り離されたKRR(TKRR)に焦点を当てる。
多項式アライメントに対して、TKRR が完全 KRR で達成可能なものよりも高速な速度を達成できる 'emph{over-aligned} 構造が存在することを示す。
TKRRの速度はパラメトリックレートまで改善でき、フルKRRの速度は準最適値で上限づけられる。
これは、ターゲットアライメントが、カーネルメソッドのスペクトル切断を利用することにより、より効果的に活用できることを示す。
また,帯域制限アライメント設定を考察し,tkrrの正規化面が複数の降下や非単調な挙動を含む過渡的効果を示すことを示した。
以上の結果から,emph{alignment spectrum} の形状とカーネル法の一般化性能との間には,速度と有限サンプルの両方において強い,定量な関係があることがわかった。 Kernel ridge regression (KRR) has recently attracted renewed interest due to its potential for explaining the transient effects, such as double descent, that emerge during neural network training. In this work, we study how the alignment between the target function and the kernel affects the performance of the KRR. We focus on the truncated KRR (TKRR) which utilizes an additional parameter that controls the spectral truncation of the kernel matrix. We show that for polynomial alignment, there is an \emph{over-aligned} regime, in which TKRR can achieve a faster rate than what is achievable by full KRR. The rate of TKRR can improve all the way to the parametric rate, while that of full KRR is capped at a sub-optimal value. This shows that target alignemnt can be better leveraged by utilizing spectral truncation in kernel methods. We also consider the bandlimited alignment setting and show that the regularization surface of TKRR can exhibit transient effects including multiple descent and non-monotonic behavior. Our results show that there is a strong and quantifable relation between the shape of the \emph{alignment spectrum} and the generalization performance of kernel methods, both in terms of rates and in finite samples. | 翻訳日:2022-06-30 20:05:47 公開日:2022-06-28 |
# 標準射影による部分空間推定器の摂動境界 A Perturbation Bound on the Subspace Estimator from Canonical Projections ( http://arxiv.org/abs/2206.14278v1 ) ライセンス: Link先を確認 | Karan Srivastava and Daniel L. Pimentel-Alarc\'on | (参考訳) 本稿では,ノイズによって汚染された正準射影の部分集合から得られる最適部分空間推定器上の摂動を導出する。
この基本的な結果は、行列補完、部分空間クラスタリング、および関連する問題に重要な意味を持つ。 This paper derives a perturbation bound on the optimal subspace estimator obtained from a subset of its canonical projections contaminated by noise. This fundamental result has important implications in matrix completion, subspace clustering, and related problems. | 翻訳日:2022-06-30 20:05:24 公開日:2022-06-28 |
# 超音波甲状腺結節に対する多段階自動データラベリング法(madlap) : 画像アノテーションの自動化のための人工知能アプローチ Multistep Automated Data Labelling Procedure (MADLaP) for Thyroid Nodules on Ultrasound: An Artificial Intelligence Approach for Automating Image Annotation ( http://arxiv.org/abs/2206.14305v1 ) ライセンス: Link先を確認 | Jikai Zhang, Maciej M. Mazurowski, Brian C. Allen, and Benjamin Wildman-Torbiner | (参考訳) 超音波における甲状腺結節診断のための機械学習(ML)は研究の活発な領域である。
しかし、MLツールは、大きくて遅延の多いデータセットを必要とし、そのキュレーションには時間と労力がかかる。
本研究の目的は,甲状腺結節データアノテーションプロセスの容易化と自動化を目的としたディープラーニングツールの開発とテストであり,このツールをMADLaP(Multistep Automated Data Labelling procedure)と名付けた。
madlapは、病理報告、超音波画像、放射線画像を含む複数の入力を受け取るように設計された。
ルールベースの自然言語処理、ディープラーニングベースの画像分割、光学文字認識を含む複数のステップワイズモジュールを用いて、MADLaPは特定の甲状腺結節の画像を自動的に識別し、病理診断ラベルを正しく割り当てる。
このモデルを開発したのは、我々の健康システム全体で378人のトレーニングセットで、93人の別の患者でテストしました。
両方のセットの根拠は経験豊富な放射線技師によって選択された。
テストセットを用いて、収率(モデルが生成したラベル付き画像数)と精度(正解率)を含むパフォーマンス指標を測定した。
MADLaPの収率は63%,精度は83%であった。
入力データが各モジュールを通過すると、収率は徐々に増加し、精度は部分的に上昇した。
誤差分析の結果,検査現場からの入力が他のサイトよりも精度が低く(40%),90%,100%であった。
madlapは甲状腺結節の超音波標識画像のキュレーションデータセットの作成に成功した。
正確性はあるものの、MADLaPの比較的最適な収量は、異種からの放射線画像を自動的にラベル付けしようとする際のいくつかの課題を露呈した。
画像キュレーションとアノテーションの複雑なタスクは自動化され、機械学習開発で使用する大きなデータセットの強化が可能になる。 Machine learning (ML) for diagnosis of thyroid nodules on ultrasound is an active area of research. However, ML tools require large, well-labelled datasets, the curation of which is time-consuming and labor-intensive. The purpose of our study was to develop and test a deep-learning-based tool to facilitate and automate the data annotation process for thyroid nodules; we named our tool Multistep Automated Data Labelling Procedure (MADLaP). MADLaP was designed to take multiple inputs included pathology reports, ultrasound images, and radiology reports. Using multiple step-wise modules including rule-based natural language processing, deep-learning-based imaging segmentation, and optical character recognition, MADLaP automatically identified images of a specific thyroid nodule and correctly assigned a pathology label. The model was developed using a training set of 378 patients across our health system and tested on a separate set of 93 patients. Ground truths for both sets were selected by an experienced radiologist. Performance metrics including yield (how many labeled images the model produced) and accuracy (percentage correct) were measured using the test set. MADLaP achieved a yield of 63% and an accuracy of 83%. The yield progressively increased as the input data moved through each module, while accuracy peaked part way through. Error analysis showed that inputs from certain examination sites had lower accuracy (40%) than the other sites (90%, 100%). MADLaP successfully created curated datasets of labeled ultrasound images of thyroid nodules. While accurate, the relatively suboptimal yield of MADLaP exposed some challenges when trying to automatically label radiology images from heterogeneous sources. The complex task of image curation and annotation could be automated, allowing for enrichment of larger datasets for use in machine learning development. | 翻訳日:2022-06-30 20:04:10 公開日:2022-06-28 |
# 経路依存型ニューラルジャンプによるジェネリックダイナミクスの最適推定 Optimal Estimation of Generic Dynamics by Path-Dependent Neural Jump ODEs ( http://arxiv.org/abs/2206.14284v1 ) ライセンス: Link先を確認 | Florian Krach, Marc N\"ubel, Josef Teichmann | (参考訳) 本稿では,ニューラルジャンプODE(NJ-ODE)フレームワークの拡張を用いた一般確率過程の予測問題について検討する。
NJ-ODEは不規則に観測された時系列の予測のための収束保証を確立する最初のフレームワークであったが、これらの結果は完全な観測を伴う It\^o-diffusion から得られたデータ、特に全ての座標が同時に観測されるマルコフ過程に限られていた。
本研究では、シグネチャ変換の再構成特性を利用して、これらの結果を非マルコフ的あるいは不連続な確率的過程と不完全な観察に一般化する。
これらの理論結果は経験的研究によって支持され、パス依存NJ-ODEは非マルコフデータの場合、元のNJ-ODEフレームワークより優れていることが示されている。 This paper studies the problem of forecasting general stochastic processes using an extension of the Neural Jump ODE (NJ-ODE) framework. While NJ-ODE was the first framework to establish convergence guarantees for the prediction of irregularly observed time-series, these results were limited to data stemming from It\^o-diffusions with complete observations, in particular Markov processes where all coordinates are observed simultaneously. In this work, we generalise these results to generic, possibly non-Markovian or discontinuous, stochastic processes with incomplete observations, by utilising the reconstruction properties of the signature transform. These theoretical results are supported by empirical studies, where it is shown that the path-dependent NJ-ODE outperforms the original NJ-ODE framework in the case of non-Markovian data. | 翻訳日:2022-06-30 20:02:25 公開日:2022-06-28 |
# BertNet: 事前訓練された言語モデルから知識グラフを得る BertNet: Harvesting Knowledge Graphs from Pretrained Language Models ( http://arxiv.org/abs/2206.14268v1 ) ライセンス: Link先を確認 | Shibo Hao, Bowen Tan, Kaiwen Tang, Hengzhe Zhang, Eric P Xing, Zhiting Hu | (参考訳) シンボリックナレッジグラフ(kgs)は、高価なクラウドソーシングまたはドメイン固有の複雑な情報抽出パイプラインによって構築されている。
Bertのような新興の大規模事前訓練言語モデル(LM)は、適切に設計されたプロンプトでクエリできる膨大な知識を暗黙的に符号化することを示した。
しかし、明示的なkgsと比較すると、ブラックボックスのlmsにおける暗黙の知識は、しばしばアクセスや編集が困難であり、説明可能性に欠ける。
本研究は,ニューラルネットワークの柔軟性とスケーラビリティを活かした自動KG構築のための新しいフレームワークであるLMからシンボルKGを抽出することを目的としている。
大量の人間の注釈データや既存の膨大なkgに依存する先行研究と比較して、このアプローチは入力として関係の最小限の定義しか必要とせず、それゆえ、これまで入手できなかった豊富な新しい関係の知識を抽出するのに適しています。
自動評価と人的評価の両方で示すように,本手法による収穫知識は,従来の手法よりもかなり正確である。
その結果、人間の注釈付きKG(例えば、ConceptNet)よりも複雑なKG(例えば、AはBが得意ではない)を含む、よりリッチなコモンセンス関係を含む、新しいKG(例えば、BertNetとRoBERTaNet)のファミリーの多様なLMから派生した。
さらに、結果として得られるKGは、それぞれのソースLMを解釈する手段としても機能し、異なるLMの様々な知識能力に関する新たな洞察をもたらす。 Symbolic knowledge graphs (KGs) have been constructed either by expensive human crowdsourcing or with domain-specific complex information extraction pipelines. The emerging large pretrained language models (LMs), such as Bert, have shown to implicitly encode massive knowledge which can be queried with properly designed prompts. However, compared to the explicit KGs, the implict knowledge in the black-box LMs is often difficult to access or edit and lacks explainability. In this work, we aim at harvesting symbolic KGs from the LMs, a new framework for automatic KG construction empowered by the neural LMs' flexibility and scalability. Compared to prior works that often rely on large human annotated data or existing massive KGs, our approach requires only the minimal definition of relations as inputs, and hence is suitable for extracting knowledge of rich new relations not available before.The approach automatically generates diverse prompts, and performs efficient knowledge search within a given LM for consistent and extensive outputs. The harvested knowledge with our approach is substantially more accurate than with previous methods, as shown in both automatic and human evaluation. As a result, we derive from diverse LMs a family of new KGs (e.g., BertNet and RoBERTaNet) that contain a richer set of commonsense relations, including complex ones (e.g., "A is capable of but not good at B"), than the human-annotated KGs (e.g., ConceptNet). Besides, the resulting KGs also serve as a vehicle to interpret the respective source LMs, leading to new insights into the varying knowledge capability of different LMs. | 翻訳日:2022-06-30 20:02:01 公開日:2022-06-28 |
# QAに基づく製品属性抽出のためのシンプルで効果的な知識駆動クエリ拡張 Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product Attribute Extraction ( http://arxiv.org/abs/2206.14264v1 ) ライセンス: Link先を確認 | Keiji Shinzato, Naoki Yoshinaga, Yandi Xia, Wei-Te Chen | (参考訳) eコマースサイトからの属性値抽出(AVE)における重要な課題は、多様な製品に対する多数の属性を扱う方法である。
この課題は、あるクエリ(属性)の製品データに価値を見出す質問応答(QA)アプローチによって部分的に解決されるが、稀で曖昧なクエリでは効果的に機能しない。
そこで本研究では,QAベースのAVEに対するクエリ(属性)の応答(値)に基づいた,シンプルな知識駆動型クエリ拡張を提案する。
クエリ(属性)の値をトレーニングデータから取得し、クエリを拡大します。
私たちは、テストにおける価値知識の不完全さを模倣する、知識ドロップアウトと知識トークン混合という2つのトリックでモデルをトレーニングします。
ave(+6.08マクロf1)の性能が向上し,特に稀な属性(+7.82マクロf1と+6.86マクロf1)について実験結果を得た。 A key challenge in attribute value extraction (AVE) from e-commerce sites is how to handle a large number of attributes for diverse products. Although this challenge is partially addressed by a question answering (QA) approach which finds a value in product data for a given query (attribute), it does not work effectively for rare and ambiguous queries. We thus propose simple knowledge-driven query expansion based on possible answers (values) of a query (attribute) for QA-based AVE. We retrieve values of a query (attribute) from the training data to expand the query. We train a model with two tricks, knowledge dropout and knowledge token mixing, which mimic the imperfection of the value knowledge in testing. Experimental results on our cleaned version of AliExpress dataset show that our method improves the performance of AVE (+6.08 macro F1), especially for rare and ambiguous attributes (+7.82 and +6.86 macro F1, respectively). | 翻訳日:2022-06-30 19:44:38 公開日:2022-06-28 |
# ラテントコンビネーションゲーム設計 Latent Combinational Game Design ( http://arxiv.org/abs/2206.14203v1 ) ライセンス: Link先を確認 | Anurag Sarkar, Seth Cooper | (参考訳) 本稿では,あるゲームセットを所望の組合せでブレンドしたプレイ可能なゲームを生成するための,深層生成潜在変数モデルを提案する。
我々はこのアプローチを潜在的な組み合わせゲーム設計と呼んでいる -- 学習された潜在表現を使ってブレンドを行うため、ブレンディングは創造性とゲームデザインの組み合わせであり、新しいプレイ可能なゲームを生成するため、組み合わせはブレンディングを行う。
ガウス混合変分オートエンコーダ (gmvaes) はガウス混合体を用いてvae潜在空間をモデル化する。
教師付きトレーニングを通じて、各コンポーネントは1つのゲームからレベルをエンコードし、学習したコンポーネントの線形結合として新しいブレンドゲームを定義することができます。
これにより、入力ゲームをブレンドする新しいゲームを生成すると同時に、ブレンド中の各ゲームの相対比率を制御することができる。
また,条件付きVAEを用いた先行作業を拡張し,GMVAEと比較した。
以上の結果から,両モデルが所望の割合で混合可能な混合ゲームを生成することができることがわかった。 We present an approach for generating playable games that blend a given set of games in a desired combination using deep generative latent variable models. We refer to this approach as latent combinational game design -- latent since we use learned latent representations to perform blending, combinational since game blending is a combinational creativity process and game design since the approach generates novel, playable games. We use Gaussian Mixture Variational Autoencoders (GMVAEs), which use a mixture of Gaussians to model the VAE latent space. Through supervised training, each component learns to encode levels from one game and lets us define new, blended games as linear combinations of these learned components. This enables generating new games that blend the input games as well as control the relative proportions of each game in the blend. We also extend prior work using conditional VAEs to perform blending and compare against the GMVAE. Our results show that both models can generate playable blended games that blend the input games in the desired proportions. | 翻訳日:2022-06-30 19:41:02 公開日:2022-06-28 |
# 政策に基づく深層強化学習とインテリジェントルーティングを用いた自動運転車の交通管理 Traffic Management of Autonomous Vehicles using Policy Based Deep Reinforcement Learning and Intelligent Routing ( http://arxiv.org/abs/2206.14608v1 ) ライセンス: Link先を確認 | Anum Mushtaq, Irfan ul Haq, Muhammad Azeem Sarwar, Asifullah Khan, Omair Shafiq | (参考訳) 深層強化学習(DRL)は多様な非構造化データを使用し、RLは高次元環境で複雑なポリシーを学習できるようにする。
自律走行車(AV)をベースとしたインテリジェントトランスポーテーションシステム(ITS)は,政策ベースDRLの優れた遊び場を提供する。
ディープラーニングアーキテクチャは、現実のAVの採用とデプロイを支援しながら、従来のアルゴリズムの計算上の課題を解決する。
AVsの実装における大きな課題の1つは、確実かつ効率的に管理されていない場合、道路の渋滞を悪化させることである。
各車両の全体的効果を考慮し、効率的で信頼性の高い技術を用いることで、トラフィックフローの管理と混雑軽減を最適化するのに役立つ。
そこで本研究では,交差点と交差点裏の複雑な交通渋滞シナリオを扱うインテリジェントな交通制御システムを提案する。
交差点の混雑状況に応じて交通信号を動的に調整するdrl方式の信号制御システムを提案する。
交差点の後方の道路での渋滞に対処するため,道路ネットワーク上で車両のバランスをとるために再ルート手法を用いた。
提案手法の実際のメリットを達成するため,データサイロを分解し,センサ,検出器,車両,道路から得られるすべてのデータを組み合わせて,持続可能な結果を得る。
シミュレーションにはSUMOマイクロシミュレータを用いた。
その結果,提案手法の意義が明らかとなった。 Deep Reinforcement Learning (DRL) uses diverse, unstructured data and makes RL capable of learning complex policies in high dimensional environments. Intelligent Transportation System (ITS) based on Autonomous Vehicles (AVs) offers an excellent playground for policy-based DRL. Deep learning architectures solve computational challenges of traditional algorithms while helping in real-world adoption and deployment of AVs. One of the main challenges in AVs implementation is that it can worsen traffic congestion on roads if not reliably and efficiently managed. Considering each vehicle's holistic effect and using efficient and reliable techniques could genuinely help optimise traffic flow management and congestion reduction. For this purpose, we proposed a intelligent traffic control system that deals with complex traffic congestion scenarios at intersections and behind the intersections. We proposed a DRL-based signal control system that dynamically adjusts traffic signals according to the current congestion situation on intersections. To deal with the congestion on roads behind the intersection, we used re-routing technique to load balance the vehicles on road networks. To achieve the actual benefits of the proposed approach, we break down the data silos and use all the data coming from sensors, detectors, vehicles and roads in combination to achieve sustainable results. We used SUMO micro-simulator for our simulations. The significance of our proposed approach is manifested from the results. | 翻訳日:2022-06-30 19:40:02 公開日:2022-06-28 |
# 表現なしの計算なし No imputation without representation ( http://arxiv.org/abs/2206.14254v1 ) ライセンス: Link先を確認 | Oliver Urs Lenz, Daniel Peralta, Chris Cornelis | (参考訳) データセットに欠落した値を埋め込むことで、インプテーションはこれらのデータセットを、それ自身で欠落した値を処理できないアルゴリズムで使用することができる。
しかし、欠落した値は原則として、インプテーションによって失われる有用な情報をもたらす可能性がある。
missing-indicatorアプローチはインプテーションと組み合わせて、代わりにこの情報をデータセットの一部として表現することができる。
欠落指標が有益であるかどうかについては理論的考察がいくつかあるが、機械学習予測のためにこの問題を検証するための実生活データセットに関する大規模な実践実験は行われていない。
この実験は、20の実生活データセットに基づいて、3つの計算戦略と様々な分類アルゴリズムに対して実施する。
これらのデータセットでは、欠落指標が一般的に分類性能を向上させることが分かる。
さらに,近距離および反復的インプテーションが単純な平均/モードインプテーションよりも優れた性能をもたらすという,ほとんどのアルゴリズムの証拠は見つからなかった。
したがって,決定木では過度に収まるのを防ぐためにプルーニングが必要であることに留意して,平均/モードのインパクションを持つ欠落指標を安全なデフォルトとして使用することを推奨する。
フォローアップ実験では,欠落指標が分類性能を増加させるよりも高い確率の分類器毎に属性特異的欠落閾値を判定し,これらの閾値が数値属性よりも分類的にはるかに低いことを確認する。
最後に、数値属性の平均インプテーションは、欠落した値からの情報の一部を保存する可能性があり、欠落インジケータがなければ、モードインプテーションの代わりに1つのホットエンコードされたカテゴリ属性に平均インプテーションを適用するのも同様に有用であることを示す。 By filling in missing values in datasets, imputation allows these datasets to be used with algorithms that cannot handle missing values by themselves. However, missing values may in principle contribute useful information that is lost through imputation. The missing-indicator approach can be used in combination with imputation to instead represent this information as a part of the dataset. There are several theoretical considerations why missing-indicators may or may not be beneficial, but there has not been any large-scale practical experiment on real-life datasets to test this question for machine learning predictions. We perform this experiment for three imputation strategies and a range of different classification algorithms, on the basis of twenty real-life datasets. We find that on these datasets, missing-indicators generally increase classification performance. In addition, we find no evidence for most algorithms that nearest neighbour and iterative imputation lead to better performance than simple mean/mode imputation. Therefore, we recommend the use of missing-indicators with mean/mode imputation as a safe default, with the caveat that for decision trees, pruning is necessary to prevent overfitting. In a follow-up experiment, we determine attribute-specific missingness thresholds for each classifier above which missing-indicators are more likely than not to increase classification performance, and observe that these thresholds are much lower for categorical than for numerical attributes. Finally, we argue that mean imputation of numerical attributes may preserve some of the information from missing values, and we show that in the absence of missing-indicators, it can similarly be useful to apply mean imputation to one-hot encoded categorical attributes instead of mode imputation. | 翻訳日:2022-06-30 19:39:29 公開日:2022-06-28 |
# 医用画像分析における強化学習:概念,応用,課題,今後の方向性 Reinforcement Learning in Medical Image Analysis: Concepts, Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2206.14302v1 ) ライセンス: Link先を確認 | Mingzhe Hu, Jiahan Zhang, Luke Matkovic, Tian Liu and Xiaofeng Yang | (参考訳) モチベーション: 医学画像解析は、医師が病変や解剖学的構造を質的かつ定量的に分析し、診断と予後の正確性と信頼性を著しく改善するためのタスクである。
伝統的に、これらのタスクは医師または医師によって完了し、2つの主要な問題に繋がる。
(i)低効率
(ii)個人的な経験による偏り。
過去10年間,画像解析プロセスの高速化と自動化に多くの機械学習手法が適用されてきた。
教師付き学習モデルや教師なし学習モデルの膨大な展開に比べ、医療画像分析で強化学習を使用する試みは少ない。
このレビュー記事は、関連する研究の足掛かりとなるかもしれない。
意義:近年,強化学習の勢いは徐々に高まっているが,医療分析分野の研究者の多くは,診療所内では理解や展開が難しいと感じている。
1つの原因は、専門的なコンピュータサイエンスのバックグラウンドを欠いた読者を対象とした、よく組織されたレビュー記事の欠如である。
医用画像解析における強化学習モデルの包括的リストを提供するのではなく、本論文は、強化学習問題として医用画像解析研究の定式化と解法を学ぶのに役立つかもしれない。
Approach & Results: Google ScholarとPubMedから公開された記事を選びました。
関連記事の不足も考慮し,最新のプレプリントもいくつか紹介した。
本論文は,画像解析タスクの種類に応じて慎重にレビューし,分類する。
まず,強化学習の基本概念とポピュラーモデルについて概説する。
次に,ランドマーク検出における強化学習モデルの応用について検討する。
最後に、レビューされた強化学習アプローチの制限と改善の可能性について論じる。 Motivation: Medical image analysis involves tasks to assist physicians in qualitative and quantitative analysis of lesions or anatomical structures, significantly improving the accuracy and reliability of diagnosis and prognosis. Traditionally, these tasks are finished by physicians or medical physicists and lead to two major problems: (i) low efficiency; (ii) biased by personal experience. In the past decade, many machine learning methods have been applied to accelerate and automate the image analysis process. Compared to the enormous deployments of supervised and unsupervised learning models, attempts to use reinforcement learning in medical image analysis are scarce. This review article could serve as the stepping-stone for related research. Significance: From our observation, though reinforcement learning has gradually gained momentum in recent years, many researchers in the medical analysis field find it hard to understand and deploy in clinics. One cause is lacking well-organized review articles targeting readers lacking professional computer science backgrounds. Rather than providing a comprehensive list of all reinforcement learning models in medical image analysis, this paper may help the readers to learn how to formulate and solve their medical image analysis research as reinforcement learning problems. Approach & Results: We selected published articles from Google Scholar and PubMed. Considering the scarcity of related articles, we also included some outstanding newest preprints. The papers are carefully reviewed and categorized according to the type of image analysis task. We first review the basic concepts and popular models of reinforcement learning. Then we explore the applications of reinforcement learning models in landmark detection. Finally, we conclude the article by discussing the reviewed reinforcement learning approaches' limitations and possible improvements. | 翻訳日:2022-06-30 19:37:14 公開日:2022-06-28 |
# 視覚制御のためのマスキングワールドモデル Masked World Models for Visual Control ( http://arxiv.org/abs/2206.14244v1 ) ライセンス: Link先を確認 | Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James, Kimin Lee, Pieter Abbeel | (参考訳) 視覚モデルに基づく強化学習(RL)は、視覚観察からサンプル効率のよいロボット学習を可能にする可能性がある。
しかし、現在のアプローチでは、視覚表現とダイナミクスの両方を学ぶために、単一のモデルのエンドツーエンドをトレーニングしているため、ロボットと小さなオブジェクト間のインタラクションを正確にモデル化することは難しい。
本研究では,視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
具体的には、畳み込み層と視覚変換器(ViT)を備えたオートエンコーダを訓練し、マスク付き畳み込み特徴を持つ画素を再構成し、オートエンコーダから表現を操作する潜在ダイナミクスモデルを学ぶ。
さらに,タスク関連情報をエンコードするために,自動エンコーダに対する補助報酬予測目標を提案する。
環境相互作用から収集したオンラインサンプルを用いて,オートエンコーダと動的モデルの両方を継続的に更新する。
我々は,メタワールドとRLBenchの様々な視覚ロボットタスクの最先端性能,例えばメタワールドとRLBenchの50の視覚ロボット操作タスクの81.7%の成功率,ベースラインが67.9%を達成したことを実証した。
https://sites.google.com/view/mwm-rl.com.com/ コードはこちら。 Visual model-based reinforcement learning (RL) has the potential to enable sample-efficient robot learning from visual observations. Yet the current approaches typically train a single model end-to-end for learning both visual representations and dynamics, making it difficult to accurately model the interaction between robots and small objects. In this work, we introduce a visual model-based RL framework that decouples visual representation learning and dynamics learning. Specifically, we train an autoencoder with convolutional layers and vision transformers (ViT) to reconstruct pixels given masked convolutional features, and learn a latent dynamics model that operates on the representations from the autoencoder. Moreover, to encode task-relevant information, we introduce an auxiliary reward prediction objective for the autoencoder. We continually update both autoencoder and dynamics model using online samples collected from environment interaction. We demonstrate that our decoupling approach achieves state-of-the-art performance on a variety of visual robotic tasks from Meta-world and RLBench, e.g., we achieve 81.7% success rate on 50 visual robotic manipulation tasks from Meta-world, while the baseline achieves 67.9%. Code is available on the project website: https://sites.google.com/view/mwm-rl. | 翻訳日:2022-06-30 19:09:48 公開日:2022-06-28 |
# (参考訳) 画像分類のための変換器による連続学習 Continual Learning with Transformers for Image Classification ( http://arxiv.org/abs/2206.14085v1 ) ライセンス: CC BY 4.0 | Beyza Ermis, Giovanni Zappella, Martin Wistuba, Aditya Rawal, Cedric Archambeau | (参考訳) 多くの現実世界のシナリオでは、機械学習モデルをトレーニングするデータが時間とともに利用可能になる。
しかし、ニューラルネットワークモデルは、過去に学んだことを忘れずに、新しい概念を継続的に学習する。
この現象は破滅的な忘れ物として知られており、保存できるデータの量や使用可能な限られた計算源など、現実的な制約のために予防することがしばしば困難である。
さらに、トランスフォーマーのような大規模なニューラルネットワークをスクラッチからトレーニングするのは非常にコストがかかり、大量のトレーニングデータを必要とする。
最近の傾向は、パラメータの拡張に基づく動的アーキテクチャは、継続的な学習において破滅的な忘れを効率的に減らすことができることを示しているが、これは、パラメータの増大とタスク間の情報の共有がほとんどない複雑なチューニングを必要とする。
その結果、大きなオーバーヘッドを伴わずに、大量のタスクにスケールするのに苦労した。
本稿では,コンピュータビジョン領域において,事前学習されたトランスフォーマーとアダプタを用いてテキスト分類タスクを連続学習するために開発された適応蒸留アダプタ(ada)と呼ばれる最近のソリューションを検証する。
本手法はモデルの再学習や時間とともにモデルパラメータの数を増やすことなく,優れた予測性能を維持することを実証的に示す。
さらに、推論時間が最先端のメソッドよりも大幅に高速である。 In many real-world scenarios, data to train machine learning models become available over time. However, neural network models struggle to continually learn new concepts without forgetting what has been learnt in the past. This phenomenon is known as catastrophic forgetting and it is often difficult to prevent due to practical constraints, such as the amount of data that can be stored or the limited computation sources that can be used. Moreover, training large neural networks, such as Transformers, from scratch is very costly and requires a vast amount of training data, which might not be available in the application domain of interest. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning, but this needs complex tuning to balance the growing number of parameters and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we validate in the computer vision domain a recent solution called Adaptive Distillation of Adapters (ADA), which is developed to perform continual learning using pre-trained Transformers and Adapters on text classification tasks. We empirically demonstrate on different classification tasks that this method maintains a good predictive performance without retraining the model or increasing the number of model parameters over the time. Besides it is significantly faster at inference time compared to the state-of-the-art methods. | 翻訳日:2022-06-30 19:07:11 公開日:2022-06-28 |
# (参考訳) 敵を操る方法: グラデーションリダイレクトで防御を盗むターゲットと効率のよいモデル How to Steer Your Adversary: Targeted and Efficient Model Stealing Defenses with Gradient Redirection ( http://arxiv.org/abs/2206.14157v1 ) ライセンス: CC BY-SA 4.0 | Mantas Mazeika, Bo Li, David Forsyth | (参考訳) モデル盗み攻撃は、パブリック機械学習apiのジレンマをもたらす。
金融投資を保護するため、企業は、不確実性の推定や予測説明など、盗難を促進するモデルに関する重要な情報を保持せざるを得ない可能性がある。
この妥協はユーザーだけでなく外部の透明性にも有害である。
モデル盗難防衛は、モデルを盗むのを難しくし、良心的なユーザーのためにユーティリティを保存することで、このジレンマを解決する。
しかし、既存の防衛は性能が悪く、膨大な計算オーバーヘッドを必要とするか、厳しい実用上のトレードオフを必要とする。
これらの課題に対処するため、勾配リダイレクトと呼ばれる盗難防御をモデル化する新しいアプローチを提案する。
私たちのアプローチの核心は、敵のトレーニングアップデートをターゲットとした方法で操作するための、最適かつ効率的なアルゴリズムです。
GRAD${}^2$ と呼ばれる,ネットワークサロゲートの改良と新たな協調防衛戦略を組み合わさって,小型のユーティリティトレードオフと計算オーバーヘッドの低減を実現し,より優れた先行防衛を達成している。
さらに, グラデーション・リダイレクトにより, 敵を任意の行動で再プログラミングできることを実証し, 新たな防御方法の開発が促進されることを期待する。 Model stealing attacks present a dilemma for public machine learning APIs. To protect financial investments, companies may be forced to withhold important information about their models that could facilitate theft, including uncertainty estimates and prediction explanations. This compromise is harmful not only to users but also to external transparency. Model stealing defenses seek to resolve this dilemma by making models harder to steal while preserving utility for benign users. However, existing defenses have poor performance in practice, either requiring enormous computational overheads or severe utility trade-offs. To meet these challenges, we present a new approach to model stealing defenses called gradient redirection. At the core of our approach is a provably optimal, efficient algorithm for steering an adversary's training updates in a targeted manner. Combined with improvements to surrogate networks and a novel coordinated defense strategy, our gradient redirection defense, called GRAD${}^2$, achieves small utility trade-offs and low computational overhead, outperforming the best prior defenses. Moreover, we demonstrate how gradient redirection enables reprogramming the adversary with arbitrary behavior, which we hope will foster work on new avenues of defense. | 翻訳日:2022-06-29 15:32:02 公開日:2022-06-28 |
# (参考訳) 閉塞性自律運転における目標認識の検証 Verifiable Goal Recognition for Autonomous Driving with Occlusions ( http://arxiv.org/abs/2206.14163v1 ) ライセンス: CC0 1.0 | Cillian Brewitt, Massimiliano Tamborski, Stefano V. Albrecht | (参考訳) 自動運転に使用される場合、目標認識により、他の車両の将来の挙動をより正確に予測することができる。
最近の自動運転車の目標認識手法であるgritは、高速、正確、解釈可能、検証可能であることが示されている。
自動運転車では、トレーニング中に目に見えない新しいシナリオに遭遇し、閉塞のため環境が部分的に観察可能である。
しかし、GRITは完全な可観測性を持つ固定フレームシナリオでしか動作できない。
OGRIT (Occlusion) によるゴール認識手法としてゴール認識(Goal Recognition with Interpretable Trees)を提案する。
我々は,OGRITが異なるシナリオ間で一般化し,排他的に欠落したデータを扱える一方で,高速で正確で,解釈可能で,検証可能であることを実証した。 When used in autonomous driving, goal recognition allows the future behaviour of other vehicles to be more accurately predicted. A recent goal recognition method for autonomous vehicles, GRIT, has been shown to be fast, accurate, interpretable and verifiable. In autonomous driving, vehicles can encounter novel scenarios that were unseen during training, and the environment is partially observable due to occlusions. However, GRIT can only operate in fixed frame scenarios, with full observability. We present a novel goal recognition method named Goal Recognition with Interpretable Trees under Occlusion (OGRIT), which solves these shortcomings of GRIT. We demonstrate that OGRIT can generalise between different scenarios and handle missing data due to occlusions, while still being fast, accurate, interpretable and verifiable. | 翻訳日:2022-06-29 15:07:56 公開日:2022-06-28 |
# AS-IntroVAE: 逆の類似性距離がロバストなIntroVAEを作る AS-IntroVAE: Adversarial Similarity Distance Makes Robust IntroVAE ( http://arxiv.org/abs/2206.13903v1 ) ライセンス: Link先を確認 | Changjie Lu, Shen Zheng, Zirui Wang, Omar Dib, Gaurav Gupta | (参考訳) 近年,introvaeやs-introvaeなどのイントロスペクティブモデルが画像生成や再構成に優れている。
内観モデルの主な特徴はVAEの対角学習であり、エンコーダは実画像と偽画像(つまり合成画像)を区別しようとする。
しかし、実画像と偽画像との差を評価するための有効な指標が得られないため、後方崩壊や消滅勾配問題が存在し、合成画像の忠実性が低下する。
本稿では,AS-IntroVAE(Adversarial similarity Distance Introspective Variational Autoencoder)と呼ばれる,IntroVAEの新しいバリエーションを提案する。
理論的には、消失する勾配問題を解析し、2-ワッサーシュタイン距離とカーネルトリックを用いて新しい逆類似距離(AS-Distance)を構築する。
AS-DistanceとKL-Divergenceの重み付けにより、AS-IntroVAEは安定かつ高品質な画像を生成することができる。
後部崩壊問題は、バッチごとのイメージ変換を、遅延空間における前の分布に適合するように試みることによって解決される。
画像ごとのアプローチと比較して、この戦略は潜伏空間におけるより多様な分布を育み、我々のモデルは大きな多様性のイメージを生成できる。
ベンチマークデータセットに関する総合実験は、画像生成および再構成タスクにおけるAS-IntroVAEの有効性を示す。 Recently, introspective models like IntroVAE and S-IntroVAE have excelled in image generation and reconstruction tasks. The principal characteristic of introspective models is the adversarial learning of VAE, where the encoder attempts to distinguish between the real and the fake (i.e., synthesized) images. However, due to the unavailability of an effective metric to evaluate the difference between the real and the fake images, the posterior collapse and the vanishing gradient problem still exist, reducing the fidelity of the synthesized images. In this paper, we propose a new variation of IntroVAE called Adversarial Similarity Distance Introspective Variational Autoencoder (AS-IntroVAE). We theoretically analyze the vanishing gradient problem and construct a new Adversarial Similarity Distance (AS-Distance) using the 2-Wasserstein distance and the kernel trick. With weight annealing on AS-Distance and KL-Divergence, the AS-IntroVAE are able to generate stable and high-quality images. The posterior collapse problem is addressed by making per-batch attempts to transform the image so that it better fits the prior distribution in the latent space. Compared with the per-image approach, this strategy fosters more diverse distributions in the latent space, allowing our model to produce images of great diversity. Comprehensive experiments on benchmark datasets demonstrate the effectiveness of AS-IntroVAE on image generation and reconstruction tasks. | 翻訳日:2022-06-29 14:41:26 公開日:2022-06-28 |
# 歩行者3次元バウンディングボックス予測 Pedestrian 3D Bounding Box Prediction ( http://arxiv.org/abs/2206.14195v1 ) ライセンス: Link先を確認 | Saeed Saadatnejad, Yi Zhou Ju, Alexandre Alahi | (参考訳) 安全は依然として自動運転の主要な問題であり、グローバルに展開するためには、歩行者の動きを十分に予測する必要がある。
粗い粒度の予測(人間中心予測)ときめ細かい粒度の予測(人体キーポイント予測)について多くの研究があるが、我々は自動運転車の複雑な動きの詳細をモデル化することなく、人間の合理的な推定である3Dバウンディングボックスに焦点を当てている。
これにより、現実世界の設定でより長い地平線で予測する柔軟性が得られる。
この新しい課題を提案し,歩行者の3dバウンディングボックス予測のための簡易かつ効果的なモデルを提案する。
本手法は,リカレントニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従い,合成データ(jta)と実世界データ(nuscenes)の両方においてその効果を示す。
学習された表現は、アクション予測などの他のタスクのパフォーマンスを高めるのに有用な情報を持っている。
私たちのコードはオンラインで入手できる。 https://github.com/vita-epfl/bounding-box-prediction Safety is still the main issue of autonomous driving, and in order to be globally deployed, they need to predict pedestrians' motions sufficiently in advance. While there is a lot of research on coarse-grained (human center prediction) and fine-grained predictions (human body keypoints prediction), we focus on 3D bounding boxes, which are reasonable estimates of humans without modeling complex motion details for autonomous vehicles. This gives the flexibility to predict in longer horizons in real-world settings. We suggest this new problem and present a simple yet effective model for pedestrians' 3D bounding box prediction. This method follows an encoder-decoder architecture based on recurrent neural networks, and our experiments show its effectiveness in both the synthetic (JTA) and real-world (NuScenes) datasets. The learned representation has useful information to enhance the performance of other tasks, such as action anticipation. Our code is available online: https://github.com/vita-epfl/bounding-box-prediction | 翻訳日:2022-06-29 14:41:01 公開日:2022-06-28 |
# invaastcluster : 導入型プログラミング課題への不変型プログラムクラスタリングの適用について InvAASTCluster : On Applying Invariant-Based Program Clustering to Introductory Programming Assignments ( http://arxiv.org/abs/2206.14175v1 ) ライセンス: Link先を確認 | Pedro Orvalho and Mikol\'a\v{s} Janota and Vasco Manquinho | (参考訳) 大規模なオープン・オンライン・コース(moocs)に参加する学生の数が膨大であるため、導入型プログラミング課題(ipas)に焦点を当てた自動プログラム修復技術が増えている。
このような最先端技術は、プログラムクラスタリングを使用して、以前の正しい学生実装を利用して、与えられた新しい不正な提出を修復する。
通常、これらの修復手法はクラスタリング手法を用いるが、これはプログラムを修復するために利用可能な全ての正しい学生の応募を解析することは不可能である。
クラスタリング手法は、抽象構文木(ast)、構文、制御フロー、データフローなど、いくつかの特徴に基づくプログラム表現を使用する。
しかし、これらの特徴は、意味的に類似したプログラムを表現する際には壊れることがある。
本稿では,複数のプログラム実行で観測される動的生成プログラム不変量を利用して,意味的に等価なipaをクラスタ化する,プログラムクラスタリングのための新しい手法であるinvaastclusterを提案する。
我々の主な目的は、プログラムのセマンティクス、不変量、構造、および匿名化された抽象構文木を組み合わせることで、プログラムのより適切な表現を見つけることである。
InvAASTClusterの評価は、異なる正しいIPAの集合をクラスタリングする際に、提案プログラム表現が構文ベースの表現より優れていることを示している。
さらに、InvAASTClusterを最先端のクラスタリングベースのプログラム修復ツールに統合し、一連のIPAで評価する。
以上の結果から,InvAASTClusterは,多数の学生プログラムを短時間で修復し,クラスタリングベースのプログラム修復ツールで使用する場合の最先端化を図っている。 Due to the vast number of students enrolled in Massive Open Online Courses (MOOCs), there has been an increasing number of automated program repair techniques focused on introductory programming assignments (IPAs). Such state-of-the-art techniques use program clustering to take advantage of previous correct student implementations to repair a given new incorrect submission. Usually, these repair techniques use clustering methods since analyzing all available correct student submissions to repair a program is not feasible. The clustering methods use program representations based on several features such as abstract syntax tree (AST), syntax, control flow, and data flow. However, these features are sometimes brittle when representing semantically similar programs. This paper proposes InvAASTCluster, a novel approach for program clustering that takes advantage of dynamically generated program invariants observed over several program executions to cluster semantically equivalent IPAs. Our main objective is to find a more suitable representation of programs using a combination of the program's semantics, through its invariants, and its structure, through its anonymized abstract syntax tree. The evaluation of InvAASTCluster shows that the proposed program representation outperforms syntax-based representations when clustering a set of different correct IPAs. Furthermore, we integrate InvAASTCluster into a state-of-the-art clustering-based program repair tool and evaluate it on a set of IPAs. Our results show that InvAASTCluster advances the current state-of-the-art when used by clustering-based program repair tools by repairing a larger number of students' programs in a shorter amount of time. | 翻訳日:2022-06-29 14:40:42 公開日:2022-06-28 |
# 電子密度の原子中心予測からの電子構造特性 Electronic-structure properties from atom-centered predictions of the electron density ( http://arxiv.org/abs/2206.14087v1 ) ライセンス: Link先を確認 | Andrea Grisafi, Alan M. Lewis, Mariana Rossi, Michele Ceriotti | (参考訳) 分子や物質の電子密度は、最近機械学習モデルの対象量として注目されている。
転移性および線形スケーリング予測をもたらすモデルを構築するための自然な選択は、密度適合近似で日常的に使用されるような多中心原子基底を用いてスカラー場を表現することである。
しかしながら、基底の非直交性は、全ての原子密度成分を一度に説明する必要があるため、学習運動に困難をもたらす。
我々は,回帰問題の損失関数を直接最小化するための勾配に基づく手法を,最適化された高度にスパースな特徴空間で考案する。
このようにして、原子中心モデルを用いて任意の複雑なデータセット上で電子密度を学習し、極めて正確な予測を得るという制限を克服する。
強化されたフレームワークは液体水の32分子周期セル上でテストされ、精度と計算効率の最適なバランスを必要とするほど複雑である。
予測密度から1つのコーン・シャム対角化ステップを実行し、基準密度汎関数計算に対して0.1mV/原子の誤差を持つ全エネルギー成分にアクセスできることを示す。
最後に,高度に異種なqm9ベンチマークデータセットを用いて本手法をテストし,化学精度で基礎状態の総エネルギーを導出するのに十分なトレーニングデータの割合を示した。 The electron density of a molecule or material has recently received major attention as a target quantity of machine-learning models. A natural choice to construct a model that yields transferable and linear-scaling predictions is to represent the scalar field using a multi-centered atomic basis analogous to that routinely used in density fitting approximations. However, the non-orthogonality of the basis poses challenges for the learning exercise, as it requires accounting for all the atomic density components at once. We devise a gradient-based approach to directly minimize the loss function of the regression problem in an optimized and highly sparse feature space. In so doing, we overcome the limitations associated with adopting an atom-centered model to learn the electron density over arbitrarily complex datasets, obtaining extremely accurate predictions. The enhanced framework is tested on 32-molecule periodic cells of liquid water, presenting enough complexity to require an optimal balance between accuracy and computational efficiency. We show that starting from the predicted density a single Kohn-Sham diagonalization step can be performed to access total energy components that carry an error of just 0.1 meV/atom with respect to the reference density functional calculations. Finally, we test our method on the highly heterogeneous QM9 benchmark dataset, showing that a small fraction of the training data is enough to derive ground-state total energies within chemical accuracy. | 翻訳日:2022-06-29 14:40:12 公開日:2022-06-28 |
# 可変フレームレートを用いた意図に基づく話者照合手法 Attention-based conditioning methods using variable frame rate for style-robust speaker verification ( http://arxiv.org/abs/2206.13680v1 ) ライセンス: Link先を確認 | Amber Afshan, Abeer Alwan | (参考訳) テキストに依存しない話者検証において,発話スタイルのバリエーションに頑健な話者埋め込みを抽出する手法を提案する。
話者埋め込み抽出は通常、話者分類のためのDNNの訓練と、ボトルネック特徴を話者表現として使用する。
このようなネットワークは、全ての発話フレームの統計を等しい重み付けで計算することにより、フレームレベルを発話レベルに変換するプーリング層を有する。
しかし、自己注意埋め込みは重み付きプーリングを行い、重み付けは話者分類タスクにおけるフレームの重要性に対応する。
エントロピーは話し方の変化による音響的変動を捉えることができる。
したがって、エントロピーベースの可変フレームレートベクトルは、自己接続層に対する外部条件ベクトルとして提案され、ネットワークがスタイル効果に対処できる情報を提供する。
この研究は条件付けに対する5つの異なるアプローチを探求する。
最良の条件付け手法であるゲーティングとの結合は、12/23タスクにおけるxベクトルベースラインに対する統計的に有意な改善を提供し、UCLA話者可変データベースを使用する場合の11/23タスクにおけるベースラインと同じであった。
また、9/23タスクでは条件付けなしで自己注意が著しく向上し、1/23では悪化した。
また,SITWのマルチ話者シナリオにも大きな改善が見られた。 We propose an approach to extract speaker embeddings that are robust to speaking style variations in text-independent speaker verification. Typically, speaker embedding extraction includes training a DNN for speaker classification and using the bottleneck features as speaker representations. Such a network has a pooling layer to transform frame-level to utterance-level features by calculating statistics over all utterance frames, with equal weighting. However, self-attentive embeddings perform weighted pooling such that the weights correspond to the importance of the frames in a speaker classification task. Entropy can capture acoustic variability due to speaking style variations. Hence, an entropy-based variable frame rate vector is proposed as an external conditioning vector for the self-attention layer to provide the network with information that can address style effects. This work explores five different approaches to conditioning. The best conditioning approach, concatenation with gating, provided statistically significant improvements over the x-vector baseline in 12/23 tasks and was the same as the baseline in 11/23 tasks when using the UCLA speaker variability database. It also significantly outperformed self-attention without conditioning in 9/23 tasks and was worse in 1/23. The method also showed significant improvements in multi-speaker scenarios of SITW. | 翻訳日:2022-06-29 14:36:58 公開日:2022-06-28 |
# 人間の知覚から学び, スタイルミスマッチ条件下での自動話者検証を改善する Learning from human perception to improve automatic speaker verification in style-mismatched conditions ( http://arxiv.org/abs/2206.13684v1 ) ライセンス: Link先を確認 | Amber Afshan, Abeer Alwan | (参考訳) 我々の以前の実験では、人間と機械は、特に発話スタイルの多様性の存在下で、話者識別に異なるアプローチを採っているように思われる。
実験は読み書きと会話音声を比較検討した。
聞き手は「一緒にスピーカーを鳴らす」一方で、話者を照らす」とき、共有音響空間内の相対距離に焦点を当てた。
しかし、自動話者検証(asv)システムは、ターゲットまたは非ターゲットの試行によらず、同じ損失関数を使用する。
ASVの性能を向上させるために、人間の知覚から学習した洞察を用いて、私たちが「CllrCE損失」と呼ぶ新しいトレーニング損失関数を設計する。
CllrCEの損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
UCLA話者変動データベースを使用する場合、Xベクトルと条件設定において、CllrCE損失は、Xベクトルベースラインと比較して、EERの1-66%、minDCFの1-31%、および1-56%の大幅な改善をもたらす。
会話音声タスクの異なるSITW評価タスクを用いて、提案した損失と自己注意条件付けを組み合わせることで、EERを2-5%、minDCFを6-12%改善する。
SITWの場合、性能改善は条件付けにのみ一致していた。 Our prior experiments show that humans and machines seem to employ different approaches to speaker discrimination, especially in the presence of speaking style variability. The experiments examined read versus conversational speech. Listeners focused on speaker-specific idiosyncrasies while "telling speakers together", and on relative distances in a shared acoustic space when "telling speakers apart". However, automatic speaker verification (ASV) systems use the same loss function irrespective of target or non-target trials. To improve ASV performance in the presence of style variability, insights learnt from human perception are used to design a new training loss function that we refer to as "CllrCE loss". CllrCE loss uses both speaker-specific idiosyncrasies and relative acoustic distances between speakers to train the ASV system. When using the UCLA speaker variability database, in the x-vector and conditioning setups, CllrCE loss results in significant relative improvements in EER by 1-66%, and minDCF by 1-31% and 1-56%, respectively, when compared to the x-vector baseline. Using the SITW evaluation tasks, which involve different conversational speech tasks, the proposed loss combined with self-attention conditioning results in significant relative improvements in EER by 2-5% and minDCF by 6-12% over baseline. In the SITW case, performance improvements were consistent only with conditioning. | 翻訳日:2022-06-29 14:36:34 公開日:2022-06-28 |
# 音声認識に基づく自動AD検出のための言語特徴とモデル組み合わせの探索 Exploring linguistic feature and model combination for speech recognition based automatic AD detection ( http://arxiv.org/abs/2206.13758v1 ) ライセンス: Link先を確認 | Yi Wang, Tianzi Wang, Zi Ye, Lingwei Meng, Shoukang Hu, Xixin Wu, Xunying Liu, Helen Meng | (参考訳) アルツハイマー病(AD)の早期診断は,予防ケアと進行遅延の促進に不可欠である。
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
このようなスペシャリストデータの不足は、そのようなシステムを開発する際にモデル選択と機能学習の両方に不確実性をもたらす。
そこで本研究では,BERT と Roberta の事前学習済みテキストエンコーダのドメイン微調整の堅牢性を向上させるために,特徴とモデルの組み合わせを用いた手法を用いて,下位分類器のアンサンブルに埋め込み,多数決投票による最終的なAD検出判定を行う。
ADReSS20 Challengeデータセットで実施された実験は、システム開発におけるモデルと機能の組み合わせを用いて一貫したパフォーマンス改善が得られたことを示唆している。
高齢者話者48名からなるADReSS20テストセットにおいて、手動とASR音声の書き起こしを用いて、最先端のAD検出精度91.67パーセントと93.75パーセントを得た。 Early diagnosis of Alzheimer's disease (AD) is crucial in facilitating preventive care and delay progression. Speech based automatic AD screening systems provide a non-intrusive and more scalable alternative to other clinical screening techniques. Scarcity of such specialist data leads to uncertainty in both model selection and feature learning when developing such systems. To this end, this paper investigates the use of feature and model combination approaches to improve the robustness of domain fine-tuning of BERT and Roberta pre-trained text encoders on limited data, before the resulting embedding features being fed into an ensemble of backend classifiers to produce the final AD detection decision via majority voting. Experiments conducted on the ADReSS20 Challenge dataset suggest consistent performance improvements were obtained using model and feature combination in system development. State-of-the-art AD detection accuracies of 91.67 percent and 93.75 percent were obtained using manual and ASR speech transcripts respectively on the ADReSS20 test set consisting of 48 elderly speakers. | 翻訳日:2022-06-29 14:36:07 公開日:2022-06-28 |
# リコメンダシステムにおける任意順序特徴相互作用の検出 Detecting Arbitrary Order Beneficial Feature Interactions for Recommender Systems ( http://arxiv.org/abs/2206.13764v1 ) ライセンス: Link先を確認 | Yixin Su, Yunxiang Zhao, Sarah Erfani, Junhao Gan, Rui Zhang | (参考訳) 提案するシステムでは,有効な機能インタラクションの検出が不可欠であり,既存のアプローチでは,可能なすべての機能インタラクションを調べることでこれを実現している。
しかし、全ての高次特徴相互作用を検査するコストは禁じられている(順序が増加するにつれて、指数的に増大する)。
したがって、既存のアプローチは限られた順序(例えば最大4つの特徴の組み合わせ)のみを検知し、有益な特徴相互作用は制限よりも高い順序との有益な特徴相互作用を見逃す可能性がある。
本稿では、HIRSと呼ばれるハイパーグラフニューラルネットワークモデルを提案する。
HIRSは任意の順序の有益な特徴相互作用を直接生成し、それに従って推奨予測を行う最初の作品である。
生成された特徴的相互作用の数は、可能なすべての相互作用の数よりもはるかに小さく指定できるため、我々のモデルは実行時間がはるかに少ないことを認めている。
効果的なアルゴリズムを実現するために,有効な特徴インタラクションの3つの特性を活用し,インタラクション生成を導くディープインフォマックスベース手法を提案する。
実験の結果、HIRSは推奨精度で最先端のアルゴリズムを最大5%上回っていることがわかった。 Detecting beneficial feature interactions is essential in recommender systems, and existing approaches achieve this by examining all the possible feature interactions. However, the cost of examining all the possible higher-order feature interactions is prohibitive (exponentially growing with the order increasing). Hence existing approaches only detect limited order (e.g., combinations of up to four features) beneficial feature interactions, which may miss beneficial feature interactions with orders higher than the limitation. In this paper, we propose a hypergraph neural network based model named HIRS. HIRS is the first work that directly generates beneficial feature interactions of arbitrary orders and makes recommendation predictions accordingly. The number of generated feature interactions can be specified to be much smaller than the number of all the possible interactions and hence, our model admits a much lower running time. To achieve an effective algorithm, we exploit three properties of beneficial feature interactions, and propose deep-infomax-based methods to guide the interaction generation. Our experimental results show that HIRS outperforms state-of-the-art algorithms by up to 5% in terms of recommendation accuracy. | 翻訳日:2022-06-29 14:35:48 公開日:2022-06-28 |
# 機械学習モデルにおけるポストホック説明によるセキュリティとプライバシリスクの増幅について On the amplification of security and privacy risks by post-hoc explanations in machine learning models ( http://arxiv.org/abs/2206.14004v1 ) ライセンス: Link先を確認 | Pengrui Quan, Supriyo Chakraborty, Jeya Vikranth Jeyakumar, Mani Srivastava | (参考訳) 近年、ニューラルネットワークによって返される結果に対する洞察を得るために、さまざまな説明方法が提案されている。
しかし、説明によって潜在的なサイドチャネルが生まれ、敵がシステムへの攻撃を行うのに利用できる。
特に、入力の寸法を重要あるいは関連性に応じて強調するポストホックな説明法では、セキュリティとプライバシを弱める情報も漏洩する。
本研究は,様々な一般的な説明手法から生じるプライバシとセキュリティリスクを体系的に評価する最初の手法である。
まず,同じ成功率で10倍のクエリ数削減につながる,説明付きブラックボックス回避攻撃を提案する。
本研究では, 推定勾配の総分散の低減として, 説明からの逆効果を定量化できることを示す。
第2に,共通説明から漏れた会員情報を再検討する。
先行研究の観察とは対照的に、我々の修正攻撃により、より厳格なブラックボックス設定であっても、メンバーシップ情報(以前の結果よりも100%改善されている)が重大な漏洩を示す。
最後に,説明誘導モデル抽出攻撃について検討し,クエリカウントの大幅な削減による敵意の獲得を実証する。 A variety of explanation methods have been proposed in recent years to help users gain insights into the results returned by neural networks, which are otherwise complex and opaque black-boxes. However, explanations give rise to potential side-channels that can be leveraged by an adversary for mounting attacks on the system. In particular, post-hoc explanation methods that highlight input dimensions according to their importance or relevance to the result also leak information that weakens security and privacy. In this work, we perform the first systematic characterization of the privacy and security risks arising from various popular explanation techniques. First, we propose novel explanation-guided black-box evasion attacks that lead to 10 times reduction in query count for the same success rate. We show that the adversarial advantage from explanations can be quantified as a reduction in the total variance of the estimated gradient. Second, we revisit the membership information leaked by common explanations. Contrary to observations in prior studies, via our modified attacks we show significant leakage of membership information (above 100% improvement over prior results), even in a much stricter black-box setting. Finally, we study explanation-guided model extraction attacks and demonstrate adversarial gains through a large reduction in query count. | 翻訳日:2022-06-29 14:35:11 公開日:2022-06-28 |
# 永続的ホモロジーに基づく機械学習ポテンシャル記述子 Persistent homology-based descriptor for machine-learning potential ( http://arxiv.org/abs/2206.13727v1 ) ライセンス: Link先を確認 | Emi Minamitani and Ippei Obayashi | (参考訳) アトミックな構成を表す効率的な記述子を構築することは、優れた機械学習ポテンシャルを開発する上で不可欠である。
広く使われている従来のディスクリプタは、原子分布の2体または3体相関に基づいている。
近年, 様々な構成の分類における多体記述子の限界が明らかになり, 物理的特性の予測に有害な影響が認められた。
我々は持続的ホモロジーに基づく新しい記述子の提案を行った。
画像形式における原子構成のディスクリプタとして,持続的ホモロジー,すなわち永続性図の二次元可視化に焦点をあてた。
この記述子に基づく畳み込みニューラルネットワークモデルがアモルファスグラフェンとアモルファス炭素の原子当たりの平均エネルギーを予測するのに十分な精度をもたらすことを実証した。
本研究では,トポロジカル情報と幾何情報の両方を記述した記述子を用いて,機械学習能力を向上させる方法を提案する。 Constructing efficient descriptors that represent atomic configurations is crucial for developing a superior machine-learning potential. Widely used conventional descriptors are based on two- or three-body correlations of atomic distribution. Recently, several limitations of these many-body descriptors in classifying different configurations were revealed, which have detrimental effects on the prediction of physical properties. We proposed a new class of descriptors based on persistent homology. We focused on the two-dimensional visualization of persistent homology, that is, a persistence diagram, as a descriptor of atomic configurations in the form of an image. We demonstrated that convolutional neural network models based on this descriptor provide sufficient accuracy in predicting the mean energies per atom of amorphous graphene and amorphous carbon. Our results provide an avenue for improving machine-learning potential using descriptors that depict both topological and geometric information. | 翻訳日:2022-06-29 14:30:42 公開日:2022-06-28 |
# 署名付きグラフのためのサブ線形時間クラスタリングOracle Sublinear-Time Clustering Oracle for Signed Graphs ( http://arxiv.org/abs/2206.13813v1 ) ライセンス: Link先を確認 | Stefan Neumann, Pan Peng | (参考訳) ソーシャルネットワークはしばしば署名付きグラフを使用してモデル化され、頂点はユーザに対応し、エッジはユーザ間のインタラクションが肯定的か否定的かを示すサインを持っている。
符号付きグラフは、典型的には、グラフを少数の分極されたコミュニティに分割できるという意味で明確なコミュニティ構造を含み、それぞれがスパースカットを定義し、より小さな分極されたサブコミュニティに分割できる。
このような明確なコミュニティ構造を持つ符号付きグラフに対して局所的なクラスタリングのオラクルを提供し、そのグラフのごく一部だけを読み取ることで、サブ線形時間で、"vertex $v$, which community do $v$ belong?" というようなメンバシップクエリに答えることができる。
正式には、グラフが最大値が有界であり、コミュニティ数が最大で$o(\log n)$であるとき、$\tilde{o}(\sqrt{n}\operatorname{poly}(1/\varepsilon))$ 前処理時間で、オラクルは各メンバシップクエリに$\tilde{o}(\sqrt{n}\operatorname{poly}(1/\varepsilon)$ timeで答えることができ、$(1-\varepsilon)$-fraction of vertices w.r.t. a hidden planted ground-truth communities を正しく分類する。
私たちのオラクルは、少数の頂点に対してのみクラスタリング情報を必要とするアプリケーションで望ましいです。
これまでは、このような局所的なクラスタリングオラクルは、符号付きグラフでしか知られていなかった; 符号付きグラフへの我々の一般化には、多くの新しいアイデアが必要であり、符号付きランダムウォークの振る舞いの新しいスペクトル分析を与える。
このようなoracleを構築し、合成データと実世界のデータセットの両方でメンバシップクエリに応答するアルゴリズムを評価し、実際のパフォーマンスを検証する。 Social networks are often modeled using signed graphs, where vertices correspond to users and edges have a sign that indicates whether an interaction between users was positive or negative. The arising signed graphs typically contain a clear community structure in the sense that the graph can be partitioned into a small number of polarized communities, each defining a sparse cut and indivisible into smaller polarized sub-communities. We provide a local clustering oracle for signed graphs with such a clear community structure, that can answer membership queries, i.e., "Given a vertex $v$, which community does $v$ belong to?", in sublinear time by reading only a small portion of the graph. Formally, when the graph has bounded maximum degree and the number of communities is at most $O(\log n)$, then with $\tilde{O}(\sqrt{n}\operatorname{poly}(1/\varepsilon))$ preprocessing time, our oracle can answer each membership query in $\tilde{O}(\sqrt{n}\operatorname{poly}(1/\varepsilon))$ time, and it correctly classifies a $(1-\varepsilon)$-fraction of vertices w.r.t. a set of hidden planted ground-truth communities. Our oracle is desirable in applications where the clustering information is needed for only a small number of vertices. Previously, such local clustering oracles were only known for unsigned graphs; our generalization to signed graphs requires a number of new ideas and gives a novel spectral analysis of the behavior of random walks with signs. We evaluate our algorithm for constructing such an oracle and answering membership queries on both synthetic and real-world datasets, validating its performance in practice. | 翻訳日:2022-06-29 14:30:26 公開日:2022-06-28 |
# グラフニューラルネットワークを用いた境界値問題の解演算子学習 Learning the Solution Operator of Boundary Value Problems using Graph Neural Networks ( http://arxiv.org/abs/2206.14092v1 ) ライセンス: Link先を確認 | Winfried L\"otzsch, Simon Ohler, Johannes S. Otterbach | (参考訳) 境界値制約を受ける偏微分方程式(PDE)の古典的数値解法に代わるものとして、そのような問題を効率的に解くニューラルネットワークの研究への関心が高まっている。
本研究では、グラフニューラルネットワーク(GNN)とスペクトルグラフ畳み込みを用いた2つの異なる時間非依存PDEに対する一般解演算子を設計する。
我々は、様々な形状と不均一性の有限要素ソルバからシミュレーションデータを用いてネットワークを訓練する。
従来の研究とは対照的に、トレーニングされたオペレーターが以前に見つからなかったシナリオに一般化できることに焦点を当てる。
具体的には、異なる形状のメッシュへの一般化と、異なる数の不均一性に対する解の重ね合わせをテストする。
有限要素メッシュに多くのばらつきがある多様なデータセットでのトレーニングは、すべてのケースで優れた一般化結果を達成するための重要な要素であることがわかった。
これにより、GNNは、様々な性質を一般化する解演算子を学習し、一般解法よりもはるかに高速に解を生成することができると信じている。
我々のデータセットは公開されており、様々な条件下でこれらのモデルの堅牢性を検証するために使用および拡張することができる。 As an alternative to classical numerical solvers for partial differential equations (PDEs) subject to boundary value constraints, there has been a surge of interest in investigating neural networks that can solve such problems efficiently. In this work, we design a general solution operator for two different time-independent PDEs using graph neural networks (GNNs) and spectral graph convolutions. We train the networks on simulated data from a finite elements solver on a variety of shapes and inhomogeneities. In contrast to previous works, we focus on the ability of the trained operator to generalize to previously unseen scenarios. Specifically, we test generalization to meshes with different shapes and superposition of solutions for a different number of inhomogeneities. We find that training on a diverse dataset with lots of variation in the finite element meshes is a key ingredient for achieving good generalization results in all cases. With this, we believe that GNNs can be used to learn solution operators that generalize over a range of properties and produce solutions much faster than a generic solver. Our dataset, which we make publicly available, can be used and extended to verify the robustness of these models under varying conditions. | 翻訳日:2022-06-29 14:29:38 公開日:2022-06-28 |
# 固有受容・触覚センシングによる不均一面上の空中すべりの学習可変インピーダンス制御 Learning Variable Impedance Control for Aerial Sliding on Uneven Heterogeneous Surfaces by Proprioceptive and Tactile Sensing ( http://arxiv.org/abs/2206.14122v1 ) ライセンス: Link先を確認 | Weixuan Zhang, Lionel Ott, Marco Tognon, Roland Siegwart | (参考訳) 環境と物理的に相互作用できる新しい航空車両の最近の開発は、コンタクトベースの検査のような新しい応用に繋がる。
これらのタスクは、未知の空間的な摩擦特性や表面幾何学の不連続な変化を含む不確実性を含む可能性がある、部分的に知られている環境との力の交換を必要とする。
これらの環境不確実性に対して堅牢な制御戦略を見つけることは、依然としてオープンな課題である。
本稿では,空中スライディングタスクに対する学習に基づく適応制御戦略を提案する。
特に、標準インピーダンス制御器の利得は、現在の制御信号、受容性測定、触覚センシングに基づくポリシーにより、リアルタイムで調整される。
このポリシーは、生徒と教師の学習環境において、アクチュエータのダイナミクスを単純化したシミュレーションで訓練される。
提案手法の実際の性能は傾斜式全方向飛行車を用いて検証する。
提案するコントローラ構造は,データ駆動型制御とモデルベースの制御を組み合わせることで,シミュレーションから実プラットフォームへの適応なしに,直接的かつ効率的に移行できる。
artインタラクション制御手法の微調整状態と比較して,追跡誤差の低減と外乱除去の改善を実現する。 The recent development of novel aerial vehicles capable of physically interacting with the environment leads to new applications such as contact-based inspection. These tasks require the robotic system to exchange forces with partially-known environments, which may contain uncertainties including unknown spatially-varying friction properties and discontinuous variations of the surface geometry. Finding a control strategy that is robust against these environmental uncertainties remains an open challenge. This paper presents a learning-based adaptive control strategy for aerial sliding tasks. In particular, the gains of a standard impedance controller are adjusted in real-time by a policy based on the current control signals, proprioceptive measurements, and tactile sensing. This policy is trained in simulation with simplified actuator dynamics in a student-teacher learning setup. The real-world performance of the proposed approach is verified using a tilt-arm omnidirectional flying vehicle. The proposed controller structure combines data-driven and model-based control methods, enabling our approach to successfully transfer directly and without adaptation from simulation to the real platform. Compared to fine-tuned state of the art interaction control methods we achieve reduced tracking error and improved disturbance rejection. | 翻訳日:2022-06-29 14:29:20 公開日:2022-06-28 |
# ゼロショットビル制御 Zero-Shot Building Control ( http://arxiv.org/abs/2206.14191v1 ) ライセンス: Link先を確認 | Scott R. Jeen, Jonathan M. Cullen | (参考訳) 建物の暖房・冷却システムは世界のエネルギー消費の31%を占めており、そのほとんどはルール・ベース・コントローラ(rbcs)によって規制されており、電力効率を最大化したり、電力排出を最小限に抑えることもできない。
強化学習(RL)による制御は、建築エネルギー効率を著しく向上させることが示されているが、既存のソリューションでは、世界中の建物で入手するのに著しくコストがかかるシミュレーターの事前訓練が必要である。
そこで本研究では,システム同定とモデルベースrlを組み合わせることで,建物を安全かつゼロショットで制御できることを示す。
我々はこの組み合わせをPEARL(Probabilistic Emission-Abating Reinforcement Learning)と呼び、事前訓練をせずに3時間の定員を必要とせず、排出を減らすことを示す。
3種類の建築エネルギーシミュレーション実験において、PEARLは既存のRBCを1回は上回り、すべてのケースでRLベースラインが人気であり、熱的快適さを維持しながら、建築排出を31%削減することを示した。 Heating and cooling systems in buildings account for 31% of global energy use, much of which are regulated by Rule Based Controllers (RBCs) that neither maximise energy efficiency nor minimise emissions by interacting optimally with the grid. Control via Reinforcement Learning (RL) has been shown to significantly improve building energy efficiency, but existing solutions require pre-training in simulators that are prohibitively expensive to obtain for every building in the world. In response, we show it is possible to perform safe, zero-shot control of buildings by combining ideas from system identification and model-based RL. We call this combination PEARL (Probabilistic Emission-Abating Reinforcement Learning) and show it reduces emissions without pre-training, needing only a three hour commissioning period. In experiments across three varied building energy simulations, we show PEARL outperforms an existing RBC once, and popular RL baselines in all cases, reducing building emissions by as much as 31% whilst maintaining thermal comfort. | 翻訳日:2022-06-29 14:29:01 公開日:2022-06-28 |
# (参考訳) SSL-Lanes: 自動運転における動き予測のための自己監督型学習 SSL-Lanes: Self-Supervised Learning for Motion Forecasting in Autonomous Driving ( http://arxiv.org/abs/2206.14116v1 ) ライセンス: CC BY 4.0 | Prarthana Bhattacharyya, Chengjie Huang and Krzysztof Czarnecki | (参考訳) 自己教師付き学習(SSL)は、より転送可能で一般化可能で堅牢な表現学習のために、畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)のトレーニングに成功している新興技術である。
しかし、自律運転の運動予測の可能性はほとんど研究されていない。
本研究では,運動予測に自己スーパービジョンを組み込んだ最初の体系的探索と評価について報告する。
まず,大規模Argoverseデータセットの理論的根拠と定量的,質的な比較による動き予測のための4つの新しい自己教師型学習タスクを提案する。
第2に,sslベースの補助学習セットアップは,トランスフォーマ,複雑な融合機構,洗練されたオンライン高密度目標候補最適化アルゴリズムを用いた予測手法に勝るだけでなく,推論時間やアーキテクチャの複雑さも低いことを指摘した。
最後に,sslが動作予測を改善する理由を理解するため,いくつかの実験を行った。
コードは \url{https://github.com/AutoVision-cloud/SSL-Lanes} でオープンソース化されている。 Self-supervised learning (SSL) is an emerging technique that has been successfully employed to train convolutional neural networks (CNNs) and graph neural networks (GNNs) for more transferable, generalizable, and robust representation learning. However its potential in motion forecasting for autonomous driving has rarely been explored. In this study, we report the first systematic exploration and assessment of incorporating self-supervision into motion forecasting. We first propose to investigate four novel self-supervised learning tasks for motion forecasting with theoretical rationale and quantitative and qualitative comparisons on the challenging large-scale Argoverse dataset. Secondly, we point out that our auxiliary SSL-based learning setup not only outperforms forecasting methods which use transformers, complicated fusion mechanisms and sophisticated online dense goal candidate optimization algorithms in terms of performance accuracy, but also has low inference time and architectural complexity. Lastly, we conduct several experiments to understand why SSL improves motion forecasting. Code is open-sourced at \url{https://github.com/AutoVision-cloud/SSL-Lanes}. | 翻訳日:2022-06-29 14:26:56 公開日:2022-06-28 |
# TTS-CGAN:生体信号データ拡張のための変圧器時系列条件付きGAN TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data Augmentation ( http://arxiv.org/abs/2206.13676v1 ) ライセンス: Link先を確認 | Xiaomin Li, Anne Hee Hiong Ngu, Vangelis Metsis | (参考訳) 時系列の形で現れる信号測定は、医学的機械学習アプリケーションで使われる最も一般的なデータの1つである。
このようなデータセットはサイズが小さく、収集や注釈に費用がかかることが多く、プライバシーの問題も伴うため、バイオメディカルアプリケーションのための、最先端の大規模ディープラーニングモデルをトレーニングする能力を阻害する可能性がある。
時系列データの場合、データセットのサイズを拡大するために使用できる一連のデータ拡張戦略は、信号の基本特性を維持する必要性によって制限される。
generative adversarial networks (gans) は別のデータ拡張ツールとして利用できる。
本稿では,既存のマルチクラスデータセットに基づいて学習し,任意の長さのクラス固有の合成時系列列を生成するトランスフォーマーベース条件付きGANモデルであるTS-CGANを提案する。
モデルアーキテクチャと設計戦略について詳しく説明します。
我々のモデルで生成された合成シーケンスは実データとは区別できないため、同じタイプの実信号の補完や置換に利用することができ、データ拡張の目標を達成することができる。
生成したデータの品質を評価するために、ウェーブレットコヒーレンス・メトリックを変更して、2組の信号の類似性を比較するとともに、合成データと実データを組み合わせてシーケンス分類のためのディープラーニングモデルを訓練するケーススタディを行う。
他の可視化技術や質的評価手法とともに,tts-cgan生成合成データが実データと類似していること,時系列データ生成用に構築された他の最先端ganモデルよりも優れた性能を示す。 Signal measurement appearing in the form of time series is one of the most common types of data used in medical machine learning applications. Such datasets are often small in size, expensive to collect and annotate, and might involve privacy issues, which hinders our ability to train large, state-of-the-art deep learning models for biomedical applications. For time-series data, the suite of data augmentation strategies we can use to expand the size of the dataset is limited by the need to maintain the basic properties of the signal. Generative Adversarial Networks (GANs) can be utilized as another data augmentation tool. In this paper, we present TTS-CGAN, a transformer-based conditional GAN model that can be trained on existing multi-class datasets and generate class-specific synthetic time-series sequences of arbitrary length. We elaborate on the model architecture and design strategies. Synthetic sequences generated by our model are indistinguishable from real ones, and can be used to complement or replace real signals of the same type, thus achieving the goal of data augmentation. To evaluate the quality of the generated data, we modify the wavelet coherence metric to be able to compare the similarity between two sets of signals, and also conduct a case study where a mix of synthetic and real data are used to train a deep learning model for sequence classification. Together with other visualization techniques and qualitative evaluation approaches, we demonstrate that TTS-CGAN generated synthetic data are similar to real data, and that our model performs better than the other state-of-the-art GAN models built for time-series data generation. | 翻訳日:2022-06-29 13:57:31 公開日:2022-06-28 |
# raw-gnn:ランダムウォークアグリゲーションに基づくグラフニューラルネットワーク RAW-GNN: RAndom Walk Aggregation based Graph Neural Network ( http://arxiv.org/abs/2206.13953v1 ) ライセンス: Link先を確認 | Di Jin, Rui Wang, Meng Ge, Dongxiao He, Xiang Li, Wei Lin, Weixiong Zhang | (参考訳) グラフ畳み込みに基づく手法は、同じラベルや類似属性を持つノードが互いに接続する傾向にあるホモフィリグラフ上での表現学習に成功している。
これらの手法が使用するグラフ畳み込みネットワーク(GCN)のホモフィリーな仮定のため、異なるラベルや異なる属性を持つノードが隣接する傾向があるヘテロフィリーグラフには適さない。
このヘテロフィリー問題に対処するいくつかの方法が試みられているが、それらは隣のノードから情報を集約するために和演算子に依存しているため、gcnの基本的な集約メカニズムを変更しない。
本稿では,新しいアグリゲーション機構を導入し,RAndom Walk Aggregation-based Graph Neural Network(RAW-GNN)法を提案する。
提案手法では,ランダムウォーク戦略をグラフニューラルネットワークと統合する。
広義のランダムウォーク検索を用いて,ホモフィリー情報を収集し,奥行き優先探索を行い,ヘテロフィリー情報を収集する。
従来の地区をパスベースの地区に置き換え、リカレントニューラルネットワークに基づく新しい経路ベースのアグリゲータを導入する。
これらの設計により、RAW-GNNはホモフィリーグラフとヘテロフィリーグラフの両方に適合する。
実験結果から, 種々のホモフィリグラフおよびヘテロフィリグラフ上での最先端性能が得られた。 Graph-Convolution-based methods have been successfully applied to representation learning on homophily graphs where nodes with the same label or similar attributes tend to connect with one another. Due to the homophily assumption of Graph Convolutional Networks (GCNs) that these methods use, they are not suitable for heterophily graphs where nodes with different labels or dissimilar attributes tend to be adjacent. Several methods have attempted to address this heterophily problem, but they do not change the fundamental aggregation mechanism of GCNs because they rely on summation operators to aggregate information from neighboring nodes, which is implicitly subject to the homophily assumption. Here, we introduce a novel aggregation mechanism and develop a RAndom Walk Aggregation-based Graph Neural Network (called RAW-GNN) method. The proposed approach integrates the random walk strategy with graph neural networks. The new method utilizes breadth-first random walk search to capture homophily information and depth-first search to collect heterophily information. It replaces the conventional neighborhoods with path-based neighborhoods and introduces a new path-based aggregator based on Recurrent Neural Networks. These designs make RAW-GNN suitable for both homophily and heterophily graphs. Extensive experimental results showed that the new method achieved state-of-the-art performance on a variety of homophily and heterophily graphs. | 翻訳日:2022-06-29 13:56:49 公開日:2022-06-28 |
# 分布強化学習におけるリスクパースペクティブ探索 Risk Perspective Exploration in Distributional Reinforcement Learning ( http://arxiv.org/abs/2206.14170v1 ) ライセンス: Link先を確認 | Jihwan Oh, Joonkee Kim, Se-Young Yun | (参考訳) 分散強化学習は、分散とリスクの特徴を持つ連続的かつ離散的な制御環境での最先端のパフォーマンスを示し、探索に使用できる。
しかし, リスク特性を用いた探査法は見つからないが, 分布RLにおける多くの探査法では, 行動ごとの戻り分布の分散が採用されている。
本稿では,リスクの観点からリスクレベルや楽観的な行動を検討するリスクスケジューリング手法を提案する。
本稿では,リスクスケジューリングを用いたDMIXアルゴリズムの性能向上を総合実験によるマルチエージェント環境で実証する。 Distributional reinforcement learning demonstrates state-of-the-art performance in continuous and discrete control settings with the features of variance and risk, which can be used to explore. However, the exploration method employing the risk property is hard to find, although numerous exploration methods in Distributional RL employ the variance of return distribution per action. In this paper, we present risk scheduling approaches that explore risk levels and optimistic behaviors from a risk perspective. We demonstrate the performance enhancement of the DMIX algorithm using risk scheduling in a multi-agent setting with comprehensive experiments. | 翻訳日:2022-06-29 13:56:28 公開日:2022-06-28 |
# 深部強化学習を伴うブドウ園における位置依存型自律ナビゲーション Position-Agnostic Autonomous Navigation in Vineyards with Deep Reinforcement Learning ( http://arxiv.org/abs/2206.14155v1 ) ライセンス: Link先を確認 | Mauro Martini, Simone Cerrato, Francesco Salvetti, Simone Angarano, Marcello Chiaberge | (参考訳) 精密農業は農業活動を支援するために自動化とロボット工学のソリューションを効率的に導入する研究を急速に集めている。
ブドウ畑や果樹園でのロボットナビゲーションは、作物の収穫、噴霧、時間を要する必要なタスクの実行を自律的に監視し、容易にアクセスする上で、競争上の優位性を提供する。
現在、自律ナビゲーションアルゴリズムは高価なセンサーを利用しており、データ処理には計算コストもかかる。
にもかかわらず、ブドウ畑の列はGPSとビジュアルオドメトリーの技術が信頼できる位置情報の提供に苦戦する、困難な屋外シナリオを表している。
本研究では,エッジaiと深層強化学習を組み合わせることで,柔軟な学習に基づくアプローチにより,正確な局所化データやタスク対応アルゴリズムを克服することなく,自律的ブドウ畑ナビゲーションの問題に取り組むための最先端軽量ソリューションを提案する。
我々は,ノイズの多い深度画像と位置非依存のロボット状態情報を速度指令に直接マッピングし,ロボットを列末まで誘導し,衝突のない中央軌道への方向を継続的に調整する,エンドツーエンドのセンサモデレータエージェントを訓練する。
実写的なブドウ園での広範囲な実験は,我々のソリューションの有効性と,エージェントの一般化能力を示している。 Precision agriculture is rapidly attracting research to efficiently introduce automation and robotics solutions to support agricultural activities. Robotic navigation in vineyards and orchards offers competitive advantages in autonomously monitoring and easily accessing crops for harvesting, spraying and performing time-consuming necessary tasks. Nowadays, autonomous navigation algorithms exploit expensive sensors which also require heavy computational cost for data processing. Nonetheless, vineyard rows represent a challenging outdoor scenario where GPS and Visual Odometry techniques often struggle to provide reliable positioning information. In this work, we combine Edge AI with Deep Reinforcement Learning to propose a cutting-edge lightweight solution to tackle the problem of autonomous vineyard navigation without exploiting precise localization data and overcoming task-tailored algorithms with a flexible learning-based approach. We train an end-to-end sensorimotor agent which directly maps noisy depth images and position-agnostic robot state information to velocity commands and guides the robot to the end of a row, continuously adjusting its heading for a collision-free central trajectory. Our extensive experimentation in realistic simulated vineyards demonstrates the effectiveness of our solution and the generalization capabilities of our agent. | 翻訳日:2022-06-29 13:54:44 公開日:2022-06-28 |
# Kwame for Science: 西アフリカにおける科学教育のためのAI教師アシスタント Kwame for Science: An AI Teaching Assistant for Science Education in West Africa ( http://arxiv.org/abs/2206.13703v1 ) ライセンス: Link先を確認 | George Boateng, Samuel John, Andrew Glago, Samuel Boateng, Victor Kumbol | (参考訳) アフリカは生徒と教師の比率が高く、教師へのアクセスが制限されている。
その結果、学生は質問に対する答えを得るのに苦労する。
本研究では、これまでのai教育アシスタントであるkwameを拡張し、理科教育に応用し、webアプリとして展開した。
Kwame for Scienceは、西アフリカ上級中等試験(WASSCE)の総合科学科に基づいて、学生の質問に答える。
Kwame for Science(クウェーム・フォー・サイエンス)は、Sentence-BERTベースの質問応答ウェブアプリで、3段落を回答として表示する。
また、3段落に加え、過去試験に関する質問と回答のトップ5も表示している。
2.5週間の実世界展開によるkwame for scienceの予備評価では、11カ国で87.5% (n=56) の精度で190人のユーザーがいた。
Kwame for Scienceは、アフリカ全土の何百万人もの人々に、スケーラブルで費用効率の良い高品質の遠隔教育を提供する。 Africa has a high student-to-teacher ratio which limits students' access to teachers. Consequently, students struggle to get answers to their questions. In this work, we extended Kwame, our previous AI teaching assistant, adapted it for science education, and deployed it as a web app. Kwame for Science answers questions of students based on the Integrated Science subject of the West African Senior Secondary Certificate Examination (WASSCE). Kwame for Science is a Sentence-BERT-based question-answering web app that displays 3 paragraphs as answers along with a confidence score in response to science questions. Additionally, it displays the top 5 related past exam questions and their answers in addition to the 3 paragraphs. Our preliminary evaluation of the Kwame for Science with a 2.5-week real-world deployment showed a top 3 accuracy of 87.5% (n=56) with 190 users across 11 countries. Kwame for Science will enable the delivery of scalable, cost-effective, and quality remote education to millions of people across Africa. | 翻訳日:2022-06-29 13:54:22 公開日:2022-06-28 |
# 障害者のための横断歩道の地図化と評価のためのグローバルなクラウド+AI技術 Towards Global-Scale Crowd+AI Techniques to Map and Assess Sidewalks for People with Disabilities ( http://arxiv.org/abs/2206.13677v1 ) ライセンス: Link先を確認 | Maryam Hosseini, Mikey Saugstad, Fabio Miranda, Andres Sevtsuk, Claudio T. Silva, Jon E. Froehlich | (参考訳) 世界中の歩道の位置、条件、アクセシビリティに関するデータが不足しているため、人々の移動場所や方法に影響を与えるだけでなく、インタラクティブなマッピングツールや都市分析も基本的に制限されている。
本稿では、階層的多スケールアテンションモデルを用いて衛星画像から歩道ネットワークトポロジを半自動構築し、アクティブな学習に基づくセマンティックセグメンテーションを用いて街路画像から表面物質を推定し、Crowd+AIを用いた歩道条件とアクセシビリティ機能の評価を行う。
私たちは、標準化されたベンチマークとともに、歩道と歩道アクセシビリティの問題のためのラベル付き衛星とストリートスケープシーンのデータベースを作成するための電話を締めくくった。 There is a lack of data on the location, condition, and accessibility of sidewalks across the world, which not only impacts where and how people travel but also fundamentally limits interactive mapping tools and urban analytics. In this paper, we describe initial work in semi-automatically building a sidewalk network topology from satellite imagery using hierarchical multi-scale attention models, inferring surface materials from street-level images using active learning-based semantic segmentation, and assessing sidewalk condition and accessibility features using Crowd+AI. We close with a call to create a database of labeled satellite and streetscape scenes for sidewalks and sidewalk accessibility issues along with standardized benchmarks. | 翻訳日:2022-06-29 13:53:13 公開日:2022-06-28 |
# 太陽が沈むとき:日中の深度推定のために測光損失を修復する When the Sun Goes Down: Repairing Photometric Losses for All-Day Depth Estimation ( http://arxiv.org/abs/2206.13850v1 ) ライセンス: Link先を確認 | Madhu Vankadari, Stuart Golodetz, Sourav Garg, Sangyun Shin, Andrew Markham, Niki Trigoni | (参考訳) 自己教師付き深層学習法による関節深部および自我運動推定は、地中トレーニングデータを必要としない正確な軌跡を生成することができる。
しかし、通常は測光損失を用いるため、これらの損失が仮定された場合(例えば、時間的照明の一貫性、静的なシーン、ノイズやオクルージョンの欠如)、性能が著しく低下する可能性がある。
これは例えば、暗い画像領域における多くの点光源(動的物体を含む)と低信号-雑音比(SNR)を含むナイトタイムシーケンスの使用を制限する。
本稿では、昼と夜の両方で既存の測光損失を処理可能にするために、3つの手法を組み合わせて用いる方法を示す。
まず、連続するフレーム間で起こる光の変化を補うために、ピクセルごとの神経強度変換を導入する。
第2に,推定エゴモーションとネットワークからの深度による再投影対応を補正するために,画素ごとの残留フローマップを推定する。
第3に、トレーニングイメージを飾って、アプローチの堅牢性と正確性を改善します。
これらの変更により、異なるエンコーダや既存のメソッドのような追加機能ネットワークを必要とせずに、昼と夜の両方のイメージに対して単一のモデルをトレーニングすることができます。
我々はオックスフォード・ロボットカー・データセットの大規模な実験とアブレーション実験を行い、昼夜両方のシーケンスに対するアプローチの有効性を実証した。 Self-supervised deep learning methods for joint depth and ego-motion estimation can yield accurate trajectories without needing ground-truth training data. However, as they typically use photometric losses, their performance can degrade significantly when the assumptions these losses make (e.g. temporal illumination consistency, a static scene, and the absence of noise and occlusions) are violated. This limits their use for e.g. nighttime sequences, which tend to contain many point light sources (including on dynamic objects) and low signal-to-noise ratio (SNR) in darker image regions. In this paper, we show how to use a combination of three techniques to allow the existing photometric losses to work for both day and nighttime images. First, we introduce a per-pixel neural intensity transformation to compensate for the light changes that occur between successive frames. Second, we predict a per-pixel residual flow map that we use to correct the reprojection correspondences induced by the estimated ego-motion and depth from the networks. And third, we denoise the training images to improve the robustness and accuracy of our approach. These changes allow us to train a single model for both day and nighttime images without needing separate encoders or extra feature networks like existing methods. We perform extensive experiments and ablation studies on the challenging Oxford RobotCar dataset to demonstrate the efficacy of our approach for both day and nighttime sequences. | 翻訳日:2022-06-29 13:52:58 公開日:2022-06-28 |
# (参考訳) データフロー対話設計の簡素化 Simplifying Dataflow Dialogue Design ( http://arxiv.org/abs/2206.14125v1 ) ライセンス: CC BY 4.0 | Joram Meron | (参考訳) また,データフロー(DF)に基づく対話システムを導入し,現在使われている多くのシステムと比較して明らかな優位性を示した。
これは、実際に関連があり、手作業で注釈付きデータセットであり、他の同等の対話データセットよりも詳細で、はるかに大きいsmcalflowのリリースに伴うものだ。
これらの顕著な貢献にもかかわらず、コミュニティはこの方向へのさらなる関心を示していない。
この関心の欠如の理由は何ですか。
コミュニティはどのようにしてこの方向の研究を奨励できるのでしょうか?
ひとつの説明は、このアプローチがアノテーションとシステムの両方において複雑すぎるという認識かもしれない。
本稿は、この認識は間違っていると論じている。
1)データセットのアノテーションの簡易フォーマットの提案を行う。
2) DF実行エンジンの実装は、研究者が新しいDFダイアログ設計を簡単に実装、実験できるサンドボックスとして機能する、\footnote{https://github.com/telepathylabsai/OpenDF} がリリースされた。
これらの貢献により、dfベースの対話システムのための新しいアイデアや設計の探求により多くの実践者が参加できることを期待している。 In \citep{andreas2020task-oriented}, a dataflow (DF) based dialogue system was introduced, showing clear advantages compared to many commonly used current systems. This was accompanied by the release of SMCalFlow, a practically relevant, manually annotated dataset, more detailed and much larger than any comparable dialogue dataset. Despite these remarkable contributions, the community has not shown further interest in this direction. What are the reasons for this lack of interest? And how can the community be encouraged to engage in research in this direction? One explanation may be the perception that this approach is too complex - both the the annotation and the system. This paper argues that this perception is wrong: 1) Suggestions for a simplified format for the annotation of the dataset are presented, 2) An implementation of the DF execution engine is released\footnote{https://github.com/telepathylabsai/OpenDF}, which can serve as a sandbox allowing researchers to easily implement, and experiment with, new DF dialogue designs. The hope is that these contributions will help engage more practitioners in exploring new ideas and designs for DF based dialogue systems. | 翻訳日:2022-06-29 13:51:09 公開日:2022-06-28 |
# Proton: テキスト-SQL構文解析のための事前訓練済み言語モデルから情報をリンクするスキーマの提案 Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing ( http://arxiv.org/abs/2206.14017v1 ) ライセンス: Link先を確認 | Lihan Wang, Bowen Qin, Binyuan Hui, Bowen Li, Min Yang, Bailin Wang, Binhua Li, Fei Huang, Luo Si, Yongbin Li | (参考訳) 新しいデータベースに適用可能なテキストからSQLへのパーサを構築することの重要性は以前から認識されており、この目標を達成するための重要なステップはスキーマリンクである。
本研究では,Poincar\'e距離測定に基づく探索手法を用いて,大規模事前学習言語モデル(PLM)から関係構造を抽出する新しいフレームワークを提案する。
スキーマリンクの一般的なルールベース手法と比較して,表層形態の言及や実体が異なる場合でも,探索関係は意味的対応をしっかりと捉えることができることがわかった。
さらに, 探索手順は完全に教師なしであり, 追加パラメータは不要である。
広範な実験によって、フレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定できることが分かりました。
定性的解析により,提案手法が本当に望ましい関係構造を見出すことができることを実証的に検証した。 The importance of building text-to-SQL parsers which can be applied to new databases has long been acknowledged, and a critical step to achieve this goal is schema linking, i.e., properly recognizing mentions of unseen columns or tables when generating SQLs. In this work, we propose a novel framework to elicit relational structures from large-scale pre-trained language models (PLMs) via a probing procedure based on Poincar\'e distance metric, and use the induced relations to augment current graph-based parsers for better schema linking. Compared with commonly-used rule-based methods for schema linking, we found that probing relations can robustly capture semantic correspondences, even when surface forms of mentions and entities differ. Moreover, our probing procedure is entirely unsupervised and requires no additional parameters. Extensive experiments show that our framework sets new state-of-the-art performance on three benchmarks. We empirically verify that our probing procedure can indeed find desired relational structures through qualitative analysis. | 翻訳日:2022-06-29 13:39:54 公開日:2022-06-28 |
# 国際プライバシ法コーパスの作成と分析 Creation and Analysis of an International Corpus of Privacy Laws ( http://arxiv.org/abs/2206.14169v1 ) ライセンス: Link先を確認 | Sonu Gupta, Ellen Poplavska, Nora O'Toole, Siddhant Arora, Thomas Norton, Norman Sadeh, Shomir Wilson | (参考訳) 世界中のプライバシー法や規制の展望は複雑で変化し続けています。
国家および超国家法、協定、法令、その他の政府発行の規則は、企業が国際的に運営するために従わなければならないパッチワークを形成する。
このパッチワークの状況と進化を調べるため,政府プライバシ指導法人(GPI Corpus, GPI Corpus, GPI Corpus, GPI Corpus, 1,043のプライバシ法, 規制, ガイドライン)が182の司法管轄区域をカバーする。
このコーパスは、プライバシーに関する法的関連を大規模に定量かつ定性的に検討することを可能にする。
GPIの作成時期の経時的分布について検討し、過去50年間のプライバシー規制の劇的な増加を示すが、よりきめ細かい調査では、GPIが対応している個人データの種類によって増加率が異なることが判明した。
我々の調査は、ほとんどのプライバシー法が、それぞれ比較的少数の個人データタイプに対処していることを示している。
さらに、トピックモデリングの結果は、金融、医療、電気通信といったGPIにおける共通テーマの流行を示している。
最後に,コーパスを研究コミュニティに公開し,さらなる研究を促進する。 The landscape of privacy laws and regulations around the world is complex and ever-changing. National and super-national laws, agreements, decrees, and other government-issued rules form a patchwork that companies must follow to operate internationally. To examine the status and evolution of this patchwork, we introduce the Government Privacy Instructions Corpus, or GPI Corpus, of 1,043 privacy laws, regulations, and guidelines, covering 182 jurisdictions. This corpus enables a large-scale quantitative and qualitative examination of legal foci on privacy. We examine the temporal distribution of when GPIs were created and illustrate the dramatic increase in privacy legislation over the past 50 years, although a finer-grained examination reveals that the rate of increase varies depending on the personal data types that GPIs address. Our exploration also demonstrates that most privacy laws respectively address relatively few personal data types, showing that comprehensive privacy legislation remains rare. Additionally, topic modeling results show the prevalence of common themes in GPIs, such as finance, healthcare, and telecommunications. Finally, we release the corpus to the research community to promote further study. | 翻訳日:2022-06-29 13:39:36 公開日:2022-06-28 |
# 実世界の文脈における難解な議論と量的データの比較と拡張 Comparing and extending the use of defeasible argumentation with quantitative data in real-world contexts ( http://arxiv.org/abs/2206.13959v1 ) ライセンス: Link先を確認 | Lucas Rizzo and Luca Longo | (参考訳) 不確実、矛盾、曖昧な情報を扱うことは、人工知能(AI)の中心的な問題である。
結果として、非単調性を考えるために多くの形式主義が提案され、適応され、限られた数の著作と研究者しかそれらの比較を行なわなかった。
非単調な形式主義は、新しい証拠に照らして、前提から以前の結論や主張を取り除き、不確実性を扱う際に望ましい柔軟性を提供するものである。
本稿では,非単調な推論をモデル化する上で特に想定される形式主義であるデファシブル議論の推論能力を評価することに焦点を当てる。
これに加えて、ファジィ推論とエキスパートシステムは、推論の非単調性を扱うために拡張され、AIコミュニティ内で広く受け入れられた使用のために、ベースラインとして選択され、使用される。
このようなモデルの応用分野として計算信頼が選ばれた。
信頼は不明確な構成であるため、信頼の推論に適用される推論は非単調と見なすことができる。
推論モデルはウィキペディアプロジェクトの編集者に信頼スカラーを割り当てるために設計された。
特に、議論ベースのモデルは、知識ベースやデータセットが採用されているにもかかわらず、ベースライン上に構築されたモデルよりも堅牢性を示した。
本研究は,難解な議論の活用と類似のアプローチとの比較を通じて,知識の体系に寄与する。
このようなアプローチと、同様の実験を容易にするモジュール設計の実践的利用が実証され、それぞれの実装がGitHub [120, 121]で公開されている。
この研究は、量的データと不確実な知識を持つ推論に対する説得力のあるアプローチとして、デファシブル議論の一般化性を実証的に強化する以前の研究を付け加えた。 Dealing with uncertain, contradicting, and ambiguous information is still a central issue in Artificial Intelligence (AI). As a result, many formalisms have been proposed or adapted so as to consider non-monotonicity, with only a limited number of works and researchers performing any sort of comparison among them. A non-monotonic formalism is one that allows the retraction of previous conclusions or claims, from premises, in light of new evidence, offering some desirable flexibility when dealing with uncertainty. This research article focuses on evaluating the inferential capacity of defeasible argumentation, a formalism particularly envisioned for modelling non-monotonic reasoning. In addition to this, fuzzy reasoning and expert systems, extended for handling non-monotonicity of reasoning, are selected and employed as baselines, due to their vast and accepted use within the AI community. Computational trust was selected as the domain of application of such models. Trust is an ill-defined construct, hence, reasoning applied to the inference of trust can be seen as non-monotonic. Inference models were designed to assign trust scalars to editors of the Wikipedia project. In particular, argument-based models demonstrated more robustness than those built upon the baselines despite the knowledge bases or datasets employed. This study contributes to the body of knowledge through the exploitation of defeasible argumentation and its comparison to similar approaches. The practical use of such approaches coupled with a modular design that facilitates similar experiments was exemplified and their respective implementations made publicly available on GitHub [120, 121]. This work adds to previous works, empirically enhancing the generalisability of defeasible argumentation as a compelling approach to reason with quantitative data and uncertain knowledge. | 翻訳日:2022-06-29 13:39:14 公開日:2022-06-28 |
# 制約付きPOMDPに対する線形プログラミングに基づく解法 Linear programming-based solution methods for constrained POMDPs ( http://arxiv.org/abs/2206.14081v1 ) ライセンス: Link先を確認 | Can Kavaklioglu, Robert Helmeczi, Mucahit Cevik | (参考訳) 制約付き部分可観測マルコフ決定過程(cpomdps)は、様々な実世界の現象をモデル化するために用いられる。
しかし、それらは最適性への解決が難しいことで知られており、高品質な解を得るための近似法はわずかしかない。
本研究では,CPOMDPの近似ポリシを生成するために,グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
5つのCPOMDP問題を考慮し、それらの有限および無限の地平線定式化の詳細な数値的研究を行う。
まず, 厳密な解法との比較分析により, ほぼ制約のないPOMDPポリシーの質を確立する。
次に、異なる問題インスタンスに対する様々な予算レベル(コスト制限)に対して、LPベースのCPOMDPソリューションアプローチの性能を示す。
最後に、決定論的ポリシー制約を適用してLPベースのアプローチの柔軟性を示し、これらの制約が収集された報酬やCPU実行時間に与える影響を検討する。
解析により,LPモデルが有限な地平線問題と無限の地平線問題の両方に対する近似ポリシーを効果的に生成できることが示されている。 Constrained partially observable Markov decision processes (CPOMDPs) have been used to model various real-world phenomena. However, they are notoriously difficult to solve to optimality, and there exist only a few approximation methods for obtaining high-quality solutions. In this study, we use grid-based approximations in combination with linear programming (LP) models to generate approximate policies for CPOMDPs. We consider five CPOMDP problem instances and conduct a detailed numerical study of both their finite and infinite horizon formulations. We first establish the quality of the approximate unconstrained POMDP policies through a comparative analysis with exact solution methods. We then show the performance of the LP-based CPOMDP solution approaches for varying budget levels (i.e., cost limits) for different problem instances. Finally, we show the flexibility of LP-based approaches by applying deterministic policy constraints, and investigate the impact that these constraints have on collected rewards and CPU run time. Our analysis demonstrates that LP models can effectively generate approximate policies for both finite and infinite horizon problems, while providing the flexibility to incorporate various additional constraints into the underlying model. | 翻訳日:2022-06-29 13:38:45 公開日:2022-06-28 |
# R-CNN:水中物体検出のためのRPN誤差によるR-CNNサンプルの再重み付け Boosting R-CNN: Reweighting R-CNN Samples by RPN's Error for Underwater Object Detection ( http://arxiv.org/abs/2206.13728v1 ) ライセンス: Link先を確認 | Pinhao Song, Hong Liu, Linhui Dai, Tao Wang, Zhan Chen | (参考訳) 複雑な水中環境は、不均衡な光条件、低いコントラスト、閉塞、水生生物の模倣など、物体検出に新たな課題をもたらす。
このような状況下では、水中カメラが捉えた物体はあいまいになり、ジェネリック検出器はしばしばこれらの曖昧な物体に失敗する。
この研究は、不確実性モデリングとハードサンプルマイニングという2つの視点からこの問題を解決することを目的としている。
3つの主要成分からなる2段水中検出器boosting r-cnnを提案する。
まず, retinarpn という新たな地域提案ネットワークを提案し, 高品質の提案を提供し, 対象の事前確率をモデル化する不確実性に対する客観性と iou 予測を考察した。
次に、確率的推論パイプラインを導入し、第1ステージ前の不確かさと第2ステージの分類スコアを組み合わせて最終検出スコアをモデル化する。
最後に,boosting reweightingという新しいハードサンプルマイニング手法を提案する。
具体的には、領域提案ネットワークがサンプルの事前確率を誤算した場合、トレーニング中のR-CNNヘッドにおけるサンプルの分類損失を増大させ、正確に推定された事前値による簡単なサンプルの損失を低減させる。
これにより、第2段のロバスト検出ヘッドを得ることができる。
推論段階では、R-CNNは第1ステージのエラーを修正して性能を改善する能力を有する。
2つの水中データセットと2つの汎用物体検出データセットに関する総合実験により,本手法の有効性とロバスト性を実証した。 Complicated underwater environments bring new challenges to object detection, such as unbalanced light conditions, low contrast, occlusion, and mimicry of aquatic organisms. Under these circumstances, the objects captured by the underwater camera will become vague, and the generic detectors often fail on these vague objects. This work aims to solve the problem from two perspectives: uncertainty modeling and hard example mining. We propose a two-stage underwater detector named boosting R-CNN, which comprises three key components. First, a new region proposal network named RetinaRPN is proposed, which provides high-quality proposals and considers objectness and IoU prediction for uncertainty to model the object prior probability. Second, the probabilistic inference pipeline is introduced to combine the first-stage prior uncertainty and the second-stage classification score to model the final detection score. Finally, we propose a new hard example mining method named boosting reweighting. Specifically, when the region proposal network miscalculates the object prior probability for a sample, boosting reweighting will increase the classification loss of the sample in the R-CNN head during training, while reducing the loss of easy samples with accurately estimated priors. Thus, a robust detection head in the second stage can be obtained. During the inference stage, the R-CNN has the capability to rectify the error of the first stage to improve the performance. Comprehensive experiments on two underwater datasets and two generic object detection datasets demonstrate the effectiveness and robustness of our method. | 翻訳日:2022-06-29 13:36:35 公開日:2022-06-28 |
# ディープ・ゲイト認識に関する包括的調査:アルゴリズム,データセット,課題 A Comprehensive Survey on Deep Gait Recognition: Algorithms, Datasets and Challenges ( http://arxiv.org/abs/2206.13732v1 ) ライセンス: Link先を確認 | Chuanfu Shen, Shiqi Yu, Jilong Wang, George Q. Huang and Liang Wang | (参考訳) 歩行認識は、視覚カメラを通して遠くにいる人を識別することを目的としている。
ディープラーニングの出現に伴い、歩行認識の大幅な進歩は、深層学習技術を活用することで、多くのシナリオで大きな成功を収めた。
それにもかかわらず、ビデオ監視の必要性の高まりは、様々なばらつきの下での堅牢な認識、歩行シーケンスにおける動作情報のモデリング、プロトコルのばらつきによる不公平なパフォーマンス比較、生体認証のセキュリティ、プライバシー保護など、さらなる課題をもたらしている。
本稿では,歩行認識のためのディープラーニングの包括的調査を行う。
まず,従来のアルゴリズムから深層モデルへの歩容認識のオデッセイを提示し,歩容認識システムのワークフロー全体に関する明示的な知識を提供する。
次に、深い表現とアーキテクチャの観点から、歩行認識のための深層学習を詳細な要約で論じる。
具体的には、深い歩行表現を静的および動的特徴に分類し、深いアーキテクチャにはシングルストリームとマルチストリームアーキテクチャが含まれる。
提案する新奇な分類法に従えば,深部歩行認識の認知を刺激し,促進する上で有益である。
さらに、すべての視覚に基づく歩行データセットとパフォーマンス分析の包括的概要も提示する。
最後に、本記事では、潜在的な有望な問題のいくつかについて論じる。 Gait recognition aims at identifying a person at a distance through visual cameras. With the emergence of deep learning, significant advancements in gait recognition have achieved inspiring success in many scenarios by utilizing deep learning techniques. Nevertheless, the increasing need for video surveillance introduces more challenges, including robust recognition under various variances, modeling motion information in gait sequences, unfair performance comparison due to protocol variances, biometrics security, and privacy prevention. This paper provides a comprehensive survey of deep learning for gait recognition. We first present the odyssey of gait recognition from traditional algorithms to deep models, providing explicit knowledge of the whole workflow of a gait recognition system. Then deep learning for gait recognition is discussed from the perspective of deep representations and architecture with an in-depth summary. Specifically, deep gait representations are categorized into static and dynamic features, while deep architectures include single-stream and multi-stream architecture. Following our proposed taxonomy with novelty, it can be beneficial for providing inspiration and promoting the perception of deep gait recognition. Besides, we also present a comprehensive summary of all vision-based gait datasets and the performance analysis. Finally, the article discusses some open issues with significant potential prospects. | 翻訳日:2022-06-29 13:36:11 公開日:2022-06-28 |
# ディープフェイク画像検出のための視覚トランスフォーマーとcnnのクロスフォーブリー解析 Cross-Forgery Analysis of Vision Transformers and CNNs for Deepfake Image Detection ( http://arxiv.org/abs/2206.13829v1 ) ライセンス: Link先を確認 | Davide Alessandro Coccomini, Roberto Caldelli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato | (参考訳) ディープフェイク生成技術は急速に進化しており、リアルに操作された画像やビデオを作成し、現代社会のセレニティを危険にさらすことができる。
新たな多種多様な技術の継続的な出現は、直近の手法でも操作を識別できるように、ディープフェイク検出モデルが迅速に自己を更新できるという、さらに問題に直面することになる。
これは、モデルのトレーニングには大量のデータが必要であるため、Deepfake生成方法が近すぎると取得が困難であるため、非常に複雑な問題である。
さらに、ネットワークを継続的に再トレーニングすることは不可能である。
本稿では, 様々な深層学習技術の中で, 深部フェイクの概念を, トレーニングセットで使用される1つ以上の特定の深部フェイク生成手法に縛られない程度に一般化できるものが存在するかどうかを自問する。
我々は、ForgeryNetデータセットに基づくクロスフォージェニーコンテキストにおいて、Vision TransformerとEfficientNetV2を比較した。
実験の結果,EfficientNetV2はトレーニング手法の優れた結果を得る傾向が強く,Vision Transformerは新たな手法で生成した画像においてもより優れた一般化能力を示すことがわかった。 Deepfake Generation Techniques are evolving at a rapid pace, making it possible to create realistic manipulated images and videos and endangering the serenity of modern society. The continual emergence of new and varied techniques brings with it a further problem to be faced, namely the ability of deepfake detection models to update themselves promptly in order to be able to identify manipulations carried out using even the most recent methods. This is an extremely complex problem to solve, as training a model requires large amounts of data, which are difficult to obtain if the deepfake generation method is too recent. Moreover, continuously retraining a network would be unfeasible. In this paper, we ask ourselves if, among the various deep learning techniques, there is one that is able to generalise the concept of deepfake to such an extent that it does not remain tied to one or more specific deepfake generation methods used in the training set. We compared a Vision Transformer with an EfficientNetV2 on a cross-forgery context based on the ForgeryNet dataset. From our experiments, It emerges that EfficientNetV2 has a greater tendency to specialize often obtaining better results on training methods while Vision Transformers exhibit a superior generalization ability that makes them more competent even on images generated with new methodologies. | 翻訳日:2022-06-29 13:35:52 公開日:2022-06-28 |
# 正確なリアルタイム擬似ライダー検出:ステレオニューラルネットワークは本当に必要か? Accurate and Real-time Pseudo Lidar Detection: Is Stereo Neural Network Really Necessary? ( http://arxiv.org/abs/2206.13858v1 ) ライセンス: Link先を確認 | Haitao Meng, Changcai Li, Gang Chen and Alois Knoll | (参考訳) Pseudo-Lidar表現の提案は、視覚ベースとアクティブなLidarベースの3Dオブジェクト検出のギャップを大幅に狭めた。
しかし、現在の研究は、複雑で時間を要するニューラルネットワークの利点を生かして、擬似ライダーの精度向上に重点を置いている。
Pseudo-Lidar表現の深い特徴を探求することはめったにない。
本稿では, 擬似ライダー表現を深く掘り下げ, 3次元物体検出の性能は高精度ステレオ深度推定に完全に依存していないと主張している。
信頼性の低い深度推定でも、適切なデータ処理と精錬によって、同等の3Dオブジェクト検出精度が得られることを示す。
そこで本研究では,疑似ライダーシステムにおいて,高速だが不正確なステレオマッチングアルゴリズムを用いて低レイテンシ応答性を実現する可能性を示す。
実験では,より強力なステレオマッチング予測器を用いたシステムを開発し,精度向上のための改良手法を提案する。
KITTIベンチマークの評価では,23msの計算量で最先端のアプローチと競合する精度が得られ,実車用アプリケーションへのデプロイに適した候補であることが示されている。 The proposal of Pseudo-Lidar representation has significantly narrowed the gap between visual-based and active Lidar-based 3D object detection. However, current researches exclusively focus on pushing the accuracy improvement of Pseudo-Lidar by taking the advantage of complex and time-consuming neural networks. Seldom explore the profound characteristics of Pseudo-Lidar representation to obtain the promoting opportunities. In this paper, we dive deep into the pseudo Lidar representation and argue that the performance of 3D object detection is not fully dependent on the high precision stereo depth estimation. We demonstrate that even for the unreliable depth estimation, with proper data processing and refining, it can achieve comparable 3D object detection accuracy. With this finding, we further show the possibility that utilizing fast but inaccurate stereo matching algorithms in the Pseudo-Lidar system to achieve low latency responsiveness. In the experiments, we develop a system with a less powerful stereo matching predictor and adopt the proposed refinement schemes to improve the accuracy. The evaluation on the KITTI benchmark shows that the presented system achieves competitive accuracy to the state-of-the-art approaches with only 23 ms computing, showing it is a suitable candidate for deploying to real car-hold applications. | 翻訳日:2022-06-29 13:35:29 公開日:2022-06-28 |
# 次元的影響ラベルを用いた近赤外表情データセットの生成 Generating near-infrared facial expression datasets with dimensional affect labels ( http://arxiv.org/abs/2206.13887v1 ) ライセンス: Link先を確認 | Calvin Chen, Stefan Winkler | (参考訳) 顔の表情分析はコンピュータビジョンの活発な研究領域である。
伝統的な方法は、主に原型的な離散的な感情のイメージを分析し、その結果、人間の複雑な感情状態を正確に描写することができない。
さらに、照明のばらつきは可視光スペクトルにおける顔分析の課題である。
これらの問題に対処するために,valence と arousal に基づく次元モデルを用いて,近赤外線 (nir) 画像と組み合わせ,より広い範囲の感情を表現することを提案する。
NIRの表情データセットに有意な有意なラベルが付けられていないため、既存のカテゴリーおよび/または可視光のデータセットから次元的感情ラベルを持つNIR画像データセットを作成するために、2つの補完的なデータ拡張方法(顔モーフィングとCycleGANアプローチ)を提案する。
実験の結果,これらの生成したNIRデータセットは,データ品質とベースライン予測性能の点で,既存のデータセットに匹敵することがわかった。 Facial expression analysis has long been an active research area of computer vision. Traditional methods mainly analyse images for prototypical discrete emotions; as a result, they do not provide an accurate depiction of the complex emotional states in humans. Furthermore, illumination variance remains a challenge for face analysis in the visible light spectrum. To address these issues, we propose using a dimensional model based on valence and arousal to represent a wider range of emotions, in combination with near infra-red (NIR) imagery, which is more robust to illumination changes. Since there are no existing NIR facial expression datasets with valence-arousal labels available, we present two complementary data augmentation methods (face morphing and CycleGAN approach) to create NIR image datasets with dimensional emotion labels from existing categorical and/or visible-light datasets. Our experiments show that these generated NIR datasets are comparable to existing datasets in terms of data quality and baseline prediction performance. | 翻訳日:2022-06-29 13:35:07 公開日:2022-06-28 |
# ブラインド顔復元のためのニューラルネットワークによるマルチパラメータ学習 Multi-Prior Learning via Neural Architecture Search for Blind Face Restoration ( http://arxiv.org/abs/2206.13962v1 ) ライセンス: Link先を確認 | Yanjiang Yu, Puyang Zhang, Kaihao Zhang, Wenhan Luo, Changsheng Li, Ye Yuan, Guoren Wang | (参考訳) Blind Face Restoration (BFR)は、低品質の顔画像から高品質な顔画像を復元することを目的としている。
しかし、現在の手法は2つの大きな困難を抱えている。
1) 大規模ハンドチューニングを伴わない強力なネットワークアーキテクチャの導出方法
2) 複数の顔前兆から補完情報を1つのネットワークで取得して復元性能を向上させる方法。
そこで本研究では,特定の検索空間内で適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(frsnet)を提案する。
frsnetを基盤として,マルチプライオリエント学習方式による複数顔先行探索ネットワーク(mfpsnet)を更に設計する。
mfpsnetは、多様な顔からの情報を最適に抽出し、その情報を画像特徴に融合し、外部ガイダンスと内部特徴の両方が保存されるようにする。
このようにして、MFPSNetは意味レベル(パーシングマップ)、幾何学レベル(顔熱マップ)、参照レベル(顔辞書)、ピクセルレベル(劣化画像)の情報を完全に活用し、忠実でリアルな画像を生成する。
定量的および定性的実験により、MFPSNetは最先端のBFR法に対して、合成データセットと実世界のデータセットの両方で好適に機能することが示された。
コードはhttps://github.com/YYJ1anG/MFPSNet.comで公開されている。 Blind Face Restoration (BFR) aims to recover high-quality face images from low-quality ones and usually resorts to facial priors for improving restoration performance. However, current methods still suffer from two major difficulties: 1) how to derive a powerful network architecture without extensive hand tuning; 2) how to capture complementary information from multiple facial priors in one network to improve restoration performance. To this end, we propose a Face Restoration Searching Network (FRSNet) to adaptively search the suitable feature extraction architecture within our specified search space, which can directly contribute to the restoration quality. On the basis of FRSNet, we further design our Multiple Facial Prior Searching Network (MFPSNet) with a multi-prior learning scheme. MFPSNet optimally extracts information from diverse facial priors and fuses the information into image features, ensuring that both external guidance and internal features are reserved. In this way, MFPSNet takes full advantage of semantic-level (parsing maps), geometric-level (facial heatmaps), reference-level (facial dictionaries) and pixel-level (degraded images) information and thus generates faithful and realistic images. Quantitative and qualitative experiments show that MFPSNet performs favorably on both synthetic and real-world datasets against the state-of-the-art BFR methods. The codes are publicly available at: https://github.com/YYJ1anG/MFPSNet. | 翻訳日:2022-06-29 13:34:49 公開日:2022-06-28 |
# 統一ベクトルマッピングのための原始グラフ学習 Primitive Graph Learning for Unified Vector Mapping ( http://arxiv.org/abs/2206.13963v1 ) ライセンス: Link先を確認 | Lei Wang, Min Dai, Jianan He, Jingwei Huang, Mingwei Sun | (参考訳) 大規模ベクトルマッピングは交通、都市計画、測量および国勢調査において重要である。
衛星画像から終端ベクトルマップを抽出するための統合フレームワークであるGraphMapperを提案する。
我々の重要なアイデアは、異なる位相の形状の新たな統一表現である「原始グラフ」(primitive graph)であり、形状プリミティブとその対関係行列の集合である。
そして,ベクトル形状予測,正規化,トポロジー再構成を独自の原始グラフ学習問題に変換する。
具体的には、GraphMapperは、マルチヘッドアテンションによるグローバルな形状コンテキストモデリングに基づく、汎用的な原始的なグラフ学習ネットワークである。
正確な原始関係モデリングのための埋め込み空間分類法を開発した。
GraphMapperの2つの課題,すなわちフットプリントの正規化と道路ネットワークのトポロジ再構成に対する効果を実証的に実証した。
提案手法は,両タスクをベンチマークで8~10%向上させる。
すべてのコードは公開されます。 Large-scale vector mapping is important for transportation, city planning, and survey and census. We propose GraphMapper, a unified framework for end-to-end vector map extraction from satellite images. Our key idea is a novel unified representation of shapes of different topologies named "primitive graph", which is a set of shape primitives and their pairwise relationship matrix. Then, we convert vector shape prediction, regularization, and topology reconstruction into a unique primitive graph learning problem. Specifically, GraphMapper is a generic primitive graph learning network based on global shape context modelling through multi-head-attention. An embedding space sorting method is developed for accurate primitive relationship modelling. We empirically demonstrate the effectiveness of GraphMapper on two challenging mapping tasks, building footprint regularization and road network topology reconstruction. Our model outperforms state-of-the-art methods by 8-10% in both tasks on public benchmarks. All code will be publicly available. | 翻訳日:2022-06-29 13:34:24 公開日:2022-06-28 |
# 航空画像中の微小物体の検出:正規化wasserstein距離と新しいベンチマーク Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark ( http://arxiv.org/abs/2206.13996v1 ) ライセンス: Link先を確認 | Chang Xu, Jinwang Wang, Wen Yang, Huai Yu, Lei Yu, Gui-Song Xia | (参考訳) 空中画像における細い物体検出(TOD)は、小さな物体が数ピクセルしか持たないため困難である。
最先端のオブジェクト検出器は、識別的特徴の監督が欠如しているため、小さなオブジェクトに対して満足な結果を提供しない。
我々のキーとなる観察は、IoU(Intersection over Union)メートル法とその拡張法は、小さな物体の位置ずれに非常に敏感であり、アンカーベース検出器で使用する場合のラベル割り当ての質を劇的に低下させる。
この問題に対処するために,正規化ワッサースタイン距離 (NWD) と呼ばれる新しい評価基準と,小型物体検出のためのRanKing-based Assigning (RKA) 戦略を提案する。
提案したNWD-RKA戦略は、標準のIoUしきい値に基づくものを置き換えるために、あらゆる種類のアンカーベース検出器に容易に組み込むことができ、ラベル割り当てを大幅に改善し、ネットワークトレーニングに十分な監視情報を提供する。
4つのデータセットでテストされたNWD-RKAは、大きなマージンで小さなオブジェクト検出性能を継続的に改善することができる。
さらに,Aerial Images(AI-TOD)データセットにおけるTiny Object Detection(AI-TOD)の顕著なノイズラベルを観察し,AI-TOD-v2とその対応するベンチマークをリリースする動機付けを行った。
AI-TOD-v2では、アノテーションと位置エラーの問題は大幅に軽減され、より信頼性の高いトレーニングと検証プロセスが促進される。
DetectoRSにNWD-RKAを組み込むと、検出性能はAI-TOD-v2上の最先端の競合よりも4.3APポイント向上する。
データセット、コード、さらに多くの視覚化は、https://chasel-tsui.github.io/AI-TOD-v2/で利用可能である。 Tiny object detection (TOD) in aerial images is challenging since a tiny object only contains a few pixels. State-of-the-art object detectors do not provide satisfactory results on tiny objects due to the lack of supervision from discriminative features. Our key observation is that the Intersection over Union (IoU) metric and its extensions are very sensitive to the location deviation of the tiny objects, which drastically deteriorates the quality of label assignment when used in anchor-based detectors. To tackle this problem, we propose a new evaluation metric dubbed Normalized Wasserstein Distance (NWD) and a new RanKing-based Assigning (RKA) strategy for tiny object detection. The proposed NWD-RKA strategy can be easily embedded into all kinds of anchor-based detectors to replace the standard IoU threshold-based one, significantly improving label assignment and providing sufficient supervision information for network training. Tested on four datasets, NWD-RKA can consistently improve tiny object detection performance by a large margin. Besides, observing prominent noisy labels in the Tiny Object Detection in Aerial Images (AI-TOD) dataset, we are motivated to meticulously relabel it and release AI-TOD-v2 and its corresponding benchmark. In AI-TOD-v2, the missing annotation and location error problems are considerably mitigated, facilitating more reliable training and validation processes. Embedding NWD-RKA into DetectoRS, the detection performance achieves 4.3 AP points improvement over state-of-the-art competitors on AI-TOD-v2. Datasets, codes, and more visualizations are available at: https://chasel-tsui.github.io/AI-TOD-v2/ | 翻訳日:2022-06-29 13:33:16 公開日:2022-06-28 |
# 画像の深層学習を用いた分類学と進化予測 Taxonomy and evolution predicting using deep learning in images ( http://arxiv.org/abs/2206.14011v1 ) ライセンス: Link先を確認 | Jiewen Xiao, Wenbin Liao, Ming Zhang, Jing Wang, Jianxin Wang, Yihua Yang | (参考訳) 生物学的分類学の重要な部分である分子的・形態的特徴は矛盾するが、統合する必要がある。
生物のイメージ認識とバイオインフォマティクスは近年、ホットな問題となっているが、両者の間にはギャップがある。
本研究では, 遺伝情報を利用した多分岐認識フレームワークがバリアを橋渡しし, マクロ形態学とキノコのマイクロ分子情報との関連を確立する。
3つの分岐モデルから特徴画像を融合し, 認識精度を約10%, 最大90%向上させるマルチパースペクティブ構造を提案する。
また、画像距離及び種識別を予測する表現空間として、遺伝的距離埋め込みを用いて、キノコ画像認識タスクに遺伝的情報を実装する。
従来の分類タスクのセマンティックなオーバーフィッティングときめ細かい画像認識の粒度についても,初めて深く議論した。
このモデルの一般化性はゼロショット学習タスクを用いてきめ細かいシナリオで検討され,未発見標本の分類学的および進化的情報を予測できた。
我々は、DNAに画像のマッピングを行う最初の方法、すなわち、エンコーダマッピング画像を遺伝的距離に使用し、事前訓練されたデコーダを介してDNAをデコードし、37種のDNA予測の総検査精度は87.45%である。
本研究では,キノコ画像認識問題を体系的に研究し,マクロな生体情報と微視的分子情報とのギャップを橋渡し,将来的な知的バイオメトリックスへの新たな参照を提供する新たな認識枠組みを提案する。 Molecular and morphological characters, as important parts of biological taxonomy, are contradictory but need to be integrated. Organism's image recognition and bioinformatics are emerging and hot problems nowadays but with a gap between them. In this work, a multi-branching recognition framework mediated by genetic information bridges this barrier, which establishes the link between macro-morphology and micro-molecular information of mushrooms. The novel multi-perspective structure is proposed to fuse the feature images from three branching models, which significantly improves the accuracy of recognition by about 10% and up to more than 90%. Further, genetic information is implemented to the mushroom image recognition task by using genetic distance embeddings as the representation space for predicting image distance and species identification. Semantic overfitting of traditional classification tasks and the granularity of fine-grained image recognition are also discussed in depth for the first time. The generalizability of the model was investigated in fine-grained scenarios using zero-shot learning tasks, which could predict the taxonomic and evolutionary information of unseen samples. We presented the first method to map images to DNA, namely used an encoder mapping image to genetic distances, and then decoded DNA through a pre-trained decoder, where the total test accuracy on 37 species for DNA prediction is 87.45%. This study creates a novel recognition framework by systematically studying the mushroom image recognition problem, bridging the gap between macroscopic biological information and microscopic molecular information, which will provide a new reference for intelligent biometrics in the future. | 翻訳日:2022-06-29 13:32:45 公開日:2022-06-28 |
# 主線を用いたカメラ校正における放射歪の影響の可視化と緩和 Visualizing and Alleviating the Effect of Radial Distortion on Camera Calibration Using Principal Lines ( http://arxiv.org/abs/2206.14164v1 ) ライセンス: Link先を確認 | Jen-Hui Chuang and Hsin-Yi Chen | (参考訳) 正確な結果を得るためには,カメラキャリブレーションのための適切な画像の作成が不可欠である。
本稿では, 主線を用いた校正手順における放射歪の悪影響を緩和するためのデータ作成のための新たな提案について述べる。
(i)キャリブレーション結果に最大(最小)影響を与える画像中のチェッカーボードの動きの方向を特定すること。
(ii)そのような効果の対称性及び単調性を検査すること
(i)上記本系統を用いる。
したがって、主点の推定は、ほぼ平行な主線の線形独立なペアに基づいて行うべきであり、各ペアの部材は、他方の180度に近い回転(画像平面内)に対応する。
実験の結果,ゆがみパラメータを明示的に推定する著名な代数的手法と比較して,先行推定に対するロバストで一貫性のあるキャリブレーション結果が得られることがわかった。 Preparing appropriate images for camera calibration is crucial to obtain accurate results. In this paper, new suggestions for preparing such data to alleviate the adverse effect of radial distortion for a calibration procedure using principal lines are developed through the investigations of: (i) identifying directions of checkerboard movements in an image which will result in maximum (and minimum) influence on the calibration results, and (ii) inspecting symmetry and monotonicity of such effect in (i) using the above principal lines. Accordingly, it is suggested that the estimation of principal point should based on linearly independent pairs of nearly parallel principal lines, with a member in each pair corresponds to a near 180-degree rotation (in the image plane) of the other. Experimental results show that more robust and consistent calibration results for the foregoing estimation can actually be obtained, compared with the renowned algebraic methods which estimate distortion parameters explicitly. | 翻訳日:2022-06-29 13:32:19 公開日:2022-06-28 |
# フレーズマイニング Phrase Mining ( http://arxiv.org/abs/2206.13748v1 ) ライセンス: Link先を確認 | Ellie Small, Javier Cabrera | (参考訳) テキストの集合から頻繁に単語を抽出することは、多くの主題において大きなスケールで行われる。
一方、句の抽出は、句の抽出に固有の複雑さがあるため、一般的には行われないが、最も大きな複雑さは、単語や句がそれ自身も数えられる長い句の中に現れるときに数えられる二重カウントである。
この問題に対する解決策を説明するフレーズマイニングに関する論文がいくつかあるが、抽出プロセスで利用可能ないわゆる品質フレーズのリストを必要とするか、そのプロセス中に品質フレーズを特定するためにヒューマンインタラクションを必要とする。
高品質なフレーズのリストを識別することなく、二重カウントを除去する手法を提案する。
一組のテキストの文脈では、主句は句読点を越えず、ストップワードで始まるのではなく、ストップワードで終わる「not」と「no」を除いて、ストップワードで終わるのではなく、ダブルカウントされずにそれらのテキスト内で頻繁であり、ユーザにとって意味のあるフレーズであると定義する。
提案手法は,人間の入力を使わずにその主語句を識別し,テキストから抽出することができる。
phmと呼ばれるRパッケージが開発され、このメソッドを実装している。 Extracting frequent words from a collection of texts is performed on a great scale in many subjects. Extracting phrases, on the other hand, is not commonly done due to inherent complications when extracting phrases, the most significant complication being that of double-counting, where words or phrases are counted when they appear inside longer phrases that themselves are also counted. Several papers have been written on phrase mining that describe solutions to this issue; however, they either require a list of so-called quality phrases to be available to the extracting process, or they require human interaction to identify those quality phrases during the process. We present a method that eliminates double-counting without the need to identify lists of quality phrases. In the context of a set of texts, we define a principal phrase as a phrase that does not cross punctuation marks, does not start with a stop word, with the exception of the stop words "not" and "no", does not end with a stop word, is frequent within those texts without being double counted, and is meaningful to the user. Our method can identify such principal phrases independently without human input, and enables their extraction from any texts. An R package called phm has been developed that implements this method. | 翻訳日:2022-06-29 13:32:03 公開日:2022-06-28 |
# 時系列に(歴史的)事実を置く:分類 cum coref resolution アプローチ Placing (Historical) Facts on a Timeline: A Classification cum Coref Resolution Approach ( http://arxiv.org/abs/2206.14089v1 ) ライセンス: Link先を確認 | Sayantan Adak, Altaf Ahmad, Aditya Basu, Animesh Mukherjee | (参考訳) タイムラインは、ある期間に起こった重要な歴史的事実を視覚化する最も効果的な方法の1つを提供し、同等の情報をテキスト形式で読むことからそれほど明らかでない洞察を提示する。
重要文分類のための生成的逆学習を活用し, 知識ベースタグを同化することにより, イベントコリファレンス解決性能を向上させることにより, 複数の(歴史的)テキスト文書からイベントタイムラインを生成する2段階システムを提案する。
我々は,手書きの注釈付き歴史文書を2つにまとめる。
我々の成果は、歴史学者、歴史研究の進展、有名なペルソナの著作に反映された国の社会政治的景観の理解に非常に役立つ。 A timeline provides one of the most effective ways to visualize the important historical facts that occurred over a period of time, presenting the insights that may not be so apparent from reading the equivalent information in textual form. By leveraging generative adversarial learning for important sentence classification and by assimilating knowledge based tags for improving the performance of event coreference resolution we introduce a two staged system for event timeline generation from multiple (historical) text documents. We demonstrate our results on two manually annotated historical text documents. Our results can be extremely helpful for historians, in advancing research in history and in understanding the socio-political landscape of a country as reflected in the writings of famous personas. | 翻訳日:2022-06-29 13:31:38 公開日:2022-06-28 |
# (参考訳) DayDreamer:物理ロボット学習の世界モデル DayDreamer: World Models for Physical Robot Learning ( http://arxiv.org/abs/2206.14176v1 ) ライセンス: CC BY 4.0 | Philipp Wu, Alejandro Escontrela, Danijar Hafner, Ken Goldberg, Pieter Abbeel | (参考訳) 複雑な環境でタスクを解決するには、ロボットは経験から学ぶ必要がある。
深層強化学習はロボット学習の一般的なアプローチであるが、学習には大量の試行錯誤が必要であり、物理的な世界への展開を制限する。
その結果、ロボット学習の進歩の多くはシミュレータに依存している。
一方、シミュレータの内部での学習は現実世界の複雑さを捉えるのに失敗し、不正確なシミュレーションをしがちであり、その結果の振る舞いは世界の変化に適応しない。
近年のDreamerアルゴリズムは、学習された世界モデル内で計画し、ビデオゲームにおける純粋な強化学習を上回ることで、少量のインタラクションから学ぶことを約束している。
潜在的な行動の結果を予測するための世界モデルを学ぶことは、想像力の計画を可能にし、実際の環境での試行とエラーの量を減らす。
しかし、Dreamerが物理ロボットの学習を高速化できるかどうかは不明である。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインで直接学習する。
dreamerは四足歩行ロボットを訓練して、背中を転がし、立ち上がり、スクラッチから歩き、わずか1時間でリセットする。
そしてロボットを押して、ドリーマーが10分以内に摂動に耐えるか、素早く転がって立ち上がるかを見つける。
2つの異なるロボットアームで、Dreamerはカメラ画像から直接複数のオブジェクトを選択し、配置することを学び、人間のパフォーマンスに近づく。
車輪付きのロボットでDreamerは、カメラ画像から純粋にゴール位置まで移動し、ロボットの向きに関する曖昧さを自動的に解消する。
すべての実験で同じハイパーパラメータを使って、Dreamerは現実世界でオンライン学習が可能で、強力なベースラインを確立しています。
ロボット学習への世界モデルの将来の応用のためのインフラをリリースする。 To solve tasks in complex environments, robots need to learn from experience. Deep reinforcement learning is a common approach to robot learning but requires a large amount of trial and error to learn, limiting its deployment in the physical world. As a consequence, many advances in robot learning rely on simulators. On the other hand, learning inside of simulators fails to capture the complexity of the real world, is prone to simulator inaccuracies, and the resulting behaviors do not adapt to changes in the world. The Dreamer algorithm has recently shown great promise for learning from small amounts of interaction by planning within a learned world model, outperforming pure reinforcement learning in video games. Learning a world model to predict the outcomes of potential actions enables planning in imagination, reducing the amount of trial and error needed in the real environment. However, it is unknown whether Dreamer can facilitate faster learning on physical robots. In this paper, we apply Dreamer to 4 robots to learn online and directly in the real world, without simulators. Dreamer trains a quadruped robot to roll off its back, stand up, and walk from scratch and without resets in only 1 hour. We then push the robot and find that Dreamer adapts within 10 minutes to withstand perturbations or quickly roll over and stand back up. On two different robotic arms, Dreamer learns to pick and place multiple objects directly from camera images and sparse rewards, approaching human performance. On a wheeled robot, Dreamer learns to navigate to a goal position purely from camera images, automatically resolving ambiguity about the robot orientation. Using the same hyperparameters across all experiments, we find that Dreamer is capable of online learning in the real world, establishing a strong baseline. We release our infrastructure for future applications of world models to robot learning. | 翻訳日:2022-06-29 13:29:10 公開日:2022-06-28 |
# イベントは何件必要ですか?
Sparse but Varying Pixelsを用いたイベントベース視覚位置認識 How Many Events do You Need? Event-based Visual Place Recognition Using Sparse But Varying Pixels ( http://arxiv.org/abs/2206.13673v1 ) ライセンス: Link先を確認 | Tobias Fischer and Michael Milford | (参考訳) イベントカメラは、高いダイナミックレンジ、低レイテンシ、事実上動きのぼやきがなく、高エネルギー効率といった望ましい特徴から、引き続き注目を集めている。
イベントカメラ研究の潜在的な応用の1つは、ロボットのローカライゼーションのための視覚的位置認識であり、データベース内の対応する参照場所とクエリ観察を一致させる必要がある。
本文では,少数の画素(数十から数百)からのイベントストリームの特異性について検討する。
本研究では,イベントフレームに蓄積された画素位置におけるイベント数の絶対的な差が,参照集合に大きな変動を示す画素を用いる場合,位置認識タスクに十分であることを示す。
このようなスパース(画像座標上)を用いるが、異なる(画素位置当たりのイベント数の違い)ピクセルを使用することで、位置推定を頻繁かつ計算的に安価に更新することができる。
さらに,イベントフレームが一定回数のイベントを含む場合,センサストリームのイベント駆動特性をフル活用し,速度変化に対して有望なロバスト性を示す。
我々は,Brisbane-Event-VPRデータセットとモバイルロボットプラットフォームに搭載されたDAVIS346カメラを用いて,新たに提案した屋内QCR-Event-VPRデータセットについて検討した。
提案手法は,これらのデータセット上のいくつかのベースライン手法と比較して競争性能が向上し,特に惑星間ローバーのような計算・エネルギー制約のあるプラットフォームに適していることを示す。 Event cameras continue to attract interest due to desirable characteristics such as high dynamic range, low latency, virtually no motion blur, and high energy efficiency. One of the potential applications of event camera research lies in visual place recognition for robot localization, where a query observation has to be matched to the corresponding reference place in the database. In this letter, we explore the distinctiveness of event streams from a small subset of pixels (in the tens or hundreds). We demonstrate that the absolute difference in the number of events at those pixel locations accumulated into event frames can be sufficient for the place recognition task, when pixels that display large variations in the reference set are used. Using such sparse (over image coordinates) but varying (variance over the number of events per pixel location) pixels enables frequent and computationally cheap updates of the location estimates. Furthermore, when event frames contain a constant number of events, our method takes full advantage of the event-driven nature of the sensory stream and displays promising robustness to changes in velocity. We evaluate our proposed approach on the Brisbane-Event-VPR dataset in an outdoor driving scenario, as well as the newly contributed indoor QCR-Event-VPR dataset that was captured with a DAVIS346 camera mounted on a mobile robotic platform. Our results show that our approach achieves competitive performance when compared to several baseline methods on those datasets, and is particularly well suited for compute- and energy-constrained platforms such as interplanetary rovers. | 翻訳日:2022-06-29 13:08:50 公開日:2022-06-28 |
# マルチカメラシステムにおける位置特異的サブセレクションによる最悪の視覚定位範囲の改善 Improving Worst Case Visual Localization Coverage via Place-specific Sub-selection in Multi-camera Systems ( http://arxiv.org/abs/2206.13883v1 ) ライセンス: Link先を確認 | Stephen Hausler, Ming Xu, Sourav Garg, Punarjay Chakravarty, Shubham Shrivastava, Ankit Vora, Michael Milford | (参考訳) 6-dof視覚定位システムは3次元幾何学に基づく原理的アプローチを用いて、地図への画像の正確なカメラポーズ推定を行う。
現在の技術では、階層パイプラインと学習された2D特徴抽出器を使用してスケーラビリティを改善し、パフォーマンスを向上させる。
しかし、典型的なリコール@0.25mタイプのメトリクスは向上したが、これらのシステムは、性能の「悪い」領域のため、自動運転車のような実世界のアプリケーションでは、まだ使用できない。
本稿では,マルチカメラシステムにおけるカメラ選択において,マップを複数の場所に分割し,それぞれがポーズ推定ステップを変調する独自の構成を持つ 'place specific configurations' の使用の有用性について検討する。
ford avベンチマークデータセットでは、市販のパイプラインと比較して、最悪の場合のローカライズ性能が大幅に向上していることが示されています。
提案手法は,AVの艦隊が既知のルートを定期的に横断する,自動運転車のクラウドシェアリングモデルに適用可能である。 6-DoF visual localization systems utilize principled approaches rooted in 3D geometry to perform accurate camera pose estimation of images to a map. Current techniques use hierarchical pipelines and learned 2D feature extractors to improve scalability and increase performance. However, despite gains in typical recall@0.25m type metrics, these systems still have limited utility for real-world applications like autonomous vehicles because of their `worst' areas of performance - the locations where they provide insufficient recall at a certain required error tolerance. Here we investigate the utility of using `place specific configurations', where a map is segmented into a number of places, each with its own configuration for modulating the pose estimation step, in this case selecting a camera within a multi-camera system. On the Ford AV benchmark dataset, we demonstrate substantially improved worst-case localization performance compared to using off-the-shelf pipelines - minimizing the percentage of the dataset which has low recall at a certain error tolerance, as well as improved overall localization performance. Our proposed approach is particularly applicable to the crowdsharing model of autonomous vehicle deployment, where a fleet of AVs are regularly traversing a known route. | 翻訳日:2022-06-29 13:08:25 公開日:2022-06-28 |
# 差分的条件付きGANを用いた不均衡データ生成における相関キャプチャの改善 Improving Correlation Capture in Generating Imbalanced Data using Differentially Private Conditional GANs ( http://arxiv.org/abs/2206.13787v1 ) ライセンス: Link先を確認 | Chang Sun, Johan van Soest, and Michel Dumontier | (参考訳) テキスト、画像、ビデオにおけるGAN(Generative Adversarial Networks)の成功にもかかわらず、不均衡なデータの依存関係の取得や、合成された患者データの品質の最適化、プライバシの保護など、いくつかのユニークな課題のために、高品質な表データの生成はまだ開発中である。
本稿では,DP-CGANSを提案する。DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的でプライバシに保護された表データを生成する。
DP-CGANSは分類変数と連続変数を区別し、それらを別々に潜在空間に変換する。
次に条件付きベクトルを追加入力として構成し、不均衡データ中のマイノリティクラスを表示するだけでなく、変数間の依存性も取得する。
我々はDP-CGANSのネットワークトレーニングプロセスの勾配に統計的ノイズを注入し、差分プライバシー保証を提供する。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
モデルが他のモデルよりも優れており、特に変数間の依存性を捉えている。
最後に、不均衡変数、異常分布、データの分散といった実世界のデータセットの異なるデータ構造と特性を考慮した合成データ生成におけるデータユーティリティとプライバシのバランスを示す。 Despite the remarkable success of Generative Adversarial Networks (GANs) on text, images, and videos, generating high-quality tabular data is still under development owing to some unique challenges such as capturing dependencies in imbalanced data, optimizing the quality of synthetic patient data while preserving privacy. In this paper, we propose DP-CGANS, a differentially private conditional GAN framework consisting of data transformation, sampling, conditioning, and networks training to generate realistic and privacy-preserving tabular data. DP-CGANS distinguishes categorical and continuous variables and transforms them to latent space separately. Then, we structure a conditional vector as an additional input to not only presents the minority class in the imbalanced data, but also capture the dependency between variables. We inject statistical noise to the gradients in the networking training process of DP-CGANS to provide a differential privacy guarantee. We extensively evaluate our model with state-of-the-art generative models on three public datasets and two real-world personal health datasets in terms of statistical similarity, machine learning performance, and privacy measurement. We demonstrate that our model outperforms other comparable models, especially in capturing dependency between variables. Finally, we present the balance between data utility and privacy in synthetic data generation considering the different data structure and characteristics of real-world datasets such as imbalance variables, abnormal distributions, and sparsity of data. | 翻訳日:2022-06-29 13:07:45 公開日:2022-06-28 |
# 分散学習におけるモデル集約のための通信効率の基本的限界:レート歪みアプローチ Fundamental Limits of Communication Efficiency for Model Aggregation in Distributed Learning: A Rate-Distortion Approach ( http://arxiv.org/abs/2206.13984v1 ) ライセンス: Link先を確認 | Naifu Zhang, Meixia Tao, Jia Wang and Fan Xu | (参考訳) トレーニングの各ラウンドにおけるモデルアグリゲーションは、数百万から数十億のパラメータで構成される可能性があるため、分散学習における重点の1つがコミュニケーション効率である。
モデル集約の通信効率を向上させるために、勾配量子化やスパース化などのモデル圧縮法が提案されている。
しかし,与えられた勾配推定値の歪みに対する情報理論的最小通信コストはいまだ不明である。
本稿では,分散学習におけるモデル集約のコミュニケーションコストの基本限界について,レート・ディストリビューションの観点から検討する。
モデルアグリゲーションをベクトルガウスのCEO問題として定式化することにより、モデルアグリゲーション問題に対するレート領域境界とサムレート歪み関数を導出し、特定の勾配歪み上界における最小の通信速度を明らかにする。
また,実世界のデータセットの勾配統計値を用いて,各イテレーションにおける通信コストと総通信コストを分析する。
その結果, 労働者ノード間の相関を利用した通信利得はSignSGDにとって重要であり, 勾配推定器の歪みが大きいことにより, 勾配圧縮における通信コストの低減が図られた。 One of the main focuses in distributed learning is communication efficiency, since model aggregation at each round of training can consist of millions to billions of parameters. Several model compression methods, such as gradient quantization and sparsification, have been proposed to improve the communication efficiency of model aggregation. However, the information-theoretic minimum communication cost for a given distortion of gradient estimators is still unknown. In this paper, we study the fundamental limit of communication cost of model aggregation in distributed learning from a rate-distortion perspective. By formulating the model aggregation as a vector Gaussian CEO problem, we derive the rate region bound and sum-rate-distortion function for the model aggregation problem, which reveals the minimum communication rate at a particular gradient distortion upper bound. We also analyze the communication cost at each iteration and total communication cost based on the sum-rate-distortion function with the gradient statistics of real-world datasets. It is found that the communication gain by exploiting the correlation between worker nodes is significant for SignSGD, and a high distortion of gradient estimator can achieve low total communication cost in gradient compression. | 翻訳日:2022-06-29 13:04:55 公開日:2022-06-28 |
# XLAコンパイラによるメモリセーフな計算 Memory Safe Computations with XLA Compiler ( http://arxiv.org/abs/2206.14148v1 ) ライセンス: Link先を確認 | Artem Artemev, Tilman Roeder, Mark van der Wilk | (参考訳) TensorFlowやPyTorchのようなソフトウェアパッケージは線形代数演算をサポートするように設計されている。
しかし、速度を優先することで、しばしばメモリ要件を無視する。
結果として、ソフトウェア設計において便利なメモリ集約アルゴリズムの実装は、メモリオーバーフローのために大きな問題に対して実行されないことが多い。
メモリ効率のソリューションは、計算フレームワークの外で重要な論理を持つ複雑なプログラミングアプローチを必要とする。
これはそのようなアルゴリズムの採用と利用を妨げる。
そこで我々は,ユーザ指定メモリ制限に応じて,アルゴリズムの計算データフロー表現を調整するXLAコンパイラ拡張を開発した。
標準的な実装が失敗する単一デバイス上で,k-nearest 近傍およびスパースガウスプロセス回帰手法がはるかに大規模に実行可能であることを示す。
我々のアプローチは、ハードウェアリソースのより良い利用につながる。
コンパイラレベルでのメモリ制約の除去にさらに重点を置くことで、将来開発可能な機械学習メソッドの範囲が拡大すると考えています。 Software packages like TensorFlow and PyTorch are designed to support linear algebra operations, and their speed and usability determine their success. However, by prioritising speed, they often neglect memory requirements. As a consequence, the implementations of memory-intensive algorithms that are convenient in terms of software design can often not be run for large problems due to memory overflows. Memory-efficient solutions require complex programming approaches with significant logic outside the computational framework. This impairs the adoption and use of such algorithms. To address this, we developed an XLA compiler extension that adjusts the computational data-flow representation of an algorithm according to a user-specified memory limit. We show that k-nearest neighbour and sparse Gaussian process regression methods can be run at a much larger scale on a single device, where standard implementations would have failed. Our approach leads to better use of hardware resources. We believe that further focus on removing memory constraints at a compiler level will widen the range of machine learning methods that can be developed in the future. | 翻訳日:2022-06-29 13:04:36 公開日:2022-06-28 |
# 物理インフォームド(量子)ニューラルネットワークにおける積分変換:応用と利用事例 Integral Transforms in a Physics-Informed (Quantum) Neural Network setting: Applications & Use-Cases ( http://arxiv.org/abs/2206.14184v1 ) ライセンス: Link先を確認 | Niraj Kumar, Evan Philip, Vincent E. Elfving | (参考訳) 工学や科学における多くの計算問題において、機能やモデルの微分は不可欠であるが、統合も必要である。
計算問題の重要なクラスには、函数の積分と微分の両方を含むいわゆる積分微分方程式が含まれる。
別の例では、確率微分方程式は確率変数の確率密度関数の偏微分方程式の項で書くことができる。
密度関数に基づいて確率変数の特性を学習するには、密度関数の特定の積分変換、すなわちモーメントを計算する必要がある。
近年,微分方程式の自動微分を利用した解法として,物理情報ニューラルネットワークの機械学習パラダイムが注目されている。
本研究では, 学習解に対する複雑な積分変換を計算するために, 自動積分による物理形ニューラルネットワークのパラダイムの強化と, 訓練中に積分をオンザフライで計算する積分微分方程式の解法を提案する。
さらに,量子コンピュータベースのニューラルネットワークや古典的ニューラルネットワークを数値シミュレーションすることで,様々なアプリケーション設定における手法を紹介する。 In many computational problems in engineering and science, function or model differentiation is essential, but also integration is needed. An important class of computational problems include so-called integro-differential equations which include both integrals and derivatives of a function. In another example, stochastic differential equations can be written in terms of a partial differential equation of a probability density function of the stochastic variable. To learn characteristics of the stochastic variable based on the density function, specific integral transforms, namely moments, of the density function need to be calculated. Recently, the machine learning paradigm of Physics-Informed Neural Networks emerged with increasing popularity as a method to solve differential equations by leveraging automatic differentiation. In this work, we propose to augment the paradigm of Physics-Informed Neural Networks with automatic integration in order to compute complex integral transforms on trained solutions, and to solve integro-differential equations where integrals are computed on-the-fly during training. Furthermore, we showcase the techniques in various application settings, numerically simulating quantum computer-based neural networks as well as classical neural networks. | 翻訳日:2022-06-29 13:04:22 公開日:2022-06-28 |
# 対向ロバスト性評価の信頼性向上 Increasing Confidence in Adversarial Robustness Evaluations ( http://arxiv.org/abs/2206.13991v1 ) ライセンス: Link先を確認 | Roland S. Zimmermann, Wieland Brendel, Florian Tramer, Nicholas Carlini | (参考訳) 深層ニューラルネットワークを最小(逆)入力摂動に対して堅牢にするために、何百もの防御が提案されている。
しかし、ロバスト性を正確に評価することは極めて困難である。弱い攻撃は、知らない間にも敵の例を見つけられず、脆弱なネットワークを堅牢に見せる。
本稿では,弱い攻撃を識別するテストを提案し,防御力の弱い評価を行う。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
結果的に、正しい攻撃は、この修正されたネットワークを壊すのに成功しなければなりません。
以前に公表された13の防御のうち11か所において、防御の当初の評価はテストに失敗し、これらの防御を破る強力な攻撃が通過する。
我々のような攻撃単体テストは、将来の堅牢性評価において重要な要素となり、現在懐疑論が取り除かれている経験的分野への信頼を高めることを願っている。 Hundreds of defenses have been proposed to make deep neural networks robust against minimal (adversarial) input perturbations. However, only a handful of these defenses held up their claims because correctly evaluating robustness is extremely challenging: Weak attacks often fail to find adversarial examples even if they unknowingly exist, thereby making a vulnerable network look robust. In this paper, we propose a test to identify weak attacks, and thus weak defense evaluations. Our test slightly modifies a neural network to guarantee the existence of an adversarial example for every sample. Consequentially, any correct attack must succeed in breaking this modified network. For eleven out of thirteen previously-published defenses, the original evaluation of the defense fails our test, while stronger attacks that break these defenses pass it. We hope that attack unit tests - such as ours - will be a major component in future robustness evaluations and increase confidence in an empirical field that is currently riddled with skepticism. | 翻訳日:2022-06-29 13:04:07 公開日:2022-06-28 |
# 構造的パースペクティブ規則化によるディープニューラルネットワークのプルーニング Deep Neural Networks pruning via the Structured Perspective Regularization ( http://arxiv.org/abs/2206.14056v1 ) ライセンス: Link先を確認 | Matteo Cacciola, Antonio Frangioni, Xinlin Li and Andrea Lodi | (参考訳) 機械学習では、ニューラルネットワーク(ANN)は非常に強力なツールであり、多くのアプリケーションで広く使われている。
多くの場合、選択された(深い)アーキテクチャには多数のレイヤが含まれているため、大量のパラメータがあり、トレーニングやストレージ、推論が高価になる。
これにより、パフォーマンスを過大に犠牲にすることなく、元のネットワークを小さなネットワークに圧縮する研究が流れた。
提案された多くの圧縮手法のうち、最も一般的なのは \emph{pruning} であり、ANN の要素(リンク、ノード、チャネル、および \ldots)と対応する重み付けが削除される。
問題の本質は本質的に組み合わせであり(pruneの要素とそうでない要素)、オペレーショナル・リサーチ・ツールに基づいた新しい刈り取り手法を提案する。
我々は,問題に対する自然な混合整数型プログラミングモデルから始まり,その連続緩和を強化するために視点再構成手法を用いる。
この改定から指標変数を投影すると、構造的パースペクティブ正規化と呼ばれる新しい正規化項が得られ、初期アーキテクチャの構造的プルーニングにつながります。
我々は, CIFAR-10, CIFAR-100, ImageNetデータセットに適用したResNetアーキテクチャを用いて, 構造化プルーニング技術の現状と競合する性能を求める。 In Machine Learning, Artificial Neural Networks (ANNs) are a very powerful tool, broadly used in many applications. Often, the selected (deep) architectures include many layers, and therefore a large amount of parameters, which makes training, storage and inference expensive. This motivated a stream of research about compressing the original networks into smaller ones without excessively sacrificing performances. Among the many proposed compression approaches, one of the most popular is \emph{pruning}, whereby entire elements of the ANN (links, nodes, channels, \ldots) and the corresponding weights are deleted. Since the nature of the problem is inherently combinatorial (what elements to prune and what not), we propose a new pruning method based on Operational Research tools. We start from a natural Mixed-Integer-Programming model for the problem, and we use the Perspective Reformulation technique to strengthen its continuous relaxation. Projecting away the indicator variables from this reformulation yields a new regularization term, which we call the Structured Perspective Regularization, that leads to structured pruning of the initial architecture. We test our method on some ResNet architectures applied to CIFAR-10, CIFAR-100 and ImageNet datasets, obtaining competitive performances w.r.t.~the state of the art for structured pruning. | 翻訳日:2022-06-29 13:02:12 公開日:2022-06-28 |
# ボラティリティ形成過程の普遍性について--機械学習と大まかなボラティリティが一致する場合- On the universality of the volatility formation process: when machine learning and rough volatility agree ( http://arxiv.org/abs/2206.14114v1 ) ライセンス: Link先を確認 | Mathieu Rosenbaum and Jianfei Zhang | (参考訳) 我々は,全株式の次の日平均変動を予測することを目的とした,数百の液体ストックからなるプールデータセットに基づくLSTMネットワークをトレーニングする。
他の資産特化パラメトリックモデルと比較して、この普遍LSTMの一貫したアウトパフォーマンスを示すことから、過去の市場実現に関する資産、例えば日々のリターンやボラティリティに関する普遍的ボラティリティ形成機構の非パラメトリックな証拠を現在のボラティリティに明らかにした。
粗分数確率的ボラティリティと2次粗度ヘストンモデルとを固定パラメータと組み合わせた擬似パラメトリック予測装置は,パラメータからボラティリティ生成過程の普遍性を確認する普遍LSTMと同程度の性能を示す。 We train an LSTM network based on a pooled dataset made of hundreds of liquid stocks aiming to forecast the next daily realized volatility for all stocks. Showing the consistent outperformance of this universal LSTM relative to other asset-specific parametric models, we uncover nonparametric evidences of a universal volatility formation mechanism across assets relating past market realizations, including daily returns and volatilities, to current volatilities. A parsimonious parametric forecasting device combining the rough fractional stochastic volatility and quadratic rough Heston models with fixed parameters results in the same level of performance as the universal LSTM, which confirms the universality of the volatility formation process from a parametric perspective. | 翻訳日:2022-06-29 13:01:47 公開日:2022-06-28 |
# ラベル自動解釈とインスタンス生成によるファウショットファイングラインドエンティティタイピング Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation and Instance Generation ( http://arxiv.org/abs/2206.13746v1 ) ライセンス: Link先を確認 | Jiaxin Huang, Yu Meng, Jiawei Han | (参考訳) 各エンティティタイプに対して,アノテーション付きエンティティ参照が付与される場合,FET(Fall-shot Fine-fine Entity Typing)の問題について検討する。
近年,プロンプトベースのチューニングは,エンティティ型分類タスクを「補充型ブランク」問題として定式化し,いくつかのシナリオにおいて標準的な微調整よりも優れた性能を示した。
これにより、事前学習言語モデル(PLM)の強力な言語モデリング能力を効果的に活用することができる。
現在のプロンプトベースのチューニング手法の成功にもかかわらず、(1)プロンプトの動詞化器は、ターゲットコーパスやラベル階層情報を考慮せずに、手作業で設計または外部知識ベースから構築されるか、(2)plmの表現力を主に活用するが、広範囲な一般ドメイン事前学習によって獲得した生成能力を探求していないという2つの大きな課題が残っている。
そこで本研究では,(1)エンティティ型ラベル解釈モジュールが,マイトショットインスタンスとラベル階層を併用して,自動的にタイプラベルを語彙に関連付けることを学び,(2)タイプベースのコンテキスト化インスタンス生成器が与えられたインスタンスに基づいて新しいインスタンスを生成し,より一般化するためにトレーニングセットを拡大する,という2つのモジュールからなる,マイトショットfetの新しいフレームワークを提案する。
3つのベンチマークデータセットで、我々のモデルは既存の手法よりも大幅に優れています。
コードはhttps://github.com/teapot123/Fine-Grained-Entity-Typingで見ることができる。 We study the problem of few-shot Fine-grained Entity Typing (FET), where only a few annotated entity mentions with contexts are given for each entity type. Recently, prompt-based tuning has demonstrated superior performance to standard fine-tuning in few-shot scenarios by formulating the entity type classification task as a ''fill-in-the-blank'' problem. This allows effective utilization of the strong language modeling capability of Pre-trained Language Models (PLMs). Despite the success of current prompt-based tuning approaches, two major challenges remain: (1) the verbalizer in prompts is either manually designed or constructed from external knowledge bases, without considering the target corpus and label hierarchy information, and (2) current approaches mainly utilize the representation power of PLMs, but have not explored their generation power acquired through extensive general-domain pre-training. In this work, we propose a novel framework for few-shot FET consisting of two modules: (1) an entity type label interpretation module automatically learns to relate type labels to the vocabulary by jointly leveraging few-shot instances and the label hierarchy, and (2) a type-based contextualized instance generator produces new instances based on given instances to enlarge the training set for better generalization. On three benchmark datasets, our model outperforms existing methods by significant margins. Code can be found at https://github.com/teapot123/Fine-Grained-Entity-Typing. | 翻訳日:2022-06-29 13:00:58 公開日:2022-06-28 |
# cc-riddle:漢字の謎の質問応答データセット CC-Riddle: A Question Answering Dataset of Chinese Character Riddles ( http://arxiv.org/abs/2206.13778v1 ) ライセンス: Link先を確認 | Fan Xu and Yunxiang Zhang and Xiaojun Wan | (参考訳) 漢字リドル(英: chinese character riddle)は、一つの文字を解く挑戦的なリドルゲームである。
解法は、解字の発音、形、意味を修辞技法で記述している。
本稿では,web からリドルをクロールし,新しい文字を生成することで,一般的な簡体字の大部分をカバーする漢字リドルデータセットを提案する。
生成段階では,中国語音素アルファベット,生成モデルの解の分解と説明を行い,テストされた各文字について複数の謎記述を得る。
次に生成されたリドルを手動でフィルタリングし、最終的なデータセットであるCC-Riddleは、人書きのリドルとフィルタリングされたリドルの両方で構成されます。
さらに,我々のデータセットをベースとしたキャラクタリザードQAシステムを構築し,既存のモデルがこのような難解な問題を解くのに苦労していることを確かめる。
CC-Riddleは現在公開されている。 Chinese character riddle is a challenging riddle game which takes a single character as the solution. The riddle describes the pronunciation, shape and meaning of the solution character with rhetoric techniques. In this paper, we propose a Chinese character riddle dataset covering the majority of common simplified Chinese characters by crawling riddles from the Web and generating brand new ones. In the generation stage, we provide the Chinese phonetic alphabet, decomposition and explanation of the solution character for the generation model and get multiple riddle descriptions for each tested character. Then the generated riddles are manually filtered and the final dataset, CC-Riddle is composed of both human-written riddles and filtered generated riddles. Furthermore, we build a character riddle QA system based on our dataset and find that the existing models struggle to solve such tricky questions. CC-Riddle is now publicly available. | 翻訳日:2022-06-29 13:00:32 公開日:2022-06-28 |
# MACSA:マルチモーダル微粒アノテーションを用いたマルチモーダルアスペクトカテゴリ感性分析データセット MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations ( http://arxiv.org/abs/2206.13969v1 ) ライセンス: Link先を確認 | Hao Yang, Yanyan Zhao, Jianwei Liu, Yang Wu and Bing Qin | (参考訳) マルチモーダル微粒な感情分析は、その幅広い応用により近年注目を集めている。
しかし、既存のマルチモーダルな微妙な感情データセットは、テキストの細かい要素に注釈を付けることに重点を置いているが、画像の細かい要素は無視している。
本稿では,21K以上のテキスト・イメージ・ペアを含むMultimodal Aspect-Category Sentiment Analysis (MACSA)データセットを提案する。
データセットは、テキストコンテンツとビジュアルコンテンツの両方にきめ細かいアノテーションを提供し、まずアスペクトカテゴリをピボットとして使用し、2つのモダリティ間のきめ細かい要素を調整します。
本研究のデータセットに基づいて,細粒度クロスモーダル融合手法を応用したマルチモーダルacsaタスクとマルチモーダルグラフベースアライメントモデル(mgam)を提案する。
実験結果から,本手法は今後のコーパスのベースライン比較を容易にすることが示唆された。
データセットとコードを公開します。 Multimodal fine-grained sentiment analysis has recently attracted increasing attention due to its broad applications. However, the existing multimodal fine-grained sentiment datasets most focus on annotating the fine-grained elements in text but ignore those in images, which leads to the fine-grained elements in visual content not receiving the full attention they deserve. In this paper, we propose a new dataset, the Multimodal Aspect-Category Sentiment Analysis (MACSA) dataset, which contains more than 21K text-image pairs. The dataset provides fine-grained annotations for both textual and visual content and firstly uses the aspect category as the pivot to align the fine-grained elements between the two modalities. Based on our dataset, we propose the Multimodal ACSA task and a multimodal graph-based aligned model (MGAM), which adopts a fine-grained cross-modal fusion method. Experimental results show that our method can facilitate the baseline comparison for future research on this corpus. We will make the dataset and code publicly available. | 翻訳日:2022-06-29 13:00:16 公開日:2022-06-28 |
# (参考訳) BAGEL: グラフニューラルネットワークの説明を評価するベンチマーク BAGEL: A Benchmark for Assessing Graph Neural Network Explanations ( http://arxiv.org/abs/2206.13983v1 ) ライセンス: CC BY 4.0 | Mandeep Rathee, Thorben Funke, Avishek Anand, Megha Khosla | (参考訳) 機械学習の決定を解釈する問題はよく研究され、重要である。
グラフニューラルネットワークと呼ばれるグラフデータを扱う、特定のタイプの機械学習モデルに興味を持っています。
グラフニューラルネットワーク(GNN)の解釈可能性アプローチの評価は、一般的に受け入れられているベンチマークが欠如していることから、難しいことが知られている。
GNNモデルを考えると、様々な(時には矛盾する)評価手法でGNNモデルを説明するために、いくつかの解釈可能性アプローチが存在する。
本稿では,ベイゲルと呼ばれるGNNにおける説明可能性評価手法を提案する。
ベーゲルでは,まず4つの多様なGNN説明評価体制を提案する。
1)誠実さ
2)スパーシティ
3)正確性。
そして
4) 可能性。
既存の文献に複数の評価指標をまとめ、総合的な評価のために多様な概念を網羅する。
私たちのグラフデータセットは、引用ネットワーク、ドキュメントグラフ、分子やタンパク質のグラフまで様々です。
ノードとグラフの分類タスクに対して,4つのgnnモデルと9つのポストホックな説明アプローチに関する広範な実証研究を行った。
ベンチマークとリファレンス実装の両方を開き、https://github.com/Mandeep-Rathee/Bagel-benchmark.comで公開しています。 The problem of interpreting the decisions of machine learning is a well-researched and important. We are interested in a specific type of machine learning model that deals with graph data called graph neural networks. Evaluating interpretability approaches for graph neural networks (GNN) specifically are known to be challenging due to the lack of a commonly accepted benchmark. Given a GNN model, several interpretability approaches exist to explain GNN models with diverse (sometimes conflicting) evaluation methodologies. In this paper, we propose a benchmark for evaluating the explainability approaches for GNNs called Bagel. In Bagel, we firstly propose four diverse GNN explanation evaluation regimes -- 1) faithfulness, 2) sparsity, 3) correctness. and 4) plausibility. We reconcile multiple evaluation metrics in the existing literature and cover diverse notions for a holistic evaluation. Our graph datasets range from citation networks, document graphs, to graphs from molecules and proteins. We conduct an extensive empirical study on four GNN models and nine post-hoc explanation approaches for node and graph classification tasks. We open both the benchmarks and reference implementations and make them available at https://github.com/Mandeep-Rathee/Bagel-benchmark. | 翻訳日:2022-06-29 12:59:16 公開日:2022-06-28 |
# 詩:後方サンプリングによる分布外検出 POEM: Out-of-Distribution Detection with Posterior Sampling ( http://arxiv.org/abs/2206.13687v1 ) ライセンス: Link先を確認 | Yifei Ming, Ying Fan, Yixuan Li | (参考訳) out-of-distribution (ood) 検出は、オープンワールドにデプロイされる機械学習モデルにとって不可欠である。
近年、トレーニング中の補助的外れ値データセット(外れ値露光とも呼ばれる)の使用は、有望なパフォーマンスを示している。
潜在的OODデータのサンプル空間は禁じられるほど大きいため、情報の抽出は必須である。
そこで本研究では, オフレイラデータの効率的な利用を容易にし, ID と OOD データ間のコンパクトな決定境界を学習し, 検出精度の向上を図るための, 後方サンプリングベース・アウトリーマイニングフレームワーク POEM を提案する。
我々はPOEMが一般的なベンチマークで最先端の性能を確立することを示す。
グリーディサンプリング戦略を用いた現在の最良の方法と比較すると、詩はcifar-10とcifar-100の相対的なパフォーマンスをそれぞれ42.0%向上させ、24.2%(fpr95)向上させる。
さらに,OOD検出におけるPOEMの有効性について理論的考察を行った。 Out-of-distribution (OOD) detection is indispensable for machine learning models deployed in the open world. Recently, the use of an auxiliary outlier dataset during training (also known as outlier exposure) has shown promising performance. As the sample space for potential OOD data can be prohibitively large, sampling informative outliers is essential. In this work, we propose a novel posterior sampling-based outlier mining framework, POEM, which facilitates efficient use of outlier data and promotes learning a compact decision boundary between ID and OOD data for improved detection. We show that POEM establishes state-of-the-art performance on common benchmarks. Compared to the current best method that uses a greedy sampling strategy, POEM improves the relative performance by 42.0% and 24.2% (FPR95) on CIFAR-10 and CIFAR-100, respectively. We further provide theoretical insights on the effectiveness of POEM for OOD detection. | 翻訳日:2022-06-29 12:39:06 公開日:2022-06-28 |
# テスト時間等級特徴アライメントによるスクラッチからの制約のないロバスト化視覚変換器 Robustifying Vision Transformer without Retraining from Scratch by Test-Time Class-Conditional Feature Alignment ( http://arxiv.org/abs/2206.13951v1 ) ライセンス: Link先を確認 | Takeshi Kojima, Yutaka Matsuo, Yusuke Iwasawa | (参考訳) Vision Transformer (ViT) は画像処理で人気が高まっている。
具体的には,vitに対するテスト時間適応(tta)の有効性について検討した。
まず、VT-B16とVT-L16の様々なテスト時間適応手法をベンチマークする。
TTA は ViT に対して有効であり, 適切な損失関数を使用する場合, 事前回避(適応パラメータの選択に敏感な)は不要である。
そこで本研究では,クラス条件特徴アライメント(cfa)と呼ばれる新しいテスト時間適応手法を提案する。
共通汚職に関する画像分類タスク(CIFAR-10-C, CIFAR-100-C, ImageNet-C)とドメイン適応(デジタルデータセットとImageNet-Sketch)の実験は、CFAが既存のベースラインを様々なデータセットで安定的に上回っていることを示している。
また、CFAがResNet、MLP-Mixer、およびいくつかのViT変種(ViT-AugReg、DeiT、BeiT)を実験することで、モデル非依存であることを検証する。
BeiTのバックボーンを使用して、CFAはImageNet-Cで19.8%のエラー率を獲得し、既存のテスト時間適応ベースライン44.0%を上回っている。
これは、トレーニングフェーズを変更する必要のないTTAメソッドの最先端の結果である。 Vision Transformer (ViT) is becoming more popular in image processing. Specifically, we investigate the effectiveness of test-time adaptation (TTA) on ViT, a technique that has emerged to correct its prediction during test-time by itself. First, we benchmark various test-time adaptation approaches on ViT-B16 and ViT-L16. It is shown that the TTA is effective on ViT and the prior-convention (sensibly selecting modulation parameters) is not necessary when using proper loss function. Based on the observation, we propose a new test-time adaptation method called class-conditional feature alignment (CFA), which minimizes both the class-conditional distribution differences and the whole distribution differences of the hidden representation between the source and target in an online manner. Experiments of image classification tasks on common corruption (CIFAR-10-C, CIFAR-100-C, and ImageNet-C) and domain adaptation (digits datasets and ImageNet-Sketch) show that CFA stably outperforms the existing baselines on various datasets. We also verify that CFA is model agnostic by experimenting on ResNet, MLP-Mixer, and several ViT variants (ViT-AugReg, DeiT, and BeiT). Using BeiT backbone, CFA achieves 19.8% top-1 error rate on ImageNet-C, outperforming the existing test-time adaptation baseline 44.0%. This is a state-of-the-art result among TTA methods that do not need to alter training phase. | 翻訳日:2022-06-29 12:38:51 公開日:2022-06-28 |
# revbifpn: 完全に可逆な双方向機能ピラミッドネットワーク RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid Network ( http://arxiv.org/abs/2206.14098v1 ) ライセンス: Link先を確認 | Vitaliy Chiley, Vithursan Thangarasa, Abhay Gupta, Anshul Samar, Joel Hestness, Dennis DeCoste | (参考訳) 本稿では,双方向マルチスケール機能融合のための最初の可逆モジュールであるrevsiloを紹介する。
他のリバーシブルメソッドと同様に、revsiloは再計算によって隠れたアクティベーションを保存する必要がなくなる。
しかし、既存の可逆的手法はマルチスケールな特徴融合には適用されないため、大規模なネットワークには適用できない。
双方向のマルチスケール機能融合は局所的およびグローバルなコヒーレンスを促進し、hrnet や efficientdet といった空間的に敏感なタスクを対象とするネットワークのデファクト設計原則となっている。
高解像度入力と組み合わせると、これらのネットワークは様々なコンピュータビジョンタスクで最先端の結果を得るが、トレーニングには大規模なマルチレゾリューションアクティベーションの節約に相当なアクセラレーションメモリを必要とする。
これらのメモリ要件はネットワークサイズを制限し、進捗を制限する。
reversible recomputationを使ってrevsiloは、解像度スケールで動作しながらメモリ問題を緩和する。
RevSilosを積み重ねて、完全に可逆的な双方向特徴ピラミッドネットワークであるRevBiFPNを作成します。
RevBiFPNは、最大19.8倍のトレーニングメモリを使用しながら、EfficientNetのようなネットワークと競合する。
COCOを微調整すると、RevBiFPNは最大2.5%のAPをHRNetにアップし、MACを減らし、トレーニング時間メモリを2.4倍削減する。 This work introduces the RevSilo, the first reversible module for bidirectional multi-scale feature fusion. Like other reversible methods, RevSilo eliminates the need to store hidden activations by recomputing them. Existing reversible methods, however, do not apply to multi-scale feature fusion and are therefore not applicable to a large class of networks. Bidirectional multi-scale feature fusion promotes local and global coherence and has become a de facto design principle for networks targeting spatially sensitive tasks e.g. HRNet and EfficientDet. When paired with high-resolution inputs, these networks achieve state-of-the-art results across various computer vision tasks, but training them requires substantial accelerator memory for saving large, multi-resolution activations. These memory requirements cap network size and limit progress. Using reversible recomputation, the RevSilo alleviates memory issues while still operating across resolution scales. Stacking RevSilos, we create RevBiFPN, a fully reversible bidirectional feature pyramid network. For classification, RevBiFPN is competitive with networks such as EfficientNet while using up to 19.8x lesser training memory. When fine-tuned on COCO, RevBiFPN provides up to a 2.5% boost in AP over HRNet using fewer MACs and a 2.4x reduction in training-time memory. | 翻訳日:2022-06-29 12:38:21 公開日:2022-06-28 |
# sinc: サービス情報によるオープンドメイン会話 SINC: Service Information Augmented Open-Domain Conversation ( http://arxiv.org/abs/2206.14000v1 ) ライセンス: Link先を確認 | Han Zhou, Xinchao Xu, Wenquan Wu, Zhengyu Niu, Hua Wu, Siqi Bao, Fan Wang, Haifeng Wang | (参考訳) 生成的なオープンドメイン対話システムは外部知識の恩恵を受けるが、外部知識資源の欠如と関連する知識を見つけることの難しさにより、この技術の開発は制限される。
そこで本稿では,動的サービス情報を用いた知識駆動対話タスクを提案する。
具体的には、外部の知識ソースとして高カバレッジと時空間感度を提供できる多数のサービスAPIを使用します。
対話システムは、ユーザ情報とともに外部サービスを要求するクエリを生成し、関連する知識を取得し、この知識に基づいて応答を生成する。
本手法を実装するために,中国初のオープンドメインサービス知識対話データセットdusincを収集し,公開する。
同時に,対話のためのサービス情報の自動活用を実現するベースラインモデルPLATO-SINCを構築した。
自動評価と人的評価の両方により,提案手法はオープンドメイン会話の効果を著しく向上し,対話事前学習モデルPLATO-2と比較して,人的評価におけるセッションレベル全体のスコアが59.29%向上した。
データセットとベンチマークモデルはオープンソースになる予定だ。 Generative open-domain dialogue systems can benefit from external knowledge, but the lack of external knowledge resources and the difficulty in finding relevant knowledge limit the development of this technology. To this end, we propose a knowledge-driven dialogue task using dynamic service information. Specifically, we use a large number of service APIs that can provide high coverage and spatiotemporal sensitivity as external knowledge sources. The dialogue system generates queries to request external services along with user information, get the relevant knowledge, and generate responses based on this knowledge. To implement this method, we collect and release the first open domain Chinese service knowledge dialogue dataset DuSinc. At the same time, we construct a baseline model PLATO-SINC, which realizes the automatic utilization of service information for dialogue. Both automatic evaluation and human evaluation show that our proposed new method can significantly improve the effect of open-domain conversation, and the session-level overall score in human evaluation is improved by 59.29% compared with the dialogue pre-training model PLATO-2. The dataset and benchmark model will be open sourced. | 翻訳日:2022-06-29 12:37:59 公開日:2022-06-28 |
# NLP Sandbox:臨床NLPモデルのフェデレーションとアンバイアス評価を可能にする効率的なモデル間データシステム The NLP Sandbox: an efficient model-to-data system to enable federated and unbiased evaluation of clinical NLP models ( http://arxiv.org/abs/2206.14181v1 ) ライセンス: Link先を確認 | Yao Yan, Thomas Yu, Kathleen Muenzen, Sijia Liu, Connor Boyle, George Koslowski, Jiaxin Zheng, Nicholas Dobbins, Clement Essien, Hongfang Liu, Larsson Omberg, Meliha Yestigen, Bradley Taylor, James A Eddy, Justin Guinney, Sean Mooney, Thomas Schaffter | (参考訳) 目的 臨床テキスト識別のための自然言語処理(nlp)モデルの評価は、プライバシー上の懸念からしばしば制限される臨床ノートの可用性に依存する。
NLP Sandboxは、フェデレートされたモデルからデータへのアプローチを採用することで、NLPモデルのデータと評価フレームワークの欠如を軽減するアプローチである。
これにより、複数の機関から機密データを共有することなく、偏見のないフェデレーションモデルの評価が可能になる。
材料とメソッド Synapseのコラボレーティブフレームワーク、コンテナ化ソフトウェア、OpenAPIジェネレータを活用して、NLP Sandbox(nlpsandbox.io)を構築しました。
我々は3つの機関のデータを用いて2つの最先端NLP非識別アノテーションモデル、PhilterとNeuroNERを評価した。
さらに,外部検証サイトからのデータを用いてモデル性能を検証した。
結果】NLP Sandboxの有用性について,非同定臨床モデルによる検討を行った。
外部開発者はモデルをNLP Sandboxテンプレートに組み込んで、ユーザエクスペリエンスのフィードバックを提供することができた。
考察では,NLP Sandboxを用いた臨床テキスト識別モデルの多地点評価の実現可能性について検討した。
標準化されたモデルとデータスキーマは、スムーズなモデル転送と実装を可能にする。
NLP Sandboxを一般化するには、データ所有者とモデル開発者が適切な標準化されたスキーマを開発し、スキーマに適合するようにデータやモデルを適用する必要がある。
結論 NLP SandboxはNLPモデル評価に臨床データを活用する障壁を低くし、NLPモデルのフェデレーション、マルチサイト、アンバイアスド評価を促進する。 Objective The evaluation of natural language processing (NLP) models for clinical text de-identification relies on the availability of clinical notes, which is often restricted due to privacy concerns. The NLP Sandbox is an approach for alleviating the lack of data and evaluation frameworks for NLP models by adopting a federated, model-to-data approach. This enables unbiased federated model evaluation without the need for sharing sensitive data from multiple institutions. Materials and Methods We leveraged the Synapse collaborative framework, containerization software, and OpenAPI generator to build the NLP Sandbox (nlpsandbox.io). We evaluated two state-of-the-art NLP de-identification focused annotation models, Philter and NeuroNER, using data from three institutions. We further validated model performance using data from an external validation site. Results We demonstrated the usefulness of the NLP Sandbox through de-identification clinical model evaluation. The external developer was able to incorporate their model into the NLP Sandbox template and provide user experience feedback. Discussion We demonstrated the feasibility of using the NLP Sandbox to conduct a multi-site evaluation of clinical text de-identification models without the sharing of data. Standardized model and data schemas enable smooth model transfer and implementation. To generalize the NLP Sandbox, work is required on the part of data owners and model developers to develop suitable and standardized schemas and to adapt their data or model to fit the schemas. Conclusions The NLP Sandbox lowers the barrier to utilizing clinical data for NLP model evaluation and facilitates federated, multi-site, unbiased evaluation of NLP models. | 翻訳日:2022-06-29 12:37:40 公開日:2022-06-28 |
# CVPR2022 AVAアクセシビリティビジョンの第三位ソリューションと自律化への挑戦 The Third Place Solution for CVPR2022 AVA Accessibility Vision and Autonomy Challenge ( http://arxiv.org/abs/2206.13718v1 ) ライセンス: Link先を確認 | Bo Yan, Leilei Cao, Zhuang Li, Hongbin Wang | (参考訳) AVAチャレンジの目標は、アクセシビリティに関連するビジョンベースのベンチマークとメソッドを提供することだ。
本稿では,CVPR2022 AVA Challengeへの提出の技術的詳細を紹介する。
まず,本課題に適切なモデルとデータ拡張戦略を導入するための実験を行った。
次に,性能向上のための効果的なトレーニング戦略を適用した。
第3に、2つの異なるセグメンテーションフレームワークの結果を統合し、パフォーマンスをさらに改善しました。
実験の結果,本手法はavaテストセット上での競争結果を得ることができた。
最後に,CVPR2022 AVA Challengeのテストセットで63.008\%AP@0.50:0.95を達成する。 The goal of AVA challenge is to provide vision-based benchmarks and methods relevant to accessibility. In this paper, we introduce the technical details of our submission to the CVPR2022 AVA Challenge. Firstly, we conducted some experiments to help employ proper model and data augmentation strategy for this task. Secondly, an effective training strategy was applied to improve the performance. Thirdly, we integrated the results from two different segmentation frameworks to improve the performance further. Experimental results demonstrate that our approach can achieve a competitive result on the AVA test set. Finally, our approach achieves 63.008\%AP@0.50:0.95 on the test set of CVPR2022 AVA Challenge. | 翻訳日:2022-06-29 12:37:10 公開日:2022-06-28 |
# 誤視と咬合操作を伴う高分解能バーチャルトライオン High-Resolution Virtual Try-On with Misalignment and Occlusion-Handled Conditions ( http://arxiv.org/abs/2206.14180v1 ) ライセンス: Link先を確認 | Sangyun Lee, Gyojung Gu, Sunghyun Park, Seunghwan Choi, Jaegul Choo | (参考訳) 画像ベースの仮想試着は、所定の衣料品を身に着けている人の画像を合成することを目的としている。
この課題を解決するため、既存の方法では、着用者の体に合うように衣料品をワープし、着用者のセグメンテーションマップを生成する。
しかし、情報交換無しに、ワーピングとセグメンテーション生成段階が個別に作動すると、乱れた衣服とセグメンテーションマップとの間の不一致が生じ、最終画像のアーティファクトに繋がる。
情報の切り離しはまた、身体部分によって隠された衣服領域の近くで過度な歪みを引き起こす。
そこで本研究では,2段階(ワープおよびセグメンテーション生成段階)の統一モジュールとして,新しい試行条件生成手法を提案する。
条件生成器で新たに提案された特徴融合ブロックは情報交換を実装し、条件生成器は不一致や画素配列のアーティファクトを生成しない。
また,不正確なセグメンテーションマップの予測をフィルタリングし,仮想試行フレームワークの性能を保証する識別器の拒絶も導入する。
高分解能データセットを用いた実験により,本モデルが不一致や咬合をうまく処理し,ベースラインを著しく上回ることを示した。
コードはhttps://github.com/sangyun884/HR-VITONで入手できる。 Image-based virtual try-on aims to synthesize an image of a person wearing a given clothing item. To solve the task, the existing methods warp the clothing item to fit the person's body and generate the segmentation map of the person wearing the item, before fusing the item with the person. However, when the warping and the segmentation generation stages operate individually without information exchange, the misalignment between the warped clothes and the segmentation map occurs, which leads to the artifacts in the final image. The information disconnection also causes excessive warping near the clothing regions occluded by the body parts, so called pixel-squeezing artifacts. To settle the issues, we propose a novel try-on condition generator as a unified module of the two stages (i.e., warping and segmentation generation stages). A newly proposed feature fusion block in the condition generator implements the information exchange, and the condition generator does not create any misalignment or pixel-squeezing artifacts. We also introduce discriminator rejection that filters out the incorrect segmentation map predictions and assures the performance of virtual try-on frameworks. Experiments on a high-resolution dataset demonstrate that our model successfully handles the misalignment and the occlusion, and significantly outperforms the baselines. Code is available at https://github.com/sangyun884/HR-VITON. | 翻訳日:2022-06-29 12:35:33 公開日:2022-06-28 |
# 弱教師付き互換製品予測のための適応型マルチビュールール探索 Adaptive Multi-view Rule Discovery for Weakly-Supervised Compatible Products Prediction ( http://arxiv.org/abs/2206.13749v1 ) ライセンス: Link先を確認 | Rongzhi Zhang, Rebecca West, Xiquan Cui, Chao Zhang | (参考訳) eコマースプラットフォームでは、2つの製品が互いに互換性があるかどうかを予測することは、信頼できる製品推奨と消費者の検索エクスペリエンスを達成する上で重要な機能である。
しかし、異種製品データや手作業によるトレーニングデータの欠如により、製品互換性を正確に予測することは困難である。
本稿では,製品互換性の弱さを予測できる効果的なラベル付け規則の発見問題について検討する。
AMRuleは,(1)適応的にかつ反復的に現行の弱教師付きモデルを補完して互換性予測を改善する新しい定規を発見できる多視点ルール発見フレームワークであり,(2)構造化属性テーブルと非構造化製品記述の両方から解釈可能なルールを発見する。
AMRuleは、ブーピングスタイルの戦略を通じて大規模なエラーインスタンスからのラベリングルールを適応的に発見し、高品質なルールは現在のモデルの弱点を修復し、反復的にモデルを洗練することができる。
構造化製品属性からのルール発見には、決定木から構成可能な高次ルールを生成し、非構造化製品記述からのルール発見には、事前訓練された言語モデルからプロンプトベースのルールを生成する。
4つの実世界のデータセットの実験では、AMRuleは平均で5.98%のベースラインを上回り、ルール品質とルール提案効率を改善している。 On e-commerce platforms, predicting if two products are compatible with each other is an important functionality to achieve trustworthy product recommendation and search experience for consumers. However, accurately predicting product compatibility is difficult due to the heterogeneous product data and the lack of manually curated training data. We study the problem of discovering effective labeling rules that can enable weakly-supervised product compatibility prediction. We develop AMRule, a multi-view rule discovery framework that can (1) adaptively and iteratively discover novel rulers that can complement the current weakly-supervised model to improve compatibility prediction; (2) discover interpretable rules from both structured attribute tables and unstructured product descriptions. AMRule adaptively discovers labeling rules from large-error instances via a boosting-style strategy, the high-quality rules can remedy the current model's weak spots and refine the model iteratively. For rule discovery from structured product attributes, we generate composable high-order rules from decision trees; and for rule discovery from unstructured product descriptions, we generate prompt-based rules from a pre-trained language model. Experiments on 4 real-world datasets show that AMRule outperforms the baselines by 5.98% on average and improves rule quality and rule proposal efficiency. | 翻訳日:2022-06-29 12:35:07 公開日:2022-06-28 |
# 受容場分布マッチングによるグラフ凝縮 Graph Condensation via Receptive Field Distribution Matching ( http://arxiv.org/abs/2206.13697v1 ) ライセンス: Link先を確認 | Mengyang Liu, Shanchuan Li, Xinshi Chen, Le Song | (参考訳) グラフニューラルネットワーク(gnns)は、ディープラーニングを使用してグラフの解析を可能にする。
本稿では、元のグラフを表す小さなグラフを作成することに焦点を当て、gnnを縮小したグラフでトレーニングすることで正確な予測を行うことができる。
我々は、元のグラフを受容場分布と捉え、受容場が同様の分布を持つ小さなグラフを合成することを目指している。
そこで本研究では,最大平均偏差(mmd)で定量化された分布マッチング損失を用いて合成グラフを最適化し,レセプティブ場分布マッチング(gcdm)によるグラフ会議を提案する。
さらに,GCDMにより生成された合成グラフは,評価フェーズにおける各種モデルに対して高い一般化性を示し,このフレームワークを用いて凝縮速度を著しく向上することを示した。 Graph neural networks (GNNs) enable the analysis of graphs using deep learning, with promising results in capturing structured information in graphs. This paper focuses on creating a small graph to represent the original graph, so that GNNs trained on the size-reduced graph can make accurate predictions. We view the original graph as a distribution of receptive fields and aim to synthesize a small graph whose receptive fields share a similar distribution. Thus, we propose Graph Condesation via Receptive Field Distribution Matching (GCDM), which is accomplished by optimizing the synthetic graph through the use of a distribution matching loss quantified by maximum mean discrepancy (MMD). Additionally, we demonstrate that the synthetic graph generated by GCDM is highly generalizable to a variety of models in evaluation phase and that the condensing speed is significantly improved using this framework. | 翻訳日:2022-06-29 12:34:08 公開日:2022-06-28 |
# SHELS: クラス境界のないノベルティ検出と継続学習のための排他的特徴セット SHELS: Exclusive Feature Sets for Novelty Detection and Continual Learning Without Class Boundaries ( http://arxiv.org/abs/2206.13720v1 ) ライセンス: Link先を確認 | Meghna Gummadi, David Kent, Jorge A. Mendez and Eric Eaton | (参考訳) ディープニューラルネットワーク(dnn)は、クローズドワールド学習シナリオにおいて印象的な分類性能を達成しているが、一般的には、概念の数が無制限であるダイナミックなオープンワールド環境において、未知のカテゴリへの一般化に失敗している。
対照的に、人間と動物の学習者は、新しい観察を認識し、適応することで知識を段階的に更新することができる。
特に人間は、既知のクラスを認識し、新規性を識別するために使用される、排他的(普遍的な)重要な特徴セットを通じて概念を特徴づける。
自然学習者から着想を得たSparse High-level-Exclusive, Low-level-Shared feature representation (SHELS)を導入する。
高レベルの特徴の排他性により、DNNは配布外データ(OOD)を自動的に検出すると同時に、疎低レベルの機能によるキャパシティの効率的な使用により、新たな知識の蓄積が可能になる。
結果として得られたアプローチは、OOD検出を使用して、既知のクラス境界なしにクラスインクリメンタルな学習を行う。
SHELSを新規性検出に使用すると、様々なベンチマークデータセットに対する最先端のOOD検出手法よりも統計的に有意な改善が得られた。
さらに,shelsモデルがクラスインクリメンタルな学習環境における破滅的忘れを緩和し,オープンワールド環境での学習を支援する新奇性検出と調節の複合フレームワークを導出することを示す。 While deep neural networks (DNNs) have achieved impressive classification performance in closed-world learning scenarios, they typically fail to generalize to unseen categories in dynamic open-world environments, in which the number of concepts is unbounded. In contrast, human and animal learners have the ability to incrementally update their knowledge by recognizing and adapting to novel observations. In particular, humans characterize concepts via exclusive (unique) sets of essential features, which are used for both recognizing known classes and identifying novelty. Inspired by natural learners, we introduce a Sparse High-level-Exclusive, Low-level-Shared feature representation (SHELS) that simultaneously encourages learning exclusive sets of high-level features and essential, shared low-level features. The exclusivity of the high-level features enables the DNN to automatically detect out-of-distribution (OOD) data, while the efficient use of capacity via sparse low-level features permits accommodating new knowledge. The resulting approach uses OOD detection to perform class-incremental continual learning without known class boundaries. We show that using SHELS for novelty detection results in statistically significant improvements over state-of-the-art OOD detection approaches over a variety of benchmark datasets. Further, we demonstrate that the SHELS model mitigates catastrophic forgetting in a class-incremental learning setting,enabling a combined novelty detection and accommodation framework that supports learning in open-world settings | 翻訳日:2022-06-29 12:33:54 公開日:2022-06-28 |
# 多変量時系列予測のための進化的および多スケールグラフ構造学習 Learning the Evolutionary and Multi-scale Graph Structure for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2206.13816v1 ) ライセンス: Link先を確認 | Junchen Ye, Zihan Liu, Bowen Du, Leilei Sun, Weimiao Li, Yanjie Fu, Hui Xiong | (参考訳) 近年の研究では、時系列の相互作用をグラフ構造として記述し、変数をグラフノードとして表現する多変量時系列予測にグラフニューラルネットワークを適用することに大きな期待が持たれている。
この線に沿って、既存の手法は通常、グラフニューラルネットワークの集約方法を決定するグラフ構造(または隣接行列)が定義または自己学習によって固定されると仮定する。
しかし、変数の相互作用は現実のシナリオでは動的かつ進化的である。
さらに、異なる時間スケールで観測された場合、時系列の相互作用は全く異なる。
本稿では,グラフニューラルネットワークに柔軟かつ実用的なグラフ構造を導入するため,時系列の進化的および多スケールな相互作用をモデル化する方法を検討する。
特に, 拡張畳み込みと協調した階層グラフ構造を提供し, 時系列間のスケール固有相関を捉えた。
そして、各層における進化相関を表現するために、一連の隣接行列を反復的に構築する。
さらに、上記のコンポーネントを統合するために統一ニューラルネットワークが提供され、最終的な予測が得られる。
このようにして、ペアの相関と時間依存を同時に捉えることができる。
最後に, 単段予測と多段予測の両タスクにおける実験により, 最先端手法よりも優れた手法が示される。 Recent studies have shown great promise in applying graph neural networks for multivariate time series forecasting, where the interactions of time series are described as a graph structure and the variables are represented as the graph nodes. Along this line, existing methods usually assume that the graph structure (or the adjacency matrix), which determines the aggregation manner of graph neural network, is fixed either by definition or self-learning. However, the interactions of variables can be dynamic and evolutionary in real-world scenarios. Furthermore, the interactions of time series are quite different if they are observed at different time scales. To equip the graph neural network with a flexible and practical graph structure, in this paper, we investigate how to model the evolutionary and multi-scale interactions of time series. In particular, we first provide a hierarchical graph structure cooperated with the dilated convolution to capture the scale-specific correlations among time series. Then, a series of adjacency matrices are constructed under a recurrent manner to represent the evolving correlations at each layer. Moreover, a unified neural network is provided to integrate the components above to get the final prediction. In this way, we can capture the pair-wise correlations and temporal dependency simultaneously. Finally, experiments on both single-step and multi-step forecasting tasks demonstrate the superiority of our method over the state-of-the-art approaches. | 翻訳日:2022-06-29 12:33:25 公開日:2022-06-28 |
# 概念抽象ベンチマークの理解の評価 Evaluating Understanding on Conceptual Abstraction Benchmarks ( http://arxiv.org/abs/2206.14187v1 ) ライセンス: Link先を確認 | Victor Vikram Odouard and Melanie Mitchell | (参考訳) AIの長期的な目標は、人間のような方法で概念を理解するシステムを構築することである。
このようなシステムを構築することの難しさはさておき、現在のaiの相対的不透明性と近道ソリューションを見つけるための可能性から、それを評価することさえ困難である。
これは、ある概念の例を認識できるシステムは、人間のように他の例も理解しなければならないと仮定して、人類の擬人化傾向によって悪化する。
本稿では,概念の理解には様々な文脈でそれを利用する能力が必要であると論じる。
そこで本研究では,ある概念を多くの異なるインスタンス化で活用するシステムの能力を探索することにより,概念を中心にした体系的評価を提案する。
本稿では,AIシステムにおける抽象化能力の開発と評価に使用されてきた,RAVEN (Raven's Progressive Matrices) と Abstraction and Reasoning Corpus (ARC) の2つの領域に対する評価事例について述べる。
我々の概念に基づく評価アプローチは、従来のテストセットが隠したはずのAIシステムに関する情報を明らかにする。 A long-held objective in AI is to build systems that understand concepts in a humanlike way. Setting aside the difficulty of building such a system, even trying to evaluate one is a challenge, due to present-day AI's relative opacity and its proclivity for finding shortcut solutions. This is exacerbated by humans' tendency to anthropomorphize, assuming that a system that can recognize one instance of a concept must also understand other instances, as a human would. In this paper, we argue that understanding a concept requires the ability to use it in varied contexts. Accordingly, we propose systematic evaluations centered around concepts, by probing a system's ability to use a given concept in many different instantiations. We present case studies of such an evaluations on two domains -- RAVEN (inspired by Raven's Progressive Matrices) and the Abstraction and Reasoning Corpus (ARC) -- that have been used to develop and assess abstraction abilities in AI systems. Our concept-based approach to evaluation reveals information about AI systems that conventional test sets would have left hidden. | 翻訳日:2022-06-29 12:31:38 公開日:2022-06-28 |
# 隠れパターンの最大抽出に向けた次元化のための特徴学習 Feature Learning for Dimensionality Reduction toward Maximal Extraction of Hidden Patterns ( http://arxiv.org/abs/2206.13891v1 ) ライセンス: Link先を確認 | Takanori Fujiwara, Yun-Hsin Kuo, Anders Ynnerman, Kwan-Liu Ma | (参考訳) 次元還元(dr)は高次元データの視覚的解析において重要な役割を果たす。
DRの主な目的の一つは、固有の低次元多様体上に隠れたパターンを明らかにすることである。
しかし、DRは多様体が強い歪んだり、特定の影響のあるデータ属性によって隠されたりするときにしばしば重要なパターンを見落としている。
本稿では,隠れ多様体の重要なパターンを捉えるために,非線形drに対して最適化されたデータプロジェクションを生成することを目的とした,機能学習フレームワークであるfealmを提案する。
これらの射影は、最大の近傍グラフを生成するので、結果のDR結果は著しく異なる。
このような機能を実現するため,最適化アルゴリズムをデザインするとともに,隣接形状異同性と呼ばれる新しいグラフ異同性尺度を導入する。
さらに、得られたDR結果の比較と各DR結果の解釈を支援するインタラクティブな可視化を開発する。
我々は、合成データセットを用いた実験と実世界のデータセットに関する複数のケーススタディにより、FEALMの有効性を実証する。 Dimensionality reduction (DR) plays a vital role in the visual analysis of high-dimensional data. One main aim of DR is to reveal hidden patterns that lie on intrinsic low-dimensional manifolds. However, DR often overlooks important patterns when the manifolds are strongly distorted or hidden by certain influential data attributes. This paper presents a feature learning framework, FEALM, designed to generate an optimized set of data projections for nonlinear DR in order to capture important patterns in the hidden manifolds. These projections produce maximally different nearest-neighbor graphs so that resultant DR outcomes are significantly different. To achieve such a capability, we design an optimization algorithm as well as introduce a new graph dissimilarity measure, called neighbor-shape dissimilarity. Additionally, we develop interactive visualizations to assist comparison of obtained DR results and interpretation of each DR result. We demonstrate FEALM's effectiveness through experiments using synthetic datasets and multiple case studies on real-world datasets. | 翻訳日:2022-06-29 12:30:43 公開日:2022-06-28 |
# Reward-free RLのためのサンプル複合体がほとんどない安全な探査 Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL ( http://arxiv.org/abs/2206.14057v1 ) ライセンス: Link先を確認 | Ruiquan Huang, Jing Yang, Yingbin Liang | (参考訳) 無報酬強化学習(RF-RL)における探索段階の第一の目的は、最小軌道数で推定されたモデルの不確実性を減少させることであるが、実際には、エージェントは特定の安全制約を同時に緩和する必要があることが多い。
このような安全な探索要件が、計画において得られるポリシーの望ましい最適性を達成するために、対応するサンプル複雑さにどのように影響するかはまだ不明である。
この作品において、我々はこの質問に答える最初の試みをする。
特に、安全基準ポリシーが事前に知られているシナリオを考察し、統一されたSafe reWard-frEe ExploraTion(SWEET)フレームワークを提案する。
次に、SWEET フレームワークを表と低ランク MDP 設定に特定し、それぞれ Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
どちらのアルゴリズムも、新しく導入された切り欠き値関数の連続性と連続性を利用しており、高い確率で探索中にゼロ制約違反を達成することが保証されている。
さらに、どちらのアルゴリズムも計画段階の制約を受けるような準最適ポリシーを確実に見つけることができる。
興味深いことに、両方のアルゴリズムの下のサンプルの複雑さは、一定の要素まで制約のない手法の状態をマッチさせるか、さらに上回り、安全性の制約がRF-RLのサンプルの複雑さをほとんど増加させることを証明している。 While the primary goal of the exploration phase in reward-free reinforcement learning (RF-RL) is to reduce the uncertainty in the estimated model with minimum number of trajectories, in practice, the agent often needs to abide by certain safety constraint at the same time. It remains unclear how such safe exploration requirement would affect the corresponding sample complexity to achieve the desired optimality of the obtained policy in planning. In this work, we make a first attempt to answer this question. In particular, we consider the scenario where a safe baseline policy is known beforehand, and propose a unified Safe reWard-frEe ExploraTion (SWEET) framework. We then particularize the SWEET framework to the tabular and the low-rank MDP settings, and develop algorithms coined Tabular-SWEET and Low-rank-SWEET, respectively. Both algorithms leverage the concavity and continuity of the newly introduced truncated value functions, and are guaranteed to achieve zero constraint violation during exploration with high probability. Furthermore, both algorithms can provably find a near-optimal policy subject to any constraint in the planning phase. Remarkably, the sample complexities under both algorithms match or even outperform the state of the art in their constraint-free counterparts up to some constant factors, proving that safety constraint hardly increases the sample complexity for RF-RL. | 翻訳日:2022-06-29 12:30:27 公開日:2022-06-28 |
# (参考訳) 具体化aiの基盤的因果理論に向けて Towards a Grounded Theory of Causation for Embodied AI ( http://arxiv.org/abs/2206.13973v1 ) ライセンス: CC BY 4.0 | Taco Cohen | (参考訳) 因果モデリングのフレームワークは十分に開発されているが、因果変数を定義し介入を行うためには、人間ドメインの専門知識がかなり必要である。
対話的な経験を通じて抽象因果モデルを学習するためには、既存の理論基盤を拡張し、明確化する必要がある。
既存のフレームワークは、可変選択/表現に関するガイダンスを提供しておらず、さらに重要なことは、状態空間の振る舞いポリシーや物理的変換が介入として数えられるかを示すものではない。
このフレームワークは、例えばポリシーを実行するエージェントによって誘導される状態空間の変換としてアクションを記述する。
これにより、マイクロ状態空間の変換とその抽象モデルの両方を均一に記述することができ、後者が検証的/接地/自然であることを言う。
次に, (causal) 変数を導入し, 機構を不変予測器として定義し, 行動が'サージカル介入'と見なせる場合について述べることにより, 因果表現と介入スキル学習の目的をより明確にした。 There exist well-developed frameworks for causal modelling, but these require rather a lot of human domain expertise to define causal variables and perform interventions. In order to enable autonomous agents to learn abstract causal models through interactive experience, the existing theoretical foundations need to be extended and clarified. Existing frameworks give no guidance regarding variable choice / representation, and more importantly, give no indication as to which behaviour policies or physical transformations of state space shall count as interventions. The framework sketched in this paper describes actions as transformations of state space, for instance induced by an agent running a policy. This makes it possible to describe in a uniform way both transformations of the micro-state space and abstract models thereof, and say when the latter is veridical / grounded / natural. We then introduce (causal) variables, define a mechanism as an invariant predictor, and say when an action can be viewed as a ``surgical intervention'', thus bringing the objective of causal representation & intervention skill learning into clearer focus. | 翻訳日:2022-06-29 12:28:51 公開日:2022-06-28 |
# 分散sgdのトポロジー認識による一般化 Topology-aware Generalization of Decentralized SGD ( http://arxiv.org/abs/2206.12680v2 ) ライセンス: Link先を確認 | Tongtian Zhu, Fengxiang He, Lan Zhang, Zhengyang Niu, Mingli Song, Dacheng Tao | (参考訳) 本稿では,分散確率勾配勾配(D-SGD)のアルゴリズム的安定性と一般化性について検討する。
d-sgd によって学習されたコンセンサスモデルは、n$ がシステム全体のサンプルサイズ、$m$ がワーカー番号、$-\lambda$ が通信トポロジーの接続を測定するスペクトルギャップである非凸非スムース設定の期待値が $\mathcal{o}{(m/n+1/m+\lambda^2)} であることが証明される。
これらの結果は$\mathcal{o}{(1/n+{({(m^{-1}\lambda^2)}^{\frac{\alpha}{2}}+m^{-\alpha})}/{n^{1-\frac{\alpha}{2}}})} 平均の一般化境界を与える。
本理論は,d-sgdの一般化性がスペクトルギャップと正の相関を持つことを示すものであり,初期訓練段階におけるコンセンサス制御がより良い一般化を保証できる理由を説明できる。
CIFAR-10, CIFAR-100, Tiny-ImageNetにおけるVGG-11とResNet-18の実験は、我々の理論を正当化する。
我々の知る限り、これはバニラD-SGDの位相認識一般化に関する最初の研究である。
コードはhttps://github.com/Raiden-Zhu/Generalization-of-DSGDで入手できる。 This paper studies the algorithmic stability and generalizability of decentralized stochastic gradient descent (D-SGD). We prove that the consensus model learned by D-SGD is $\mathcal{O}{(m/N+1/m+\lambda^2)}$-stable in expectation in the non-convex non-smooth setting, where $N$ is the total sample size of the whole system, $m$ is the worker number, and $1-\lambda$ is the spectral gap that measures the connectivity of the communication topology. These results then deliver an $\mathcal{O}{(1/N+{({(m^{-1}\lambda^2)}^{\frac{\alpha}{2}}+ m^{-\alpha})}/{N^{1-\frac{\alpha}{2}}})}$ in-average generalization bound, which is non-vacuous even when $\lambda$ is closed to $1$, in contrast to vacuous as suggested by existing literature on the projected version of D-SGD. Our theory indicates that the generalizability of D-SGD has a positive correlation with the spectral gap, and can explain why consensus control in initial training phase can ensure better generalization. Experiments of VGG-11 and ResNet-18 on CIFAR-10, CIFAR-100 and Tiny-ImageNet justify our theory. To our best knowledge, this is the first work on the topology-aware generalization of vanilla D-SGD. Code is available at https://github.com/Raiden-Zhu/Generalization-of-DSGD. | 翻訳日:2022-06-29 12:13:37 公開日:2022-06-28 |
# 暗黙的SGDによる統計的推測 : 近位ロビンスモンロ対ポリアク・ルパート Statistical inference with implicit SGD: proximal Robbins-Monro vs. Polyak-Ruppert ( http://arxiv.org/abs/2206.12663v2 ) ライセンス: Link先を確認 | Yoonhyung Lee, Sungdong Lee, and Joong-Ho Won | (参考訳) SGDの近位バージョンである暗黙の確率勾配降下(ISGD)は、SGDの安定性から文学への関心が高まっている。
本稿では,滑らかな凸関数(proxrm)に対するisgdの2つのモード,proxrm(proximal robbins-monro)とproxpr(proximal poylak-ruppert)の詳細な解析を行い,モデルパラメータの統計的推論に用いた。
具体的には、proxRMとproxPRの両方の非漸近点推定誤差境界とその制限分布を導出し、ISGDの単一実行のみを必要とする漸近共分散行列のオンライン推定器を提案する。
後者の推定器はモデルパラメータに対する有効な信頼区間を構築するために使用される。
本分析は,先行分析を制限した一般化線形モデル仮定から自由であり,実現可能な手順を採用している。
オンラインの共分散行列推定器は、isgd文献ではこの種の最初のものと思われる。 The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive non-asymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature. | 翻訳日:2022-06-29 12:13:02 公開日:2022-06-28 |
# マスクでスパースニューラルネットワークを訓練する Training Your Sparse Neural Network Better with Any Mask ( http://arxiv.org/abs/2206.12755v2 ) ライセンス: Link先を確認 | Ajay Jaiswal, Haoyu Ma, Tianlong Chen, Ying Ding, Zhangyang Wang | (参考訳) 大規模ニューラルネットワークを用いて高品質で独立したトレーニング可能なスパースマスクを作成することで、高密度のマスクと同じようなパフォーマンスを維持することができる。
研究の取り組みは、スクラッチからトレーニング可能なスパースサブネットに繋がる、より洗練されたプルーニング手法に重点を置いているので、我々は直交し、探索されていないテーマ、すなわちスパーストレーニングの訓練技術を改善することについて議論する。
本論文では,スパーストレーニングにおいて,スパースマスクの品質だけが重要であるという一般的な信念とは別に,従来の高密度ネットワークトレーニングプロトコルから逸脱するためのスパーストレーニングテクニックを慎重にカスタマイズし,トレーニングの初期段階に「ゴースト」ニューロンを導入し,接続をスキップし,初期化とラベルを戦略的に修正する,という新たな機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
新たにキュレートした手法を採用することで、一般的なデータセット(CIFAR-10、CIFAR-100、TinyImageNet)、アーキテクチャ(ResNet-18/32/104、Vgg16、MobileNet)、スパースマスクオプション(ロタリーチケット、SNIP/GRASP、SynFlow、さらにはランダムプルーニング)、そしてデフォルトのトレーニングプロトコル、特に高空間レベルでのパフォーマンス向上を示す。
コードはhttps://github.com/VITA-Group/ToSTにある。 Pruning large neural networks to create high-quality, independently trainable sparse masks, which can maintain similar performance to their dense counterparts, is very desirable due to the reduced space and time complexity. As research effort is focused on increasingly sophisticated pruning methods that leads to sparse subnetworks trainable from the scratch, we argue for an orthogonal, under-explored theme: improving training techniques for pruned sub-networks, i.e. sparse training. Apart from the popular belief that only the quality of sparse masks matters for sparse training, in this paper we demonstrate an alternative opportunity: one can carefully customize the sparse training techniques to deviate from the default dense network training protocols, consisting of introducing ``ghost" neurons and skip connections at the early stage of training, and strategically modifying the initialization as well as labels. Our new sparse training recipe is generally applicable to improving training from scratch with various sparse masks. By adopting our newly curated techniques, we demonstrate significant performance gains across various popular datasets (CIFAR-10, CIFAR-100, TinyImageNet), architectures (ResNet-18/32/104, Vgg16, MobileNet), and sparse mask options (lottery ticket, SNIP/GRASP, SynFlow, or even randomly pruning), compared to the default training protocols, especially at high sparsity levels. Code is at https://github.com/VITA-Group/ToST | 翻訳日:2022-06-29 12:12:41 公開日:2022-06-28 |
# 超音波映像を用いた甲状腺結節認識のためのキーフレーム誘導ネットワーク Key-frame Guided Network for Thyroid Nodule Recognition using Ultrasound Videos ( http://arxiv.org/abs/2206.13318v2 ) ライセンス: Link先を確認 | Yuchen Wang, Zhongyu Li, Xiangxiang Cui, Liangliang Zhang, Xiang Luo, Meng Yang, and Shi Chang | (参考訳) 超音波検査は甲状腺結節(良性/悪性)の臨床診断に広く用いられている。
しかし、精度は放射線技師の経験に大きく依存している。
甲状腺結節認識のための深層学習技術が研究されている。
現在の解決策は主に静的超音波画像に基づいており、時間的情報が限られており、臨床診断と矛盾している。
本稿では,超音波ビデオとキーフレームの徹底的な探索による甲状腺結節の自動認識手法を提案する。
まず,超音波映像中の典型的結節を伴う臨床キーフレームを自動的に識別する検出局所化フレームワークを提案する。
局所化キーフレームに基づいて,甲状腺結節認識のためのキーフレーム誘導ビデオ分類モデルを開発した。
また,超音波映像中の重要なフレームにネットワークが焦点を合わせるのに役立つモーションアテンションモジュールも導入し,臨床診断と整合する。
本発明の甲状腺結節認識フレームワークは, 臨床検査による超音波検査において, 他の最先端法と比較して優れた性能を示した。 Ultrasound examination is widely used in the clinical diagnosis of thyroid nodules (benign/malignant). However, the accuracy relies heavily on radiologist experience. Although deep learning techniques have been investigated for thyroid nodules recognition. Current solutions are mainly based on static ultrasound images, with limited temporal information used and inconsistent with clinical diagnosis. This paper proposes a novel method for the automated recognition of thyroid nodules through an exhaustive exploration of ultrasound videos and key-frames. We first propose a detection-localization framework to automatically identify the clinical key-frames with typical nodules in each ultrasound video. Based on the localized key-frames, we develop a key-frame guided video classification model for thyroid nodule recognition. Besides, we introduce motion attention module to help network focus on significant frames in an ultrasound video, which is consistent with clinical diagnosis. The proposed thyroid nodule recognition framework is validated on clinically collected ultrasound videos, demonstrating superior performance compared with other state-of-the-art methods. | 翻訳日:2022-06-29 12:12:07 公開日:2022-06-28 |
# avocodo:アーティファクトフリーvocoderのための生成的広告ネットワーク Avocodo: Generative Adversarial Network for Artifact-free Vocoder ( http://arxiv.org/abs/2206.13404v2 ) ライセンス: Link先を確認 | Taejun Bak, Junmo Lee, Hanbin Bae, Jinhyeok Yang, Jae-Sung Bae, Young-Sun Joo | (参考訳) GAN(Generative Adversarial Neural Network)に基づくニューラルヴォコーダは、高速な推論速度と軽量なネットワークにより、高品質な音声波形を生成しながら広く利用されている。
知覚的に重要な音声成分は主に低周波帯域に集中しているため、ganベースのニューラルボコーダのほとんどは、ダウンサンプリングされた音声波形を評価するマルチスケール分析を行う。
このマルチスケール解析は、生成器の音声理解性を改善するのに役立つ。
しかし,予備実験では,低周波帯域に着目したマルチスケール解析が意図しないアーティファクト,例えばエイリアスやイメージングアーティファクトを引き起こし,これらのアーティファクトが合成音声波形品質を劣化させることがわかった。
そこで本稿では,これらの成果物とganに基づくニューラルボコーダの関係を調査し,アーティファクトを低減した高忠実性音声の合成を可能にするganベースのニューラルボコーダであるavocodoを提案する。
本稿では,多バンド識別器とサブバンド識別器の2種類の波形評価法を提案する。
また,擬似二次ミラーフィルタバンクを用いて,アリアシングを回避しつつ,ダウンサンプリングされたマルチバンド波形を得る。
実験の結果,Avocodo は従来の GAN ベースのニューラルボコーダを音声合成と歌唱の両方で上回り,人工音声を合成できることがわかった。
特にアボコドは、見当たらない話者の高品質な波形を再現できる。 Neural vocoders based on the generative adversarial neural network (GAN) have been widely used due to their fast inference speed and lightweight networks while generating high-quality speech waveforms. Since the perceptually important speech components are primarily concentrated in the low-frequency band, most of the GAN-based neural vocoders perform multi-scale analysis that evaluates downsampled speech waveforms. This multi-scale analysis helps the generator improve speech intelligibility. However, in preliminary experiments, we observed that the multi-scale analysis which focuses on the low-frequency band causes unintended artifacts, e.g., aliasing and imaging artifacts, and these artifacts degrade the synthesized speech waveform quality. Therefore, in this paper, we investigate the relationship between these artifacts and GAN-based neural vocoders and propose a GAN-based neural vocoder, called Avocodo, that allows the synthesis of high-fidelity speech with reduced artifacts. We introduce two kinds of discriminators to evaluate waveforms in various perspectives: a collaborative multi-band discriminator and a sub-band discriminator. We also utilize a pseudo quadrature mirror filter bank to obtain downsampled multi-band waveforms while avoiding aliasing. The experimental results show that Avocodo outperforms conventional GAN-based neural vocoders in both speech and singing voice synthesis tasks and can synthesize artifact-free speech. Especially, Avocodo is even capable to reproduce high-quality waveforms of unseen speakers. | 翻訳日:2022-06-29 12:11:55 公開日:2022-06-28 |
# 説明可能なML手法評価のためのアプリケーショングラウンド実験設計の重要性について On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods ( http://arxiv.org/abs/2206.13503v2 ) ライセンス: Link先を確認 | Kasun Amarasinghe, Kit T. Rodolfa, S\'ergio Jesus, Valerie Chen, Vladimir Balayan, Pedro Saleiro, Pedro Bizarro, Ameet Talwalkar, Rayid Ghani | (参考訳) 機械学習(ML)モデルは現在、幅広い人間の決定を通知しているが、'black box'モデルを使用すると、素早い相関や不確実なデータに依存するリスクが生じる。
これに対処するために、研究者はモデルに予測を説明する方法を提案している。
しかし、これらの手法の現実の文脈における有用性に対する堅牢な評価は、単純化された設定やプロキシタスクに依存する傾向にある。
本稿では,事前の説明可能なML評価実験を拡張し,単純化された仮定を緩和することにより,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを強調します。
今回の実験以外にも,本研究は,任意のmlメソッドの評価と,対象とするデプロイコンテキストに適合する適切なタスク,データ,ユーザ,メトリクスの選択の必要性に関する教訓を持っている。 Machine Learning (ML) models now inform a wide range of human decisions, but using ``black box'' models carries risks such as relying on spurious correlations or errant data. To address this, researchers have proposed methods for supplementing models with explanations of their predictions. However, robust evaluations of these methods' usefulness in real-world contexts have remained elusive, with experiments tending to rely on simplified settings or proxy tasks. We present an experimental study extending a prior explainable ML evaluation experiment and bringing the setup closer to the deployment setting by relaxing its simplifying assumptions. Our empirical study draws dramatically different conclusions than the prior work, highlighting how seemingly trivial experimental design choices can yield misleading results. Beyond the present experiment, we believe this work holds lessons about the necessity of situating the evaluation of any ML method and choosing appropriate tasks, data, users, and metrics to match the intended deployment contexts. | 翻訳日:2022-06-29 12:10:16 公開日:2022-06-28 |
# 推薦システムに対する会員推論攻撃に対するデバイアスング学習 Debiasing Learning for Membership Inference Attacks Against Recommender Systems ( http://arxiv.org/abs/2206.12401v2 ) ライセンス: Link先を確認 | Zihan Wang, Na Huang, Fei Sun, Pengjie Ren, Zhumin Chen, Hengliang Luo, Maarten de Rijke, Zhaochun Ren | (参考訳) 学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
このような攻撃において、相手は、ユーザのデータを使用してターゲットレコメンデータをトレーニングするかどうかを推測する。
これを実現するために、以前の研究ではshadow recommenderを使用して攻撃モデルのトレーニングデータを導出し、ユーザの過去のインタラクションと推奨項目の差分ベクトルを計算してメンバーシップを予測する。
1)攻撃モデルのトレーニングデータは,シャドーとターゲットレコメンデータのギャップによってバイアスを受け,(2)レコメンデータの隠れ状態は観察的ではないため,差分ベクトルの正確な推定には至らなかった。
そこで本研究では,(1)差分ベクトル生成器,(2)不等角エンコーダ,(3)重み推定器,(4)攻撃モデルという4つの主成分を有するリコメンダシステム(dl-mia)フレームワークに対するメンバシップ推論攻撃に対する偏り学習を提案する。
また,レコメンダ間のギャップを軽減するために,変分自動エンコーダ(VAE)をベースとしたアンタングルエンコーダを考案し,レコメンダの不変性と特定の特徴を識別する。
推定バイアスを低減するために,各差分ベクトルに真理レベルスコアを割り当てて推定精度を示す重み推定器を設計する。
DL-MIAを3つの実世界のデータセット上で一般的なレコメンデーションとシーケンシャルなレコメンデーションの両方に対して評価する。
実験の結果,dl-miaはトレーニングと推定のバイアスを効果的に軽減し,最先端の攻撃性能を実現する。 Learned recommender systems may inadvertently leak information about their training data, leading to privacy violations. We investigate privacy threats faced by recommender systems through the lens of membership inference. In such attacks, an adversary aims to infer whether a user's data is used to train the target recommender. To achieve this, previous work has used a shadow recommender to derive training data for the attack model, and then predicts the membership by calculating difference vectors between users' historical interactions and recommended items. State-of-the-art methods face two challenging problems: (1) training data for the attack model is biased due to the gap between shadow and target recommenders, and (2) hidden states in recommenders are not observational, resulting in inaccurate estimations of difference vectors. To address the above limitations, we propose a Debiasing Learning for Membership Inference Attacks against recommender systems (DL-MIA) framework that has four main components: (1) a difference vector generator, (2) a disentangled encoder, (3) a weight estimator, and (4) an attack model. To mitigate the gap between recommenders, a variational auto-encoder (VAE) based disentangled encoder is devised to identify recommender invariant and specific features. To reduce the estimation bias, we design a weight estimator, assigning a truth-level score for each difference vector to indicate estimation accuracy. We evaluate DL-MIA against both general recommenders and sequential recommenders on three real-world datasets. Experimental results show that DL-MIA effectively alleviates training and estimation biases simultaneously, and achieves state-of-the-art attack performance. | 翻訳日:2022-06-29 12:09:57 公開日:2022-06-28 |
# 最小分布仮定による埋め込み空間の分離 Disentangling Embedding Spaces with Minimal Distributional Assumptions ( http://arxiv.org/abs/2206.13872v1 ) ライセンス: Link先を確認 | Tobias Leemann, Michael Kirchhof, Yao Rong, Enkelejda Kasneci, Gjergji Kasneci | (参考訳) 学習された埋め込み空間の理解と分解に関心が高まっている。
例えば、最近の概念に基づく説明手法は、解釈可能な潜在コンポーネントの観点から機械学習モデルを解析する。
このようなコンポーネントはモデルの埋め込み空間(例えば、独立成分分析(ICA)や現代の非絡み合い学習技術など)で見つける必要がある。
これらの教師なしアプローチは形式的なフレームワークを提供するが、それらはデータ生成機能へのアクセスを必要とするか、コンポーネントの独立性などのデータ分散に厳格な仮定を課すかのどちらかである。
本研究は,視覚モデルの概念説明可能性と異方性学習とicaをリンクする。
これにより、分布的な仮定を必要とせずに、コンポーネントの特定方法に関する最初の理論的結果が得られる。
これらの知見から、現在のアプローチよりも幅広い種類の問題に適用できるが、形式的な識別可能性保証を持っているdisjoint attributions(da)概念発見法を導出する。
コンポーネント分析と300以上の最先端の異方性モデルとの広範な比較において、daは、分布や相関強度が変化しても、安定して優れた性能を維持する。 Interest in understanding and factorizing learned embedding spaces is growing. For instance, recent concept-based explanation techniques analyze a machine learning model in terms of interpretable latent components. Such components have to be discovered in the model's embedding space, e.g., through independent component analysis (ICA) or modern disentanglement learning techniques. While these unsupervised approaches offer a sound formal framework, they either require access to a data generating function or impose rigid assumptions on the data distribution, such as independence of components, that are often violated in practice. In this work, we link conceptual explainability for vision models with disentanglement learning and ICA. This enables us to provide first theoretical results on how components can be identified without requiring any distributional assumptions. From these insights, we derive the disjoint attributions (DA) concept discovery method that is applicable to a broader class of problems than current approaches but yet possesses a formal identifiability guarantee. In an extensive comparison against component analysis and over 300 state-of-the-art disentanglement models, DA stably maintains superior performance, even under varying distributions and correlation strengths. | 翻訳日:2022-06-29 12:09:24 公開日:2022-06-28 |
# 学習と忘れることを学ぶ短期可塑性ニューロン Short-Term Plasticity Neurons Learning to Learn and Forget ( http://arxiv.org/abs/2206.14048v1 ) ライセンス: Link先を確認 | Hector Garcia Rodriguez, Qinghai Guo, Timoleon Moraitis | (参考訳) 短期可塑性(stp)は、大脳皮質シナプスに記憶を蓄積するメカニズムである。
コンピューティングの実践において、STPは、主にスパイクニューロンのニッチで使われてきたが、理論は特定の動的タスクに対する最適解であると予測している。
ここでは、新しいタイプのリカレント神経ユニットであるSTP Neuron(STPN)を紹介します。
その鍵となるメカニズムはシナプスが時間を通じて伝播する状態を持つことである。
この定式化は、時間の経過とともに可塑性をトレーニングし、短期的に学習し忘れる学習形態をもたらす。
STPNは試験された全ての代替品、すなわちRNN、LSTM、重量の速い他のモデル、および可塑性に優れる。
我々はこれを教師付き学習と強化学習(rl)の両方、および連想検索、迷路探索、atariビデオゲーム、およびmujoco roboticsで確認する。
さらに、神経形回路や生体回路において、STPNは個々のシナプスを動的に抑制するので、モデル間でのエネルギー消費を最小化する。
これらのことから、生物学的STPは効率と計算能力の両方を最大化する強力な進化的誘引器であった可能性がある。
STPNはこれらのニューロモルフィックの利点を機械学習の実践の幅広い範囲にもたらした。
コードはhttps://github.com/NeuromorphicComputing/stpnで入手できる。 Short-term plasticity (STP) is a mechanism that stores decaying memories in synapses of the cerebral cortex. In computing practice, STP has been used, but mostly in the niche of spiking neurons, even though theory predicts that it is the optimal solution to certain dynamic tasks. Here we present a new type of recurrent neural unit, the STP Neuron (STPN), which indeed turns out strikingly powerful. Its key mechanism is that synapses have a state, propagated through time by a self-recurrent connection-within-the-synapse. This formulation enables training the plasticity with backpropagation through time, resulting in a form of learning to learn and forget in the short term. The STPN outperforms all tested alternatives, i.e. RNNs, LSTMs, other models with fast weights, and differentiable plasticity. We confirm this in both supervised and reinforcement learning (RL), and in tasks such as Associative Retrieval, Maze Exploration, Atari video games, and MuJoCo robotics. Moreover, we calculate that, in neuromorphic or biological circuits, the STPN minimizes energy consumption across models, as it depresses individual synapses dynamically. Based on these, biological STP may have been a strong evolutionary attractor that maximizes both efficiency and computational power. The STPN now brings these neuromorphic advantages also to a broad spectrum of machine learning practice. Code is available at https://github.com/NeuromorphicComputing/stpn | 翻訳日:2022-06-29 12:09:05 公開日:2022-06-28 |
# 逐次最適化のための動的メモリ Dynamic Memory for Interpretable Sequential Optimisation ( http://arxiv.org/abs/2206.13960v1 ) ライセンス: Link先を確認 | Srivas Chennu, Andrew Maher, Jamie Martin, Subash Prabanantham | (参考訳) 強化学習のレコメンデーションと実験への実世界の応用は、実践的な課題に直面している:異なるバンディットアームの相対的な報酬は、学習エージェントの生涯にわたって進化することができる。
これらの非定常事件に対処するために、エージェントは過去の知識を忘れなければならない。
本稿では、大規模展開に適した非定常性を扱うためのソリューションを提案し、ビジネスオペレーターに自動適応最適化を提供する。
私たちのソリューションは、人間に信頼できる解釈可能な学習を提供することを目標としています。
そこで我々は,動的メモリの新たな形態を用いた適応型ベイズ学習エージェントを開発した。
統計的仮説テストを通じて、報酬を比較する際の統計的パワーのセットポイントをターゲットとし、メモリを動的に調整することで、このパワーを達成することができる。
設計上、エージェントは異なる種類の非定常性に依存しない。
数値シミュレーションを用いて,既存の提案と比較し,複数の非定常シナリオにおいて,エージェントが真の報酬の実際の変化に正しく適応することを示す。
すべてのバンディットソリューションでは、学習と最大パフォーマンスの達成の間に明確なトレードオフがある。
私たちのソリューションは、同様の堅牢なアプローチと比較して、このトレードオフの別のポイントに置かれています。
エージェントが変化する状況に適応しながら、解釈可能性を達成できる自動最適化・アズ・ア・サービスの大規模デプロイメントのアーキテクチャについて説明する。 Real-world applications of reinforcement learning for recommendation and experimentation faces a practical challenge: the relative reward of different bandit arms can evolve over the lifetime of the learning agent. To deal with these non-stationary cases, the agent must forget some historical knowledge, as it may no longer be relevant to minimise regret. We present a solution to handling non-stationarity that is suitable for deployment at scale, to provide business operators with automated adaptive optimisation. Our solution aims to provide interpretable learning that can be trusted by humans, whilst responding to non-stationarity to minimise regret. To this end, we develop an adaptive Bayesian learning agent that employs a novel form of dynamic memory. It enables interpretability through statistical hypothesis testing, by targeting a set point of statistical power when comparing rewards and adjusting its memory dynamically to achieve this power. By design, the agent is agnostic to different kinds of non-stationarity. Using numerical simulations, we compare its performance against an existing proposal and show that, under multiple non-stationary scenarios, our agent correctly adapts to real changes in the true rewards. In all bandit solutions, there is an explicit trade-off between learning and achieving maximal performance. Our solution sits on a different point on this trade-off when compared to another similarly robust approach: we prioritise interpretability, which relies on more learning, at the cost of some regret. We describe the architecture of a large-scale deployment of automatic optimisation-as-a-service where our agent achieves interpretability whilst adapting to changing circumstances. | 翻訳日:2022-06-29 12:08:38 公開日:2022-06-28 |