このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200805となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 点源原子干渉法による安定性向上型回転センシング Rotation sensing with improved stability using point source atom interferometry ( http://arxiv.org/abs/2002.08369v2 ) ライセンス: Link先を確認 | Chen Avinadav, Dimitry Yankelev, Moshe Shuker, Nir Davidson, and Ofer Firstenberg | (参考訳) 点源原子干渉計は、低温原子を用いた堅牢で高感度な回転センサを実装するための有望なアプローチである。
しかし、そのスケール係数、すなわち干渉計信号と実際の回転速度の比は、原子雲の初期条件に依存するため、時間的にドリフトし、特に短い尋問時間を持つ小型デバイスにおいてバイアス不安定になる可能性がある。
本稿では, 干渉計出力の複数特徴間の相関を利用して単発動作を行うモデルに基づく補正と, 既知のバイアス回転を他の計測値毎に適用し, 基礎モデルの事前知識を必要とせず, センサ帯域幅を2倍に削減した自己診断法という, スケール係数を安定化する2つの手法を提案する。
スケールファクタドリフトの完全な抑制,元の回転感度の維持,数時間のバイアスフリー操作の両方式を実験的に実証した。 Point source atom interferometry is a promising approach for implementing robust, high-sensitivity, rotation sensors using cold atoms. However, its scale factor, i.e., the ratio between the interferometer signal and the actual rotation rate, depends on the initial conditions of the atomic cloud, which may drift in time and result in bias instability, particularly in compact devices with short interrogation times. We present two methods to stabilize the scale factor, one relying on a model-based correction which exploits correlations between multiple features of the interferometer output and works on a single-shot basis, and the other a self-calibrating method where a known bias rotation is applied to every other measurement, requiring no prior knowledge of the underlying model but reducing the sensor bandwidth by a factor of two. We demonstrate both schemes experimentally with complete suppression of scale factor drifts, maintaining the original rotation sensitivity and allowing for bias-free operation over several hours. | 翻訳日:2023-06-03 04:47:24 公開日:2020-08-05 |
# 量子ビットにおける状態非依存な不確かさ関係の実験実験 Experimental Test of Tight State-Independent Preparation Uncertainty Relations for Qubits ( http://arxiv.org/abs/2002.10725v2 ) ライセンス: Link先を確認 | Stephan Sponar and Armin Danner and Kazuma Obigane and Simon Hack and Yuji Hasegawa | (参考訳) 有名なRobertson-Schroedingerの不確実性関係は、既約下界を欠いている。
これは下界の状態依存性に大きく起因している。
したがって、Abbott \emph{et al。
量子ビット測定における状態非依存の不確実性関係を導出するための一般的なアプローチ [mathematics 4, 8 (2016)] を導入した。
これらの関係は、標準偏差とエントロピーの2つの不確実性尺度で表され、どちらも期待値の関数である。
本稿では,混合スピン状態を持つ非可換パウリスピン観測器における状態非依存な不確かさ関係の中性子光実験を行う。
ポラリメトリック実験で得られた最終結果は、偏光度が変化する任意の初期状態に対して明らかに理論的予測を再現する。 The well-known Robertson-Schroedinger uncertainty relations miss an irreducible lower bound. This is widely attributed to the lower bound's state-dependence. Therefore, Abbott \emph{et al.} introduced a general approach to derive tight state-independent uncertainty relations for qubit measurements [Mathematics 4, 8 (2016)]. The relations are expressed in two measures of uncertainty, which are standard deviation and entropy, both functions of the expectation value. Here, we present a neutron optical test of the tight state-independent preparation uncertainty relations for non-commuting Pauli spin observables with mixed spin states. The final results, obtained in a polarimetric experiment, reproduce the theoretical predictions evidently for arbitrary initial states of variable degree of polarization. | 翻訳日:2023-06-02 00:13:10 公開日:2020-08-05 |
# 格子シュウィンガーモデルシミュレーションのための量子アルゴリズム Quantum Algorithms for Simulating the Lattice Schwinger Model ( http://arxiv.org/abs/2002.11146v3 ) ライセンス: Link先を確認 | Alexander F. Shaw, Pavel Lougovski, Jesse R. Stryker, Nathan Wiebe | (参考訳) シュウィンガーモデル(1+1次元の量子電磁力学)は量子ゲージ場の理論の研究のためのテストベッドである。
NISQとフォールトトレラントの両方の設定で格子シュウィンガーモデルをシミュレートするために、スケーラブルで明示的なデジタル量子アルゴリズムを提供する。
特に,シュウィンガーモデルの低次トロッター公式シミュレーションの厳密な解析を行い,最近導出された可換境界を用いて,両シナリオにおけるシミュレーションに必要な資源の上界を与える。
格子単位では、定数 $x^{-1/2}$ と電場カットオフ $x^{-1/2}\lambda$ を持つ n/2$ の物理サイト上のシュウィンガーモデルは、固定演算子エラーに対して $\widetilde{o}(n^{3/2} t^{3/2} \sqrt{x} \lambda )$ のいくつかの$t$ゲートまたは cnot を用いて、量子コンピュータ上で2xt$ でシミュレーションすることができる。
truncation $\Lambda$によるこのスケーリングは、qubitizationやQDRIFTといったアルゴリズムが期待するよりも優れている。
さらに,NISQと耐故障性の両方でコストがかかる観測可能量を,単純な観測可能な平均対密度を仮定して推定するために,スケーラブルな計測手法とアルゴリズムを提供する。
最後に、理想的なCNOTチャネルと実際のCNOTチャネルの間のダイヤモンド距離の関数として、この観測可能度をシミュレーションにより推定する際のルート平均二乗誤差を限定する。
この研究はシュウィンガーモデルをシミュレートする厳密な分析を提供するとともに、その後のシミュレーションアルゴリズムをテストするためのベンチマークも提供する。 The Schwinger model (quantum electrodynamics in 1+1 dimensions) is a testbed for the study of quantum gauge field theories. We give scalable, explicit digital quantum algorithms to simulate the lattice Schwinger model in both NISQ and fault-tolerant settings. In particular, we perform a tight analysis of low-order Trotter formula simulations of the Schwinger model, using recently derived commutator bounds, and give upper bounds on the resources needed for simulations in both scenarios. In lattice units, we find a Schwinger model on $N/2$ physical sites with coupling constant $x^{-1/2}$ and electric field cutoff $x^{-1/2}\Lambda$ can be simulated on a quantum computer for time $2xT$ using a number of $T$-gates or CNOTs in $\widetilde{O}( N^{3/2} T^{3/2} \sqrt{x} \Lambda )$ for fixed operator error. This scaling with the truncation $\Lambda$ is better than that expected from algorithms such as qubitization or QDRIFT. Furthermore, we give scalable measurement schemes and algorithms to estimate observables which we cost in both the NISQ and fault-tolerant settings by assuming a simple target observable---the mean pair density. Finally, we bound the root-mean-square error in estimating this observable via simulation as a function of the diamond distance between the ideal and actual CNOT channels. This work provides a rigorous analysis of simulating the Schwinger model, while also providing benchmarks against which subsequent simulation algorithms can be tested. | 翻訳日:2023-06-01 23:57:21 公開日:2020-08-05 |
# 完全連結pスピン強磁性体のためのQAOAのポリノミカルスケーリング Polynomial scaling of QAOA for ground-state preparation of the fully-connected p-spin ferromagnet ( http://arxiv.org/abs/2003.07419v2 ) ライセンス: Link先を確認 | Matteo M. Wauters, Glen Bigan Mbeng, Giuseppe E. Santoro | (参考訳) 量子近似最適化アルゴリズム(QAOA)は,完全接続されたpスピンIsing ferromagnetの基底状態を多項式スケーリング資源で構築できることを示す。これは量子アニーリング(QA)アプローチに深刻な困難をもたらすことで知られており,これは${\rm p} \ge 3$の1次相転移で発生する指数的に小さなギャップのためである。
任意の横フィールドにおける対象基底状態に対して、変分パラメータの数がシステムサイズ${\rm N}$よりはるかに小さい場合、このアルゴリズムの優れた性能を達成するためには、適切なQAOAパラメータ初期化が必要であることが分かる。
代わりに、${\rm P}$ が臨界値 ${\rm P}^*_{\rm N} \propto {\rm N}$ を超えるとき、パラメータ空間の構造は、すべてのミニマが退化するにつれて単純化される。
これにより、多くのパラメータが${\rm N}$で広くスケールし、リソースが${\rm N}$で多項式的にスケーリングすることで、完全な忠実さで基底状態を達成することができる。 We show that the quantum approximate optimization algorithm (QAOA) can construct with polynomially scaling resources the ground state of the fully-connected p-spin Ising ferromagnet, a problem that notoriously poses severe difficulties to a Quantum Annealing (QA) approach, due to the exponentially small gaps encountered at first-order phase transition for ${\rm p} \ge 3$. For a target ground state at arbitrary transverse field, we find that an appropriate QAOA parameter initialization is necessary to achieve a good performance of the algorithm when the number of variational parameters $2{\rm P}$ is much smaller than the system size ${\rm N}$, because of the large number of sub-optimal local minima. Instead, when ${\rm P}$ exceeds a critical value ${\rm P}^*_{\rm N} \propto {\rm N}$, the structure of the parameter space simplifies, as all minima become degenerate. This allows to achieve the ground state with perfect fidelity with a number of parameters scaling extensively with ${\rm N}$, and with resources scaling polynomially with ${\rm N}$. | 翻訳日:2023-05-29 00:14:48 公開日:2020-08-05 |
# 1+1次元自由コンパクトボソン共形場理論の絡み合いハミルトニアン Entanglement Hamiltonian of the 1+1-dimensional free, compactified boson conformal field theory ( http://arxiv.org/abs/2004.14370v2 ) ライセンス: Link先を確認 | Ananda Roy, Frank Pollmann and Hubert Saleur | (参考訳) 絡み合いやモジュラーハミルトニアンは、場の量子論における相関の研究において重要な役割を果たす。
特に、1+1 次元の時空次元において、等角体理論(CFT)の絡み合うハミルトニアンのスペクトルは、対応する境界 CFT の物理的ハミルトニアンのスペクトルと関係している。
その結果、共形不変性はこれらのモデルに対する絡み合ったハミルトニアンのスペクトルの正確な計算を可能にする。
本研究では、有限間隔で自由コンパクト化ボソン CFT に対して、ハミルトニアン交絡スペクトルのこの計算を行う。
連続体理論で得られた解析結果とCFTの格子正規化モデルの数値シミュレーションを密度行列正規化群法を用いて比較した。
この目的のために、ジョセフソン接合とコンデンサで構成された超伝導量子電子回路による格子正則化を用いる。
格子正則化による非普遍的な効果に対して、数値結果は正確な計算の予測と互換性がある。 Entanglement or modular Hamiltonians play a crucial role in the investigation of correlations in quantum field theories. In particular, in 1+1 space-time dimensions, the spectra of entanglement Hamiltonians of conformal field theories (CFTs) for certain geometries are related to the spectra of the physical Hamiltonians of corresponding boundary CFTs. As a result, conformal invariance allows exact computation of the spectra of the entanglement Hamiltonians for these models. In this work, we perform this computation of the spectrum of the entanglement Hamiltonian for the free compactified boson CFT over a finite spatial interval. We compare the analytical results obtained for the continuum theory with numerical simulations of a lattice-regularized model for the CFT using density matrix renormalization group technique. To that end, we use a lattice regularization provided by superconducting quantum electronic circuits, built out of Josephson junctions and capacitors. Up to non-universal effects arising due to the lattice regularization, the numerical results are compatible with the predictions of the exact computations. | 翻訳日:2023-05-21 19:28:18 公開日:2020-08-05 |
# 量子アニールでなぜ、いつ、舗装が役に立つのか? Why and when is pausing beneficial in quantum annealing? ( http://arxiv.org/abs/2005.01888v2 ) ライセンス: Link先を確認 | Huo Chen and Daniel A. Lidar | (参考訳) 量子アニールハードウェアを用いた最近の実証実験の結果、中アニール舗装は様々な問題の基底状態を見つける確率に驚くほど有益であることが示された。
この現象に関する理論的説明は、今のところ不足している。
本稿では,マスター方程式の枠組みを用いたパウジングの分析を行い,成功確率の増大をもたらす戦略の条件を導出する。
数値シミュレーションにより同定し, 十分であることが証明された条件は, 停止時間に対して, 最小ギャップを越えてすぐに緩和速度が小さくなること, アニールの終端で小さく減少すること, そして, この区間で熱的に平衡しないという意味で, 累積的に小さいこと, である。
これにより、観測された成功確率の増大は不完全量子緩和、すなわち環境への有益な非平衡結合によって引き起こされる。 Recent empirical results using quantum annealing hardware have shown that mid anneal pausing has a surprisingly beneficial impact on the probability of finding the ground state for of a variety of problems. A theoretical explanation of this phenomenon has thus far been lacking. Here we provide an analysis of pausing using a master equation framework, and derive conditions for the strategy to result in a success probability enhancement. The conditions, which we identify through numerical simulations and then prove to be sufficient, require that relative to the pause duration the relaxation rate is large and decreasing right after crossing the minimum gap, small and decreasing at the end of the anneal, and is also cumulatively small over this interval, in the sense that the system does not thermally equilibrate. This establishes that the observed success probability enhancement can be attributed to incomplete quantum relaxation, i.e., is a form of beneficial non-equilibrium coupling to the environment. | 翻訳日:2023-05-21 04:55:12 公開日:2020-08-05 |
# マクロメカニカル発振器の非古典的エネルギースクイーズ Nonclassical energy squeezing of a macroscopic mechanical oscillator ( http://arxiv.org/abs/2005.04260v2 ) ライセンス: Link先を確認 | Xizheng Ma, Jeremie J. Viennot, Shlomi Kotler, John D. Teufel, Konrad W. Lehnert | (参考訳) 光メカニクスと電気機械学により、量子基底状態、四次スクイズド状態、運動の絡み合った状態において、マクロな機械振動子を作成できるようになった。
より大きく、より具現化された物体を量子的行動の仕組みにまとめることに加えて、この新しい能力は、量子情報の処理と通信に機械振動子を使うというアイデアを奨励し、標準量子限界を超える精度の力センサーとして利用した。
しかし、運動と光や電気の効果的な線形相互作用は、猫の状態やエネルギーを絞った状態のようなより広い種類の運動状態へのアクセスを妨げる。
実際、初期のオプティメカルな提案では、光への運動の強い二次結合を作り出すことによって、この制限から逃れる可能性を指摘した。
二次結合光力学系の実験的実証は行われてきたが、それらはまだ非古典的運動状態にアクセスできていない。
ここでは、クーパーペアボックス(cpb)キュービットのエネルギー準位に2次的に運動を結合することで、非古典的状態を作る。
量子ビットの遷移周波数をモニタリングすることにより、振動子のフォノン分布をその位置ではなく検出する。
発振器と量子ビットの両方の状態を変化させるマイクロ波の周波数駆動により、平均フォノン数43とサブポアソニアン数約3の大きい状態において、発振器を散逸的に安定化させる。
このエネルギー収縮状態において、2次結合の顕著な特徴は、量子ビット遷移によって引き起こされる機械振動子の反動であり、分子のビブロニック遷移と類似している。 Optomechanics and electromechanics have made it possible to prepare macroscopic mechanical oscillators in their quantum ground states, in quadrature squeezed states, and in entangled states of motion. In addition to coaxing ever larger and more tangible objects into a regime of quantum behavior, this new capability has encouraged ideas of using mechanical oscillators in the processing and communication of quantum information and as precision force sensors operating beyond the standard quantum limit. But the effectively linear interaction between motion and light or electricity precludes access to the broader class of quantum states of motion, such as cat states or energy squeezed states. Indeed, early optomechanical proposals noted the possibility to escape this restriction by creating strong quadratic coupling of motion to light. Although there have been experimental demonstrations of quadratically coupled optomechanical systems, these have not yet accessed nonclassical states of motion. Here we create nonclassical states by quadratically coupling motion to the energy levels of a Cooper-pair box (CPB) qubit. By monitoring the qubit's transition frequency, we detect the oscillator's phonon distribution rather than its position. Through microwave frequency drives that change both the state of the oscillator and qubit, we then dissipatively stabilize the oscillator in a state with a large mean phonon number of 43 and sub-Poissonian number fluctuations of approximately 3. In this energy squeezed state we observe a striking feature of the quadratic coupling: the recoil of the mechanical oscillator caused by qubit transitions, closely analogous to the vibronic transitions in molecules. | 翻訳日:2023-05-20 19:57:07 公開日:2020-08-05 |
# 複数の座標系における平面1/\rho^{2}$ポテンシャルの分離性 Separability of the Planar $1/\rho^{2}$ Potential In Multiple Coordinate Systems ( http://arxiv.org/abs/2006.06793v2 ) ライセンス: Link先を確認 | Richard DeCosta and Brett Altschul | (参考訳) 特殊ハミルトン方程式の解は、複数の座標系における変数の分離によって見つけることができる。関連するポテンシャルのクラスは、等方的調和振動子やクーロンポテンシャルを含む多くの重要な例を含む。多重分離可能なハミルトン多様体は、その有界スペクトルにおける「事故」退化や、常に閉じる古典的境界状態軌道など、多くの興味深い特徴を示す。
別のポテンシャルについて調べ、シリンダー方程式は円筒座標と放物線座標の両方で分離可能である:$z$-独立な$V\propto 1/\rho^{2}=1/(x^{2}+y^{2})$ である。
なぜなら、負のエネルギーを持つ他のすべての軌道は、$\rho=0$で中心に落ちるからである。
放物的座標で分離すると、シュル「{o}ディンガー方程式は3つの個別方程式に分裂し、そのうちの2つはクーロンポテンシャルの半径方程式と等価である。 With a number of special Hamiltonians, solutions of the Schr\"{o}dinger equation may be found by separation of variables in more than one coordinate system. The class of potentials involved includes a number of important examples, including the isotropic harmonic oscillator and the Coulomb potential. Multiply separable Hamiltonians exhibit a number of interesting features, including "accidental" degeneracies in their bound state spectra and often classical bound state orbits that always close. We examine another potential, for which the Schr\"{o}dinger equation is separable in both cylindrical and parabolic coordinates: a $z$-independent $V\propto 1/\rho^{2}=1/(x^{2}+y^{2})$ in three dimensions. All the persistent, bound classical orbits in this potential close, because all other orbits with negative energies fall to the center at $\rho=0$. When separated in parabolic coordinates, the Schr\"{o}dinger equation splits into three individual equations, two of which are equivalent to the radial equation in a Coulomb potential---one equation with an attractive potential, the other with an equally strong repulsive potential. | 翻訳日:2023-05-16 00:19:39 公開日:2020-08-05 |
# 組合せ最適化のためのフォールトトレラント量子ヒューリスティックのコンパイル Compilation of Fault-Tolerant Quantum Heuristics for Combinatorial Optimization ( http://arxiv.org/abs/2007.07391v2 ) ライセンス: Link先を確認 | Yuval R. Sanders, Dominic W. Berry, Pedro C. S. Costa, Louis W. Tessler, Nathan Wiebe, Craig Gidney, Hartmut Neven and Ryan Babbush | (参考訳) ここでは,コンビネート最適化のためのヒューリスティック量子アルゴリズムが,小さなフォールトトレラント量子コンピュータで試すのに最も実用的かを検討する。
我々は、量子化やセゲディウォークを用いて古典マルコフ連鎖の量子化や、ギブス状態を符号化したスペクトルギャップ増幅ハミルトニアンの量子化など、数種類の量子加速的アニーリングの回路をコンパイルする。
また, adiabaticアルゴリズム, quantum enhanced population transfer, the quantum approximation optimization algorithm, and other approachのフォールトトレラント実現を最適化する。
これらの手法の多くは同一のサブルーチンの呼び出しによってボトルネック化されているため、これらのプリミティブに対して最適化された回路は、どのヒューリスティックが実際に最も効果的であるかに関わらず興味を持つべきである。
いくつかの最適化問題に対してこれらのボトルネックをコンパイルし、リソース予算の幅に応じて表面コードでどの程度の時間と大きさのシステムがこれらのヒューリスティックを実行できるかを報告する。
この結果から,2次高速化のみを実現する量子最適化ヒューリスティックは,表面コードの実装を著しく改善することなく,モデストな超伝導量子ビット曲面符号プロセッサにおいて,古典的アルゴリズムよりも有利である,という概念を否定する。
例えば、量子ファンタブルな仮定(例えば量子アルゴリズムは4倍のステップを必要とする)では、量子加速シミュレートアニーリングは、スピングラスを最適化するのに約1日100万キュビットが必要であり、これは4分程度で古典的シミュレートアニーリングによって解くことができる。 Here we explore which heuristic quantum algorithms for combinatorial optimization might be most practical to try out on a small fault-tolerant quantum computer. We compile circuits for several variants of quantum accelerated simulated annealing including those using qubitization or Szegedy walks to quantize classical Markov chains and those simulating spectral gap amplified Hamiltonians encoding a Gibbs state. We also optimize fault-tolerant realizations of the adiabatic algorithm, quantum enhanced population transfer, the quantum approximate optimization algorithm, and other approaches. Many of these methods are bottlenecked by calls to the same subroutines; thus, optimized circuits for those primitives should be of interest regardless of which heuristic is most effective in practice. We compile these bottlenecks for several families of optimization problems and report for how long and for what size systems one can perform these heuristics in the surface code given a range of resource budgets. Our results discourage the notion that any quantum optimization heuristic realizing only a quadratic speedup will achieve an advantage over classical algorithms on modest superconducting qubit surface code processors without significant improvements in the implementation of the surface code. For instance, under quantum-favorable assumptions (e.g., that the quantum algorithm requires exactly quadratically fewer steps), our analysis suggests that quantum accelerated simulated annealing would require roughly a day and a million physical qubits to optimize spin glasses that could be solved by classical simulated annealing in about four CPU-minutes. | 翻訳日:2023-05-10 01:50:19 公開日:2020-08-05 |
# 分数モーメント演算子Ptによる線形減衰の量子力学への拡張について
私 On the Extension of Linear Damping to Quantum Mechanics through Fractionary Momentum Operators Pt. I ( http://arxiv.org/abs/2007.07434v3 ) ライセンス: Link先を確認 | Luis Fernando Mora Mora | (参考訳) 抵抗回路やばね質量エンサンブルのような散逸系における分数運動量演算子と分数運動エネルギーを用いて線形減衰をモデル化し、量子力学的形式に拡張した。
関連する3つの重要な1次元問題(自由粒子の場合、無限ポテンシャル井戸、調和ポテンシャル)が解決された。
波動方程式は、古典散逸系で観測された同じ種類の2次odeを再現し、量子化されたエネルギー準位を生成する。
無限ポテンシャル井戸ではゼロ点エネルギーが出現し、これは特別な相対性理論によって記述された粒子の残りのエネルギーに適合し、関係は$E_r=mc^2$である。
調和ポテンシャルでは、エネルギーベースで問題を解くために新しい分数生成と破壊演算子が導入された。
発見されたエネルギー固有値は、他の著者によって報告された量子減衰発振器問題に対する以前のアプローチによって報告されたものと異なる。
この場合、粒子の相対論的静止エネルギーと基底状態における分数運動エネルギーの期待値との直接的な関係が得られた。
我々は、分数運動エネルギーと特殊相対性エネルギーの間には関係があることを結論づけるが、さらなる探索が必要であるが、現在の分数運動量演算子から位置基底への変換形態は、観測不能な虚数運動量量を生み出し、したがってそれらの変換方法への補正をさらに検討する必要があると結論づける。 The use of fractional momentum operators and fractionary kinetic energy used to model linear damping in dissipative systems such as resistive circuits and a spring-mass ensambles was extended to a quantum mechanical formalism. Three important associated 1 dimensional problems were solved: the free particle case, the infinite potential well, and the harmonic potential. The wave equations generated reproduced the same type of 2-order ODE observed in classical dissipative systems, and produced quantized energy levels. In the infinite potential well, a zero-point energy emerges, which can be fitted to the rest energy of the particle described by special relativity, given by relationship $E_r=mc^2$. In the harmonic potential, new fractional creation and destruction operators were introduced to solve the problem in the energy basis. The energy eigenvalues found are different to the ones reported by earlier approaches to the quantum damped oscillator problem reported by other authors. In this case, a direct relationship between the relativistic rest energy of the particle and the expected value of the fractionary kinetic energy in the base state was obtained. We conclude that there exists a relationship between fractional kinetic energy and special relativity energies, that remains unclear and needs further exploration, but also conclude that the current form of transforming fractionary momentum operators to the position basis will yield non-observable imaginary momentum quantities, and thus a correction to the way of transforming them needs to be explored further. | 翻訳日:2023-05-09 11:35:03 公開日:2020-08-05 |
# 損失ナノキャビティとのカップリングによる光保護ウラシル Photoprotecting uracil by coupling with lossy nanocavities ( http://arxiv.org/abs/2007.07551v2 ) ライセンス: Link先を確認 | Simone Felicetti, Jacopo Fregoni, Thomas Schnappinger, Sebastian Reiter, Regina de Vivie-Riedle, Johannes Feist | (参考訳) ナノキャビティモードを用いて電磁環境を変化させることで分子の光相対化ダイナミクスがどのように制御されるかを解析する。
特に,光障害を防ぐ自然なメカニズムであるrnaヌクレオベースウラシルの光還元について考察する。
本研究では,キャビティモードとの強い結合が効率的な光保護チャネルを開放し,自然モードの2倍のリラクゼーションダイナミクスをもたらす操作条件を明らかにする。
我々は, 化学分離分子モデルと非ヘルミットハミルトン伝播法を用いて, 系散逸ダイナミクスのフル量子シミュレーションを行う。
光子崩壊に焦点を合わせることで, 分子ポラリトニクスの文脈において, キャビティ誘起散逸過程が化学反応速度を変化させる上で果たす活性的役割を明らかにする。
また,光物質結合強度と光子崩壊速度との最適トレードオフを満足すると,光緩和効率が最大になることがわかった。
この結果は、ナノキャビティやプラズモニックデバイスの品質向上による性能向上という一般的な直観とは対照的である。
最後に、金属ナノ粒子の詳細なモデルを用いて、複雑なナノフォトニック構造を実装することなく、ナノスフィア擬モードと結合することで、ウラシル緩和のスピードアップを観察できることを示す。 We analyze how the photorelaxation dynamics of a molecule can be controlled by modifying its electromagnetic environment using a nanocavity mode. In particular, we consider the photorelaxation of the RNA nucleobase uracil, which is the natural mechanism to prevent photodamage. In our theoretical work, we identify the operative conditions in which strong coupling with the cavity mode can open an efficient photoprotective channel, resulting in a relaxation dynamics twice as fast than the natural one. We rely on a state-of-the-art chemically-detailed molecular model and a non-Hermitian Hamiltonian propagation approach to perform full-quantum simulations of the system dissipative dynamics. By focusing on the photon decay, our analysis unveils the active role played by cavity-induced dissipative processes in modifying chemical reaction rates, in the context of molecular polaritonics. Remarkably, we find that the photorelaxation efficiency is maximized when an optimal trade-off between light-matter coupling strength and photon decay rate is satisfied. This result is in contrast with the common intuition that increasing the quality factor of nanocavities and plasmonic devices improves their performance. Finally, we use a detailed model of a metal nanoparticle to show that the speedup of the uracil relaxation could be observed via coupling with a nanosphere pseudomode, without requiring the implementation of complex nanophotonic structures. | 翻訳日:2023-05-09 11:30:22 公開日:2020-08-05 |
# 量子ナノフォトニクスのためのマクロqed:エミッタ中心モードによるマルチエミッタ問題の最小解法 Macroscopic QED for quantum nanophotonics: Emitter-centered modes as a minimal basis for multi-emitter problems ( http://arxiv.org/abs/2008.02106v1 ) ライセンス: Link先を確認 | Johannes Feist, Antonio I. Fern\'andez-Dom\'inguez, Francisco J. Garc\'ia-Vidal | (参考訳) 本稿では,量子ナノフォトニクスの観点からのマクロ量子電磁力学の枠組みについて概観する。
特に,ナノフォトニック構造における量子光学現象の記述に不可欠な理論の3つの側面に注目した。
まず、そのゲージ独立性および極小および多極性カップリングスキームに特に重点を置いて、光-物質相互作用ハミルトニアン自体を概観する。
次に,量子光学系の外部ポンピングの古典電磁場による処理について述べる。
第3に,いわゆるエミッタ中心モードに基づくマルチエミッタ構成におけるフィールド量子化の完全かつ完全かつ最小の基底を導入する。
最後に、この量子化アプローチを特定のハイブリッドな金属誘電体幾何学において、SiNマイクロディスクに埋め込まれたAgナノ球の双対近傍に2つの量子エミッタを配置する。 We present an overview of the framework of macroscopic quantum electrodynamics from a quantum nanophotonics perspective. Particularly, we focus our attention on three aspects of the theory which are crucial for the description of quantum optical phenomena in nanophotonic structures. First, we review the light-matter interaction Hamiltonian itself, with special emphasis on its gauge independence and the minimal and multipolar coupling schemes. Second, we discuss the treatment of the external pumping of quantum-optical systems by classical electromagnetic fields. Third, we introduce an exact, complete and minimal basis for the field quantization in multi-emitter configurations, which is based on the so-called emitter-centered modes. Finally, we illustrate this quantization approach in a particular hybrid metallodielectric geometry: two quantum emitters placed in the vicinity of a dimer of Ag nanospheres embedded in a SiN microdisk. | 翻訳日:2023-05-07 02:24:13 公開日:2020-08-05 |
# Trncated Metallo-dielectric Omnidirectional Reflector:95%効率で基本ガウスモードで単一光子を収集する The Truncated Metallo-dielectric Omnidirectional Reflector: Collecting Single Photons in the Fundamental Gaussian Mode with 95% Efficiency ( http://arxiv.org/abs/2008.02029v1 ) ライセンス: Link先を確認 | Wancong Li, Luis Morales-Inostroza, Weiwang Xu, Pu Zhang, Jan Renger, Stephan G\"otzinger, Xue-Wen Chen | (参考訳) 本稿では,単一エミッタからの単一光子を前代未聞の効率で低発散基本ガウスモードに発振するアンテナ構造を提案する。
我々の装置は、望ましくない大角放射を抑え、小角欠陥誘導モード放出を高めるために全方位フォトニックバンドギャップを作成するという概念に依存している。
新しい光子収集戦略は、面内双極子エミッタに対する効率的なボディー・オブ・リフレクション有限差分時間法を実装することにより、直感的に、厳密に検証され、最適化される。
製造プロセスや材料制限によって生じる様々な境界条件を網羅するアンテナの設計について検討し,95%を超える基本ガウスモードの収集効率が達成可能であることを理論的に示す。
私たちのアンテナは広帯域で、製造の不完全さに敏感で、有機分子、量子ドット、ダイヤモンドの欠陥中心などの様々な固体エミッタと互換性があります。
単一エミッタからの一方向および低偏差ガウスモードの放出は、様々なフォトニック量子コンピュータアーキテクチャや高効率な光物質インタフェースの実現を可能にする。 We propose a novel antenna structure which funnels single photons from a single emitter with unprecedented efficiency into a low-divergence fundamental Gaussian mode. Our device relies on the concept of creating an omnidirectional photonic bandgap to inhibit unwanted large-angle emission and to enhance small-angle defect-guided-mode emission. The new photon collection strategy is intuitively illustrated, rigorously verified and optimized by implementing an efficient body-of-revolution finite-difference time-domain method for in-plane dipole emitters. We investigate a few antenna designs to cover various boundary conditions posed by fabrication processes or material restrictions and theoretically demonstrate that collection efficiencies into the fundamental Gaussian mode exceeding 95% are achievable. Our antennas are broadband, insensitive to fabrication imperfections and compatible with a variety of solid-state emitters such as organic molecules, quantum dots and defect centers in diamond. Unidirectional and low-divergence Gaussian-mode emission from a single emitter may enable the realization of a variety of photonic quantum computer architectures as well as highly efficient light-matter interfaces. | 翻訳日:2023-05-07 02:23:07 公開日:2020-08-05 |
# 量子制御光スイッチングによるダイヤモンド中の窒素空洞の超高分解能局在 Super-resolution Localization of Nitrogen Vacancy Centers in Diamond with Quantum Controlled Photoswitching ( http://arxiv.org/abs/2008.01970v1 ) ライセンス: Link先を確認 | Pengfei Wang, You Huang, Maosen Guo, Mengze Shen, Pei Yu, Mengqi Wang, Ya Wang, Chang-Kui Duan, Fazhan Shi, Jiangfeng Du | (参考訳) 本研究では,コヒーレント量子制御に基づく新しい蛍光光スイッチ法を用いて,ダイヤモンド中の窒素空孔中心の超解像局在を示す。
パルス磁場勾配に基づく量子位相符号化により光スイッチングを実現する。
そして,超高分解能撮像を行い,走査共焦点顕微鏡下で1.4nm以上の局在精度を実現する。
最後に, 量子位相符号化が分解能に主要な役割を果たすことを示し, 現在の実験条件下では 0.15 nm の分解能が達成可能であることを示した。
この方法は、複数の結合欠陥スピンに基づく量子ビットのサブナノメータスケールのアドレッシングと制御に応用することができる。 We demonstrate the super-resolution localization of the nitrogen vacancy centers in diamond by a novel fluorescence photoswitching technique based on coherent quantum control. The photoswitching is realized by the quantum phase encoding based on pulsed magnetic field gradient. Then we perform super-resolution imaging and achieve a localizing accuracy better than 1.4 nm under a scanning confocal microscope. Finally, we show that the quantum phase encoding plays a dominant role on the resolution, and a resolution of 0.15 nm is achievable under our current experimental condition. This method can be applied in subnanometer scale addressing and control of qubits based on multiple coupled defect spins. | 翻訳日:2023-05-07 02:22:44 公開日:2020-08-05 |
# 外乱量子状態の存在下でのガウス状態のロバスト位相推定 Robust phase estimation of Gaussian states in the presence of outlier quantum states ( http://arxiv.org/abs/2008.01933v1 ) ライセンス: Link先を確認 | Yukito Mototake and Jun Suzuki | (参考訳) 本稿では,避けられない雑音量子状態の存在下でのコヒーレント状態の位相を推定する問題について検討する。
これらの不和量子状態は、この研究において外れた量子状態によって表される。
まず,外れた量子状態を扱う量子システムにおけるロバスト統計の統計的枠組みを提案する。
次に、不信頼な量子状態による測定結果を抑制するために、M推定器の手法を適用する。
提案手法は, 従来の手法よりも, 系統的, 実装が容易で, 雑音の発生に対して頑健である。 In this paper, we investigate the problem of estimating the phase of a coherent state in the presence of unavoidable noisy quantum states. These unwarranted quantum states are represented by outlier quantum states in this study. We first present a statistical framework of robust statistics in a quantum system to handle outlier quantum states. We then apply the method of M-estimators to suppress untrusted measurement outcomes due to outlier quantum states. Our proposal has the advantage over the classical methods in being systematic, easy to implement, and robust against occurrence of noisy states. | 翻訳日:2023-05-07 02:22:35 公開日:2020-08-05 |
# 複素領域におけるランダウアーコンダクタンス:閉形式解を見つけるための経路 Landauer conductance in the complex domain: A path to find closed-form solutions ( http://arxiv.org/abs/2008.01923v1 ) ライセンス: Link先を確認 | Mauricio J. Rodr\'iguez, Bryan D. Gomez and Carlos Ram\'irez | (参考訳) ランダウアーの公式は、メソスコピックシステムにおける伝達関数の観点から理論的に導電性を記述することができる。
半無限原子鎖に接続された系に対する複素領域における伝達関数の一般的な評価法を提案する。
このことは、実領域評価において伝達ピークの原因となる単純な極の複素共役対の存在を明らかにする。
これにより、伝達関数の閉形式式を定式化する。 The Landauer formula allows us to describe theoretically the conductance in terms of the transmission function in a mesoscopic system. We propose a general method to evaluate the transmission function in the complex domain for systems connected to semi-infinite atomic chains. This reveals the presence of complex-conjugated pairs of simple poles that are responsible for transmission peaks in the real-domain evaluations. This leads us to formulate a closed-form expression for the transmission function. | 翻訳日:2023-05-07 02:22:24 公開日:2020-08-05 |
# 量子系における新しい高次一般化不確実性原理の研究 Research on the new form of higher-order generalized uncertainty principle in quantum system ( http://arxiv.org/abs/2008.01909v1 ) ライセンス: Link先を確認 | Zi-Long Zhao, Qi-Kang Ran, Hassan Hassanabadi, Yi Yang, Hao Chen, Zheng-Wen Longa | (参考訳) 本稿では,運動量演算子と位置演算子を同時に修正できる新しい高次一般化不確実性原理を提案する。
さらに、gupの新しい形式は、主流の量子重力理論によって提案された最小長の不確かさと最大可観測運動量の存在の観点と一致している。
新しい GUP を用いて、最大局所化状態と位置固有関数を議論し、対応する結論を既存の文献と比較する。
この論文の最後に高調波発振器を例に挙げる。 This paper proposes a new high-order generalized uncertainty principle, which can modify the momentum operator and position operator simultaneously. Moreover, the new form of GUP is consistent with the viewpoint of the existence of the minimum length uncertainty and the maximum observable momentum proposed by the mainstream quantum gravity theory. By using the new GUP, the maximum localization state and position eigenfunction are discussed, and the corresponding conclusions are compared with the existing literature. The harmonic oscillator is further discussed at the end of this article as an example. | 翻訳日:2023-05-07 02:22:15 公開日:2020-08-05 |
# 量子絡み合いを用いた確率的ワンタイムプログラム Probabilistic one-time programs using quantum entanglement ( http://arxiv.org/abs/2008.02294v1 ) ライセンス: Link先を確認 | Marie-Christine Roehsner, Joshua A. Kettlewell, Joseph Fitzsimons and Philip Walther | (参考訳) 量子技術は、量子コンピュータや量子支援古典コンピュータに対して、前例のないレベルのデータとソフトウェア保護を可能にすることはよく知られている。
これらの特性を利用するため、確率的ワンタイムプログラムが開発され、古典的ソフトウェアを小さな量子状態でエンコーディングすることで、1回だけ使用できるコンピュータプログラムが可能になる。
このような自己破壊型ワンタイムプログラムは、ソフトウェア配布から署名権限のワンタイムデリゲーションまで、さまざまな新しいアプリケーションを促進する。
最初の実証実験では、このような方式が実現可能であることを示したが、ソフトウェアをオンザフライで使用する必要性と、アクティブな光スイッチの必要性と大量の古典的通信の必要性により、技術的な課題が組み合わさって実用的応用は限られていた。
ここでは、絡み合った量子ビット対を用いて、以前のスキームの大きな欠点を解消するワンタイムプログラムのための改良されたプロトコルを提案する。
これにより、量子情報交換が行われた後ずっとプログラムを実行する能力に加えて、4桁以上の高いカウントレートが得られる。
ウィーンのダウンタウンにある大学ビル間の地下繊維接続に関する我々のプロトコルを実証する。
最後に,署名権限のワンタイムデリゲートの実装とともに,準備と測定の量子インターネットネットワークとの整合性を強調した。 It is well known that quantum technology allows for an unprecedented level of data and software protection for quantum computers as well as for quantum-assisted classical computers. To exploit these properties, probabilistic one-time programs have been developed, where the encoding of classical software in small quantum states enables computer programs that can be used only once. Such self-destructing one-time programs facilitate a variety of new applications reaching from software distribution to one-time delegation of signature authority. Whereas first proof-of-principle experiments demonstrated the feasibility of such schemes, the practical applications were limited due to the requirement of using the software on-the-fly combined with technological challenges due to the need for active optical switching and a large amount of classical communication. Here we present an improved protocol for one-time programs that resolves major drawbacks of previous schemes, by employing entangled qubit pairs. This results in four orders of magnitude higher count rates as well the ability to execute a program long after the quantum information exchange has taken place. We demonstrate our protocol over an underground fiber link between university buildings in downtown Vienna. Finally, together with our implementation of a one-time delegation of signature authority this emphasizes the compatibility of our scheme with prepare-and-measure quantum internet networks. | 翻訳日:2023-05-07 02:16:39 公開日:2020-08-05 |
# 量子スキンホール効果 The Quantum Skin Hall Effect ( http://arxiv.org/abs/2008.02284v1 ) ライセンス: Link先を確認 | Yuhao Ma and Taylor L. Hughes | (参考訳) 非エルミート系に特有のスキン効果は、開幾何における境界付近に局在した多数の固有状態を生成することができる。
ここでは, 電荷密度以外の2次元および3次元において, 皮膚の影響を受けやすいことを提案する。
トポロジカル・絶縁体とスキンエフェクト・システムとのハイブリッドモデルである2次元および3次元モデルは、多数のトポロジカル・モードと対応するバルクトポロジカル・インバリアントが表面に固定されたトポロジカル・スキン効果を有することを示す。
量子スキンホール効果(quantum skin hall effect)と呼ばれる重要な例は、チャーン絶縁体の層から成り、広いホールコンダクタンスと層スタックに垂直な面に結合したキラルモードの数を示す。
同じ手順は、他の対称性クラスにも拡張され、1D と 2D の様々な位相不変量($\mathbb{Z}$ または $\mathbb{Z}_2)$ が皮膚効果の対象となることを示す。
また,多種多様な位相角モードを呈し,メタマテリアル実験においてより容易に実現可能なハイブリッド2Dシステムを提案する。 The skin effect, which is unique to non-Hermitian systems, can generate an extensive number of eigenstates localized near the boundary in an open geometry. Here we propose that in 2D and 3D other quantities besides charge density are susceptible to the skin effect. We show that 2D and 3D models that are a hybrid between topological insulators and skin-effect systems can have a topological skin effect where an extensive number of topological modes, and the corresponding bulk topological invariant, are pinned to the surface. A key example, which we call the quantum skin Hall effect is constructed from layers of Chern insulators and exhibits an extensive Hall conductance and number of chiral modes bound to surfaces normal to the stack of layers. The same procedure is further extended to other symmetry classes to illustrate that a variety of 1D and 2D topological invariants ($\mathbb{Z}$ or $\mathbb{Z}_2)$ are subject to the skin effect. Indeed, we also propose a hybrid 2D system that exhibits an extensive number of topological corner modes and may be more easily realized in meta-material experiments. | 翻訳日:2023-05-07 02:15:44 公開日:2020-08-05 |
# 互換性シナリオにおける振る舞いのデフォルトによるコンテキスト性 Contextuality-by-default for behaviours in compatibility scenarios ( http://arxiv.org/abs/2008.02273v1 ) ライセンス: Link先を確認 | Alisson Tezzin, Rafael Wagner, Barbara Amaral | (参考訳) 本研究は, 文脈性-デフォルト (CbD) の背景にある主要な考え方,すなわち, 物理的測定を文脈変数の集合として理解しなければならないという仮定が, 文脈性 (CA) への互換性・ハイパーグラフ的アプローチにおいて暗黙的であることを示し, この結果を用いて, 前者で導入した重要な概念を発展させる。
我々はCAにおいて、一貫した連結性の類似である非退化条件を導入し、この条件が一般に非摂動条件よりも弱いことを証明した。
非退化挙動の集合はポリトープを定義し、線型不等式を用いて一貫した連結性を特徴づけることができることを意味する。
我々は,行動の拡張的文脈性の概念を導入し,行動が標準的意味において非文脈的であることを証明した。
最後に、拡張シナリオと振る舞いを使用して、結果に新たな光を当てています。 We show that the main idea behind contextuality-by-default (CbD), i.e., the assumption that a physical measurement has to be understood as a contextual collection of random variables, is implicit in the compatibility-hypergraph approach to contextuality (CA) and use this result to develop in the latter important concepts which were introduced in the former. We introduce in CA the non-degeneracy condition, which is the analogous of consistent connectedness, and prove that this condition is, in general, weaker than non-disturbance condition. The set of non-degenerate behaviours defines a polytope, implying that one can characterize consistent connectedness using linear inequalities. We introduce the idea of extended contextuality for behaviours and prove that a behaviour is non-contextual in the standard sense iff it is non-degenerate and non-contextual in the extended sense. Finally, we use extended scenarios and behaviours to shed new light on our results. | 翻訳日:2023-05-07 02:15:21 公開日:2020-08-05 |
# チップ上の2光子フォック状態の設定 Configurable heralded two-photon Fock-states on a chip ( http://arxiv.org/abs/2008.02172v1 ) ライセンス: Link先を確認 | Xin Hua, Tommaso Lunghi, Florent Doutre, Panagiotis Vergyris, Gr\'egory Sauder, Pierrick Charlier, Laurent Labont\'e, Virginia D'Auria, Anthony Martin, Sorin Tascu, Marc P. De Micheli, S\'ebastien Tanzilli, and Olivier Alibart | (参考訳) 集積フォトニクスの進歩は、高度な機能化チップを実現するために単一の基板上のいくつかの基本機能を組み合わせることができる。
ニオブ酸リチウム上でのモノリシック集積量子フォトニクスの実現について報告し, 非線形光学特性と電気光学特性を同時に利用して2光子状態を生成する。
ピコ秒ポンプレーザーと通信部品を活用し、様々な経路符号化された2光子状態を生成し、ホン・ウー・マンデル干渉の94.%生視性を示す。
このような高度に統合されたフォトニックエンタングルメントソースの汎用性と性能により、より複雑な量子情報処理プロトコルを探索し、通信、メトロロジー、および処理タスクのアプリケーションを見つけることができる。 Progress in integrated photonics enables combining several elementary functions on single substrates for realizing advanced functionnalized chips. We report a monolithic integrated quantum photonic realization on lithium niobate, where nonlinear optics and electro-optics properties have been harnessed simultaneously for generating heralded configurable, two-photon states. Taking advantage of a picosecond pump laser and telecom components, we demonstrate the production of various path-coded heralded two-photon states, showing 94\% raw visibility for Hong-Ou-Mandel interference. The versatility and performance of such a highly integrated photonic entanglement source enable exploring more complex quantum information processing protocols finding application in communication, metrology and processing tasks. | 翻訳日:2023-05-07 02:13:52 公開日:2020-08-05 |
# 量子情報検索入門 Introductory review to quantum information retrieval ( http://arxiv.org/abs/2008.13541v1 ) ライセンス: Link先を確認 | Alexander Lebedev and Andrei Khrennikov | (参考訳) 近年、量子論の数学的形式論の応用は物理学に還元されないと理解されるようになった。
今日では、この形式主義は量子物理学、特に認知、心理学、意思決定、情報処理、特に情報検索において広く使われている。
後者は非常に有望だ。
この短い入門レビューの目的は、このエキサイティングな情報科学分野の研究を刺激することである。
本論文は,量子情報検索における技術状況の完全なレビューを意図したものではない。 Recently people started to understand that applications of the mathematical formalism of quantum theory are not reduced to physics. Nowadays, this formalism is widely used outside of quantum physics, in particular, in cognition, psychology, decision making, information processing, especially information retrieval. The latter is very promising. The aim of this brief introductory review is to stimulate research in this exciting area of information science. This paper is not aimed to present a complete review on the state of art in quantum information retrieval. | 翻訳日:2023-05-07 02:05:52 公開日:2020-08-05 |
# オンチップマイクロ波光子カウンタを用いた超電導量子ビットの高忠実度測定 High-Fidelity Measurement of a Superconducting Qubit using an On-Chip Microwave Photon Counter ( http://arxiv.org/abs/2008.02346v1 ) ライセンス: Link先を確認 | A. Opremcak, C. H. Liu, C. Wilen, K. Okubo, B. G. Christensen, D. Sank, T. C. White, A. Vainsencher, M. Giustina, A. Megrant, B. Burkett, B. L. T. Plourde, R. McDermott | (参考訳) オンチップマイクロ波光子カウンタを用いた超伝導量子ビットの高忠実度測定へのアプローチについて述べる。
このプロトコルは、分散結合された測定共振器の過渡応答を利用して、大きな微分光子占有によって特徴づけられる、キュービットの状態を「明るい」および「暗い」キャビティポインタ状態にマッピングする。
このマッピングに続いて、キャビティ光子占有率が一定の閾値を超えると、古典的に識別可能なフラックス状態の間で遷移するジョセフソン光多重化器(jpm)を用いて共振器を光検出する。
本手法は,ミリケルビン段階における投影量子測定の2元結果にアクセスし,室温での量子限界事前増幅やしきい値化を必要とせずに得ることができる。
本研究では,500 ns以下の実測時間を用いて,複数試料の生単発測定精度を98%以上達成した。
また, jpm自体の固有減衰を利用して, 測定プロトコルに関連するバックアクションやクロストークを緩和できることを示した。 We describe an approach to the high-fidelity measurement of a superconducting qubit using an on-chip microwave photon counter. The protocol relies on the transient response of a dispersively coupled measurement resonator to map the state of the qubit to "bright" and "dark" cavity pointer states that are characterized by a large differential photon occupation. Following this mapping, we photodetect the resonator using the Josephson Photomultipler (JPM), which transitions between classically distinguishable flux states when cavity photon occupation exceeds a certain threshold. Our technique provides access to the binary outcome of projective quantum measurement at the millikelvin stage without the need for quantum-limited preamplification and thresholding at room temperature. We achieve raw single-shot measurement fidelity in excess of 98% across multiple samples using this approach in total measurement times under 500 ns. In addition, we show that the backaction and crosstalk associated with our measurement protocol can be mitigated by exploiting the intrinsic damping of the JPM itself. | 翻訳日:2023-05-07 02:05:01 公開日:2020-08-05 |
# 超高速光パルス励起ハイブリッド系のマグノン駆動ダイナミクス Magnon-driven dynamics of a hybrid system excited with ultrafast optical pulses ( http://arxiv.org/abs/2008.02317v1 ) ライセンス: Link先を確認 | N. Crescini, C. Braggio, G. Carugno, R. Di Vora, A. Ortolan, G. Ruoso | (参考訳) 量子情報科学の構成要素としての光子-マグノンハイブリッドシステムのポテンシャルは広く実証されており、多くの研究の焦点となっている。
我々は、この特異な異質な物理系の強みを標準模型を超えて精密物理学の分野で活用し、いわゆる「見えないもの」に対する感度は量子技術によって現在強化されている。
ここでは、極小で有効な磁場によって駆動されるスピン波の量子を、ハイブリッド系をトランスデューサとして、大きな周波数帯域で検出できることを実証する。
この結果は、例えば、マグノンと直接相互作用するコールドダークマターに関連する宇宙論的信号の探索に応用することができる。
トランスデューサのモデルは,2量子化2振動子ハイブリッド系を基本とし,観測値と一致し,将来の強磁性ハロスコープを詳細に記述するために容易に拡張できる。 The potential of photon-magnon hybrid systems as building blocks for quantum information science has been widely demonstrated, and it is still the focus of much research. We leverage the strengths of this unique heterogeneous physical system in the field of precision physics beyond the standard model, where the sensitivity to the so-called "invisibles" is currently being boosted by quantum technologies. Here, we demonstrate that quanta of spin waves, driven by tiniest, effective magnetic field, can be detected in a large frequency band using a hybrid system as transducer. This result can be applied to the search of cosmological signals related, for example, to cold Dark Matter, which may directly interact with magnons. Our model of the transducer is based on a second-quantisation two-oscillators hybrid system, it matches the observations, and can be easily extended to thoroughly describe future large-scale ferromagnetic haloscopes. | 翻訳日:2023-05-07 02:04:00 公開日:2020-08-05 |
# 量子ホログラフィのスパースモデル A Sparse Model of Quantum Holography ( http://arxiv.org/abs/2008.02303v1 ) ライセンス: Link先を確認 | Shenglong Xu, Leonard Susskind, Yuan Su, Brian Swingle | (参考訳) ランダムプルーニング法または正規ハイパーグラフをランダムにサンプリングして構築したランダムハイパーグラフ上で定義されたsachdev-ye-kitaev(syk)モデルのスパースバージョンについて検討した。
結果として得られるモデルは、ハミルトンの項数と自由度との比として定義される新しいパラメータ$k$と、固定された$k$における熱力学極限に対応するスパース極限を持つ。
この疎いSYKモデルは、$k$が順序ユニティである場合でも、通常のSYKの興味深い大域物理学を復元する。
特に低温では、モデルは最大カオスである重力セクターを示す。
従来のSYK経路積分とギャップ付き揺らぎを再現するスパースモデルのための経路積分を構築することで、議論を進める。
モデルのスパーシリティは、従来よりも大規模な数値計算を可能にし、その結果は経路積分解析と一致している。
さらに,モデルのスパース性は量子シミュレーションアルゴリズムのコストを大幅に削減することを示した。
これにより、疎sykモデルは量子重力のホログラムモデルをシミュレートする最も効率的な経路となる。
また、非超対称性の場合と同様に、スパース超対称性SYKモデルを定義し、研究する。
ここで考えるモデルのクラスは、量子多体物理学において興味深く、比較的未開拓な辺境であると主張する。 We study a sparse version of the Sachdev-Ye-Kitaev (SYK) model defined on random hypergraphs constructed either by a random pruning procedure or by randomly sampling regular hypergraphs. The resulting model has a new parameter, $k$, defined as the ratio of the number of terms in the Hamiltonian to the number of degrees of freedom, with the sparse limit corresponding to the thermodynamic limit at fixed $k$. We argue that this sparse SYK model recovers the interesting global physics of ordinary SYK even when $k$ is of order unity. In particular, at low temperature the model exhibits a gravitational sector which is maximally chaotic. Our argument proceeds by constructing a path integral for the sparse model which reproduces the conventional SYK path integral plus gapped fluctuations. The sparsity of the model permits larger scale numerical calculations than previously possible, the results of which are consistent with the path integral analysis. Additionally, we show that the sparsity of the model considerably reduces the cost of quantum simulation algorithms. This makes the sparse SYK model the most efficient currently known route to simulate a holographic model of quantum gravity. We also define and study a sparse supersymmetric SYK model, with similar conclusions to the non-supersymmetric case. Looking forward, we argue that the class of models considered here constitute an interesting and relatively unexplored sparse frontier in quantum many-body physics. | 翻訳日:2023-05-07 02:03:24 公開日:2020-08-05 |
# 音響シーン分類に基づくニューラルアーキテクチャ探索 Neural Architecture Search on Acoustic Scene Classification ( http://arxiv.org/abs/1912.12825v2 ) ライセンス: Link先を確認 | Jixiang Li, Chuming Liang, Bo Zhang, Zhao Wang, Fei Xiang, Xiangxiang Chu | (参考訳) 畳み込みニューラルネットワークは、音響シーン分類(ASC)タスクで広く採用されているが、一般に計算負荷が大きい。
本研究では,2乗畳み込みカーネルを一方向のカーネルに置き換え,時間次元と周波数次元の交互に特徴を抽出する,MobileNetV2にインスパイアされた軽量かつ高性能なベースラインネットワークを提案する。
さらに,提案したベースラインに基づいて構築された動的アーキテクチャ空間を,まずすべての候補ネットワークを組み込んだスーパーネットを訓練し,次によく知られた進化的アルゴリズムNSGA-IIを適用して,より高精度で計算コストの低いネットワークを探索する,最近のニューラルアーキテクチャ探索(NAS)パラダイムを用いて検討する。
実験の結果,検索したネットワークは,DCASE2018タスク5評価セットにおいて90.3%のF1スコアを達成するASCタスクに適しており,ベースラインネットワークに比べて25%のFLOPを節約しつつ,新たな最先端性能を示すことがわかった。 Convolutional neural networks are widely adopted in Acoustic Scene Classification (ASC) tasks, but they generally carry a heavy computational burden. In this work, we propose a lightweight yet high-performing baseline network inspired by MobileNetV2, which replaces square convolutional kernels with unidirectional ones to extract features alternately in temporal and frequency dimensions. Furthermore, we explore a dynamic architecture space built on the basis of the proposed baseline with the recent Neural Architecture Search (NAS) paradigm, which first trains a supernet that incorporates all candidate networks and then applies a well-known evolutionary algorithm NSGA-II to discover more efficient networks with higher accuracy and lower computational cost. Experimental results demonstrate that our searched network is competent in ASC tasks, which achieves 90.3% F1-score on the DCASE2018 task 5 evaluation set, marking a new state-of-the-art performance while saving 25% of FLOPs compared to our baseline network. | 翻訳日:2023-01-17 02:14:28 公開日:2020-08-05 |
# 情報ニュートン流:確率空間における二階最適化法 Information Newton's flow: second-order optimization method in probability space ( http://arxiv.org/abs/2001.04341v4 ) ライセンス: Link先を確認 | Yifei Wang and Wuchen Li | (参考訳) 本稿では,情報メトリクスを用いた確率空間におけるニュートン流のフレームワークについて紹介する。
ここでは、フィッシャー・ラオ計量とワッサースタイン-2計量の両方を含む2つの情報指標を考える。
既知の事実は、過減衰ランジュバンダイナミクスがクルバック・ライバー(kl)分岐のwasserstein勾配流に対応することである。
この事実をワッサースタインニュートンの流れにまで拡張し、ニュートンのランジュバン力学を導出する。
一次元空間とガウス族の両方におけるニュートンのランゲヴィン力学の例を示す。
数値化のために,アフィンモデルにおける効率的な変分法をサンプリングし,ワッサースタインニュートンの方向を近似するために,カーネルヒルベルト空間 (rkhs) を再現する。
また,提案した情報に対するNewtonの手法の収束結果を近似方向で決定する。
ベイジアンサンプリング問題から得られたいくつかの数値例は,提案手法の有効性を示すものである。 We introduce a framework for Newton's flows in probability space with information metrics, named information Newton's flows. Here two information metrics are considered, including both the Fisher-Rao metric and the Wasserstein-2 metric. A known fact is that overdamped Langevin dynamics correspond to Wasserstein gradient flows of Kullback-Leibler (KL) divergence. Extending this fact to Wasserstein Newton's flows, we derive Newton's Langevin dynamics. We provide examples of Newton's Langevin dynamics in both one-dimensional space and Gaussian families. For the numerical implementation, we design sampling efficient variational methods in affine models and reproducing kernel Hilbert space (RKHS) to approximate Wasserstein Newton's directions. We also establish convergence results of the proposed information Newton's method with approximated directions. Several numerical examples from Bayesian sampling problems are shown to demonstrate the effectiveness of the proposed method. | 翻訳日:2023-01-11 22:47:37 公開日:2020-08-05 |
# LP-SparseMAP:スパース構造予測のための微分緩和最適化 LP-SparseMAP: Differentiable Relaxed Optimization for Sparse Structured Prediction ( http://arxiv.org/abs/2001.04437v3 ) ライセンス: Link先を確認 | Vlad Niculae, Andr\'e F. T. Martins | (参考訳) 構造予測では、依存木やアライメントなどの多数の組合せ構造を、潜在変数や出力変数として操作する必要がある。
近年、SparseMAP法は、最大アフター(MAP)と限界推論に代わる、微分可能でスパースな方法として提案されている。
sparsemapは、いくつかの下流アプリケーションで望ましいプロパティである少数の構造体の組み合わせを返す。
しかし、SparseMAPは抽出可能なMAP推論オラクルを必要とする。
これは例えば、概して近似推論を必要とする論理的制約を持つループグラフィカルモデルや因子グラフを除外する。
本稿では,SparseMAPの拡張であるLP-SparseMAPを紹介する。
LP-SparseMAPはフレキシブルで強力な因子グラフのドメイン固有言語を使用して、任意の隠れ構造を定義・バックプロパゲートし、粗い分解、ハードロジック制約、高階相関をサポートする。
LP-SparseMAPを隠蔽層や出力層として使用するのに必要な前方および後方アルゴリズムを導出する。
3つの構造化予測タスクの実験は、SparseMAPとStructured SVMと比較して利点を示す。 Structured prediction requires manipulating a large number of combinatorial structures, e.g., dependency trees or alignments, either as latent or output variables. Recently, the SparseMAP method has been proposed as a differentiable, sparse alternative to maximum a posteriori (MAP) and marginal inference. SparseMAP returns a combination of a small number of structures, a desirable property in some downstream applications. However, SparseMAP requires a tractable MAP inference oracle. This excludes, e.g., loopy graphical models or factor graphs with logic constraints, which generally require approximate inference. In this paper, we introduce LP-SparseMAP, an extension of SparseMAP that addresses this limitation via a local polytope relaxation. LP-SparseMAP uses the flexible and powerful domain specific language of factor graphs for defining and backpropagating through arbitrary hidden structure, supporting coarse decompositions, hard logic constraints, and higher-order correlations. We derive the forward and backward algorithms needed for using LP-SparseMAP as a hidden or output layer. Experiments in three structured prediction tasks show benefits compared to SparseMAP and Structured SVM. | 翻訳日:2023-01-11 22:22:19 公開日:2020-08-05 |
# Gated Graph Recurrent Neural Networks Gated Graph Recurrent Neural Networks ( http://arxiv.org/abs/2002.01038v2 ) ライセンス: Link先を確認 | Luana Ruiz, Fernando Gama, Alejandro Ribeiro | (参考訳) グラフプロセスは、シーケンスインデックスによって決定される時間構造と、グラフサポートによって決定される空間構造を示す。
グラフプロセスから学ぶためには、情報処理アーキテクチャが両方の基盤構造を活用できなければならない。
グラフ信号処理(GSP)とともに、再帰的隠れ状態の概念を活用することで、この目標を達成するための一般的な学習フレームワークとしてグラフリカレントニューラルネットワーク(GRNN)を導入する。
grnnでは、学習可能なパラメータの数はシーケンスの長さとグラフのサイズに依存しており、スケーラビリティを保証している。
GRNNは置換同変であり、基礎となるグラフ支持の摂動に対して安定であることを示す。
勾配の消失問題に対処するため,時間,ノード,エッジゲートの3つの異なるゲーティング機構を備えたゲート型GRNNも提案した。
合成データセットと実データセットの両方を含む数値実験では、時間付きGRNNは長期依存の問題においてGRNNよりも改善され、ノードゲートとエッジゲートはグラフに存在する長距離依存をエンコードする。
数値的な結果は、GRNNがGNNやRNNよりも優れており、グラフプロセスの時間構造とグラフ構造の両方を考慮することが重要であることを示している。 Graph processes exhibit a temporal structure determined by the sequence index and and a spatial structure determined by the graph support. To learn from graph processes, an information processing architecture must then be able to exploit both underlying structures. We introduce Graph Recurrent Neural Networks (GRNNs) as a general learning framework that achieves this goal by leveraging the notion of a recurrent hidden state together with graph signal processing (GSP). In the GRNN, the number of learnable parameters is independent of the length of the sequence and of the size of the graph, guaranteeing scalability. We prove that GRNNs are permutation equivariant and that they are stable to perturbations of the underlying graph support. To address the problem of vanishing gradients, we also put forward gated GRNNs with three different gating mechanisms: time, node and edge gates. In numerical experiments involving both synthetic and real datasets, time-gated GRNNs are shown to improve upon GRNNs in problems with long term dependencies, while node and edge gates help encode long range dependencies present in the graph. The numerical results also show that GRNNs outperform GNNs and RNNs, highlighting the importance of taking both the temporal and graph structures of a graph process into account. | 翻訳日:2023-01-04 09:34:19 公開日:2020-08-05 |
# 観察からの原子介入の学習とサンプリング Learning and Sampling of Atomic Interventions from Observations ( http://arxiv.org/abs/2002.04232v2 ) ライセンス: Link先を確認 | Arnab Bhattacharyya, Sutanu Gayen, Saravanan Kandasamy, Ashwin Maran, N. V. Vinodchandran | (参考訳) 本研究では,因果ベイズネットワークにおける観測サンプルを用いて,単一変数(原子間介入)に対する介入の効果を効率的に推定する問題について検討する。
我々のゴールは、非パラメトリックな設定で時間とサンプルの複雑さの両方で効率的なアルゴリズムを提供することです。
Tian and Pearl (AAAI `02) は、原子間相互作用の因果効果を観測データから特定できる因果グラフの分類を正確に特徴付けている。
結果を定量的にします
P を与えられた因果グラフ G に対する n 個の可観測変数の集合 $\vec{V}$ 上の因果モデルとし、可観測分布 $P$ とする。
P_x$ は、指定された変数 X と x との干渉に関して可観測空間上の干渉分布を表す。
Assuming that $G$ has bounded in-degree, bounded c-components ($k$), and that the observational distribution is identifiable and satisfies certain strong positivity condition, we give an algorithm that takes $m=\tilde{O}(n\epsilon^{-2})$ samples from $P$ and $O(mn)$ time, and outputs with high probability a description of a distribution $\hat{P}$ such that $d_{\mathrm{TV}}(P_x, \hat{P}) \leq \epsilon$, and: 1. [Evaluation] the description can return in $O(n)$ time the probability $\hat{P}(\vec{v})$ for any assignment $\vec{v}$ to $\vec{V}$ 2. [Generation] the description can return an iid sample from $\hat{P}$ in $O(n)$ time.
また、サンプル複雑性の限界を低くすることで、サンプル複雑性がパラメータ$n$と$\epsilon$に最適依存していることを示し、また、もし$k=1$が強いポジティビティパラメータに依存していることを示した。 We study the problem of efficiently estimating the effect of an intervention on a single variable (atomic interventions) using observational samples in a causal Bayesian network. Our goal is to give algorithms that are efficient in both time and sample complexity in a non-parametric setting. Tian and Pearl (AAAI `02) have exactly characterized the class of causal graphs for which causal effects of atomic interventions can be identified from observational data. We make their result quantitative. Suppose P is a causal model on a set $\vec{V}$ of n observable variables with respect to a given causal graph G with observable distribution $P$. Let $P_x$ denote the interventional distribution over the observables with respect to an intervention of a designated variable X with x. Assuming that $G$ has bounded in-degree, bounded c-components ($k$), and that the observational distribution is identifiable and satisfies certain strong positivity condition, we give an algorithm that takes $m=\tilde{O}(n\epsilon^{-2})$ samples from $P$ and $O(mn)$ time, and outputs with high probability a description of a distribution $\hat{P}$ such that $d_{\mathrm{TV}}(P_x, \hat{P}) \leq \epsilon$, and: 1. [Evaluation] the description can return in $O(n)$ time the probability $\hat{P}(\vec{v})$ for any assignment $\vec{v}$ to $\vec{V}$ 2. [Generation] the description can return an iid sample from $\hat{P}$ in $O(n)$ time. We also show lower bounds for the sample complexity showing that our sample complexity has an optimal dependence on the parameters $n$ and $\epsilon$, as well as if $k=1$ on the strong positivity parameter. | 翻訳日:2023-01-02 00:59:51 公開日:2020-08-05 |
# 2次元・3次元情報を用いたロバストアイリス提示検出 Robust Iris Presentation Attack Detection Fusing 2D and 3D Information ( http://arxiv.org/abs/2002.09137v2 ) ライセンス: Link先を確認 | Zhaoyuan Fang, Adam Czajka, Kevin W. Bowyer | (参考訳) アイリスセンサに提示されるアーティファクトの多様性と予測不可能性は、提示攻撃装置の特異性に依存しない提示攻撃検出方法を要求する。
本稿では,観測された虹彩の二次元特性と三次元特性を組み合わせて,人工物の性質が不明な場合にスプーフ検出の問題に対処する手法を提案する。
バイナリ統計画像特徴量(BSIF)を用いた最先端手法により2Dアイリス特徴を抽出し、分類器のアンサンブルを用いて2Dモダリティ関連判定を行う。
3次元虹彩の特徴は、多くの商用虹彩認識センサと同様に、近赤外照明下で撮影された2枚の画像から、測光ステレオ法によって再構成される。
通常のベクトルの写像は観測された虹彩面の凸性を評価するために用いられる。
これらの2つの手法を組み合わせることで、被験者がテクスチャ付きコンタクトレンズを装着して身元を偽装しているかを検出することができる。
ndcld'15データセットと新たに収集したndiris3dデータセットによる広範囲な実験により、提案手法は様々なオープンソーステストシナリオにおいて高い堅牢性を示し、同じシナリオでテストされたすべてのオープンソースのirispadメソッドを上回っている。
ソースコードと新しいベンチマークは、この論文とともに利用可能である。 Diversity and unpredictability of artifacts potentially presented to an iris sensor calls for presentation attack detection methods that are agnostic to specificity of presentation attack instruments. This paper proposes a method that combines two-dimensional and three-dimensional properties of the observed iris to address the problem of spoof detection in case when some properties of artifacts are unknown. The 2D (textural) iris features are extracted by a state-of-the-art method employing Binary Statistical Image Features (BSIF) and an ensemble of classifiers is used to deliver 2D modality-related decision. The 3D (shape) iris features are reconstructed by a photometric stereo method from only two images captured under near-infrared illumination placed at two different angles, as in many current commercial iris recognition sensors. The map of normal vectors is used to assess the convexity of the observed iris surface. The combination of these two approaches has been applied to detect whether a subject is wearing a textured contact lens to disguise their identity. Extensive experiments with NDCLD'15 dataset, and a newly collected NDIris3D dataset show that the proposed method is highly robust under various open-set testing scenarios, and that it outperforms all available open-source iris PAD methods tested in identical scenarios. The source code and the newly prepared benchmark are made available along with this paper. | 翻訳日:2022-12-30 01:27:46 公開日:2020-08-05 |
# 多目的ビートルアンテナ探索アルゴリズム Multi-objective beetle antennae search algorithm ( http://arxiv.org/abs/2002.10090v2 ) ライセンス: Link先を確認 | Junfei Zhang, Yimiao Huang, Guowei Ma, Brett Nener | (参考訳) 工学最適化問題では、非常に非線形な制約の下で多数の変数を持つ複数の目的を同時に最適化する必要がある。
非線形多目的最適化問題のparetoフロントを見つけるには、重要な計算作業が必要となる。
群知能に基づくメタヒューリスティックアルゴリズムは多目的最適化問題の解法に成功している。
近年,ビートルアンテナ探索アルゴリズムと呼ばれる個人知能に基づくアルゴリズムが提案されている。
このアルゴリズムは計算効率が高いことが証明された。
そこで,本アルゴリズムを拡張して多目的最適化問題を解く。
提案した多目的ビートルアンテナ探索アルゴリズムは、4つのよく選択されたベンチマーク関数を用いてテストし、その性能を他の多目的最適化アルゴリズムと比較する。
提案した多目的ビートルアンテナ探索アルゴリズムは良好な精度で計算効率が向上することを示す。 In engineering optimization problems, multiple objectives with a large number of variables under highly nonlinear constraints are usually required to be simultaneously optimized. Significant computing effort are required to find the Pareto front of a nonlinear multi-objective optimization problem. Swarm intelligence based metaheuristic algorithms have been successfully applied to solve multi-objective optimization problems. Recently, an individual intelligence based algorithm called beetle antennae search algorithm was proposed. This algorithm was proved to be more computationally efficient. Therefore, we extended this algorithm to solve multi-objective optimization problems. The proposed multi-objective beetle antennae search algorithm is tested using four well-selected benchmark functions and its performance is compared with other multi-objective optimization algorithms. The results show that the proposed multi-objective beetle antennae search algorithm has higher computational efficiency with satisfactory accuracy. | 翻訳日:2022-12-29 03:55:14 公開日:2020-08-05 |
# 大規模MIMO通信システムにおけるフェデレーション学習のための圧縮センシング手法 A Compressive Sensing Approach for Federated Learning over Massive MIMO Communication Systems ( http://arxiv.org/abs/2003.08059v2 ) ライセンス: Link先を確認 | Yo-Seb Jeon, Mohammad Mohammadi Amiri, Jun Li, and H. Vincent Poor | (参考訳) フェデレーション学習(federated learning)は、独自のローカルトレーニングデータセットを備えたワイヤレスデバイスとのコラボレーションによって、中央サーバでグローバルモデルをトレーニングするための、プライバシ保護アプローチである。
本稿では,大規模アンテナアレーを備えた中央サーバが無線機器と通信する大規模複数入力多重出力通信システム上での連合学習のための圧縮センシング手法を提案する。
システム設計における大きな課題の1つは、無線装置から計算された中央サーバの局所勾配ベクトルを正確に再構成することである。
この課題を克服するために、まず、デバイスにおける局所勾配ベクトルからのスパース伝送信号を構築するための伝送戦略を確立する。
次に,送信信号の線形最小平均二乗誤差(LMMSE)推定を,その空間性を利用して反復的に行うことができる圧縮センシングアルゴリズムを提案する。
また,各反復における残差誤差の解析しきい値を求め,提案アルゴリズムの停止基準を設計する。
スパース送信信号に対して,提案アルゴリズムはLMMSEよりも計算複雑性が低いことを示す。
シミュレーションの結果,本手法は従来の線形ビームフォーミング手法よりも優れており,完全再構成によるフェデレーション学習と集中学習との性能ギャップを低減できることがわかった。 Federated learning is a privacy-preserving approach to train a global model at a central server by collaborating with wireless devices, each with its own local training data set. In this paper, we present a compressive sensing approach for federated learning over massive multiple-input multiple-output communication systems in which the central server equipped with a massive antenna array communicates with the wireless devices. One major challenge in system design is to reconstruct local gradient vectors accurately at the central server, which are computed-and-sent from the wireless devices. To overcome this challenge, we first establish a transmission strategy to construct sparse transmitted signals from the local gradient vectors at the devices. We then propose a compressive sensing algorithm enabling the server to iteratively find the linear minimum-mean-square-error (LMMSE) estimate of the transmitted signal by exploiting its sparsity. We also derive an analytical threshold for the residual error at each iteration, to design the stopping criterion of the proposed algorithm. We show that for a sparse transmitted signal, the proposed algorithm requires less computationally complexity than LMMSE. Simulation results demonstrate that the presented approach outperforms conventional linear beamforming approaches and reduces the performance gap between federated learning and centralized learning with perfect reconstruction. | 翻訳日:2022-12-22 13:16:45 公開日:2020-08-05 |
# 人力による深層強化学習によるソーシャルナビゲーション Social Navigation with Human Empowerment driven Deep Reinforcement Learning ( http://arxiv.org/abs/2003.08158v3 ) ライセンス: Link先を確認 | Tessa van der Heiden, Florian Mirus, Herke van Hoof | (参考訳) モバイルロボットナビゲーションは、ここ数十年で大規模な研究が続けられている。
ロボットと人間がワークスペースを共有することによるコラボレーションの側面は、今後ますます重要になるだろう。
そのため、次世代の移動ロボットは、人間の協力者によって受け入れられるために社会的に適合する必要がある。
しかし、コンプライアンスの正式な定義は単純ではない。
一方、エンパワーメントは、複雑で一般化した行動を学ぶために人工エージェントによって用いられており、生物学的行動に良いモデルであることが示されている。
本稿では,古典的\acf{rl} のアプローチを超えて,エンパワーメントを用いてエージェントに本質的な動機付けを与える。
自己エンパワーメントとは対照的に,我々のアプローチを採用しているロボットは,環境における人々のエンパワーメントを追求しているため,ロボットの存在や動きに邪魔されることはない。
実験では,人間との距離を最小化し,目的に向かって効率的に移動しながら人間の移動時間を短縮する手法が人間に有意な影響を与えることを示した。
対話型ユーザスタディは,提案手法が,他の最先端アプローチよりもソーシャルであることを示す。 Mobile robot navigation has seen extensive research in the last decades. The aspect of collaboration with robots and humans sharing workspaces will become increasingly important in the future. Therefore, the next generation of mobile robots needs to be socially-compliant to be accepted by their human collaborators. However, a formal definition of compliance is not straightforward. On the other hand, empowerment has been used by artificial agents to learn complicated and generalized actions and also has been shown to be a good model for biological behaviors. In this paper, we go beyond the approach of classical \acf{RL} and provide our agent with intrinsic motivation using empowerment. In contrast to self-empowerment, a robot employing our approach strives for the empowerment of people in its environment, so they are not disturbed by the robot's presence and motion. In our experiments, we show that our approach has a positive influence on humans, as it minimizes its distance to humans and thus decreases human travel time while moving efficiently towards its own goal. An interactive user-study shows that our method is considered more social than other state-of-the-art approaches by the participants. | 翻訳日:2022-12-22 09:39:34 公開日:2020-08-05 |
# ダイナミックルル Dynamic ReLU ( http://arxiv.org/abs/2003.10027v2 ) ライセンス: Link先を確認 | Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, and Zicheng Liu | (参考訳) 整流線形単位(relu)はディープニューラルネットワークで一般的に用いられる。
これまでのところ、ReLUとその一般化(非パラメトリックまたはパラメトリック)は静的であり、全ての入力サンプルに対して同一に実行される。
本稿では、全てのインプット要素上のハイパー関数によってパラメータが生成される動的整流器である動的ReLU(DY-ReLU)を提案する。
鍵となる洞察は、DY-ReLUはグローバルコンテキストをハイパー関数にエンコードし、それに応じて断片的に線形活性化関数を適用することである。
dy-reluは静的に比較して計算コストは無視できるが、特に軽量ニューラルネットワークでは表現能力が大幅に向上している。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。 Rectified linear units (ReLU) are commonly used in deep neural networks. So far ReLU and its generalizations (non-parametric or parametric) are static, performing identically for all input samples. In this paper, we propose dynamic ReLU (DY-ReLU), a dynamic rectifier of which parameters are generated by a hyper function over all in-put elements. The key insight is that DY-ReLU encodes the global context into the hyper function, and adapts the piecewise linear activation function accordingly. Compared to its static counterpart, DY-ReLU has negligible extra computational cost, but significantly more representation capability, especially for light-weight neural networks. By simply using DY-ReLU for MobileNetV2, the top-1 accuracy on ImageNet classification is boosted from 72.0% to 76.2% with only 5% additional FLOPs. | 翻訳日:2022-12-21 05:41:39 公開日:2020-08-05 |
# 組合せ解のブラックボックス微分による深部グラフマッチング Deep Graph Matching via Blackbox Differentiation of Combinatorial Solvers ( http://arxiv.org/abs/2003.11657v2 ) ライセンス: Link先を確認 | Michal Rol\'inek, Paul Swoboda, Dominik Zietlow, Anselm Paulus, V\'it Musil, and Georg Martius | (参考訳) 組合せ最適化と深層学習の交点における最近の進歩を基盤として,未修正組合せ解法を含む深部グラフマッチングのためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
高度に最適化された組合せソルバの存在と、アーキテクチャ設計の改善により、キーポイント対応のためのディープグラフマッチングベンチマークを前進させる。
さらに,マルチグラフマッチングの強力なソルバによる後処理の可能性や,トレーニング環境の変化に対する無関心など,ディープラーニングアーキテクチャにソルバを組み込むことによる概念的メリットを強調する。
最後に,2つの新しい実験装置を提案する。
コードはhttps://github.com/martius-lab/blackbox-deep-graph-matchingで入手できる。 Building on recent progress at the intersection of combinatorial optimization and deep learning, we propose an end-to-end trainable architecture for deep graph matching that contains unmodified combinatorial solvers. Using the presence of heavily optimized combinatorial solvers together with some improvements in architecture design, we advance state-of-the-art on deep graph matching benchmarks for keypoint correspondence. In addition, we highlight the conceptual advantages of incorporating solvers into deep learning architectures, such as the possibility of post-processing with a strong multi-graph matching solver or the indifference to changes in the training setting. Finally, we propose two new challenging experimental setups. The code is available at https://github.com/martius-lab/blackbox-deep-graph-matching | 翻訳日:2022-12-20 02:56:41 公開日:2020-08-05 |
# 構成的コメントの分類 Classifying Constructive Comments ( http://arxiv.org/abs/2004.05476v4 ) ライセンス: Link先を確認 | Varada Kolhatkar, Nithum Thain, Jeffrey Sorensen, Lucas Dixon and Maite Taboada | (参考訳) 12,000の注釈付きニュースコメントからなるコンストラクティブコメントコーパス(c3)を導入することで、オンラインコミュニティが議論の質を向上させるための新しいツールを構築することを目的としています。
コンストラクティブコメントを,会話に寄与する高品質なコメントと定義する。
群集労働者のアノテーションスキームを説明し,構成性のサブ特性の分類を定義した。
アノテーションスキームの品質と得られたデータセットは、アノテーション間の合意、サンプルのエキスパートアセスメント、および構成性サブ特性を用いて評価され、一般的な構成性概念のプロキシを提供する。
我々はc3上で機能ベースとさまざまなディープラーニングアプローチを使って訓練された構築性モデルを提供し、これらのモデルが、ドメイン適応実験を通じて、トピックやドメイン固有の構築性の特徴よりもむしろ一般性を捉えることを実証する。
モデルがこの機能に大きく依存している場合、コメント長を簡単にゲームできるので、モデルで長さが果たす役割について検討する。
提案手法は,各モデルが犯した誤りと,その分布を長さで検証することにより,コメント長との相関性が低くなることを示す。構成性コーパスと実験は,好ましくないコンテンツだけをフィルタリングするのではなく,コメントを推奨するモデレーションツールへの道を開くものである。 We introduce the Constructive Comments Corpus (C3), comprised of 12,000 annotated news comments, intended to help build new tools for online communities to improve the quality of their discussions. We define constructive comments as high-quality comments that make a contribution to the conversation. We explain the crowd worker annotation scheme and define a taxonomy of sub-characteristics of constructiveness. The quality of the annotation scheme and the resulting dataset is evaluated using measurements of inter-annotator agreement, expert assessment of a sample, and by the constructiveness sub-characteristics, which we show provide a proxy for the general constructiveness concept. We provide models for constructiveness trained on C3 using both feature-based and a variety of deep learning approaches and demonstrate that these models capture general rather than topic- or domain-specific characteristics of constructiveness, through domain adaptation experiments. We examine the role that length plays in our models, as comment length could be easily gamed if models depend heavily upon this feature. By examining the errors made by each model and their distribution by length, we show that the best performing models are less correlated with comment length.The constructiveness corpus and our experiments pave the way for a moderation tool focused on promoting comments that make a contribution, rather than only filtering out undesirable content. | 翻訳日:2022-12-14 10:17:05 公開日:2020-08-05 |
# 自発的発話によるアルツハイマー型認知症 : adress challenge Alzheimer's Dementia Recognition through Spontaneous Speech: The ADReSS Challenge ( http://arxiv.org/abs/2004.06833v3 ) ライセンス: Link先を確認 | Saturnino Luz, Fasih Haider, Sofia de la Fuente, Davida Fromm, Brian MacWhinney | (参考訳) interspeech 2020のadressチャレンジでは、自発的発話に基づくアルツハイマー認知症の自動認識に対する異なるアプローチを比較できる共有タスクを定義している。
adressは、年齢と性別の観点から音響的に前処理されバランスをとるベンチマーク音声データセットを提供し、アルツハイマーの音声分類タスクと神経心理学的スコア回帰タスクという2つの認知評価タスクを定義している。
アルツハイマーの音声分類タスクでは、ADReSSチャレンジ参加者は、認知症または健全な制御音声として音声を分類するためのモデルを作成する。
神経心理学的スコアレグレッションタスクでは、参加者はミニメンタルな状態検査スコアを予測するモデルを作成する。
本稿では,adressの課題を詳述し,特徴抽出手順と分類・回帰モデルの結果を含む,両タスクのベースラインを提案する。
adressは、スピーチと言語アルツハイマーの研究コミュニティに包括的な方法論比較のためのプラットフォームを提供することを目的としている。
これは、現在この分野に影響を与えている標準化の欠如に対処し、将来の研究と臨床応用の道に光を当てることに貢献することを期待している。 The ADReSS Challenge at INTERSPEECH 2020 defines a shared task through which different approaches to the automated recognition of Alzheimer's dementia based on spontaneous speech can be compared. ADReSS provides researchers with a benchmark speech dataset which has been acoustically pre-processed and balanced in terms of age and gender, defining two cognitive assessment tasks, namely: the Alzheimer's speech classification task and the neuropsychological score regression task. In the Alzheimer's speech classification task, ADReSS challenge participants create models for classifying speech as dementia or healthy control speech. In the the neuropsychological score regression task, participants create models to predict mini-mental state examination scores. This paper describes the ADReSS Challenge in detail and presents a baseline for both tasks, including feature extraction procedures and results for classification and regression models. ADReSS aims to provide the speech and language Alzheimer's research community with a platform for comprehensive methodological comparisons. This will hopefully contribute to addressing the lack of standardisation that currently affects the field and shed light on avenues for future research and clinical applicability. | 翻訳日:2022-12-13 09:24:23 公開日:2020-08-05 |
# リアルタイム放射線画像に対する機械学習パイプラインのためのDICOMフレームワーク A DICOM Framework for Machine Learning Pipelines against Real-Time Radiology Images ( http://arxiv.org/abs/2004.07965v4 ) ライセンス: Link先を確認 | Pradeeban Kathiravelu, Puneet Sharma, Ashish Sharma, Imon Banerjee, Hari Trivedi, Saptarshi Purkayastha, Priyanshu Sinha, Alexandre Cadrin-Chenevert, Nabile Safdar, Judy Wawira Gichoya | (参考訳) 臨床環境における限られたコンピューティングリソースと、研究クラスタ上で実行するための効率的なデータ転送能力の欠如のために、放射線画像上でリアルタイムに機械学習(ML)パイプラインを実行することは難しい。
病院の画像アーカイブ通信システム(PACS)からの放射線画像の検索と検索を効率的に行うことにより,研究クラスタでのMLパイプラインの実行を可能にする統合フレームワークであるNifflerを提案する。
nifflerはdicom(digital imaging and communications in medicine)プロトコルを使用して画像データのフェッチと保存を行い、画像にフィルタを適用するためのメタデータ抽出機能とアプリケーションプログラミングインターフェース(api)を提供する。
さらにNifflerは、識別されていない方法でMLパイプラインの結果の共有を可能にする。
nifflerは19ヶ月以上安定しており、いくつかの研究プロジェクトをサポートしている。
本稿では,下大静脈フィルター(IVC)による画像のリアルタイム検出,スキャナ利用の同定,スキャナクロックの校正の3つのユースケースについて述べる。
Nifflerプロトタイプの評価では、リアルタイムと振り返りでイメージとメタデータ上のMLパイプラインの実現性と効率性を強調している。 Executing machine learning (ML) pipelines in real-time on radiology images is hard due to the limited computing resources in clinical environments and the lack of efficient data transfer capabilities to run them on research clusters. We propose Niffler, an integrated framework that enables the execution of ML pipelines at research clusters by efficiently querying and retrieving radiology images from the Picture Archiving and Communication Systems (PACS) of the hospitals. Niffler uses the Digital Imaging and Communications in Medicine (DICOM) protocol to fetch and store imaging data and provides metadata extraction capabilities and Application programming interfaces (APIs) to apply filters on the images. Niffler further enables the sharing of the outcomes from the ML pipelines in a de-identified manner. Niffler has been running stable for more than 19 months and has supported several research projects at the department. In this paper, we present its architecture and three of its use cases: an inferior vena cava (IVC) filter detection from the images in real-time, identification of scanner utilization, and scanner clock calibration. Evaluations on the Niffler prototype highlight its feasibility and efficiency in facilitating the ML pipelines on the images and metadata in real-time and retrospectively. | 翻訳日:2022-12-12 21:28:17 公開日:2020-08-05 |
# 意味論的概念のカテゴリ Categories of Semantic Concepts ( http://arxiv.org/abs/2004.10741v2 ) ライセンス: Link先を確認 | James Hefford, Vincent Wang, Matthew Wilson | (参考訳) モデリングの概念表現は認知と言語学の研究における基礎的な問題である。
この研究は、G\"ardenfors意味空間、分類的構成言語学、および応用圏論から概念の領域非依存的・分類的形式論を導出した概念ツールの合流に基づく。 Modelling concept representation is a foundational problem in the study of cognition and linguistics. This work builds on the confluence of conceptual tools from G\"ardenfors semantic spaces, categorical compositional linguistics, and applied category theory to present a domain-independent and categorical formalism of 'concept'. | 翻訳日:2022-12-10 18:42:41 公開日:2020-08-05 |
# 超高速構造アウェアディープレーン検出 Ultra Fast Structure-aware Deep Lane Detection ( http://arxiv.org/abs/2004.11757v4 ) ライセンス: Link先を確認 | Zequn Qin, Huanyu Wang, and Xi Li | (参考訳) 現代の手法は、主にレーン検出をピクセルワイドセグメンテーションの問題と見なしており、これは挑戦的なシナリオとスピードの問題に対処するのに苦労している。
人間の知覚に触発されて、激しい閉塞と極端な照明条件下での車線認識は、主に文脈的およびグローバルな情報に基づいている。
この観察に動機づけられ,超高速かつ難解なシナリオを想定した,新しい,単純かつ効果的な定式化を提案する。
具体的には,レーン検出の過程をグローバル特徴量を用いた行選択問題として扱う。
行ベースの選択の助けを借りれば,計算コストを大幅に削減できる。
グローバルな機能に対する大きな受容領域を使用することで、困難なシナリオも処理できます。
さらに, この定式化に基づいて, レーンの構造を明示的にモデル化する構造損失も提案する。
2つの車線検出ベンチマークデータセットの大規模な実験により,本手法は速度と精度の両面で最先端の性能を達成できることが判明した。
軽量版は、同じ解像度で毎秒300フレーム以上を達成でき、従来の最先端の方法よりも少なくとも4倍高速である。
私たちのコードは公開されます。 Modern methods mainly regard lane detection as a problem of pixel-wise segmentation, which is struggling to address the problem of challenging scenarios and speed. Inspired by human perception, the recognition of lanes under severe occlusion and extreme lighting conditions is mainly based on contextual and global information. Motivated by this observation, we propose a novel, simple, yet effective formulation aiming at extremely fast speed and challenging scenarios. Specifically, we treat the process of lane detection as a row-based selecting problem using global features. With the help of row-based selecting, our formulation could significantly reduce the computational cost. Using a large receptive field on global features, we could also handle the challenging scenarios. Moreover, based on the formulation, we also propose a structural loss to explicitly model the structure of lanes. Extensive experiments on two lane detection benchmark datasets show that our method could achieve the state-of-the-art performance in terms of both speed and accuracy. A light-weight version could even achieve 300+ frames per second with the same resolution, which is at least 4x faster than previous state-of-the-art methods. Our code will be made publicly available. | 翻訳日:2022-12-10 03:51:15 公開日:2020-08-05 |
# Event-QA: 知識グラフに関するイベント中心質問回答データセット Event-QA: A Dataset for Event-Centric Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2004.11861v2 ) ライセンス: Link先を確認 | Tarc\'isio Souza Costa, Simon Gottschalk, Elena Demidova | (参考訳) セマンティック質問回答(Semantic Question Answering, QA)は、知識グラフに格納されたセマンティック情報への直感的なユーザアクセスを容易にする重要な技術である。
既存のQAシステムやデータセットのほとんどはエンティティ中心の質問に重点を置いているが、イベントのコンテキストにおけるこれらのシステムのパフォーマンスについてはほとんど知られていない。
新しいイベント中心の知識グラフが出現すると、そのような質問のためのデータセットが重要になる。
本稿では、知識グラフに関するイベント中心の質問に答えるためのEvent-QAデータセットを提案する。
Event-QAには1000のセマンティッククエリと、970万以上のイベントを持つイベント中心の知識グラフであるEventKGの英語、ドイツ語、ポルトガル語の言語化が含まれている。 Semantic Question Answering (QA) is a crucial technology to facilitate intuitive user access to semantic information stored in knowledge graphs. Whereas most of the existing QA systems and datasets focus on entity-centric questions, very little is known about these systems' performance in the context of events. As new event-centric knowledge graphs emerge, datasets for such questions gain importance. In this paper, we present the Event-QA dataset for answering event-centric questions over knowledge graphs. Event-QA contains 1000 semantic queries and the corresponding English, German and Portuguese verbalizations for EventKG - an event-centric knowledge graph with more than 970 thousand events. | 翻訳日:2022-12-10 02:48:22 公開日:2020-08-05 |
# CoReNet:1枚のRGB画像からのコヒーレントな3Dシーン再構築 CoReNet: Coherent 3D scene reconstruction from a single RGB image ( http://arxiv.org/abs/2004.12989v2 ) ライセンス: Link先を確認 | Stefan Popov and Pablo Bauszat and Vittorio Ferrari | (参考訳) 深層学習技術の進歩により、1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築することができるようになった。
本研究では,(1)局所的な2d情報を物理的に正しい方法で出力された3dボリュームに伝達するレイトレース・スキップ接続,(2)変換等価モデルの構築を可能にするハイブリッド3dボリューム表現,同時にメモリフットプリントを過大にすることなく詳細なオブジェクト詳細をエンコードする,(3)全体オブジェクト幾何をキャプチャする復元損失,の3つの拡張を提案する。
さらに,1つの画像から複数のオブジェクトを再構成する作業に,我々のモデルを適用する。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
また,3dボリュームの欠片を幻覚させることで咬合を処理し,解決する。
提案するコントリビューションがShapeNetの合成データおよびPix3Dの実際の画像に与える影響を実験的に検証した。
本手法は,両データセットの最先端の単一オブジェクト法よりも優れている。
最後に、ShapeNetオブジェクトから合成シーンを組み立てた複数のオブジェクト再構成の性能を定量的に評価する。 Advances in deep learning techniques have allowed recent work to reconstruct the shape of a single object given only one RBG image as input. Building on common encoder-decoder architectures for this task, we propose three extensions: (1) ray-traced skip connections that propagate local 2D information to the output 3D volume in a physically correct manner; (2) a hybrid 3D volume representation that enables building translation equivariant models, while at the same time encoding fine object details without an excessive memory footprint; (3) a reconstruction loss tailored to capture overall object geometry. Furthermore, we adapt our model to address the harder task of reconstructing multiple objects from a single image. We reconstruct all objects jointly in one pass, producing a coherent reconstruction, where all objects live in a single consistent 3D coordinate frame relative to the camera and they do not intersect in 3D space. We also handle occlusions and resolve them by hallucinating the missing object parts in the 3D volume. We validate the impact of our contributions experimentally both on synthetic data from ShapeNet as well as real images from Pix3D. Our method improves over the state-of-the-art single-object methods on both datasets. Finally, we evaluate performance quantitatively on multiple object reconstruction with synthetic scenes assembled from ShapeNet objects. | 翻訳日:2022-12-09 05:39:50 公開日:2020-08-05 |
# PyRetri: 深部畳み込みニューラルネットワークによる教師なし画像検索のためのPyTorchベースのライブラリ PyRetri: A PyTorch-based Library for Unsupervised Image Retrieval by Deep Convolutional Neural Networks ( http://arxiv.org/abs/2005.02154v2 ) ライセンス: Link先を確認 | Benyi Hu, Ren-Jie Song, Xiu-Shen Wei, Yazhou Yao, Xian-Sheng Hua, and Yuehu Liu | (参考訳) コンテンツベース画像検索の分野に深層学習手法を適用することの進歩にもかかわらず、これらの手法を統一的にカバーするソフトウェアライブラリは存在しない。
このギャップを埋めるため,我々は,ディープラーニングに基づく教師なし画像検索のためのオープンソースライブラリpyretriを紹介する。
このライブラリは、検索プロセスを複数のステージにカプセル化し、各ステージの様々な重要なメソッドをカバーする機能を提供する。
その設計の根底にある考え方は、高いユーザビリティと拡張性を備えた、ディープラーニングベースの画像検索研究のための統一プラットフォームを提供することである。
私たちの知る限りでは、ディープラーニングによる教師なし画像検索のための最初のオープンソースライブラリです。 Despite significant progress of applying deep learning methods to the field of content-based image retrieval, there has not been a software library that covers these methods in a unified manner. In order to fill this gap, we introduce PyRetri, an open source library for deep learning based unsupervised image retrieval. The library encapsulates the retrieval process in several stages and provides functionality that covers various prominent methods for each stage. The idea underlying its design is to provide a unified platform for deep learning based image retrieval research, with high usability and extensibility. To the best of our knowledge, this is the first open-source library for unsupervised image retrieval by deep learning. | 翻訳日:2022-12-07 12:15:37 公開日:2020-08-05 |
# SODA:半教師付きオープンセットドメイン適応による胸部X線におけるCovid-19の検出 SODA: Detecting Covid-19 in Chest X-rays with Semi-supervised Open Set Domain Adaptation ( http://arxiv.org/abs/2005.11003v2 ) ライセンス: Link先を確認 | Jieli Zhou, Baoyu Jing, Zeya Wang | (参考訳) 新型コロナウイルスのウイルス検査キットが不足し、待ち時間が長いため、放射線画像撮影はスクリーニングプロセスを補完し、患者を異なるリスクレベルにトリアージするために用いられる。
深層学習に基づく手法は、胸部x線画像における新型コロナウイルスの自動検出に重要な役割を果たしている。
これらの研究のほとんどは、まず既存の大規模胸部X線画像データセットで畳み込みニューラルネットワーク(CNN)をトレーニングし、さらにもっと小さなスケールでCOVID-19データセットで微調整する。
しかしながら、異なるドメインからのデータセット間の直接転送は、バイオメディカルイメージングデータセットに存在する大きなドメインシフトと、新型コロナウイルスの胸部X線データセットの極めて小さなスケールという2つの問題により、CNNのパフォーマンスが低下する可能性がある。
これら2つの重要な問題に対処するために、半教師付きオープンセットドメイン適応設定において、COVID-19胸部X線画像分類の問題を定式化し、新しいドメイン適応手法である半教師付きオープンセットドメイン適応ネットワーク(SODA)を提案する。
SODAは、一般的なドメイン空間とソースとターゲットデータの共通部分空間における異なるドメイン間のデータの分散を調整できる。
本実験では, 新型コロナウイルスとコモン肺炎の分離における最近の最先端モデルと比較して, SODAの分類性能は高い。
また, 胸部X線像において, SODAによりより良質な病理組織像が得られた。 Due to the shortage of COVID-19 viral testing kits and the long waiting time, radiology imaging is used to complement the screening process and triage patients into different risk levels. Deep learning based methods have taken an active role in automatically detecting COVID-19 disease in chest x-ray images, as witnessed in many recent works in early 2020. Most of these works first train a Convolutional Neural Network (CNN) on an existing large-scale chest x-ray image dataset and then fine-tune it with a COVID-19 dataset at a much smaller scale. However, direct transfer across datasets from different domains may lead to poor performance for CNN due to two issues, the large domain shift present in the biomedical imaging datasets and the extremely small scale of the COVID-19 chest x-ray dataset. In an attempt to address these two important issues, we formulate the problem of COVID-19 chest x-ray image classification in a semi-supervised open set domain adaptation setting and propose a novel domain adaptation method, Semi-supervised Open set Domain Adversarial network (SODA). SODA is able to align the data distributions across different domains in a general domain space and also in a common subspace of source and target data. In our experiments, SODA achieves a leading classification performance compared with recent state-of-the-art models in separating COVID-19 with common pneumonia. We also present initial results showing that SODA can produce better pathology localizations in the chest x-rays. | 翻訳日:2022-11-30 08:59:34 公開日:2020-08-05 |
# CAT:データ効率と低レイテンシに対するハイブリッドとエンドツーエンドのアプローチを橋渡しするCTC-CRFベースのASRツールキット CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency ( http://arxiv.org/abs/2005.13326v2 ) ライセンス: Link先を確認 | Keyu An, Hongyu Xiang, Zhijian Ou | (参考訳) 本稿では,CAT (CTC-CRF based ASR Toolkit) という,音声認識のための新しいオープンソースツールキットを提案する。
CATはハイブリッドアプローチのデータ効率とE2Eアプローチの単純さを継承し、CTC-CRFの本格的な実装と英語と中国語のベンチマークのための完全なトレーニングとテストスクリプトを提供する。
実験では、CATはカルディの細調整されたハイブリッドモデルに匹敵する最先端の結果を得るが、より単純なトレーニングパイプラインを持つ。
既存の非モジュール化E2Eモデルと比較して、CATは限られたスケールのデータセットでより良いパフォーマンスを示し、データの効率を実証している。
さらに,CATが精度の劣化を伴わずにストリーミングASRを行うことのできる,文脈的ソフト・リフレクションと呼ばれる新しい手法を提案する。
CAT、特にCTC-CRFベースのフレームワークとソフトウェアがコミュニティに広く関心を持ち、さらなる調査と改善を期待しています。 In this paper, we present a new open source toolkit for speech recognition, named CAT (CTC-CRF based ASR Toolkit). CAT inherits the data-efficiency of the hybrid approach and the simplicity of the E2E approach, providing a full-fledged implementation of CTC-CRFs and complete training and testing scripts for a number of English and Chinese benchmarks. Experiments show CAT obtains state-of-the-art results, which are comparable to the fine-tuned hybrid models in Kaldi but with a much simpler training pipeline. Compared to existing non-modularized E2E models, CAT performs better on limited-scale datasets, demonstrating its data efficiency. Furthermore, we propose a new method called contextualized soft forgetting, which enables CAT to do streaming ASR without accuracy degradation. We hope CAT, especially the CTC-CRF based framework and software, will be of broad interest to the community, and can be further explored and improved. | 翻訳日:2022-11-28 08:40:25 公開日:2020-08-05 |
# 境界平衡GANに基づく音声対歌変換 Speech-to-Singing Conversion based on Boundary Equilibrium GAN ( http://arxiv.org/abs/2005.13835v3 ) ライセンス: Link先を確認 | Da-Yi Wu, Yi-Hsuan Yang | (参考訳) 本稿では,音声信号のスペクトログラムを音声の基本音素系列に言及せずに,音声信号のスペクトログラムを歌唱信号のそれに変換するための生成型逆ネットワーク(gan)モデルの利用について検討する。
これは、音声から音声への変換をスタイル転送問題として見ることによって達成される。
具体的には、音声入力と任意に対象歌唱のF0輪郭が与えられた場合、提案モデルは、進行的に成長するエンコーダ/デコーダアーキテクチャと境界平衡GAN損失関数を持つ歌唱信号を出力として生成する。
定量的および定性的な分析により,提案モデルが既存の非対向学習ベースラインよりも自然性の高い歌唱音声を生成することを示す。
再現性のために、コードは論文公開時にGitHubリポジトリで公開される。 This paper investigates the use of generative adversarial network (GAN)-based models for converting the spectrogram of a speech signal into that of a singing one, without reference to the phoneme sequence underlying the speech. This is achieved by viewing speech-to-singing conversion as a style transfer problem. Specifically, given a speech input, and optionally the F0 contour of the target singing, the proposed model generates as the output a singing signal with a progressive-growing encoder/decoder architecture and boundary equilibrium GAN loss functions. Our quantitative and qualitative analysis show that the proposed model generates singing voices with much higher naturalness than an existing non adversarially-trained baseline. For reproducibility, the code will be publicly available at a GitHub repository upon paper publication. | 翻訳日:2022-11-27 06:03:06 公開日:2020-08-05 |
# CSTNet:自己監督型音声表現学習のためのコントラスト音声翻訳ネットワーク CSTNet: Contrastive Speech Translation Network for Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2006.02814v2 ) ライセンス: Link先を確認 | Sameer Khurana, Antoine Laurent, James Glass | (参考訳) 7000以上の言語のうち半数以上が絶滅の危機にさらされている。
従来の言語文書作成法では、音声データを収集し、異なるレベルの粒度で訓練された言語学者による手書きの注釈を付ける。
この時間と手間のかかるプロセスは、機械学習の恩恵を受けるだろう。
多くの絶滅危惧言語は正書法を持たないが、通常はバイリンガルで、高いリソース言語で訓練された話者を持つ。
音声に対応するテキスト翻訳は比較的容易である。
本研究では,音声とそれに対応するテキスト翻訳の2つの様相の相関を利用して,音声表現学習のためのマルチモーダル機械学習フレームワークを提案する。
本稿では,音声から言語表現を抽出する畳み込みニューラルネットワーク音声エンコーダを構築する。
音声エンコーダは、対比学習フレームワークにおいて、音声翻訳検索タスクを実行するように訓練される。
音声認識タスクにおける学習表現の評価により,音声エンコーダの内部表現に言語表現が出現し,検索タスクを行うための学習の副産物となることを示す。 More than half of the 7,000 languages in the world are in imminent danger of going extinct. Traditional methods of documenting language proceed by collecting audio data followed by manual annotation by trained linguists at different levels of granularity. This time consuming and painstaking process could benefit from machine learning. Many endangered languages do not have any orthographic form but usually have speakers that are bi-lingual and trained in a high resource language. It is relatively easy to obtain textual translations corresponding to speech. In this work, we provide a multimodal machine learning framework for speech representation learning by exploiting the correlations between the two modalities namely speech and its corresponding text translation. Here, we construct a convolutional neural network audio encoder capable of extracting linguistic representations from speech. The audio encoder is trained to perform a speech-translation retrieval task in a contrastive learning framework. By evaluating the learned representations on a phone recognition task, we demonstrate that linguistic representations emerge in the audio encoder's internal representations as a by-product of learning to perform the retrieval task. | 翻訳日:2022-11-25 09:43:42 公開日:2020-08-05 |
# RGB-D-E:高速6自由度物体追跡のためのイベントカメラ校正 RGB-D-E: Event Camera Calibration for Fast 6-DOF Object Tracking ( http://arxiv.org/abs/2006.05011v2 ) ライセンス: Link先を確認 | Etienne Dubeau, Mathieu Garon, Benoit Debaque, Raoul de Charette, Jean-Fran\c{c}ois Lalonde | (参考訳) 拡張現実デバイスは、ローカライゼーションやトラッキングといった様々なタスクを実行するために複数のセンサーを必要とする。
現在、一般的なカメラはフレームベース(rgbや深度など)で、高いデータ帯域幅と電力消費を課している。
低消費電力でレスポンシブな拡張現実システムが必要なため、フレームベースのセンサーのみを使用すると、環境からの高周波データを必要とするさまざまなアルゴリズムに制限が課される。
そのため、低消費電力、帯域幅、レイテンシ、および非常に高頻度のデータ取得機能により、イベントベースのセンサが人気を博している。
本稿では,3次元物体追跡の速度を6自由度で高めるために,イベントベースのカメラを初めて使用する方法を提案する。
このアプリケーションは、魅力的なAR体験を伝えるために、非常に高いオブジェクトスピードを扱う必要がある。
そこで本研究では,最近のRGB-Dセンサ(Kinect Azure)とイベントカメラ(DAVIS346)を組み合わせた新しいシステムを提案する。
我々は,既存のRGB-Dネットワークと新しいイベントベースネットワークをカスケード方式で組み合わせたディープラーニングアプローチを開発し,RGB-D-Eパイプラインを用いた最先端フレームベースの6-DOFオブジェクトトラッカーの堅牢性を大幅に向上することを示す。 Augmented reality devices require multiple sensors to perform various tasks such as localization and tracking. Currently, popular cameras are mostly frame-based (e.g. RGB and Depth) which impose a high data bandwidth and power usage. With the necessity for low power and more responsive augmented reality systems, using solely frame-based sensors imposes limits to the various algorithms that needs high frequency data from the environement. As such, event-based sensors have become increasingly popular due to their low power, bandwidth and latency, as well as their very high frequency data acquisition capabilities. In this paper, we propose, for the first time, to use an event-based camera to increase the speed of 3D object tracking in 6 degrees of freedom. This application requires handling very high object speed to convey compelling AR experiences. To this end, we propose a new system which combines a recent RGB-D sensor (Kinect Azure) with an event camera (DAVIS346). We develop a deep learning approach, which combines an existing RGB-D network along with a novel event-based network in a cascade fashion, and demonstrate that our approach significantly improves the robustness of a state-of-the-art frame-based 6-DOF object tracker using our RGB-D-E pipeline. | 翻訳日:2022-11-23 15:04:17 公開日:2020-08-05 |
# 人物再識別のための合成データセットによる属性分析 Attribute analysis with synthetic dataset for person re-identification ( http://arxiv.org/abs/2006.07139v2 ) ライセンス: Link先を確認 | Suncheng Xiang, Yuzhuo Fu, Guanjie You, Ting Liu | (参考訳) 個人再識別(re-ID)は、公共セキュリティやビデオ監視などのアプリケーションにおいて重要な役割を果たす。
近年,合成データエンジンの普及に寄与する合成データからの学習は,目覚ましい成果を上げている。
しかし、既存の合成データセットは小さなサイズと多様性の欠如があり、現実世界のシナリオにおける人物のre-IDの発生を妨げる。
この問題に対処するため、まず大規模な合成データエンジンを開発し、このエンジンの健全な特性を制御可能である。
それに基づいて,照明や視点など,さまざまな属性から多様化し,カスタマイズした大規模合成データセットを構築する。
次に,データセット属性がリidシステムに与える影響を定量的に解析する。
私たちの知る限りでは、これは合成データセットの属性の側面から人を再識別する最初の試みです。
総合的な実験は、人物のre-IDにおける根本的な問題をより深く理解するのに役立ちます。
本研究は,データセットの構築と今後の活用に有用な知見を提供する。 Person re-identification (re-ID) plays an important role in applications such as public security and video surveillance. Recently, learning from synthetic data, which benefits from the popularity of synthetic data engine, have achieved remarkable performance. However, existing synthetic datasets are in small size and lack of diversity, which hinders the development of person re-ID in real-world scenarios. To address this problem, firstly, we develop a large-scale synthetic data engine, the salient characteristic of this engine is controllable. Based on it, we build a large-scale synthetic dataset, which are diversified and customized from different attributes, such as illumination and viewpoint. Secondly, we quantitatively analyze the influence of dataset attributes on re-ID system. To our best knowledge, this is the first attempt to explicitly dissect person re-ID from the aspect of attribute on synthetic dataset. Comprehensive experiments help us have a deeper understanding of the fundamental problems in person re-ID. Our research also provides useful insights for dataset building and future practical usage. | 翻訳日:2022-11-22 04:17:00 公開日:2020-08-05 |
# 構造因子を用いた大規模行列とテンソル分解の計算:統一された非凸最適化 Computing Large-Scale Matrix and Tensor Decomposition with Structured Factors: A Unified Nonconvex Optimization Perspective ( http://arxiv.org/abs/2006.08183v2 ) ライセンス: Link先を確認 | Xiao Fu, Nico Vervliet, Lieven De Lathauwer, Kejun Huang, Nicolas Gillis | (参考訳) 提案する論文は、構造化行列とテンソル因子化の計算的側面に関する包括的なチュートリアルを提供することを目的としている。
非負性(nonnegativity)やスパーシティ制約付き因子化(sparsity-constrained factorization)といった小さな問題に対して、主に「itアルゴリズム手順」に焦点を当てた既存のチュートリアルとは異なり、我々は「itトップダウン(it top-down)」アプローチを採っている: 我々は、様々な制約と工学的関心の正規化の観点から、幅広い因子化問題をカバーする、一般的な最適化理論(例えば、不正確かつ加速されたブロック座標降下、確率的最適化、ガウス・ニュートン法)から始める。
そして、これらの導入原則の下で、特定のアルゴリズム設計を示すために、'内部'に進みます。
構造的テンソルと行列因子化(例えば、ランダムなスケッチと適応的ステップサイズに基づく確率的最適化と構造展開2次アルゴリズム)における最近のアルゴリズムの発展に特に注目する。
本稿は、構造化因子化の分野における教育的価値と、この重要かつエキサイティングな方向性に関するさらなる研究の促進を期待する。 The proposed article aims at offering a comprehensive tutorial for the computational aspects of structured matrix and tensor factorization. Unlike existing tutorials that mainly focus on {\it algorithmic procedures} for a small set of problems, e.g., nonnegativity or sparsity-constrained factorization, we take a {\it top-down} approach: we start with general optimization theory (e.g., inexact and accelerated block coordinate descent, stochastic optimization, and Gauss-Newton methods) that covers a wide range of factorization problems with diverse constraints and regularization terms of engineering interest. Then, we go `under the hood' to showcase specific algorithm design under these introduced principles. We pay a particular attention to recent algorithmic developments in structured tensor and matrix factorization (e.g., random sketching and adaptive step size based stochastic optimization and structure-exploiting second-order algorithms), which are the state of the art---yet much less touched upon in the literature compared to {\it block coordinate descent} (BCD)-based methods. We expect that the article to have an educational values in the field of structured factorization and hope to stimulate more research in this important and exciting direction. | 翻訳日:2022-11-21 05:19:34 公開日:2020-08-05 |
# 弱教師付きフレーズ接地におけるコントラスト学習 Contrastive Learning for Weakly Supervised Phrase Grounding ( http://arxiv.org/abs/2006.09920v3 ) ライセンス: Link先を確認 | Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, Jan Kautz, and Derek Hoiem | (参考訳) 画像領域をキャプション語に関連付ける問題である句の接地は、視覚言語タスクの重要な構成要素である。
画像とキャプション語間の相互情報に対する下限を最大化するために,単語領域の注意を最適化することで,句の接頭辞を学習できることを示す。
画像とキャプションのペアが与えられた場合、非対応画像とキャプションのペアと比較して、注目強調領域と対応するキャプション内の単語の互換性を最大化する。
重要なアイデアは、言語モデルによる単語置換を通して学習するための効果的な否定的キャプションを構築することである。
我々の負のトレーニングは、トレーニングデータからランダムにサンプリングされた負の精度を$\sim10\%$絶対的に向上する。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30K Entitiesベンチマークで76.7\%の精度を達成するために、5.7\%の健全な利益を示している。 Phrase grounding, the problem of associating image regions to caption words, is a crucial component of vision-language tasks. We show that phrase grounding can be learned by optimizing word-region attention to maximize a lower bound on mutual information between images and caption words. Given pairs of images and captions, we maximize compatibility of the attention-weighted regions and the words in the corresponding caption, compared to non-corresponding pairs of images and captions. A key idea is to construct effective negative captions for learning through language model guided word substitutions. Training with our negatives yields a $\sim10\%$ absolute gain in accuracy over randomly-sampled negatives from the training data. Our weakly supervised phrase grounding model trained on COCO-Captions shows a healthy gain of $5.7\%$ to achieve $76.7\%$ accuracy on Flickr30K Entities benchmark. | 翻訳日:2022-11-19 18:58:31 公開日:2020-08-05 |
# 局所化スペクトルグラフフィルタフレーム:統一フレームワーク、設計考察のサーベイ、数値比較(拡張カット) Localized Spectral Graph Filter Frames: A Unifying Framework, Survey of Design Considerations, and Numerical Comparison (Extended Cut) ( http://arxiv.org/abs/2006.11220v2 ) ライセンス: Link先を確認 | David I Shuman | (参考訳) グラフ上に存在するデータを、ビルディングブロック信号の線形結合として表現することで、データの効率的かつ洞察力のある視覚的あるいは統計的分析を可能にし、そのような表現は、信号処理や機械学習タスクにおける正規化器として有用であることが証明される。
ビルディングブロック信号のコレクション(または正式には原子の辞書)を設計し、基礎となるグラフ構造と利用可能な任意の代表的訓練信号が、過去10年間にわたって活発に研究されてきた。
本稿では、スペクトルパターンをグラフの異なる領域にローカライズすることで、原子が生成される局所スペクトルフィルタフレームと呼ばれる特定の辞書のクラスについて調査する。
このクラスが、スペクトルグラフウェーブレットからグラフフィルタバンクへの様々なアプローチをどのように包含しているかを示した後、スペクトルフィルタを設計する方法と、そのパターンが局所化されている中心頂点を選択する方法の2つの主な質問に焦点を当てた。
全体を通して、我々は、大きなスパースグラフ上のデータに対して結果の変換とその逆を確実に適用できる計算効率のよい方法を強調した。
本稿では,この変換手法を雑音化や非線形近似といった信号処理タスクにどのように利用できるかを実証し,新たなアプリケーション領域でこれらの手法を実験するためのコードを提供する。 Representing data residing on a graph as a linear combination of building block signals can enable efficient and insightful visual or statistical analysis of the data, and such representations prove useful as regularizers in signal processing and machine learning tasks. Designing collections of building block signals -- or more formally, dictionaries of atoms -- that specifically account for the underlying graph structure as well as any available representative training signals has been an active area of research over the last decade. In this article, we survey a particular class of dictionaries called localized spectral graph filter frames, whose atoms are created by localizing spectral patterns to different regions of the graph. After showing how this class encompasses a variety of approaches from spectral graph wavelets to graph filter banks, we focus on the two main questions of how to design the spectral filters and how to select the center vertices to which the patterns are localized. Throughout, we emphasize computationally efficient methods that ensure the resulting transforms and their inverses can be applied to data residing on large, sparse graphs. We demonstrate how this class of transform methods can be used in signal processing tasks such as denoising and non-linear approximation, and provide code for readers to experiment with these methods in new application domains. | 翻訳日:2022-11-19 05:23:17 公開日:2020-08-05 |
# マルチタスク学習のためのノーランチ理論 A No-Free-Lunch Theorem for MultiTask Learning ( http://arxiv.org/abs/2006.15785v4 ) ライセンス: Link先を確認 | Steve Hanneke and Samory Kpotufe | (参考訳) マルチタスク学習やマルチソースドメイン適応といった関連分野は、n$ 関連ディストリビューションのデータセットを$\{p_t\}$ から組み合わせて、このようなディストリビューション ${\cal d}$ でパフォーマンスを向上させるという、現代的な設定に対処している。
複数のタスクからの寄与を考慮に入れたパフォーマンスバウンダリを期待する一方で、ほとんどの分析結果は、タスク当たりのサンプル数$n$でベストに改善されるバウンダリをもたらすが、ほとんどの場合、$N$では改善されない。
このように、このような分析で考慮された分布的設定や集約手順は、一見すると好ましくないかもしれないが、私たちが示すように、この図は、たまたま、よりニュアンスで、他の場合は好ましくないような、興味深いほど硬い状態である。
特に私たちは,すべてのタスクが共通の最適分類器である$h^*,$を共有して,n$とn$という面でoracleレートが向上した広範なレジームを許容できるような,好都合な分類シナリオを考えています。
以下の結果が得られた: $\bullet$ このようなレジームは、n$ と $n$の両方を占めるミニマックスレートを認めているが、適応アルゴリズムは存在しない。
目的の${\cal d}$ までの距離に応じてタスクのランキングが$\{p_t\}$ という追加情報を持つ$\bullet$ 単純なランクベースの手順は、検索スペースが$n$で指数関数的であるにもかかわらず、タスクのデータセットのほぼ最適な集約を実現できる。
興味深いことに、最適な集約は、すべて同じ$h^*$を共有しているにもかかわらず、特定のタスクを除外するかもしれない。 Multitask learning and related areas such as multi-source domain adaptation address modern settings where datasets from $N$ related distributions $\{P_t\}$ are to be combined towards improving performance on any single such distribution ${\cal D}$. A perplexing fact remains in the evolving theory on the subject: while we would hope for performance bounds that account for the contribution from multiple tasks, the vast majority of analyses result in bounds that improve at best in the number $n$ of samples per task, but most often do not improve in $N$. As such, it might seem at first that the distributional settings or aggregation procedures considered in such analyses might be somehow unfavorable; however, as we show, the picture happens to be more nuanced, with interestingly hard regimes that might appear otherwise favorable. In particular, we consider a seemingly favorable classification scenario where all tasks $P_t$ share a common optimal classifier $h^*,$ and which can be shown to admit a broad range of regimes with improved oracle rates in terms of $N$ and $n$. Some of our main results are as follows: $\bullet$ We show that, even though such regimes admit minimax rates accounting for both $n$ and $N$, no adaptive algorithm exists; that is, without access to distributional information, no algorithm can guarantee rates that improve with large $N$ for $n$ fixed. $\bullet$ With a bit of additional information, namely, a ranking of tasks $\{P_t\}$ according to their distance to a target ${\cal D}$, a simple rank-based procedure can achieve near optimal aggregations of tasks' datasets, despite a search space exponential in $N$. Interestingly, the optimal aggregation might exclude certain tasks, even though they all share the same $h^*$. | 翻訳日:2022-11-15 14:12:44 公開日:2020-08-05 |
# eagleeye:効率的なニューラルネットワークプルーニングのための高速サブネット評価 EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning ( http://arxiv.org/abs/2007.02491v2 ) ライセンス: Link先を確認 | Bailin Li, Bowen Wu, Jiang Su, Guangrun Wang and Liang Lin | (参考訳) 訓練されたディープニューラルネットワーク(DNN)の計算冗長部分を見つけることが、アルゴリズムがターゲットとする重要な問題である。
多くのアルゴリズムは、様々な評価手法を導入して、刈り取られたサブネットのモデル性能を予測しようとする。
しかし、それらは一般的な用途では不正確か非常に複雑である。
本稿では, 適応バッチ正規化に基づく簡易かつ効率的な評価成分を適用し, 異なるDNN構造と最終精度との強い相関関係を明らかにするEagleEyeというプルーニング手法を提案する。
この強い相関により、実際に微調整することなく、高い潜在的な精度で刈り取られた候補を素早く見つけ出すことができる。
このモジュールは、既存のプルーニングアルゴリズムをプラグインし改善するためにも一般的である。
EagleEyeは、我々の実験で研究されたすべてのプルーニングアルゴリズムよりも優れたプルーニング性能を実現する。
具体的には、MobileNet V1とResNet-50のプルークでは、EagleEyeは比較対象のメソッドを最大3.8%上回っている。
MobileNet V1のコンパクトモデルを刈り取るというより難しい実験でも、EagleEyeは全体の50%の操作(FLOP)を刈り取ることで、70.9%の精度を達成した。
すべての精度は、トップ1のimagenet分類精度である。
ソースコードとモデルは、オープンソースコミュニティ https://github.com/anonymous47823493/EagleEye にアクセスできる。 Finding out the computational redundant part of a trained Deep Neural Network (DNN) is the key question that pruning algorithms target on. Many algorithms try to predict model performance of the pruned sub-nets by introducing various evaluation methods. But they are either inaccurate or very complicated for general application. In this work, we present a pruning method called EagleEye, in which a simple yet efficient evaluation component based on adaptive batch normalization is applied to unveil a strong correlation between different pruned DNN structures and their final settled accuracy. This strong correlation allows us to fast spot the pruned candidates with highest potential accuracy without actually fine-tuning them. This module is also general to plug-in and improve some existing pruning algorithms. EagleEye achieves better pruning performance than all of the studied pruning algorithms in our experiments. Concretely, to prune MobileNet V1 and ResNet-50, EagleEye outperforms all compared methods by up to 3.8%. Even in the more challenging experiments of pruning the compact model of MobileNet V1, EagleEye achieves the highest accuracy of 70.9% with an overall 50% operations (FLOPs) pruned. All accuracy results are Top-1 ImageNet classification accuracy. Source code and models are accessible to open-source community https://github.com/anonymous47823493/EagleEye . | 翻訳日:2022-11-13 02:36:07 公開日:2020-08-05 |
# 宇宙爆発のカースを破る:カリキュラム探索による効率的なNASを目指して Breaking the Curse of Space Explosion: Towards Efficient NAS with Curriculum Search ( http://arxiv.org/abs/2007.07197v2 ) ライセンス: Link先を確認 | Yong Guo, Yaofo Chen, Yin Zheng, Peilin Zhao, Jian Chen, Junzhou Huang, Mingkui Tan | (参考訳) ニューラルアーキテクチャ検索(nas)は、効果的なアーキテクチャを自動的に見つけるための重要なアプローチとなっている。
すべての優れたアーキテクチャをカバーするためには、数十億の候補アーキテクチャを持つ非常に大きな検索スペースを探索する必要がある。
もっと重要なことに、大きな探索空間を考えると、宇宙爆発の非常に困難な問題に直面するかもしれない。
しかし、計算資源の制限により、トレーニングに不十分な情報を提供するアーキテクチャのごく一部しかサンプル化できない。
その結果、既存の手法は、しばしば準最適アーキテクチャを生成する。
この問題を軽減するために,小さな検索空間から始まるカリキュラム検索手法を提案し,学習知識を徐々に取り入れて広い空間での検索をガイドする。
提案する検索戦略により,本手法は検索効率を大幅に向上させ,既存のnas法よりも優れたアーキテクチャを見出すことができる。
CIFAR-10とImageNetの大規模な実験により,提案手法の有効性が示された。 Neural architecture search (NAS) has become an important approach to automatically find effective architectures. To cover all possible good architectures, we need to search in an extremely large search space with billions of candidate architectures. More critically, given a large search space, we may face a very challenging issue of space explosion. However, due to the limitation of computational resources, we can only sample a very small proportion of the architectures, which provides insufficient information for the training. As a result, existing methods may often produce suboptimal architectures. To alleviate this issue, we propose a curriculum search method that starts from a small search space and gradually incorporates the learned knowledge to guide the search in a large space. With the proposed search strategy, our Curriculum Neural Architecture Search (CNAS) method significantly improves the search efficiency and finds better architectures than existing NAS methods. Extensive experiments on CIFAR-10 and ImageNet demonstrate the effectiveness of the proposed method. | 翻訳日:2022-11-12 20:07:57 公開日:2020-08-05 |
# 配電検出の医学的成果のベンチマーク A Benchmark of Medical Out of Distribution Detection ( http://arxiv.org/abs/2007.04250v2 ) ライセンス: Link先を確認 | Tianshi Cao, Chin-Wei Huang, David Yu-Tung Hui, Joseph Paul Cohen | (参考訳) モチベーション: 医療タスクに使用されるディープラーニングモデルには、誤った予測を避けるために、oodd(out-of-distribution detection)メソッドが備えられている。
しかし、実際にどのOoDDメソッドを使うべきかは定かではない。
特定の問題: ある特定の領域で訓練されたシステムは、異なる領域のイメージに対して正確に実行できない。
これらの画像は診断前にoodd法でフラグを付ける必要がある。
アプローチ: 胸部X線, 底部画像, 組織スライドの3領域において, OoD例の3つのカテゴリを定義し, 一般的なOoDD法をベンチマークした。
結果: 実験では, 分布域外サンプルのカテゴリで良好な結果が得られたが, トレーニング分布に近い画像は認識できなかった。
結論: 特徴表現上の単純なバイナリ分類器は, AUPRC の精度が最良である。
これらのOoDD手法を使用する診断ツールのユーザは、トレーニング分布に非常に近い画像が、予期せぬ結果をもたらすことを警戒する必要がある。 Motivation: Deep learning models deployed for use on medical tasks can be equipped with Out-of-Distribution Detection (OoDD) methods in order to avoid erroneous predictions. However it is unclear which OoDD method should be used in practice. Specific Problem: Systems trained for one particular domain of images cannot be expected to perform accurately on images of a different domain. These images should be flagged by an OoDD method prior to diagnosis. Our approach: This paper defines 3 categories of OoD examples and benchmarks popular OoDD methods in three domains of medical imaging: chest X-ray, fundus imaging, and histology slides. Results: Our experiments show that despite methods yielding good results on some categories of out-of-distribution samples, they fail to recognize images close to the training distribution. Conclusion: We find a simple binary classifier on the feature representation has the best accuracy and AUPRC on average. Users of diagnostic tools which employ these OoDD methods should still remain vigilant that images very close to the training distribution yet not in it could yield unexpected results. | 翻訳日:2022-11-12 09:54:59 公開日:2020-08-05 |
# 仮説伝達学習を用いた人物再識別のためのカメラオンボーディング Camera On-boarding for Person Re-identification using Hypothesis Transfer Learning ( http://arxiv.org/abs/2007.11149v2 ) ライセンス: Link先を確認 | Sk Miraj Ahmed, Aske R Lejb{\o}lle, Rameswar Panda, Amit K. Roy-Chowdhury | (参考訳) 既存の人物再同定のアプローチのほとんどは、ネットワーク内のカメラの数を固定する静的な設定を考慮している。
興味深い方向は、カメラネットワークのダイナミックな性質を探ることであり、新しいカメラの搭載後に既存の再識別モデルを適応させようとする試みだが、追加の努力はほとんどない。
既存のネットワーク内のラベル付きデータがまだ利用可能でありながら、新しいカメラを追加していると仮定して、この問題に対処する個人識別手法が提案されている。
なぜなら、これらのデータにアクセスできない可能性のあるプライバシー問題がいくつか存在する可能性があるからだ。
むしろ、データプライバシの懸念を緩和する学習された再識別モデルの保存が容易であるという事実を踏まえ、既存のネットワークからのソースカメラデータを使わずに、ソースモデルとラベル付きデータのみを使用して知識を伝達することを目的とした仮説伝達学習を用いた効率的なモデル適応アプローチを開発する。
提案手法は,知識の伝達に複数のソースモデルの最適重み付けの組み合わせを見つけることにより,負の伝達の効果を最小化する。
可変数のカメラを用いた4つの挑戦的ベンチマークデータセットの大規模な実験により,提案手法の有効性が実証された。 Most of the existing approaches for person re-identification consider a static setting where the number of cameras in the network is fixed. An interesting direction, which has received little attention, is to explore the dynamic nature of a camera network, where one tries to adapt the existing re-identification models after on-boarding new cameras, with little additional effort. There have been a few recent methods proposed in person re-identification that attempt to address this problem by assuming the labeled data in the existing network is still available while adding new cameras. This is a strong assumption since there may exist some privacy issues for which one may not have access to those data. Rather, based on the fact that it is easy to store the learned re-identifications models, which mitigates any data privacy concern, we develop an efficient model adaptation approach using hypothesis transfer learning that aims to transfer the knowledge using only source models and limited labeled data, but without using any source camera data from the existing network. Our approach minimizes the effect of negative transfer by finding an optimal weighted combination of multiple source models for transferring the knowledge. Extensive experiments on four challenging benchmark datasets with a variable number of cameras well demonstrate the efficacy of our proposed approach over state-of-the-art methods. | 翻訳日:2022-11-07 22:48:44 公開日:2020-08-05 |
# Frank-Wolfe アルゴリズムによる支配的集合クラスタリングの効率的な最適化 Efficient Optimization of Dominant Set Clustering with Frank-Wolfe Algorithms ( http://arxiv.org/abs/2007.11652v2 ) ライセンス: Link先を確認 | Carl Johnell, Morteza Haghir Chehreghani | (参考訳) 支配的集合クラスタリングの効率的な最適化のために、frank-wolfeアルゴリズム -- 標準、ペアワイズ、オフステップ -- を研究した。
フランク=ウルフ法の異なる変種を用いる統一的で効率的なフレームワークを提案し,その有効性について実験的に検討する。
さらに、いわゆるフランク=ウルフギャップの観点からアルゴリズムに対して明確な収束率を提供する。
この理論解析は、支配的集合クラスタリングの問題に特化しており、従来よりも容易にアクセス可能である。 We study Frank-Wolfe algorithms -- standard, pairwise, and away-steps -- for efficient optimization of Dominant Set Clustering. We present a unified and computationally efficient framework to employ the different variants of Frank-Wolfe methods, and we investigate its effectiveness via several experimental studies. In addition, we provide explicit convergence rates for the algorithms in terms of the so-called Frank-Wolfe gap. The theoretical analysis has been specialized to the problem of Dominant Set Clustering and is thus more easily accessible compared to prior work. | 翻訳日:2022-11-07 22:19:08 公開日:2020-08-05 |
# Recommender システムのユーザ項目埋め込みマップにおける畳み込みの主張価値の批判的検討 Critically Examining the Claimed Value of Convolutions over User-Item Embedding Maps for Recommender Systems ( http://arxiv.org/abs/2007.11893v2 ) ライセンス: Link先を確認 | Maurizio Ferrari Dacrema, Federico Parroni, Paolo Cremonesi, Dietmar Jannach | (参考訳) 近年,推薦システムの領域におけるアルゴリズム研究は,行列分解法とその潜在因子モデルからニューラルアプローチへと移行している。
しかしながら、潜在因子モデルの証明された能力を考えると、より複雑なネットワークアーキテクチャにそれらを組み込む新しいニューラルアプローチもある。
最近、何人かの研究者によって提唱された特定のアイデアは、ユーザ-イテム相互作用マップに畳み込みを適用することで、潜伏因子、すなわち埋め込みの間の潜在的な相関を考察することである。
しかし、本論文の主張とは対照的に、このような相互作用写像は畳み込みニューラルネットワーク(cnns)が特に有用である画像の特性を共有しない。
そこで本研究では,本論文で報告されたクレーム利得は,cnnが組込み相関をモデル化する能力に起因するものではないという分析的考察と経験的評価を通して示す。
さらに、最近のcnnベースのモデルでは、既存の非ニューラル機械学習技術や従来型のneighborアプローチよりも優れたパフォーマンス評価がなされている。
より一般的なレベルでは、リコメンデータシステム研究における主要な方法論上の課題を指摘する。 In recent years, algorithm research in the area of recommender systems has shifted from matrix factorization techniques and their latent factor models to neural approaches. However, given the proven power of latent factor models, some newer neural approaches incorporate them within more complex network architectures. One specific idea, recently put forward by several researchers, is to consider potential correlations between the latent factors, i.e., embeddings, by applying convolutions over the user-item interaction map. However, contrary to what is claimed in these articles, such interaction maps do not share the properties of images where Convolutional Neural Networks (CNNs) are particularly useful. In this work, we show through analytical considerations and empirical evaluations that the claimed gains reported in the literature cannot be attributed to the ability of CNNs to model embedding correlations, as argued in the original papers. Moreover, additional performance evaluations show that all of the examined recent CNN-based models are outperformed by existing non-neural machine learning techniques or traditional nearest-neighbor approaches. On a more general level, our work points to major methodological issues in recommender systems research. | 翻訳日:2022-11-07 11:45:30 公開日:2020-08-05 |
# 偽ニュースと偽情報に対する重み付き精度アルゴリズムアプローチ Weighted Accuracy Algorithmic Approach In Counteracting Fake News And Disinformation ( http://arxiv.org/abs/2008.01535v2 ) ライセンス: Link先を確認 | Kwadwo Osei Bonsu | (参考訳) 情報交換のインターネットへの依存度が高まる中、一部の熱狂的なジャーナリスト、ハッカー、ブロガー、個人、組織は、偽ニュース、偽ニュース、偽情報、偽コンテンツで自分たちのアジェンダに汚染することで、自由情報環境の贈り物を悪用する傾向にある。
したがって、フェイクニュースや偽情報の問題を極端に深刻に解決する必要がある。
本稿では,4つの機械学習アルゴリズムの重み付けアキュラシーを併用した制約機構を用いて,偽ニュースの検出と報告を行う手法を提案する。 As the world is becoming more dependent on the internet for information exchange, some overzealous journalists, hackers, bloggers, individuals and organizations tend to abuse the gift of free information environment by polluting it with fake news, disinformation and pretentious content for their own agenda. Hence, there is the need to address the issue of fake news and disinformation with utmost seriousness. This paper proposes a methodology for fake news detection and reporting through a constraint mechanism that utilizes the combined weighted accuracies of four machine learning algorithms. | 翻訳日:2022-11-05 14:42:52 公開日:2020-08-05 |
# 適応プロジェクト:ノイズおよびスパースセンサデータからの奥行き補完のための領域適応 Project to Adapt: Domain Adaptation for Depth Completion from Noisy and Sparse Sensor Data ( http://arxiv.org/abs/2008.01034v2 ) ライセンス: Link先を確認 | Adrian Lopez-Rodriguez and Benjamin Busam and Krystian Mikolajczyk | (参考訳) 深さ完了はスパース深度入力から密度深度マップを予測することを目的としている。
深度設定のための密接な基底真理アノテーションの取得は困難であり、同時に実際のLiDAR測定と合成データのドメインギャップが、仮想設定におけるモデルのトレーニングを成功させるのを妨げている。
実領域や追加センサにアノテーションを付加することなく,合成データから学習した疎深度補完のためのドメイン適応手法を提案する。
提案手法は,RGB+LiDARセットアップにおける実センサノイズをシミュレートし,合成ドメイン内の実LiDAR入力を投影によりシミュレーションし,実雑音LiDARをフィルタリングし,CycleGANアプローチを用いて合成RGB画像に適応する3つのモジュールからなる。
我々は,これらのモジュールをKITTI深度補完ベンチマークの最先端技術に対して広範囲に評価し,大幅な改善を示した。 Depth completion aims to predict a dense depth map from a sparse depth input. The acquisition of dense ground truth annotations for depth completion settings can be difficult and, at the same time, a significant domain gap between real LiDAR measurements and synthetic data has prevented from successful training of models in virtual settings. We propose a domain adaptation approach for sparse-to-dense depth completion that is trained from synthetic data, without annotations in the real domain or additional sensors. Our approach simulates the real sensor noise in an RGB+LiDAR set-up, and consists of three modules: simulating the real LiDAR input in the synthetic domain via projections, filtering the real noisy LiDAR for supervision and adapting the synthetic RGB image using a CycleGAN approach. We extensively evaluate these modules against the state-of-the-art in the KITTI depth completion benchmark, showing significant improvements. | 翻訳日:2022-11-03 06:40:32 公開日:2020-08-05 |
# モデル防御のための反バンド型ニューラルアーキテクチャ探索 Anti-Bandit Neural Architecture Search for Model Defense ( http://arxiv.org/abs/2008.00698v2 ) ライセンス: Link先を確認 | Hanlin Chen, Baochang Zhang, Song Xue, Xuan Gong, Hong Liu, Rongrong Ji, David Doermann | (参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural networks, dcnns)は、機械学習において最高のパフォーマーとして支配されているが、敵の攻撃によって挑戦することができる。
本稿では,ニューラル・アーキテクチャ・サーチ(nas)を用いて,消音ブロックの包括的探索,重みなし演算,ガボールフィルタ,畳み込みに基づく敵対的攻撃を防御する。
結果として得られた反帯域nas(abanditnas)は、下層および上層信頼境界(lcbおよびucb)に基づく新しい動作評価尺度および探索処理を組み込む。
評価のみに UCB を用いる従来のバンドイットアルゴリズムとは異なり,検索効率には UCB を用い,腕間の公正競争には LCB を用いる。
大規模な実験では、ABanditNASは他のNAS法よりも高速であり、PGD-$7$でCIFAR-10の先行技術よりも8.73\%向上している。 Deep convolutional neural networks (DCNNs) have dominated as the best performers in machine learning, but can be challenged by adversarial attacks. In this paper, we defend against adversarial attacks using neural architecture search (NAS) which is based on a comprehensive search of denoising blocks, weight-free operations, Gabor filters and convolutions. The resulting anti-bandit NAS (ABanditNAS) incorporates a new operation evaluation measure and search process based on the lower and upper confidence bounds (LCB and UCB). Unlike the conventional bandit algorithm using UCB for evaluation only, we use UCB to abandon arms for search efficiency and LCB for a fair competition between arms. Extensive experiments demonstrate that ABanditNAS is faster than other NAS methods, while achieving an $8.73\%$ improvement over prior arts on CIFAR-10 under PGD-$7$. | 翻訳日:2022-11-03 05:56:47 公開日:2020-08-05 |
# ロバスト不確実性を考慮したマルチビュー三角測量 Robust Uncertainty-Aware Multiview Triangulation ( http://arxiv.org/abs/2008.01258v2 ) ライセンス: Link先を確認 | Seong Hun Lee, Javier Civera | (参考訳) マルチビュー三角測量と不確実性推定のための頑健で効率的な手法を提案する。
まず, 2-view ransac と midpoint 法を併用した,outlier reject scheme を提案する。
三角測量の前に2視点サンプルを事前スクリーニングすることにより,最先端の効率性を実現する。
第二に、初期解と不整集合を精製する異なる局所最適化法を比較する。
不整集合の反復的な更新により、最適化は精度と堅牢性に大きな改善をもたらすことを示す。
第3に,三角測量点の不確かさを,カメラ数,平均再投影誤差,最大視差角の3つの要因の関数としてモデル化した。
このモデルを学ぶことで、テスト時に不確実性をすばやく補間できます。
我々は広範囲な評価を通じてその方法を検証する。 We propose a robust and efficient method for multiview triangulation and uncertainty estimation. Our contribution is threefold: First, we propose an outlier rejection scheme using two-view RANSAC with the midpoint method. By prescreening the two-view samples prior to triangulation, we achieve the state-of-the-art efficiency. Second, we compare different local optimization methods for refining the initial solution and the inlier set. With an iterative update of the inlier set, we show that the optimization provides significant improvement in accuracy and robustness. Third, we model the uncertainty of a triangulated point as a function of three factors: the number of cameras, the mean reprojection error and the maximum parallax angle. Learning this model allows us to quickly interpolate the uncertainty at test time. We validate our method through an extensive evaluation. | 翻訳日:2022-11-03 00:23:55 公開日:2020-08-05 |
# シンプルなモデュロはディープラーニングベースのDeepcodeを著しく上回る Simple Modulo can Significantly Outperform Deep Learning-based Deepcode ( http://arxiv.org/abs/2008.01686v2 ) ライセンス: Link先を確認 | Assaf Ben-Yishai and Ofer Shayevitz | (参考訳) deepcode (h.kim et al.2018) は、最近提案された、awgnチャネル上でのノイズフィードバックによるコミュニケーションのための深層学習ベースのスキームであり、以前の全てのスキームよりも優れていると主張している。
Deepcodeの非線形コーディング(Deep Learning)は、線形フィードバックスキームの既知の欠点(Y.-H. Kim et al 2007)にインスパイアされている。
2014年、古典的skスキームとmodulo-arithmeticの組み合わせに基づく非線形フィードバック符号化方式を、ニューラルネットワークを使わずに少数の基本演算を用いて提示した。
このModulo-SK方式は、共通乱数性(ダイザー)の使用によるDeepcode論文のパフォーマンス比較と、変数長符号化方式として誤って解釈された後のバージョンから省略されている。
しかし、Modulo-SKのディザはトラクタブルな性能解析の標準的な目的のためにのみ使用され、実際には必要ではない。
本稿では,完全決定論的モデュロSK(ディザリングなしで)がDeepcodeより優れていることを示す。
例えば、10^(-4)の誤差確率を1/3 Modulo-SKで達成するには、Deepcodeよりも3dB少ないフィードバックSNRが必要となる。
ノイズのないフィードバックで10^(-6)のエラー確率を達成するために、deepcodeは150ラウンドの通信を必要とするが、modulo-skは15ラウンドしか必要としない(27db snr)。
さらに,deepcodeの論文で報告されたskスキームの数値安定性問題にも対処し,その回避方法について説明する。
本報告は,古典的およびモデュロSKスキームを対象とした,オンラインで利用可能な完全機能型Matlabシミュレーションを用いて拡張する。
特に、modulo-arithmeticと連動してディープラーニングを使用することは、よりよい設計につながる可能性があり、将来の研究にとって魅力的な方向性である。 Deepcode (H.Kim et al.2018) is a recently suggested Deep Learning-based scheme for communication over the AWGN channel with noisy feedback, claimed to be superior to all previous schemes in the literature. Deepcode's use of nonlinear coding (via Deep Learning) has been inspired by known shortcomings (Y.-H. Kim et al 2007) of linear feedback schemes. In 2014, we presented a nonlinear feedback coding scheme based on a combination of the classical SK scheme and modulo-arithmetic, using a small number of elementary operations without any type of neural network. This Modulo-SK scheme has been omitted from the performance comparisons made in the Deepcode paper, due to its use of common randomness (dither), and in a later version since it was incorrectly interpreted as a variable-length coding scheme. However, the dither in Modulo-SK was used only for the standard purpose of tractable performance analysis, and is not required in practice. In this short note, we show that a fully-deterministic Modulo-SK (without dithering) can outperform Deepcode. For example, to attain an error probability of 10^(-4) at rate 1/3 Modulo-SK requires 3dB less feedback SNR than Deepcode. To attain an error probability of 10^(-6) with noiseless feedback, Deepcode requires 150 rounds of communication, whereas Modulo-SK requires only 15 rounds, even if the feedback is noisy (with 27dB SNR). We further address the numerical stability issues of the original SK scheme reported in the Deepcode paper, and explain how they can be avoided. We augment this report with an online-available, fully-functional Matlab simulation for both the classical and Modulo-SK schemes. Finally, note that Modulo-SK is by no means claimed to be the best possible solution; in particular, using deep learning in conjunction with modulo-arithmetic might lead to better designs, and remains a fascinating direction for future research. | 翻訳日:2022-11-02 23:47:18 公開日:2020-08-05 |
# パーソナライズされた室内シーンの構造計画 Structural Plan of Indoor Scenes with Personalized Preferences ( http://arxiv.org/abs/2008.01323v2 ) ライセンス: Link先を確認 | Xinhan Di, Pengqian Yu, Hong Zhu, Lei Cai, Qiuyan Sheng, Changyu Sun | (参考訳) 本稿では,プロのインテリアデザイナーが工業用インテリアデコレーションソリューションを作成し,資産所有者のパーソナライズされた好みを満たすための支援モデルを提案する。
提案モデルは,プロパティ所有者の好みに応じて,特定の屋内シーンのオブジェクトのレイアウトを自動的に生成することができる。
特に、このモデルは抽象グラフの抽出、条件グラフの生成、条件シーンのインスタンス化から構成される。
プロのデザイナーによるリアルな11000のデザインを含むインテリアレイアウトデータセットを提供する。
本データを用いた数値実験の結果から,提案モデルの有効性を最先端手法と比較した。 In this paper, we propose an assistive model that supports professional interior designers to produce industrial interior decoration solutions and to meet the personalized preferences of the property owners. The proposed model is able to automatically produce the layout of objects of a particular indoor scene according to property owners' preferences. In particular, the model consists of the extraction of abstract graph, conditional graph generation, and conditional scene instantiation. We provide an interior layout dataset that contains real-world 11000 designs from professional designers. Our numerical results on the dataset demonstrate the effectiveness of the proposed model compared with the state-of-art methods. | 翻訳日:2022-11-02 23:38:12 公開日:2020-08-05 |
# 重み共有ニューラルネットワークの検索: 最適化ギャップを縮小する戦い Weight-Sharing Neural Architecture Search: A Battle to Shrink the Optimization Gap ( http://arxiv.org/abs/2008.01475v2 ) ライセンス: Link先を確認 | Lingxi Xie, Xin Chen, Kaifeng Bi, Longhui Wei, Yuhui Xu, Zhengsu Chen, Lanfei Wang, An Xiao, Jianlong Chang, Xiaopeng Zhang, Qi Tian | (参考訳) ニューラルアーキテクチャサーチ(NAS)は、学術と産業の両方で注目を集めている。
初期の研究者は、候補のアーキテクチャを別々にサンプリングし評価する個別の探索法を適用し、計算のオーバーヘッドを増大させた。
負担を軽減するため,多くのアーキテクチャが同一のスーパーネットワークで重みを指数的に共有する重み共有手法が提案され,コストのかかるトレーニング手順は1回だけ実施される。
これらの手法はより高速であるが、しばしば不安定な問題に悩まされる。
本稿では,NAS,特にウェイトシェアリング手法に関する文献レビューを行い,スーパーネットワークとサブアーキテクチャの最適化ギャップから大きな課題が生じることを指摘した。
この観点から,既存のアプローチを,ギャップを埋める取り組みに従って,いくつかのカテゴリにまとめ,これらの方法論の利点とデメリットの両方を分析する。
最後に、NASとAutoMLの今後の方向性について意見を述べる。
筆者らの専門知識から,本論文は主にコンピュータビジョン問題へのNASの適用に焦点が当てられ,グループ内の作業に偏りが生じる可能性がある。 Neural architecture search (NAS) has attracted increasing attentions in both academia and industry. In the early age, researchers mostly applied individual search methods which sample and evaluate the candidate architectures separately and thus incur heavy computational overheads. To alleviate the burden, weight-sharing methods were proposed in which exponentially many architectures share weights in the same super-network, and the costly training procedure is performed only once. These methods, though being much faster, often suffer the issue of instability. This paper provides a literature review on NAS, in particular the weight-sharing methods, and points out that the major challenge comes from the optimization gap between the super-network and the sub-architectures. From this perspective, we summarize existing approaches into several categories according to their efforts in bridging the gap, and analyze both advantages and disadvantages of these methodologies. Finally, we share our opinions on the future directions of NAS and AutoML. Due to the expertise of the authors, this paper mainly focuses on the application of NAS to computer vision problems and may bias towards the work in our group. | 翻訳日:2022-11-02 23:38:01 公開日:2020-08-05 |
# 不均一領域適応のための同時セマンティックアライメントネットワーク Simultaneous Semantic Alignment Network for Heterogeneous Domain Adaptation ( http://arxiv.org/abs/2008.01677v2 ) ライセンス: Link先を確認 | Shuang Li, Binhui Xie, Jiashu Wu, Ying Zhao, Chi Harold Liu, Zhengming Ding | (参考訳) 不均質なドメイン適応(HDA)は、異質性(例えば、異なるドメイン分布と特徴タイプや次元の違い)を示すソースおよびターゲットドメイン間で知識を伝達する。
従来のHDA手法では、ドメイン間の差異を減らすために、ドメイン不変の特徴部分空間を学習することでこの問題に対処する。
しかし、データに含まれる本質的なセマンティックな性質は、そのようなアライメント戦略では解明されていない。
本稿では,カテゴリ間の相関を同時に利用し,各カテゴリ毎のセントロイドを整列させる,同時セマンティックアライメントネットワーク(SSAN)を提案する。
特に,ソースカテゴリー予測分布の相関知識を対象領域に伝達するために,暗黙的な意味相関損失を提案する。
一方、ターゲットの擬似ラベルを活用することで、各カテゴリの特徴表現を調整するために頑健な三重項アライメント機構が明示的に適用される。
特に、擬似ラベル付与精度を高めるために、幾何学的類似性を伴う擬似ラベル修正手順を導入する。
テキスト間,画像間,テキスト間における様々なhdaタスクの包括的な実験により,最先端のhda手法に対するssanの優位性が検証された。
コードはhttps://github.com/BIT-DA/SSANで公開されている。 Heterogeneous domain adaptation (HDA) transfers knowledge across source and target domains that present heterogeneities e.g., distinct domain distributions and difference in feature type or dimension. Most previous HDA methods tackle this problem through learning a domain-invariant feature subspace to reduce the discrepancy between domains. However, the intrinsic semantic properties contained in data are under-explored in such alignment strategy, which is also indispensable to achieve promising adaptability. In this paper, we propose a Simultaneous Semantic Alignment Network (SSAN) to simultaneously exploit correlations among categories and align the centroids for each category across domains. In particular, we propose an implicit semantic correlation loss to transfer the correlation knowledge of source categorical prediction distributions to target domain. Meanwhile, by leveraging target pseudo-labels, a robust triplet-centroid alignment mechanism is explicitly applied to align feature representations for each category. Notably, a pseudo-label refinement procedure with geometric similarity involved is introduced to enhance the target pseudo-label assignment accuracy. Comprehensive experiments on various HDA tasks across text-to-image, image-to-image and text-to-text successfully validate the superiority of our SSAN against state-of-the-art HDA methods. The code is publicly available at https://github.com/BIT-DA/SSAN. | 翻訳日:2022-11-02 23:37:24 公開日:2020-08-05 |
# 固定バッチデータから電力制御を学習する Learning Power Control from a Fixed Batch of Data ( http://arxiv.org/abs/2008.02669v1 ) ライセンス: Link先を確認 | Mohammad G. Khoshkholgh and Halim Yanikomeroglu | (参考訳) 本研究では,監視環境から収集した電力制御データを,未探索環境での電力制御に活用する方法を提案する。
我々はオフラインの深層強化学習を採用し、エージェントはデータのみを用いて送信パワーを生成するポリシーを学習する。
実験の結果, 監視環境と未探索環境の相違にもかかわらず, 監視環境と未探索環境の目的関数が相違する場合でも, エージェントは制御を迅速に学習することがわかった。
収集されたデータの約3分の1は高品質で、残りは任意の最適化アルゴリズムから得られる。 We address how to exploit power control data, gathered from a monitored environment, for performing power control in an unexplored environment. We adopt offline deep reinforcement learning, whereby the agent learns the policy to produce the transmission powers solely by using the data. Experiments demonstrate that despite discrepancies between the monitored and unexplored environments, the agent successfully learns the power control very quickly, even if the objective functions in the monitored and unexplored environments are dissimilar. About one third of the collected data is sufficient to be of high-quality and the rest can be from any sub-optimal algorithm. | 翻訳日:2022-11-02 19:07:53 公開日:2020-08-05 |
# アライメント音素を用いた強コンディショニングによるコンテンツベース歌唱音源分離 Content based singing voice source separation via strong conditioning using aligned phonemes ( http://arxiv.org/abs/2008.02070v1 ) ライセンス: Link先を確認 | Gabriel Meseguer-Brocal, Geoffroy Peeters | (参考訳) インフォームドソース分離は、ニューラルネットワークの導入と、ミックスと分離されたソースの両方を含む大規模なマルチトラックデータセットの可用性により、最近再び関心を集めている。
これらのアプローチでは、ターゲットソースに関する事前情報を使用して分離を改善する。
歴史的に音楽情報検索研究者は、主にスコアインフォームドソース分離に焦点を当ててきたが、近年では歌詞インフォームドソース分離を探求している。
しかし、時間順の歌詞を持つマルチトラックデータセットが不足しているため、モデルは非順序の歌詞を持つ弱い条件付けを使用する。
本稿では,単語レベルで歌詞を単語レベルでアライメントしたマルチモーダルマルチトラックデータセットと,アライメントされた音素を用いた強いコンディショニングについて述べる。
我々のモデルはU-Netアーキテクチャに従っており、音楽ミックスの等級スペクトルと、整列した音声情報を持つ行列の両方を入力としている。
音素行列は、FiLM(Feature-wise Linear Modulation)層を制御するパラメータを得るために埋め込まれている。
これらの層は、分離過程をアフィン変換を介して異なる音素の存在に適応させるためにU-Net特徴写像を条件付ける。
歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。 Informed source separation has recently gained renewed interest with the introduction of neural networks and the availability of large multitrack datasets containing both the mixture and the separated sources. These approaches use prior information about the target source to improve separation. Historically, Music Information Retrieval researchers have focused primarily on score-informed source separation, but more recent approaches explore lyrics-informed source separation. However, because of the lack of multitrack datasets with time-aligned lyrics, models use weak conditioning with non-aligned lyrics. In this paper, we present a multimodal multitrack dataset with lyrics aligned in time at the word level with phonetic information as well as explore strong conditioning using the aligned phonemes. Our model follows a U-Net architecture and takes as input both the magnitude spectrogram of a musical mixture and a matrix with aligned phonetic information. The phoneme matrix is embedded to obtain the parameters that control Feature-wise Linear Modulation (FiLM) layers. These layers condition the U-Net feature maps to adapt the separation process to the presence of different phonemes via affine transformations. We show that phoneme conditioning can be successfully applied to improve singing voice source separation. | 翻訳日:2022-11-02 19:06:41 公開日:2020-08-05 |
# ハードウェア高効率音声トリガーのためのハイブリッドトランス/ctcネットワーク Hybrid Transformer/CTC Networks for Hardware Efficient Voice Triggering ( http://arxiv.org/abs/2008.02323v1 ) ライセンス: Link先を確認 | Saurabh Adya, Vineet Garg, Siddharth Sigtia, Pramod Simha, Chandra Dhir | (参考訳) 2パス音声トリガー検出システムの設計について検討する。
第1パスから取得した候補セグメントを再スコアリングするために使用される第2パスのネットワークに注目した。
ベースラインは音響モデル (AM) であり, CTC損失を最小限に抑えてトレーニングしたBiLSTM層である。
BiLSTMレイヤを自己注意レイヤに置き換える。
内部評価セットの結果,自己注意ネットワークの精度は向上し,パラメータは少なかった。
自己保持層上に自己回帰デコーダネットワークを追加し,エンコーダ上のCTC損失とデコーダ上のクロスエントロピー損失を両立させる。
この設計はベースラインに対してさらなる改善をもたらす。
上記のすべてのモデルをマルチタスク学習(mtl)設定で再トレーニングし、共有ネットワークの1つのブランチをamとしてトレーニングし、2番目のブランチがシーケンス全体をtrue-triggerかどうかを分類します。
その結果、自己着脱層を持つネットワークは、与えられた偽アラームレートに対する偽拒絶率の相対的に60%の低下をもたらすが、10%のパラメータは必要としない。
MTL設定で訓練すると、自己注意ネットワークはさらなる精度の向上をもたらす。
デバイス上の測定結果から,推測時間の70%の相対的な減少が観察された。
さらに、提案されたネットワークアーキテクチャはトレーニングに5倍高速である。 We consider the design of two-pass voice trigger detection systems. We focus on the networks in the second pass that are used to re-score candidate segments obtained from the first-pass. Our baseline is an acoustic model(AM), with BiLSTM layers, trained by minimizing the CTC loss. We replace the BiLSTM layers with self-attention layers. Results on internal evaluation sets show that self-attention networks yield better accuracy while requiring fewer parameters. We add an auto-regressive decoder network on top of the self-attention layers and jointly minimize the CTC loss on the encoder and the cross-entropy loss on the decoder. This design yields further improvements over the baseline. We retrain all the models above in a multi-task learning(MTL) setting, where one branch of a shared network is trained as an AM, while the second branch classifies the whole sequence to be true-trigger or not. Results demonstrate that networks with self-attention layers yield $\sim$60% relative reduction in false reject rates for a given false-alarm rate, while requiring 10% fewer parameters. When trained in the MTL setup, self-attention networks yield further accuracy improvements. On-device measurements show that we observe 70% relative reduction in inference time. Additionally, the proposed network architectures are $\sim$5X faster to train. | 翻訳日:2022-11-02 19:05:23 公開日:2020-08-05 |
# 深層学習による連続色感情の補間 Extrapolating continuous color emotions through deep learning ( http://arxiv.org/abs/2009.04519v1 ) ライセンス: Link先を確認 | Vishaal Ram, Laura P. Schaposnik, Nikos Konstantinou, Eliz Volkan, Marietta Papadatou-Pastou, Banu Manav, Domicele Jonauskaite, Christine Mohr | (参考訳) 実験データセットを用いて、深層学習を用いて、色に関連する感情のRGB外挿を実装し、このニューラルネットワークを用いて得られた結果の数学的研究を行う。
特に、オスは通常、特定の感情をより暗い色に関連付けるが、メスはより明るい色を持つ。
同様の傾向が高齢者や明るい色の関連で見られた。
また,分類マトリクスを通して,どの色が感情に弱いか,どの色が他の色と混同されているかを特定する。 By means of an experimental dataset, we use deep learning to implement an RGB extrapolation of emotions associated to color, and do a mathematical study of the results obtained through this neural network. In particular, we see that males typically associate a given emotion with darker colors while females with brighter colors. A similar trend was observed with older people and associations to lighter colors. Moreover, through our classification matrix, we identify which colors have weak associations to emotions and which colors are typically confused with other colors. | 翻訳日:2022-11-02 19:04:20 公開日:2020-08-05 |
# 攻撃認識のための密結合残差ネットワーク Densely Connected Residual Network for Attack Recognition ( http://arxiv.org/abs/2008.02196v1 ) ライセンス: Link先を確認 | Peilun Wu, Nour Moustafa, Shiyi Yang, Hui Guo | (参考訳) 誤報率と検出率の低いことが、未知の脅威知覚の主要なスタンディングポイントである。
この問題に対処するため,本稿では,攻撃認識のための密結合残差ネットワーク(densely-resnet)を提案する。
Densely-ResNetはいくつかの基本ユニットで構築されており、それぞれが広い接続で一連のConv-GRUサブネットで構成されている。
評価の結果,エッジ層,霧層,雲層に現れる未知の脅威を正確に検出でき,既存のアルゴリズムよりもはるかに低い誤報率を維持できることがわかった。 High false alarm rate and low detection rate are the major sticking points for unknown threat perception. To address the problems, in the paper, we present a densely connected residual network (Densely-ResNet) for attack recognition. Densely-ResNet is built with several basic residual units, where each of them consists of a series of Conv-GRU subnets by wide connections. Our evaluation shows that Densely-ResNet can accurately discover various unknown threats that appear in edge, fog and cloud layers and simultaneously maintain a much lower false alarm rate than existing algorithms. | 翻訳日:2022-11-02 18:58:10 公開日:2020-08-05 |
# 疫学コホート研究の3次元mriにおける深層学習による脂肪組織区画の完全自動化と標準化 Fully Automated and Standardized Segmentation of Adipose Tissue Compartments by Deep Learning in Three-dimensional Whole-body MRI of Epidemiological Cohort Studies ( http://arxiv.org/abs/2008.02251v1 ) ライセンス: Link先を確認 | Thomas K\"ustner, Tobias Hepp, Marc Fischer, Martin Schwartz, Andreas Fritsche, Hans-Ulrich H\"aring, Konstantin Nikolaou, Fabian Bamberg, Bin Yang, Fritz Schick, Sergios Gatidis, J\"urgen Machann | (参考訳) 目的:全身MRIによる皮下脂肪組織および内臓脂肪組織複合体の迅速かつ確実な評価を可能にする。
方法: 全身MR画像から異なる脂肪組織区画の定量化と局在化は, 代謝状態を調べる上で重要である。
メタボリック疾患のリスクが高い個体の正確な同定と表現のために,皮下および内臓脂肪組織への脂肪組織の自動分割が求められている。
本研究では,ロバストで客観的なセグメンテーションを実現する3次元畳み込みニューラルネットワーク(dcnet)を提案する。
本研究では,テュービンゲン家研究センター(TUEF/DZD)とドイツ糖尿病研究センター(TUEF/DZD)から1000例(66$\pm$13年,523人の女性)と,ドイツ国立コーホート(NAKO)データベースから300例(53$\pm$11年,女性152名)を収集し,モデルトレーニング,検証,コホート間の移行学習を行った。
これらのデータセットは、画像シーケンス、画像コントラスト、受信コイル配置、スキャナ、画像フィールド強度が可変であった。
提案するdcnetは,感度,特異性,精度,精度,ダイス重なりの観点から,同等の3次元unetセグメンテーションと比較した。
結果: 高速(5-7秒)および高分解能組織セグメンテーションは高Diceオーバーラップ(0.94)、感度(96.6%)、特異性(95.1%)、精度(92.1%)、精度(98.4%)を3次元全身MRデータセット(視野範囲450x450x2000mm${}^3$)から得られる。
セグメンテーションマスクと脂肪組織プロファイルは、参照医師に自動的に報告される。
結論: 自動脂肪組織分画は3次元mrデータセットで実現可能であり, 提案するdcnetと異なる疫学コホート研究に一般化できる。 Purpose: To enable fast and reliable assessment of subcutaneous and visceral adipose tissue compartments derived from whole-body MRI. Methods: Quantification and localization of different adipose tissue compartments from whole-body MR images is of high interest to examine metabolic conditions. For correct identification and phenotyping of individuals at increased risk for metabolic diseases, a reliable automatic segmentation of adipose tissue into subcutaneous and visceral adipose tissue is required. In this work we propose a 3D convolutional neural network (DCNet) to provide a robust and objective segmentation. In this retrospective study, we collected 1000 cases (66$\pm$ 13 years; 523 women) from the Tuebingen Family Study and from the German Center for Diabetes research (TUEF/DZD), as well as 300 cases (53$\pm$ 11 years; 152 women) from the German National Cohort (NAKO) database for model training, validation, and testing with a transfer learning between the cohorts. These datasets had variable imaging sequences, imaging contrasts, receiver coil arrangements, scanners and imaging field strengths. The proposed DCNet was compared against a comparable 3D UNet segmentation in terms of sensitivity, specificity, precision, accuracy, and Dice overlap. Results: Fast (5-7seconds) and reliable adipose tissue segmentation can be obtained with high Dice overlap (0.94), sensitivity (96.6%), specificity (95.1%), precision (92.1%) and accuracy (98.4%) from 3D whole-body MR datasets (field of view coverage 450x450x2000mm${}^3$). Segmentation masks and adipose tissue profiles are automatically reported back to the referring physician. Conclusion: Automatic adipose tissue segmentation is feasible in 3D whole-body MR data sets and is generalizable to different epidemiological cohort studies with the proposed DCNet. | 翻訳日:2022-11-02 18:56:07 公開日:2020-08-05 |
# ニューラルネットワークを用いた統合交通シミュレーション予測システムとロサンゼルス国際空港道路ネットワークへの応用 Integrated Traffic Simulation-Prediction System using Neural Networks with Application to the Los Angeles International Airport Road Network ( http://arxiv.org/abs/2008.01902v1 ) ライセンス: Link先を確認 | Yihang Zhang, Aristotelis-Angelos Papadopoulos, Pengfei Chen, Faisal Alasiri, Tianchen Yuan, Jin Zhou, Petros A. Ioannou | (参考訳) 交通ネットワークは非常に複雑であり、適切な測定データや交通状態の正確な予測がないため、効率的な交通管理システムの設計は困難である。
交通シミュレーションモデルは、限られた交通データを用いて交通ネットワークの複雑なダイナミクスを捉えることができ、適切な入力がシミュレータに供給された場合、中央交通当局の意思決定を助けることができる。
本稿では,フローレート情報のみを用いて道路ネットワークのオリジン・デスティネーション(OD)行列を推定し,異なるシミュレーションシナリオで道路ネットワークの挙動を予測する統合シミュレーション・予測システムを設計する。
提案システムは,最適化に基づくOD行列生成手法と,交通流のパターンによるOD行列の予測を訓練したニューラルネットワーク(NN)モデルと,交通システムの挙動を予測するDTA(Dynamic Traffic Assignment)スキームを用いた微視的交通シミュレータを含む。
提案システムはロサンゼルス国際空港(lax)の中央ターミナルエリア(cta)の道路ネットワーク上でテストされ,車線閉鎖や縁石側駐車などの現実世界のシナリオの効果をシミュレーションするために,統合交通シミュレーション・予測システムが利用できることを示した。
このモデルは、ネットワークの変化の影響と潜在的利益を学習し、ネットワークを混乱させることなく、非常に低コストでシナリオを分析するための効果的なツールである。 Transportation networks are highly complex and the design of efficient traffic management systems is difficult due to lack of adequate measured data and accurate predictions of the traffic states. Traffic simulation models can capture the complex dynamics of transportation networks by using limited available traffic data and can help central traffic authorities in their decision-making, if appropriate input is fed into the simulator. In this paper, we design an integrated simulation-prediction system which estimates the Origin-Destination (OD) matrix of a road network using only flow rate information and predicts the behavior of the road network in different simulation scenarios. The proposed system includes an optimization-based OD matrix generation method, a Neural Network (NN) model trained to predict OD matrices via the pattern of traffic flow and a microscopic traffic simulator with a Dynamic Traffic Assignment (DTA) scheme to predict the behavior of the transportation system. We test the proposed system on the road network of the central terminal area (CTA) of the Los Angeles International Airport (LAX), which demonstrates that the integrated traffic simulation-prediction system can be used to simulate the effects of several real world scenarios such as lane closures, curbside parking and other changes. The model is an effective tool for learning the impact and possible benefits of changes in the network and for analyzing scenarios at a very low cost without disrupting the network. | 翻訳日:2022-11-02 18:55:23 公開日:2020-08-05 |
# GPU上のXORフレンドリなバイナリ量子化による高速トップKコサイン類似検索 Fast top-K Cosine Similarity Search through XOR-Friendly Binary Quantization on GPUs ( http://arxiv.org/abs/2008.02002v1 ) ライセンス: Link先を確認 | Xiaozheng Jian, Jianqiu Lu, Zexi Yuan, Ao Li | (参考訳) 本稿では,gpuを用いた大規模近接探索の高速化について検討し,コサイン類似性を考慮したインデクシング構成を必要とせず,高精度なベクトル量子化に基づく排他的近傍探索アルゴリズムを提案する。
このアルゴリズムは、新しいxorフレンドリーなバイナリ量子化法を用いて浮動小数点数を符号化し、高複素乗算を低複素ビット演算として最適化する。
実験の結果, 量子化法では, 事前処理に要する時間が短く, 高い精度が必要となる場合, 探索速度が近距離探索法よりも高速であることが判明した。 We explore the use of GPU for accelerating large scale nearest neighbor search and we propose a fast vector-quantization-based exhaustive nearest neighbor search algorithm that can achieve high accuracy without any indexing construction specifically designed for cosine similarity. This algorithm uses a novel XOR-friendly binary quantization method to encode floating-point numbers such that high-complexity multiplications can be optimized as low-complexity bitwise operations. Experiments show that, our quantization method takes short preprocessing time, and helps make the search speed of our exhaustive search method much more faster than that of popular approximate nearest neighbor algorithms when high accuracy is needed. | 翻訳日:2022-11-02 18:48:54 公開日:2020-08-05 |
# 多様なポートレイトからの照明学習 Learning Illumination from Diverse Portraits ( http://arxiv.org/abs/2008.02396v1 ) ライセンス: Link先を確認 | Chloe LeGendre, Wan-Chun Ma, Rohit Pandey, Sean Fanello, Christoph Rhemann, Jason Dourgarian, Jay Busch, Paul Debevec | (参考訳) 本研究では,屋内や屋外の任意の照明条件下で撮影された単一低ダイナミックレンジ(LDR)ポートレート画像から高ダイナミックレンジ(HDR)を全方位で推定する学習手法を提案する。
地中環境照明と組み合わせたポートレート写真を用いて,我々のモデルを訓練する。
様々な表現において70種類の被写体の反射場とアルファマットを記録するために,光ステージを用いてリッチな写真を生成する。
次に,100万個のHDR照明環境のデータベースを用いて被験者をリライトし,照明取得中に記録された高解像度背景画像に被写体を合成する。
我々は、レンダリングに基づく損失関数を用いて照明推定モデルを訓練し、高周波数光の詳細を推定するためにマルチスケールの逆損失を追加する。
本手法はポートレートベース照明推定の最先端技術よりも優れており,本手法は全身の照明強度と表面アルベドとのあいまいさを確実に処理し,肌の色調の異なる被験者にも同様の照明効果が期待できることを示す。
我々は,仮想物体とデジタル文字を一貫した照明で肖像画に追加できることを実証した。
当社の照明推論はスマートフォン上でリアルタイムに動作し、拡張現実アプリケーション用のライブビデオに仮想オブジェクトの現実的なレンダリングと合成を可能にします。 We present a learning-based technique for estimating high dynamic range (HDR), omnidirectional illumination from a single low dynamic range (LDR) portrait image captured under arbitrary indoor or outdoor lighting conditions. We train our model using portrait photos paired with their ground truth environmental illumination. We generate a rich set of such photos by using a light stage to record the reflectance field and alpha matte of 70 diverse subjects in various expressions. We then relight the subjects using image-based relighting with a database of one million HDR lighting environments, compositing the relit subjects onto paired high-resolution background imagery recorded during the lighting acquisition. We train the lighting estimation model using rendering-based loss functions and add a multi-scale adversarial loss to estimate plausible high frequency lighting detail. We show that our technique outperforms the state-of-the-art technique for portrait-based lighting estimation, and we also show that our method reliably handles the inherent ambiguity between overall lighting strength and surface albedo, recovering a similar scale of illumination for subjects with diverse skin tones. We demonstrate that our method allows virtual objects and digital characters to be added to a portrait photograph with consistent illumination. Our lighting inference runs in real-time on a smartphone, enabling realistic rendering and compositing of virtual objects into live video for augmented reality applications. | 翻訳日:2022-11-02 18:47:54 公開日:2020-08-05 |
# 全てできないとき何をすべきか:ソフトな時間的論理制約による時間的論理計画 What to Do When You Can't Do It All: Temporal Logic Planning with Soft Temporal Logic Constraints ( http://arxiv.org/abs/2008.01926v1 ) ライセンス: Link先を確認 | Hazhar Rahmani, Jason M. O'Kane | (参考訳) 本稿では、線形時間論理(LTL)で表されるソフト仕様の集合から最適な選択を満足する無限軌跡を見つけることを目的として、LTLで表されるハード仕様を満足しながら、時間論理計画問題を考える。
従来の研究では, LTL ではなく, 有限トレースに対する線形動的論理式 (LDLf) をソフト制約を表現するために用いた。
この研究において LDLf は無限軌跡の有限接頭辞に制約を与えるために使われた。
ltlを使用することで、軌道の有限接頭辞に制約を課すだけでなく、無限の軌道全体にわたって「ソフト」目標を設定することができる。
提案アルゴリズムはまず,計画問題を最小限のコストで計算する製品オートマトンを構築する。
これらすべてのラッソのうち、最も短いものを計算することが望ましい。
このような最短ラッソの計算が困難であることは証明するが、同時に短いラッソを合成するための効率的なグリージーアプローチも導入する。
本手法の実装を記述した2つのケーススタディと,本アルゴリズムと最適ベースラインを比較した実験結果について報告する。 In this paper, we consider a temporal logic planning problem in which the objective is to find an infinite trajectory that satisfies an optimal selection from a set of soft specifications expressed in linear temporal logic (LTL) while nevertheless satisfying a hard specification expressed in LTL. Our previous work considered a similar problem in which linear dynamic logic for finite traces (LDLf), rather than LTL, was used to express the soft constraints. In that work, LDLf was used to impose constraints on finite prefixes of the infinite trajectory. By using LTL, one is able not only to impose constraints on the finite prefixes of the trajectory, but also to set `soft' goals across the entirety of the infinite trajectory. Our algorithm first constructs a product automaton, on which the planning problem is reduced to computing a lasso with minimum cost. Among all such lassos, it is desirable to compute a shortest one. Though we prove that computing such a shortest lasso is computationally hard, we also introduce an efficient greedy approach to synthesize short lassos nonetheless. We present two case studies describing an implementation of this approach, and report results of our experiment comparing our greedy algorithm with an optimal baseline. | 翻訳日:2022-11-02 18:47:29 公開日:2020-08-05 |
# SAT解決のためのタイムラプスチャレンジ A Time Leap Challenge for SAT Solving ( http://arxiv.org/abs/2008.02215v1 ) ライセンス: Link先を確認 | Johannes K. Fichte, Markus Hecher, Stefan Szeider | (参考訳) 我々は過去20年間のSAT問題解決におけるハードウェアの進歩とアルゴリズムの進歩の影響を比較した。
特に,20年前のSATソルバと20年前のハードウェアのSATソルバを比較した。
以上の結果から,アルゴリズム面での進歩は,ハードウェア面での進歩よりも少なくとも影響が大きいことがわかった。 We compare the impact of hardware advancement and algorithm advancement for SAT solving over the last two decades. In particular, we compare 20-year-old SAT-solvers on new computer hardware with modern SAT-solvers on 20-year-old hardware. Our findings show that the progress on the algorithmic side has at least as much impact as the progress on the hardware side. | 翻訳日:2022-11-02 18:47:10 公開日:2020-08-05 |
# 正義システムにおける機械学習の公平性:ベースレート、偽陽性、偽陰性 Machine Learning Fairness in Justice Systems: Base Rates, False Positives, and False Negatives ( http://arxiv.org/abs/2008.02214v1 ) ライセンス: Link先を確認 | Jesse Russell | (参考訳) 機械学習のベストプラクティスステートメントは普及しているが、標準が何であるかについてのコンセンサスが不足している。
特に公平性基準については、実際に公平性を実現するためのガイダンスがほとんどない。
特に、誤りの公平性(偽陰性と偽陽性の両方)は、重み付けの方法、避けられないトレードオフの作り方、人種間で異なる種類の誤りを示すモデルを判断する方法という問題を引き起こす可能性がある。
本稿では,一方の人種集団に対して偽陽性率が高く,他方の人種集団に対して偽陰性率が高い結果について考察する。
この論文は、正義設定における異なるエラーが、機械学習アプリケーションにおいてどのように問題をもたらすか、トレードオフを解決するための計算の限界、リーダーシップ、ラインワーカー、利害関係者、影響のあるコミュニティとの勇気ある会話を通じて解決すべき解決策について検討する。 Machine learning best practice statements have proliferated, but there is a lack of consensus on what the standards should be. For fairness standards in particular, there is little guidance on how fairness might be achieved in practice. Specifically, fairness in errors (both false negatives and false positives) can pose a problem of how to set weights, how to make unavoidable tradeoffs, and how to judge models that present different kinds of errors across racial groups. This paper considers the consequences of having higher rates of false positives for one racial group and higher rates of false negatives for another racial group. The paper examines how different errors in justice settings can present problems for machine learning applications, the limits of computation for resolving tradeoffs, and how solutions might have to be crafted through courageous conversations with leadership, line workers, stakeholders, and impacted communities. | 翻訳日:2022-11-02 18:40:42 公開日:2020-08-05 |
# DaRLing: SPARQLクエリ下でのOWL 2 RL存在論的推論のためのDatalogリライタ DaRLing: A Datalog rewriter for OWL 2 RL ontological reasoning under SPARQL queries ( http://arxiv.org/abs/2008.02232v1 ) ライセンス: Link先を確認 | Alessio Fiorentino, Jessica Zangari and Marco Manna | (参考訳) W3C Web Ontology Language (OWL)は、多くの意味中心のアプリケーションに基づく強力な知識表現形式主義である。
制限のない使用法によって、非常に単純なタスクの場合、推論は決定不能になってしまうため、表現的かつ決定可能な断片が特定されている。
その中でも,RDFSデータ型のサポートとは別に,多種多様なセマンティックコンストラクタを提供するOWL 2 RLに注目する。
DBpediaのような一般的なWebリソースはOWL 2 RLに該当するが、このフラグメントのために設計され実装されているシステムはわずかである。
しかし、いずれも以下の全てのデシドラータを満たしていない。
(i) 自由に利用でき、定期的に維持されていること。
(ii)クエリ応答とSPARQLクエリのサポート。
(三 独特な名称の仮定を採ることなく、適切にサマーズプロパティを適用すること。)
(iv)具体的なデータ型を扱うこと。
このギャップを埋めるために、SPARQLクエリの下でOWL 2 RLのオントロジ推論のために無料で利用可能なDatalogリライターであるDaRLingを紹介する。
特に,そのアーキテクチャ,実装する書き換え戦略,実用性を示す実験的な評価の結果について述べる。
本稿では,論理プログラミング(tplp)の理論と実践について考察する。 The W3C Web Ontology Language (OWL) is a powerful knowledge representation formalism at the basis of many semantic-centric applications. Since its unrestricted usage makes reasoning undecidable already in case of very simple tasks, expressive yet decidable fragments have been identified. Among them, we focus on OWL 2 RL, which offers a rich variety of semantic constructors, apart from supporting all RDFS datatypes. Although popular Web resources - such as DBpedia - fall in OWL 2 RL, only a few systems have been designed and implemented for this fragment. None of them, however, fully satisfy all the following desiderata: (i) being freely available and regularly maintained; (ii) supporting query answering and SPARQL queries; (iii) properly applying the sameAs property without adopting the unique name assumption; (iv) dealing with concrete datatypes. To fill the gap, we present DaRLing, a freely available Datalog rewriter for OWL 2 RL ontological reasoning under SPARQL queries. In particular, we describe its architecture, the rewriting strategies it implements, and the result of an experimental evaluation that demonstrates its practical applicability. This paper is under consideration in Theory and Practice of Logic Programming (TPLP). | 翻訳日:2022-11-02 18:40:24 公開日:2020-08-05 |
# 概念メタファーが人間-AIコラボレーションの知覚に与える影響 Conceptual Metaphors Impact Perceptions of Human-AI Collaboration ( http://arxiv.org/abs/2008.02311v1 ) ライセンス: Link先を確認 | Pranav Khadpe, Ranjay Krishna, Li Fei-Fei, Jeffrey Hancock, Michael Bernstein | (参考訳) 対話型人工知能(AI)エージェントの出現に伴い,これらのエージェントのユーザ体験に影響を与えるメカニズムを理解することが重要である。
我々はデザイナーのツールキットで共通のツールである概念的メタファについて研究する。
メタファーは、乾いたティーンエイジャー、幼児、経験豊富な執事に似たエージェントを提示することができる。
比喩の選択はAIエージェントの経験にどのように影響を与えるのか?
人間の社会的知覚の変動の主軸として、心理学理論によって定義されたメタファーを温かみと能力の次元に沿ってサンプリングする--我々は、ウィザード・オブ・オズの会話エージェントのメタファーを操作する研究(N=260)を行う。
体験の後、参加者はエージェントの使用意図、エージェントと協力したいという願望、およびエージェントのユーザビリティについて調査される。
設計者がAI製品を記述するために高い能力のメタファを使う傾向とは対照的に、低い能力のメタファは高い能力のメタファよりもエージェントのより良い評価につながる。
この効果は、人間レベルのパフォーマンスを特徴とする高い能力と低い能力のエージェントと、ウィザードが条件付きで盲目であるにもかかわらず持続する。
第2の研究では、メタファーによって投影される能力が増加するにつれて、採用の意図が急速に低下することを確認する。
第3の研究では,メタファー選択が潜在的ユーザのシステム試用意欲に与える影響を評価し,高い能力と暖かさを想定したシステムにユーザを惹きつけることを見出した。
これらの結果は、プロジェクション能力が新規ユーザーを惹きつけるのに役立つことを示唆しているが、それらのユーザーは、能力のメタファーを素早く修正できなければエージェントを破棄することができる。
我々は,Xiaoice, Replika, Woebot, Mitsuku, Tayといった過去の会話エージェントに対するメタファとユーザの態度の類似したパターンを見出す振り返り分析に近づいた。 With the emergence of conversational artificial intelligence (AI) agents, it is important to understand the mechanisms that influence users' experiences of these agents. We study a common tool in the designer's toolkit: conceptual metaphors. Metaphors can present an agent as akin to a wry teenager, a toddler, or an experienced butler. How might a choice of metaphor influence our experience of the AI agent? Sampling metaphors along the dimensions of warmth and competence---defined by psychological theories as the primary axes of variation for human social perception---we perform a study (N=260) where we manipulate the metaphor, but not the behavior, of a Wizard-of-Oz conversational agent. Following the experience, participants are surveyed about their intention to use the agent, their desire to cooperate with the agent, and the agent's usability. Contrary to the current tendency of designers to use high competence metaphors to describe AI products, we find that metaphors that signal low competence lead to better evaluations of the agent than metaphors that signal high competence. This effect persists despite both high and low competence agents featuring human-level performance and the wizards being blind to condition. A second study confirms that intention to adopt decreases rapidly as competence projected by the metaphor increases. In a third study, we assess effects of metaphor choices on potential users' desire to try out the system and find that users are drawn to systems that project higher competence and warmth. These results suggest that projecting competence may help attract new users, but those users may discard the agent unless it can quickly correct with a lower competence metaphor. We close with a retrospective analysis that finds similar patterns between metaphors and user attitudes towards past conversational agents such as Xiaoice, Replika, Woebot, Mitsuku, and Tay. | 翻訳日:2022-11-02 18:40:03 公開日:2020-08-05 |
# 強化学習駆動型情報探索:量子確率論的アプローチ Reinforcement Learning-driven Information Seeking: A Quantum Probabilistic Approach ( http://arxiv.org/abs/2008.02372v1 ) ライセンス: Link先を確認 | Amit Kumar Jaiswal, Haiming Liu, Ingo Frommholz | (参考訳) 対話型情報検索の研究において,対話中の情報フォアガーの行動を理解することが重要である。
不確かな情報空間に広がる情報は、情報オブジェクト(テキスト、画像など)と対話するユーザの密接度が高いため、実質的に複雑である。
しかし、情報フォアガーは、一般的に、代替コンテンツを探し(または飼料)しながら情報(情報ダイエット)を伴い、決定的な不確実性に陥る。
このような不確実性は、不確実性原理に従う量子力学における測定と類似している。
本稿では,強化学習タスクとしての情報探索について述べる。
次に,情報フォアガーをエージェントとして扱うフォアガー探索をモデル化する強化学習ベースのフレームワークを提案する。
また, この枠組みは, 量子力学の数学的形式論を用いて, フォアゲラーの作用に固有の不確実性を取り入れたものである。 Understanding an information forager's actions during interaction is very important for the study of interactive information retrieval. Although information spread in uncertain information space is substantially complex due to the high entanglement of users interacting with information objects~(text, image, etc.). However, an information forager, in general, accompanies a piece of information (information diet) while searching (or foraging) alternative contents, typically subject to decisive uncertainty. Such types of uncertainty are analogous to measurements in quantum mechanics which follow the uncertainty principle. In this paper, we discuss information seeking as a reinforcement learning task. We then present a reinforcement learning-based framework to model forager exploration that treats the information forager as an agent to guide their behaviour. Also, our framework incorporates the inherent uncertainty of the foragers' action using the mathematical formalism of quantum mechanics. | 翻訳日:2022-11-02 18:39:30 公開日:2020-08-05 |
# 一般化された単語シフトグラフ:テキスト間のペアワイズ比較の可視化と説明方法 Generalized Word Shift Graphs: A Method for Visualizing and Explaining Pairwise Comparisons Between Texts ( http://arxiv.org/abs/2008.02250v1 ) ライセンス: Link先を確認 | Ryan J. Gallagher, Morgan R. Frank, Lewis Mitchell, Aaron J. Schwartz, Andrew J. Reagan, Christopher M. Danforth, Peter Sheridan Dodds | (参考訳) 計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
しかし、テキストのリッチストーリーを1つの数字に分解することは、しばしば概念的に危険であり、データアーティファクトや測定の有効性を心配することなく、興味深いまたは予期せぬテキストパターンを自信を持って解釈することは困難である。
テキスト間の微妙な違いをより正確に把握するために、一般化された単語シフトグラフを導入し、個々の単語が重み付き平均として定式化できる測度に対して2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、およびkullback-leiblerやjensen-shannon divergencesのようなエントロピーに基づく尺度など、テキストを比較するためによく使われる多くの手法を自然に包含している。
いくつかのケーススタディを通じて, 一般化された単語シフトグラフが, 診断調査, 仮説生成, 従属解釈において, ドメイン間で柔軟に適用可能であることを実証する。
コーパス間のテキストシフトに詳細なレンズを提供することで、一般化されたワードシフトグラフは、計算社会科学者、デジタルヒューマニスト、その他のテキスト分析実践者がより堅牢な科学的物語を作るのに役立つ。 A common task in computational text analyses is to quantify how two corpora differ according to a measurement like word frequency, sentiment, or information content. However, collapsing the texts' rich stories into a single number is often conceptually perilous, and it is difficult to confidently interpret interesting or unexpected textual patterns without looming concerns about data artifacts or measurement validity. To better capture fine-grained differences between texts, we introduce generalized word shift graphs, visualizations which yield a meaningful and interpretable summary of how individual words contribute to the variation between two texts for any measure that can be formulated as a weighted average. We show that this framework naturally encompasses many of the most commonly used approaches for comparing texts, including relative frequencies, dictionary scores, and entropy-based measures like the Kullback-Leibler and Jensen-Shannon divergences. Through several case studies, we demonstrate how generalized word shift graphs can be flexibly applied across domains for diagnostic investigation, hypothesis generation, and substantive interpretation. By providing a detailed lens into textual shifts between corpora, generalized word shift graphs help computational social scientists, digital humanists, and other text analysis practitioners fashion more robust scientific narratives. | 翻訳日:2022-11-02 18:39:15 公開日:2020-08-05 |
# 精度以上:オブジェクト認識のための信頼できる機械学習インタフェースを目指して More Than Accuracy: Towards Trustworthy Machine Learning Interfaces for Object Recognition ( http://arxiv.org/abs/2008.01980v1 ) ライセンス: Link先を確認 | Hendrik Heuer, Andreas Breiter | (参考訳) 本稿では,画像中の物体を認識する機械学習(ML)システムのユーザエクスペリエンスについて検討する。
写真共有サイトの誤分類が示すように、良いシステムでさえ予期せぬ方法で失敗する可能性がある。
本研究では,MLの背景を持つユーザに対して,異なるレベルの精度で3つのシステムの可視化を行った。
インタビューでは,ユーザが使用するシステムの精度を評価する上で,可視化がいかに役立ったか,システムの可視化と精度が信頼と信頼にどのように影響するかを調べた。
その結果,参加者はMLシステムの評価において,精度にのみ焦点を絞らないことがわかった。
彼らはまた、誤分類の妥当性と重大さを考慮に入れ、予測の確率を見ることを好む。
意味論的に妥当なエラーは、不確実なエラーよりも深刻ではないと判断されるため、システム精度はエラーの種類によって伝達される可能性がある。 This paper investigates the user experience of visualizations of a machine learning (ML) system that recognizes objects in images. This is important since even good systems can fail in unexpected ways as misclassifications on photo-sharing websites showed. In our study, we exposed users with a background in ML to three visualizations of three systems with different levels of accuracy. In interviews, we explored how the visualization helped users assess the accuracy of systems in use and how the visualization and the accuracy of the system affected trust and reliance. We found that participants do not only focus on accuracy when assessing ML systems. They also take the perceived plausibility and severity of misclassification into account and prefer seeing the probability of predictions. Semantically plausible errors are judged as less severe than errors that are implausible, which means that system accuracy could be communicated through the types of errors. | 翻訳日:2022-11-02 18:38:04 公開日:2020-08-05 |
# Attention-Guided Two-Path CNN を用いた多発性硬化性病変活動分離 Multiple Sclerosis Lesion Activity Segmentation with Attention-Guided Two-Path CNNs ( http://arxiv.org/abs/2008.02001v1 ) ライセンス: Link先を確認 | Nils Gessert, Julia Kr\"uger, Roland Opfer, Ann-Christin Ostwaldt, Praveena Manogaran, Hagen H. Kitzler, Sven Schippling, Alexander Schlaefer | (参考訳) 多発性硬化症は炎症性自己免疫性脱髄疾患であり、中枢神経系の病変を特徴とする。
通常、MRI(MRI)は疾患の進行を追跡するために用いられる。
自動画像処理は、病変を区分し、定量的な病変パラメータを導出するために使用できる。
これまで、個々のMRIスキャンの病変分割に焦点をあててきた。
しかし、疾患の進行をモニターするには、2つの時点間の新しい病変と拡大病変の観点から、 \textit{lesion activity} が重要なバイオマーカーである。
この問題に対して、差分ボリュームなど、いくつかの古典的な方法が提案されている。
単一体積病変セグメンテーションの成功にもかかわらず、深層学習アプローチはいまだに病変活動セグメンテーションにおいて稀である。
本研究では,2つの時点からの病変活動分節について畳み込みニューラルネットワーク(cnns)について検討した。
このタスクのために、CNNは2つのポイントからの情報を異なる方法で組み合わせて設計、評価する。
特に,2つの時間点の処理経路間の効果的な情報交換を可能にする,注目誘導相互作用を持つ2経路アーキテクチャを提案する。
深層学習に基づく手法は従来の手法よりも優れており,注意誘導相互作用により性能が著しく向上することが示されている。
さらに、アテンションモジュールは、古い無関係な病変を抑えるマスク効果を有する可塑性アテンションマップを生成する。
病変側偽陽性率は26.4%で、真の陽性率は74.2%であり、これはインターラッター性能と大きく異なるものではない。 Multiple sclerosis is an inflammatory autoimmune demyelinating disease that is characterized by lesions in the central nervous system. Typically, magnetic resonance imaging (MRI) is used for tracking disease progression. Automatic image processing methods can be used to segment lesions and derive quantitative lesion parameters. So far, methods have focused on lesion segmentation for individual MRI scans. However, for monitoring disease progression, \textit{lesion activity} in terms of new and enlarging lesions between two time points is a crucial biomarker. For this problem, several classic methods have been proposed, e.g., using difference volumes. Despite their success for single-volume lesion segmentation, deep learning approaches are still rare for lesion activity segmentation. In this work, convolutional neural networks (CNNs) are studied for lesion activity segmentation from two time points. For this task, CNNs are designed and evaluated that combine the information from two points in different ways. In particular, two-path architectures with attention-guided interactions are proposed that enable effective information exchange between the two time point's processing paths. It is demonstrated that deep learning-based methods outperform classic approaches and it is shown that attention-guided interactions significantly improve performance. Furthermore, the attention modules produce plausible attention maps that have a masking effect that suppresses old, irrelevant lesions. A lesion-wise false positive rate of 26.4% is achieved at a true positive rate of 74.2%, which is not significantly different from the interrater performance. | 翻訳日:2022-11-02 18:37:50 公開日:2020-08-05 |
# 映像表現学習のための自己指導型時間識別学習 Self-supervised Temporal Discriminative Learning for Video Representation Learning ( http://arxiv.org/abs/2008.02129v1 ) ライセンス: Link先を確認 | Jinpeng Wang, Yiqi Lin, Andy J. Ma, Pong C. Yuen | (参考訳) ビデオの時間的手がかりは、アクションを正確に認識するための重要な情報を提供する。
しかし,大規模なビデオアクションデータセットを付加することなく,時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習(VTDL)フレームワークを自己指導型で提案する。
ネットワーク事前トレーニングのためのラベル付きデータがない場合、同一または異なる時間間隔のセグメントを用いて各アンカービデオに対して時間的三重項を生成し、時間的特徴表現の能力を高める。
TCA(Temporal Consistent Augmentation)は、時間微分による時間情報を測定することで、拡張正の時間微分(任意の順序で)がスケーリング定数を除いて不変であることを保証するように設計されている。
最後に、各アンカーとその増強正の間隔を最小化して時間差分特徴を学習し、一方、メモリバンクに保存された他のビデオと、各アンカーと増強負の間隔を最大化し、表現多様性を増強する。
下流行動認識タスクでは,提案手法が既存の関連作業を大幅に上回っている。
驚くべきことに、提案手法は、小規模ビデオデータセット(数千本のビデオのみ)を事前トレーニングに使用する場合、UCF101とHMDB51の完全教師方式よりも優れている。
コードはhttps://github.com/FingerRec/Self-Supervised-Temporal-Discriminative-Representation-for-Video-Action -Recognitionで公開されている。 Temporal cues in videos provide important information for recognizing actions accurately. However, temporal-discriminative features can hardly be extracted without using an annotated large-scale video action dataset for training. This paper proposes a novel Video-based Temporal-Discriminative Learning (VTDL) framework in self-supervised manner. Without labelled data for network pretraining, temporal triplet is generated for each anchor video by using segment of the same or different time interval so as to enhance the capacity for temporal feature representation. Measuring temporal information by time derivative, Temporal Consistent Augmentation (TCA) is designed to ensure that the time derivative (in any order) of the augmented positive is invariant except for a scaling constant. Finally, temporal-discriminative features are learnt by minimizing the distance between each anchor and its augmented positive, while the distance between each anchor and its augmented negative as well as other videos saved in the memory bank is maximized to enrich the representation diversity. In the downstream action recognition task, the proposed method significantly outperforms existing related works. Surprisingly, the proposed self-supervised approach is better than fully-supervised methods on UCF101 and HMDB51 when a small-scale video dataset (with only thousands of videos) is used for pre-training. The code has been made publicly available on https://github.com/FingerRec/Self-Supervised-Temporal-Discriminative-Representation-Learning-for-Vid eo-Action-Recognition. | 翻訳日:2022-11-02 18:31:54 公開日:2020-08-05 |
# 生成的敵対的スタイル転送のためのドメイン固有マッピング Domain-Specific Mappings for Generative Adversarial Style Transfer ( http://arxiv.org/abs/2008.02198v1 ) ライセンス: Link先を確認 | Hsin-Yu Chang, Zhixiang Wang, Yung-Yu Chuang | (参考訳) スタイル転送は、一方のイメージと他方のスタイルからコンテンツが生まれるイメージを生成する。
アンタングル表現を用いた画像から画像への変換手法は,2つの画像カテゴリ間のスタイル伝達に有効であることが示されている。
しかし、従来の手法では共有ドメイン不変コンテンツ空間を前提としており、コンテンツ表現能力を損なう可能性がある。
この問題に対処するために,本論文では,共有コンテンツ空間の潜在機能をドメイン固有のコンテンツ空間に再マッピングするために,ドメイン固有のマッピングを利用する。
このように、画像はスタイル転送のためにより適切にエンコードできる。
実験により,提案手法は,画像間の意味的対応を必要とする難易度の高いシナリオにおいて,従来手法よりも優れていた。
コードと結果はhttps://acht7111020.github.io/dsmap-demo/で入手できる。 Style transfer generates an image whose content comes from one image and style from the other. Image-to-image translation approaches with disentangled representations have been shown effective for style transfer between two image categories. However, previous methods often assume a shared domain-invariant content space, which could compromise the content representation power. For addressing this issue, this paper leverages domain-specific mappings for remapping latent features in the shared content space to domain-specific content spaces. This way, images can be encoded more properly for style transfer. Experiments show that the proposed method outperforms previous style transfer methods, particularly on challenging scenarios that would require semantic correspondences between images. Code and results are available at https://acht7111020.github.io/DSMAP-demo/. | 翻訳日:2022-11-02 18:31:31 公開日:2020-08-05 |
# 今 読んでもらえますか?
角度制御を用いたコンテンツ認識整流 Can You Read Me Now? Content Aware Rectification using Angle Supervision ( http://arxiv.org/abs/2008.02231v1 ) ライセンス: Link先を確認 | Amir Markovitz, Inbal Lavi, Or Perel, Shai Mazor and Roee Litman | (参考訳) スマートフォンのカメラのユビキタス化によって、スキャンされるよりもカメラによって撮影される文書がますます増えている。
フラットベッドスキャナと異なり、撮影された文書は折りたたまれることが多く、テキスト構造に大きな局所的なばらつきが生じる。
文書修正の問題は文書の光文字認識(ocr)プロセスの基本であり、幾何学的歪みを克服する能力は認識精度に大きく影響する。
最近のOCRシステムでは大きな進歩があったが、ほとんどの場合、テキスト行が直線かつ軸に沿っていることを保証する事前処理に依存している。
近年,様々な監視信号とアライメント手段を用いて,現場で撮影された文書画像の修正に取り組んできた。
しかし、彼らは文書の境界から抽出できるグローバルな特徴に注目し、文書の内容から得られる様々な信号を無視した。
本稿では, 文書の内容, 単語の位置, 特にその方向に依存する文書修正を, 修正プロセスを支援するヒントとして初めて学習した方法である, アングル・スーパービジョンを用いたコンテンツアウェア・レクティフィケーションを提案する。
我々は,新しい画素方向回帰法と曲率推定サイドタスクを用いて整流モデルを最適化する。
本手法は, ocr精度, 幾何学的誤差, 視覚的類似性の観点から, 従来のアプローチを上回っている。 The ubiquity of smartphone cameras has led to more and more documents being captured by cameras rather than scanned. Unlike flatbed scanners, photographed documents are often folded and crumpled, resulting in large local variance in text structure. The problem of document rectification is fundamental to the Optical Character Recognition (OCR) process on documents, and its ability to overcome geometric distortions significantly affects recognition accuracy. Despite the great progress in recent OCR systems, most still rely on a pre-process that ensures the text lines are straight and axis aligned. Recent works have tackled the problem of rectifying document images taken in-the-wild using various supervision signals and alignment means. However, they focused on global features that can be extracted from the document's boundaries, ignoring various signals that could be obtained from the document's content. We present CREASE: Content Aware Rectification using Angle Supervision, the first learned method for document rectification that relies on the document's content, the location of the words and specifically their orientation, as hints to assist in the rectification process. We utilize a novel pixel-wise angle regression approach and a curvature estimation side-task for optimizing our rectification model. Our method surpasses previous approaches in terms of OCR accuracy, geometric error and visual similarity. | 翻訳日:2022-11-02 18:31:19 公開日:2020-08-05 |
# 3次元離散ウェーブレット変換とマルコフ確率場を用いたポラリメトリックsar画像意味セグメンテーション Polarimetric SAR Image Semantic Segmentation with 3D Discrete Wavelet Transform and Markov Random Field ( http://arxiv.org/abs/2008.11014v1 ) ライセンス: Link先を確認 | Haixia Bi, Lin Xu, Xiangyong Cao, Yong Xue, Zongben Xu | (参考訳) ポラリメトリック合成開口レーダ(PolSAR)画像セグメンテーションは、現在リモートセンシングアプリケーションにおける画像処理において非常に重要である。
しかし、これは2つの主な理由から難しい課題である。
まず,アノテーションコストが高いためラベル情報を取得するのが困難である。
第2に、PolSAR撮像プロセスに埋め込まれたスペックル効果は、セグメンテーション性能を著しく低下させる。
本稿では,この2つの問題に対処するために,新たに定義されたチャネルワイズ一貫した特徴セットを入力として,3次元離散ウェーブレット変換(3d-dwt)手法を用いて,スペックルノイズにロバストなマルチスケール特徴の識別を行う。
その後、マルコフ確率場(mrf)をさらに適用し、セグメンテーション中に空間的にラベルの滑らかさを強制する。
3D-DWT機能とMRFプリエントを同時に活用することにより、セグメンテーション中にコンテキスト情報が完全に統合され、正確かつスムーズなセグメンテーションが保証される。
提案手法の有効性を示すため、3つの実ベンチマークPolSAR画像データセットに対して広範な実験を行った。
実験結果から,提案手法は最小のラベル付き画素数を用いて,有望なセグメンテーション精度と良好な空間整合性を実現することが示唆された。 Polarimetric synthetic aperture radar (PolSAR) image segmentation is currently of great importance in image processing for remote sensing applications. However, it is a challenging task due to two main reasons. Firstly, the label information is difficult to acquire due to high annotation costs. Secondly, the speckle effect embedded in the PolSAR imaging process remarkably degrades the segmentation performance. To address these two issues, we present a contextual PolSAR image semantic segmentation method in this paper.With a newly defined channelwise consistent feature set as input, the three-dimensional discrete wavelet transform (3D-DWT) technique is employed to extract discriminative multi-scale features that are robust to speckle noise. Then Markov random field (MRF) is further applied to enforce label smoothness spatially during segmentation. By simultaneously utilizing 3D-DWT features and MRF priors for the first time, contextual information is fully integrated during the segmentation to ensure accurate and smooth segmentation. To demonstrate the effectiveness of the proposed method, we conduct extensive experiments on three real benchmark PolSAR image data sets. Experimental results indicate that the proposed method achieves promising segmentation accuracy and preferable spatial consistency using a minimal number of labeled pixels. | 翻訳日:2022-11-02 18:30:59 公開日:2020-08-05 |
# 健康のための機械学習:アルツハイマー病進行予測のためのパーソナライズモデル Machine Learning for Health: Personalized Models for Forecasting of Alzheimer Disease Progression ( http://arxiv.org/abs/2008.02667v1 ) ライセンス: Link先を確認 | Aritra Banerjee | (参考訳) 本論文の目的は、臨床試験データからアルツハイマー病(ad)の進行をパーソナライズするための最新の機械学習モデルを最適化することである。
このデータは、広告研究(adni dataset)のための最大の公開データセットの1つであるtadpole challengeから得られたものだ。
このプロジェクトの目的は、将来6,12,18,24ヶ月の期間における参加者の認知変化(ADAS-Cog13スコア)のパーソナライズされた予測(例えば、ADAS-Cog13スコア)と臨床状況の変化(CS)、すなわち2年以内にADに変換されるかどうかの予測に使用できる機械学習モデルを開発することである。
これは、現在の臨床試験を報知し、将来のAD臨床試験のデザインを改善するために重要である。
私たちは、パーソナライズされたガウスプロセスを機械学習モデルとして、ADAS-Cog13スコアとCoxモデルを予測し、2年以内に患者の変換を予測する分類器とともに作業します。 In this thesis the aim is to work on optimizing the modern machine learning models for personalized forecasting of Alzheimer Disease (AD) Progression from clinical trial data. The data comes from the TADPOLE challenge, which is one of the largest publicly available datasets for AD research (ADNI dataset). The goal of the project is to develop machine learning models that can be used to perform personalized forecasts of the participants cognitive changes (e.g., ADAS-Cog13 scores) over the time period of 6,12, 18 and 24 months in the future and the change in Clinical Status (CS) i.e., whether a person will convert to AD within 2 years or not. This is important for informing current clinical trials and better design of future clinical trials for AD. We will work with personalized Gaussian processes as machine learning models to predict ADAS-Cog13 score and Cox model along with a classifier to predict the conversion in a patient within 2 years.This project is done with the collaboration with researchers from the MIT MediaLab. | 翻訳日:2022-11-02 18:29:54 公開日:2020-08-05 |
# eclingo: 認識論理プログラムのための解法 eclingo: A solver for Epistemic Logic Programs ( http://arxiv.org/abs/2008.02018v1 ) ライセンス: Link先を確認 | Pedro Cabalar, Jorge Fandinno, Javier Garea, Javier Romero and Torsten Schaub | (参考訳) 本稿では,解集合プログラミングシステムclingo上に構築したgelfond 1991セマンティクスに基づく認識論的論理プログラムの解法であるeclingoについて述べる。
eclingoのインプット言語はclingoの構文拡張機能を使って主観的なリテラルを定義し、認識論的論理プログラムでは、通常のリテラルの真偽を全てまたはプログラムの答え集合で確認することができる。
eclingoの解決プロセスは、推測とチェック戦略に従う。
まず、主観的リテラルの潜在的な真理値を生成し、第二のステップでは、プログラムの慎重で勇敢な結果に関して得られた結果をチェックする。
このプロセスはclingoのマルチショット機能を用いて実装される。
我々はまた,検索空間の縮小と,いくつかのシナリオにおけるeclingoの効率向上を目的とした最適化も実施している。
最後に,1対のベンチマークシナリオにおいて,認識論的論理プログラムのための2つの最先端解法とeclingoの効率を比較し,eclingoが得られた結果を上回ることを示した。
TPLPの受容についての検討 We describe eclingo, a solver for epistemic logic programs under Gelfond 1991 semantics built upon the Answer Set Programming system clingo. The input language of eclingo uses the syntax extension capabilities of clingo to define subjective literals that, as usual in epistemic logic programs, allow for checking the truth of a regular literal in all or in some of the answer sets of a program. The eclingo solving process follows a guess and check strategy. It first generates potential truth values for subjective literals and, in a second step, it checks the obtained result with respect to the cautious and brave consequences of the program. This process is implemented using the multi-shot functionalities of clingo. We have also implemented some optimisations, aiming at reducing the search space and, therefore, increasing eclingo's efficiency in some scenarios. Finally, we compare the efficiency of eclingo with two state-of-the-art solvers for epistemic logic programs on a pair of benchmark scenarios and show that eclingo generally outperforms their obtained results. Under consideration for acceptance in TPLP. | 翻訳日:2022-11-02 18:29:20 公開日:2020-08-05 |
# 進化的モジュラーロボットの質と多様性 Quality and Diversity in Evolutionary Modular Robotics ( http://arxiv.org/abs/2008.02116v1 ) ライセンス: Link先を確認 | J{\o}rgen Nordmoen, Frank Veenstra, Kai Olav Ellefsen and Kyrre Glette | (参考訳) Evolutionary Roboticsでは、あるタスクを解くロボットを最適化するために、多くのソリューションが進化している。
しかし、従来の進化的アルゴリズムでは、解の集団は、問題が複雑であるか探索空間が大きい場合、局所最適に収束する傾向にあり、これは早めの収束と呼ばれる問題である。
品質の多様性のアルゴリズムは、必ずしも優れた成果を上げなくても、異なるソリューションに報いる追加の手段を導入することで、早めの収束を克服しようとする。
本稿では,多目的進化アルゴリズムとmap-elites a quality diversity algorithmという2つの探索アルゴリズムと1つの目的進化アルゴリズムを比較した。
高いパフォーマンスのソリューションを作り出す能力と、進化した形態的多様性を分析する能力を比較します。
その結果、3つの探索アルゴリズムはいずれもハイパフォーマンスな個人を進化させることができることがわかった。
しかし、Quality Diversityアルゴリズムは、すべてのニッチを高性能なソリューションで満たすのに適している。
これは、Quality Diversityアルゴリズムがモジュラーロボットの進化に適しており、設計と実行の両方で活用できる高性能なソリューションのレパートリーを生成する重要な手段であることを示している。 In Evolutionary Robotics a population of solutions is evolved to optimize robots that solve a given task. However, in traditional Evolutionary Algorithms, the population of solutions tends to converge to local optima when the problem is complex or the search space is large, a problem known as premature convergence. Quality Diversity algorithms try to overcome premature convergence by introducing additional measures that reward solutions for being different while not necessarily performing better. In this paper we compare a single objective Evolutionary Algorithm with two diversity promoting search algorithms; a Multi-Objective Evolutionary Algorithm and MAP-Elites a Quality Diversity algorithm, for the difficult problem of evolving control and morphology in modular robotics. We compare their ability to produce high performing solutions, in addition to analyze the evolved morphological diversity. The results show that all three search algorithms are capable of evolving high performing individuals. However, the Quality Diversity algorithm is better adept at filling all niches with high-performing solutions. This confirms that Quality Diversity algorithms are well suited for evolving modular robots and can be an important means of generating repertoires of high performing solutions that can be exploited both at design- and runtime. | 翻訳日:2022-11-02 18:22:44 公開日:2020-08-05 |
# 条件付き論理意味論を用いた抽象的議論のためのランク付けに基づく意味論 Towards Ranking-based Semantics for Abstract Argumentation using Conditional Logic Semantics ( http://arxiv.org/abs/2008.02735v1 ) ライセンス: Link先を確認 | Kenneth Skiba and Matthias Thimm | (参考訳) 本稿では,条件論理の助けを借りて,Dungスタイルの議論フレームワークのランキングに基づくセマンティクスを提案する。
条件付き生成のための議論フレームワークのための直感的な翻訳を用いて、非単調な推論システムを適用して可能な世界のランキングを生成することができる。
このランキングでは、議論のランキングを構築します。
このランキングベースのセマンティクスを少し拡張することで、引数のランク付けにすでに望ましいプロパティを満たしています。 We propose a novel ranking-based semantics for Dung-style argumentation frameworks with the help of conditional logics. Using an intuitive translation for an argumentation framework to generate conditionals, we can apply nonmonotonic inference systems to generate a ranking on possible worlds. With this ranking we construct a ranking for our arguments. With a small extension to this ranking-based semantics we already satisfy some desirable properties for a ranking over arguments. | 翻訳日:2022-11-02 18:22:22 公開日:2020-08-05 |
# SpinAPS:確率スパイクニューラルネットワークのための高性能スピントロニクス加速器 SpinAPS: A High-Performance Spintronic Accelerator for Probabilistic Spiking Neural Networks ( http://arxiv.org/abs/2008.02189v1 ) ライセンス: Link先を確認 | Anakha V Babu, Osvaldo Simeone, Bipin Rajendran | (参考訳) 本稿では、一般化線形モデル(GLM)ニューロンをベースとした確率スパイキングニューラルネットワーク(SNN)のための高性能かつ高速なハードウェアアクセラレータについて論じる。
Spintronic Accelerator for Probabilistic SNNsの"SpinAPS"と呼ばれるこの推論アクセラレータは、事前訓練されたANNからの変換を必要とせずに、ファースト・ツー・スパイク復号のための原則付き直接学習ルールを実装している。
提案手法は,手書き指とヒューマンアクティビティ認識ベンチマークで同等の ann と同等の性能が得られることを示す。
推論エンジンであるSpinAPSは、ソフトウェアエミュレーションツールを通じて、同等のSRAMベースの設計と比較して、GSOPS/W/mm2の4倍の性能向上を実現する。
このアーキテクチャは、ファースト・ツー・スパイク・デコーディング・ルールを利用した確率論的スパイクニューラルネットワークを利用して低レイテンシで推論決定を行い、手書きのディジット・ベンチマークで4段階のアルゴリズムでテスト性能の75%を達成している。
このアクセラレータは、他のmemristorベースのDNN/SNNアクセラレータや最先端のGPUと競合するパフォーマンスを示す。 We discuss a high-performance and high-throughput hardware accelerator for probabilistic Spiking Neural Networks (SNNs) based on Generalized Linear Model (GLM) neurons, that uses binary STT-RAM devices as synapses and digital CMOS logic for neurons. The inference accelerator, termed "SpinAPS" for Spintronic Accelerator for Probabilistic SNNs, implements a principled direct learning rule for first-to-spike decoding without the need for conversion from pre-trained ANNs. The proposed solution is shown to achieve comparable performance with an equivalent ANN on handwritten digit and human activity recognition benchmarks. The inference engine, SpinAPS, is shown through software emulation tools to achieve 4x performance improvement in terms of GSOPS/W/mm2 when compared to an equivalent SRAM-based design. The architecture leverages probabilistic spiking neural networks that employ first-to-spike decoding rule to make inference decisions at low latencies, achieving 75% of the test performance in as few as 4 algorithmic time steps on the handwritten digit benchmark. The accelerator also exhibits competitive performance with other memristor-based DNN/SNN accelerators and state-of-the-art GPUs. | 翻訳日:2022-11-02 18:22:14 公開日:2020-08-05 |
# 実世界の超解像のための成分分数分解器 Component Divide-and-Conquer for Real-World Image Super-Resolution ( http://arxiv.org/abs/2008.01928v1 ) ライセンス: Link先を確認 | Pengxu Wei, Ziwei Xie, Hannan Lu, Zongyuan Zhan, Qixiang Ye, Wangmeng Zuo, Liang Lin | (参考訳) 本稿では,DRealSR(DRealSR)と分割・コンカレント・スーパー・リゾリューション(SR)ネットワークを併用し,低レベル画像成分を用いたSRモデルの導出の有用性について検討する。
DRealSRは、様々な実世界の劣化過程を持つ新しいSRベンチマークを確立し、従来のシミュレートされた画像劣化の限界を緩和する。
一般に、SRのターゲットは、フラット領域の滑らかさ保存、エッジのシャープ化、テクスチャのディテール強化など、様々な低レベル画像成分を持つ画像領域によって異なる。
従来のピクセル単位の損失を持つSRモデルの学習は通常、平坦な領域やエッジによって容易に支配され、複雑なテクスチャの現実的な詳細を推測できない。
SR に対して Component Divide-and-Conquer (CDC) モデルと Gradient-Weighted (GW) 損失を提案する。
CDCは3つのコンポーネントを解析し、3つのコンポーネント・アテテーティブ・ブロック(CAB)を用いて、注意マスクと中間SR予測を中間的監視学習戦略で学習し、分割・参照学習の原則に従ってSRモデルを訓練する。
我々のGW損失は、SRのイメージコンポーネントの難しさのバランスをとるための実現可能な方法でもある。
大規模な実験により、CDCの優れた性能と、さまざまな実世界のシナリオに関連するDRealSRデータセットの難易度が検証された。
私たちのデータセットとコードはhttps://github.com/xiezw5/Component-Divide-and-Conquer-for-Real-World- Image-Super-Resolutionで公開されています。 In this paper, we present a large-scale Diverse Real-world image Super-Resolution dataset, i.e., DRealSR, as well as a divide-and-conquer Super-Resolution (SR) network, exploring the utility of guiding SR model with low-level image components. DRealSR establishes a new SR benchmark with diverse real-world degradation processes, mitigating the limitations of conventional simulated image degradation. In general, the targets of SR vary with image regions with different low-level image components, e.g., smoothness preserving for flat regions, sharpening for edges, and detail enhancing for textures. Learning an SR model with conventional pixel-wise loss usually is easily dominated by flat regions and edges, and fails to infer realistic details of complex textures. We propose a Component Divide-and-Conquer (CDC) model and a Gradient-Weighted (GW) loss for SR. Our CDC parses an image with three components, employs three Component-Attentive Blocks (CABs) to learn attentive masks and intermediate SR predictions with an intermediate supervision learning strategy, and trains an SR model following a divide-and-conquer learning principle. Our GW loss also provides a feasible way to balance the difficulties of image components for SR. Extensive experiments validate the superior performance of our CDC and the challenging aspects of our DRealSR dataset related to diverse real-world scenarios. Our dataset and codes are publicly available at https://github.com/xiezw5/Component-Divide-and-Conquer-for-Real-World-Image-Super-Resolution | 翻訳日:2022-11-02 18:21:32 公開日:2020-08-05 |
# 顔認証におけるサブクラスコントラスト損失 Subclass Contrastive Loss for Injured Face Recognition ( http://arxiv.org/abs/2008.01993v1 ) ライセンス: Link先を確認 | Puspita Majumdar, Saheb Chhabra, Richa Singh, Mayank Vatsa | (参考訳) 交通事故、暴力、自然災害などで死亡者や負傷者が多い。
このような場合、被害者の身元を回収して家族を再会させ、死亡者や負傷者の適切な身元確認を行うことが主な任務の1つとなる。
これとは別に、暴力や事故による身元不明の死体の特定が警察の捜査に不可欠である。
識別カードがない場合は、DNAプロファイリングと歯科プロファイリングが現在行われている。
顔は認識のための最も一般的に使われ、広く受け入れられている生体計測のモダリティの1つである。
しかし、顔認証は、腫れ、傷、血の塊、裂け目、そして認識に使用される特徴に影響を及ぼすような顔面外傷の存在下では困難である。
本稿では,創傷者の顔認証の問題点に初めて対処し,この課題に対する新たなサブクラスコントラストロス(SCL)を提案する。
Injured Face (IF) データベースと呼ばれる新しいデータベースも、この方向の研究を促進するために作成されている。
実験解析により,提案手法が既存の顔認証アルゴリズムを上回っていることが分かった。 Deaths and injuries are common in road accidents, violence, and natural disaster. In such cases, one of the main tasks of responders is to retrieve the identity of the victims to reunite families and ensure proper identification of deceased/ injured individuals. Apart from this, identification of unidentified dead bodies due to violence and accidents is crucial for the police investigation. In the absence of identification cards, current practices for this task include DNA profiling and dental profiling. Face is one of the most commonly used and widely accepted biometric modalities for recognition. However, face recognition is challenging in the presence of facial injuries such as swelling, bruises, blood clots, laceration, and avulsion which affect the features used in recognition. In this paper, for the first time, we address the problem of injured face recognition and propose a novel Subclass Contrastive Loss (SCL) for this task. A novel database, termed as Injured Face (IF) database, is also created to instigate research in this direction. Experimental analysis shows that the proposed loss function surpasses existing algorithm for injured face recognition. | 翻訳日:2022-11-02 18:21:05 公開日:2020-08-05 |
# 制御環境を超えた3dカメラの屋内シーン変更 Beyond Controlled Environments: 3D Camera Re-Localization in Changing Indoor Scenes ( http://arxiv.org/abs/2008.02004v1 ) ライセンス: Link先を確認 | Johanna Wald, Torsten Sattler, Stuart Golodetz, Tommaso Cavallari, Federico Tombari | (参考訳) 長期カメラ再配置は多くのコンピュータビジョンとロボット工学の応用において重要な課題である。
照明や天候、季節の変化を狙う屋外の様々な基準は存在するが、屋内で起こる外観の変化にはあまり注意が払われていない。
これは、静的なシーンに焦点を当てた人気のある屋内ベンチマークと、多くの現実世界アプリケーションに興味のある屋内環境のミスマッチを招いた。
本稿では、オブジェクトインスタンス再ローカライズ用に設計された最近導入された屋内RGB-Dデータセットである3RScanを適用し、室内シーンに焦点を当てた新しい長期カメラ再ローカライズベンチマークであるROO10を作成する。
本稿では,カメラの再ローカライズを評価するための新しい指標を提案し,その測定値に応じて最先端のカメラ再ローカライザがどのように機能するかを検討する。
また,RGB-Dフレームにおけるこのような変化を検出する新しい方法に基づいて,異なるタイプのシーン変化が異なる手法の性能に与える影響を詳細に検討する。
その結果,長期の屋内再局在は未解決の問題であることが明らかとなった。
我々のベンチマークとツールは waldjohannau.github.io/RIO10 で公開されている。 Long-term camera re-localization is an important task with numerous computer vision and robotics applications. Whilst various outdoor benchmarks exist that target lighting, weather and seasonal changes, far less attention has been paid to appearance changes that occur indoors. This has led to a mismatch between popular indoor benchmarks, which focus on static scenes, and indoor environments that are of interest for many real-world applications. In this paper, we adapt 3RScan - a recently introduced indoor RGB-D dataset designed for object instance re-localization - to create RIO10, a new long-term camera re-localization benchmark focused on indoor scenes. We propose new metrics for evaluating camera re-localization and explore how state-of-the-art camera re-localizers perform according to these metrics. We also examine in detail how different types of scene change affect the performance of different methods, based on novel ways of detecting such changes in a given RGB-D frame. Our results clearly show that long-term indoor re-localization is an unsolved problem. Our benchmark and tools are publicly available at waldjohannau.github.io/RIO10 | 翻訳日:2022-11-02 18:20:32 公開日:2020-08-05 |
# 人物間相互作用検出のためのPose-based Modular Network Pose-based Modular Network for Human-Object Interaction Detection ( http://arxiv.org/abs/2008.02042v1 ) ライセンス: Link先を確認 | Zhijun Liang, Junfa Liu, Yisheng Guan, and Juan Rojas | (参考訳) 人間-オブジェクト間インタラクション(hoi)検出は、シーン理解において重要なタスクである。
目標はシーン内の三重項<subject, predicate, object>を推論することである。
本研究では,人間のポーズ自体と,対象物に対する人間のポーズの相対的空間的情報とが,HOI検出のための情報的手がかりとなることを指摘する。
我々は Pose-based Modular Network (PMN) に貢献し、HOI 検出を改善するために絶対的なポーズ特徴と相対的な空間的ポーズ特徴を探索し、既存のネットワークと完全に互換性がある。
我々のモジュールは、まず各関節の相対的な空間的ポーズ特徴を独立に処理する枝から構成される。
別のブランチは、完全に連結されたグラフ構造を通じて絶対的なポーズ機能を更新する。
処理されたポーズ機能はアクション分類器に送られる。
提案手法を評価するため,VS-GATsと呼ばれる最新技術モデルと組み合わせて,V-COCOとHICO-DETの2つの公開ベンチマークを改良し,その有効性と柔軟性を示した。
コードは \url{https://github.com/birlrobotics/PMN} で入手できる。 Human-object interaction(HOI) detection is a critical task in scene understanding. The goal is to infer the triplet <subject, predicate, object> in a scene. In this work, we note that the human pose itself as well as the relative spatial information of the human pose with respect to the target object can provide informative cues for HOI detection. We contribute a Pose-based Modular Network (PMN) which explores the absolute pose features and relative spatial pose features to improve HOI detection and is fully compatible with existing networks. Our module consists of a branch that first processes the relative spatial pose features of each joint independently. Another branch updates the absolute pose features via fully connected graph structures. The processed pose features are then fed into an action classifier. To evaluate our proposed method, we combine the module with the state-of-the-art model named VS-GATs and obtain significant improvement on two public benchmarks: V-COCO and HICO-DET, which shows its efficacy and flexibility. Code is available at \url{https://github.com/birlrobotics/PMN}. | 翻訳日:2022-11-02 18:20:14 公開日:2020-08-05 |
# 行動認識のための時空間データ拡張の一貫性正規化を用いた自己教師付き学習 Self-supervised learning using consistency regularization of spatio-temporal data augmentation for action recognition ( http://arxiv.org/abs/2008.02086v1 ) ライセンス: Link先を確認 | Jinpeng Wang, Yiqi Lin, Andy J.Ma | (参考訳) 自己教師付き学習は、ラベルなしデータから直接監視信号を構築することにより、教師なしの方法でディープラーニングモデルを改善する大きな可能性を示している。
既存の研究とは違って,一貫性の正則化に基づく高次特徴写像に基づく監視信号を得るための新しい手法を提案する。
本稿では,オリジナル映像を流すクリーンパスと,対応する拡張映像を流すノイズパスを含む,サイムズネットワークから発生する異なる出力特徴間の時空間整合性正規化を提案する。
ビデオの時空間特性に基づいて、2つのビデオベースデータ拡張手法、すなわち時空間変換とビデオ内混合を開発する。
前者の一貫性は特徴の変換一貫性をモデル化するために提案され、後者は行動関連特徴を抽出するために空間的不変性を維持することを目的としている。
大規模実験により,本手法は動作認識のための最先端の自己教師型学習法と比較して,大幅な改善が得られた。
本手法を追加正規化項として使用し,現在の監視信号と組み合わせた場合,従来のhmdb51では22%,utf101では7%の相対的改善が得られた。 Self-supervised learning has shown great potentials in improving the deep learning model in an unsupervised manner by constructing surrogate supervision signals directly from the unlabeled data. Different from existing works, we present a novel way to obtain the surrogate supervision signal based on high-level feature maps under consistency regularization. In this paper, we propose a Spatio-Temporal Consistency Regularization between different output features generated from a siamese network including a clean path fed with original video and a noise path fed with the corresponding augmented video. Based on the Spatio-Temporal characteristics of video, we develop two video-based data augmentation methods, i.e., Spatio-Temporal Transformation and Intra-Video Mixup. Consistency of the former one is proposed to model transformation consistency of features, while the latter one aims at retaining spatial invariance to extract action-related features. Extensive experiments demonstrate that our method achieves substantial improvements compared with state-of-the-art self-supervised learning methods for action recognition. When using our method as an additional regularization term and combine with current surrogate supervision signals, we achieve 22% relative improvement over the previous state-of-the-art on HMDB51 and 7% on UCF101. | 翻訳日:2022-11-02 18:19:55 公開日:2020-08-05 |
# フィールド開発最適化のための深層強化学習 Deep Reinforcement Learning for Field Development Optimization ( http://arxiv.org/abs/2008.12627v1 ) ライセンス: Link先を確認 | Yusuf Nasir | (参考訳) フィールド開発最適化(FDO)問題は、経済指標を最大化する井戸の数、タイプ、位置、掘削シーケンスの取得を目指す、挑戦的な混合整数非線形プログラミング(MINLP)問題を表している。
進化的最適化アルゴリズムは、FDO問題を解決するために効果的に適用されているが、これらの手法は、一般に問題設定の小さな変更に対して堅牢でない決定論的(単一)な解のみを提供する。
本研究の目的は,畳み込みニューラルネットワーク(cnn)深層強化学習(drl)アルゴリズムをフィールド開発最適化問題に適用し,異なる状態や基盤となる地質モデルの表現を最適決定にマップする方針を得ることである。
ppo(proximal policy optimization)アルゴリズムは、階層数と構成の異なる2つのcnnアーキテクチャで検討されている。
2つのネットワークは、ハイブリッド粒子群最適化 - メッシュ適応直接探索 (pso-mads) アルゴリズムと比較して、良好な結果をもたらすポリシーを得た。 The field development optimization (FDO) problem represents a challenging mixed-integer nonlinear programming (MINLP) problem in which we seek to obtain the number of wells, their type, location, and drilling sequence that maximizes an economic metric. Evolutionary optimization algorithms have been effectively applied to solve the FDO problem, however, these methods provide only a deterministic (single) solution which are generally not robust towards small changes in the problem setup. In this work, the goal is to apply convolutional neural network-based (CNN) deep reinforcement learning (DRL) algorithms to the field development optimization problem in order to obtain a policy that maps from different states or representation of the underlying geological model to optimal decisions. The proximal policy optimization (PPO) algorithm is considered with two CNN architectures of varying number of layers and composition. Both networks obtained policies that provide satisfactory results when compared to a hybrid particle swarm optimization - mesh adaptive direct search (PSO-MADS) algorithm that has been shown to be effective at solving the FDO problem. | 翻訳日:2022-11-02 18:13:24 公開日:2020-08-05 |
# ビジネス会話コーパスの設計 Designing the Business Conversation Corpus ( http://arxiv.org/abs/2008.01940v1 ) ライセンス: Link先を確認 | Mat\=iss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa | (参考訳) パラレルコーパスとコーパスベースのトレーニング技術の普及により、ここ数年で機械翻訳の進歩が進んでいるが、現代のシステムにおいても、音声テキストと対話の自動翻訳は依然として困難である。
本稿では,新たに構築した日英ビジネス会話並列コーパスの導入により,会話テキストの機械翻訳品質の向上を目指す。
コーパスの詳細な分析と、自動翻訳の難解な例を提供する。
また、機械翻訳訓練シナリオにコーパスを追加して、結果のシステムの利用によるメリットを示す実験を行った。 While the progress of machine translation of written text has come far in the past several years thanks to the increasing availability of parallel corpora and corpora-based training technologies, automatic translation of spoken text and dialogues remains challenging even for modern systems. In this paper, we aim to boost the machine translation quality of conversational texts by introducing a newly constructed Japanese-English business conversation parallel corpus. A detailed analysis of the corpus is provided along with challenging examples for automatic translation. We also experiment with adding the corpus in a machine translation training scenario and show how the resulting system benefits from its use. | 翻訳日:2022-11-02 18:12:49 公開日:2020-08-05 |
# オンライン学習における制限要因としての複数テキスト--言語間の知識ネットワークの定量化(非類似性) Multiple Texts as a Limiting Factor in Online Learning: Quantifying (Dis-)similarities of Knowledge Networks across Languages ( http://arxiv.org/abs/2008.02047v1 ) ライセンス: Link先を確認 | Alexander Mehler and Wahed Hemati and Pascal Welke and Maxim Konca and Tolga Uslu | (参考訳) 我々は、ウィキペディアを通じて、あるトピックに関する情報を得る範囲が、相談される言語に依存するという仮説を検証した。
サイズ因子を制御し,25個の対象領域についてこの仮説を検証した。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、ウィキペディアがこの種の言語的相対性を示すかどうかという問題を扱う。
教育科学の観点から、本論文は、webベースの読書の典型的入力として複数のテキストを描画する情報景観の計算モデルを開発した。
この目的のために、情報ランドスケープの異なる部分のテキスト内およびテクスチャ間類似性のハイブリッドモデルを開発し、35の言語と対応するウィキペディアの例でこのモデルを検証した。
このように、この記事は読書研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなる。 We test the hypothesis that the extent to which one obtains information on a given topic through Wikipedia depends on the language in which it is consulted. Controlling the size factor, we investigate this hypothesis for a number of 25 subject areas. Since Wikipedia is a central part of the web-based information landscape, this indicates a language-related, linguistic bias. The article therefore deals with the question of whether Wikipedia exhibits this kind of linguistic relativity or not. From the perspective of educational science, the article develops a computational model of the information landscape from which multiple texts are drawn as typical input of web-based reading. For this purpose, it develops a hybrid model of intra- and intertextual similarity of different parts of the information landscape and tests this model on the example of 35 languages and corresponding Wikipedias. In this way the article builds a bridge between reading research, educational science, Wikipedia research and computational linguistics. | 翻訳日:2022-11-02 18:12:24 公開日:2020-08-05 |
# ビジネス教育におけるしきい値概念を用いた教科書とオンライン学習メディアの計算言語学的評価 Computational linguistic assessment of textbook and online learning media by means of threshold concepts in business education ( http://arxiv.org/abs/2008.02096v1 ) ライセンス: Link先を確認 | Andy L\"ucking and Sebastian Br\"uckner and Giuseppe Abrami and Tolga Uslu and Alexander Mehler | (参考訳) 閾値の概念はドメインベースの知識獲得において重要な用語である。
これらは、特定の学習者におけるドメイン知識の概念的発展の構成要素と考えられている。
しかし、言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
しきい値の概念は、通常、教科書のような特殊なテキスト、つまり正式な学習環境内で使用される。
しかし、新聞などの非公式な学習環境でも発生する。
本稿では,両行を総合的な研究プログラムに結合する第1のアプローチについて述べる。すなわち,しきい値の概念を用いて,特にオンライン資源を含む様々な資源の計算言語学的評価を行う。
この目的のために、ビジネス教育(しきい値概念研究から収集した)からの63のしきい値概念の分散プロファイルが、教科書、新聞、ウィキペディアの3種類の(ドイツの)リソースで研究されている。
Wikipediaは、最大かつ最も広く使われているオンラインリソースの一つだ。
本研究では,しきい値概念の周波数分布,それらの複合分布,およびそれらのネットワーク構造について検討した。
第一に、3種類のリソースは、しきい値の概念のプロファイルの観点から、実際に区別することができる。
第二に、wikipediaは間違いなく正式な学習リソースだ。 Threshold concepts are key terms in domain-based knowledge acquisition. They are regarded as building blocks of the conceptual development of domain knowledge within particular learners. From a linguistic perspective, however, threshold concepts are instances of specialized vocabularies, exhibiting particular linguistic features. Threshold concepts are typically used in specialized texts such as textbooks -- that is, within a formal learning environment. However, they also occur in informal learning environments like newspapers. In this article, a first approach is taken to combine both lines into an overarching research program - that is, to provide a computational linguistic assessment of different resources, including in particular online resources, by means of threshold concepts. To this end, the distributive profiles of 63 threshold concepts from business education (which have been collected from threshold concept research) has been investigated in three kinds of (German) resources, namely textbooks, newspapers, and Wikipedia. Wikipedia is (one of) the largest and most widely used online resources. We looked at the threshold concepts' frequency distribution, their compound distribution, and their network structure within the three kind of resources. The two main findings can be summarized as follows: Firstly, the three kinds of resources can indeed be distinguished in terms of their threshold concepts' profiles. Secondly, Wikipedia definitely appears to be a formal learning resource. | 翻訳日:2022-11-02 18:12:05 公開日:2020-08-05 |
# 自動分割音声の文脈化翻訳 Contextualized Translation of Automatically Segmented Speech ( http://arxiv.org/abs/2008.02270v1 ) ライセンス: Link先を確認 | Marco Gaido, Mattia Antonino Di Gangi, Matteo Negri, Mauro Cettolo, Marco Turchi | (参考訳) direct speech-to-text translation (st)モデルは通常、文レベルでセグメンテーションされたコーパスで訓練されるが、推論時には音声アクティビティ検出器 (vad) によって分割される。
VADセグメンテーションは構文インフォーム化されていないため、結果のセグメンテーションは必ずしも話者が発する十分な文に対応するのではなく、1つ以上の文の断片に対応する。
このセグメンテーションミスマッチはSTモデルの出力の品質を大幅に低下させる。
これまで研究者たちは、音声セグメンテーションの改良に力を入れてきた。
そこで本論文では,モデル内の問題に対処し,異なる,潜在的に最適でないセグメンテーションに対してより堅牢に対処する。
この目的のために、ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、2つのアプローチを比較する。
我々の文脈認識ソリューションは、強いベースモデルと最大4.25BLEUポイントの英語-ドイツ語テストの異なるVADセグメンテーションの微調整により、VAD分割された入力に対してより堅牢であることを示す。 Direct speech-to-text translation (ST) models are usually trained on corpora segmented at sentence level, but at inference time they are commonly fed with audio split by a voice activity detector (VAD). Since VAD segmentation is not syntax-informed, the resulting segments do not necessarily correspond to well-formed sentences uttered by the speaker but, most likely, to fragments of one or more sentences. This segmentation mismatch degrades considerably the quality of ST models' output. So far, researchers have focused on improving audio segmentation towards producing sentence-like splits. In this paper, instead, we address the issue in the model, making it more robust to a different, potentially sub-optimal segmentation. To this aim, we train our models on randomly segmented data and compare two approaches: fine-tuning and adding the previous segment as context. We show that our context-aware solution is more robust to VAD-segmented input, outperforming a strong base model and the fine-tuning on different VAD segmentations of an English-German test set by up to 4.25 BLEU points. | 翻訳日:2022-11-02 18:11:43 公開日:2020-08-05 |
# n-gram言語モデルの効率的なmdi適応 Efficient MDI Adaptation for n-gram Language Models ( http://arxiv.org/abs/2008.02385v1 ) ライセンス: Link先を確認 | Ruizhe Huang, Ke Li, Ashish Arora, Dan Povey and Sanjeev Khudanpur | (参考訳) 本稿では,領域内データの限界確率の制約を満たすために,領域外言語モデルを適用する最小識別情報(mdi)原理に基づくn-gram言語モデル適応のための効率的なアルゴリズムを提案する。
mdi言語モデル適応の課題は計算の複雑さである。
もともと最大エントロピー(ME)言語モデルのために提案されていたn-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
複雑さはMEモデルと同じだが、MDIはMEよりも一般的である。
これにより、MDI適応は大きなコーパスと語彙に実用的である。
実験結果から,MDI適応は単純な線形補間に比べて若干複雑だが,単語誤り率も良くなる一方,非常に大きなデータセット上でのアルゴリズムのスケーラビリティが確認できる。 This paper presents an efficient algorithm for n-gram language model adaptation under the minimum discrimination information (MDI) principle, where an out-of-domain language model is adapted to satisfy the constraints of marginal probabilities of the in-domain data. The challenge for MDI language model adaptation is its computational complexity. By taking advantage of the backoff structure of n-gram model and the idea of hierarchical training method, originally proposed for maximum entropy (ME) language models, we show that MDI adaptation can be computed in linear-time complexity to the inputs in each iteration. The complexity remains the same as ME models, although MDI is more general than ME. This makes MDI adaptation practical for large corpus and vocabulary. Experimental results confirm the scalability of our algorithm on very large datasets, while MDI adaptation gets slightly worse perplexity but better word error rate results compared to simple linear interpolation. | 翻訳日:2022-11-02 18:11:21 公開日:2020-08-05 |
# 非同期に訓練されたディープグラフq-network(dgqn)に基づくエリアワイドトラヒック信号制御 Area-wide traffic signal control based on a deep graph Q-Network (DGQN) trained in an asynchronous manner ( http://arxiv.org/abs/2008.01950v1 ) ライセンス: Link先を確認 | Gyeongjun Kim and Keemin Sohn | (参考訳) 強化学習(RL)アルゴリズムは交通信号研究に広く応用されている。
しかし,大規模交通ネットワークにおける信号機の共同制御にはいくつかの問題がある。
まず、相互作用空間が指数関数的に爆発し、協調的に制御される交叉の数が増える。
マルチエージェントRLアルゴリズムは次元性の呪いを解決するために使われてきたが、このアルゴリズムはグローバルな最適度を保証せず、共同動作間の関係を破ることもできない。
この問題は、シングルエージェントRLアルゴリズムのフレームワーク内で、ディープQネットワーク(DQN)の出力構造を変更することで回避された。
第2に、トラフィック状態をアクション値にマッピングする場合、大規模輸送ネットワーク上での時空間相関を考えることは困難である。
DGQN(Deep Graph Q-network)は,大規模な時空間依存性を効率的に適応するために考案された。
最後に、大規模な交通ネットワークで信号機を共同制御するためにRLモデルを訓練するには、多くの時間を要する。
DGQNが迅速に最適なポリシーに到達するために非同期更新手法が考案された。
この3つの対策により、DGQNはソウルの大交通網の信号機を共同制御することに成功している。
このアプローチは他の最先端のRLアルゴリズムや実際の固定信号演算よりも優れていた。 Reinforcement learning (RL) algorithms have been widely applied in traffic signal studies. There are, however, several problems in jointly controlling traffic lights for a large transportation network. First, the action space exponentially explodes as the number of intersections to be jointly controlled increases. Although a multi-agent RL algorithm has been used to solve the curse of dimensionality, this neither guaranteed a global optimum, nor could it break the ties between joint actions. The problem was circumvented by revising the output structure of a deep Q-network (DQN) within the framework of a single-agent RL algorithm. Second, when mapping traffic states into an action value, it is difficult to consider spatio-temporal correlations over a large transportation network. A deep graph Q-network (DGQN) was devised to efficiently accommodate spatio-temporal dependencies on a large scale. Finally, training a RL model to jointly control traffic lights in a large transportation network requires much time to converge. An asynchronous update methodology was devised for a DGQN to quickly reach an optimal policy. Using these three remedies, a DGQN succeeded in jointly controlling the traffic lights in a large transportation network in Seoul. This approach outperformed other state-of-the-art RL algorithms as well as an actual fixed-signal operation. | 翻訳日:2022-11-02 18:11:06 公開日:2020-08-05 |
# ヘイジーデイズにおける環境モニタリングのための特徴教師付きジェネレーティブ・アドバーサリーネットワーク A feature-supervised generative adversarial network for environmental monitoring during hazy days ( http://arxiv.org/abs/2008.01942v1 ) ライセンス: Link先を確認 | Ke Wang, Siyuan Zhang, Junlan Chen, Fan Ren, Lei Xiao | (参考訳) 悪天候は視覚に基づく環境応用にかなりの困難をもたらしている。
これまでの環境モニタリング研究のほとんどは通常の環境下にあり、複雑な黄土の気象条件の研究は無視されている。
そこで本稿では, 環境モニタリングのためのGAN(Generative Adversarial Network)に基づく特徴教師付き学習ネットワークを提案する。
その主なアイデアは、基本的な真実からフィーチャーマップの監督の下でモデルをトレーニングすることだ。
論文には4つの重要な技術的貢献がある。
まず, 符号化過程を監督し, 高品質な特徴写像を得るための入力として, 清潔な画像対を用いる。
第2に、知覚損失、スタイル損失、特徴正規化損失を導入して、より優れた結果を生成することで、基本的なGAN定式化が修正される。
第3に、識別器の性能を高めるために入力としてマルチスケール画像を適用する。
最後に,このデヘイジング法と環境検出をテストするために,ヘイジングリモートセンシングデータセットが作成される。
広範な実験結果から,提案手法は,合成データセットと実世界のリモートセンシング画像の両方において,現在の最先端手法よりも優れた性能を得た。 The adverse haze weather condition has brought considerable difficulties in vision-based environmental applications. While, until now, most of the existing environmental monitoring studies are under ordinary conditions, and the studies of complex haze weather conditions have been ignored. Thence, this paper proposes a feature-supervised learning network based on generative adversarial networks (GAN) for environmental monitoring during hazy days. Its main idea is to train the model under the supervision of feature maps from the ground truth. Four key technical contributions are made in the paper. First, pairs of hazy and clean images are used as inputs to supervise the encoding process and obtain high-quality feature maps. Second, the basic GAN formulation is modified by introducing perception loss, style loss, and feature regularization loss to generate better results. Third, multi-scale images are applied as the input to enhance the performance of discriminator. Finally, a hazy remote sensing dataset is created for testing our dehazing method and environmental detection. Extensive experimental results show that the proposed method has achieved better performance than current state-of-the-art methods on both synthetic datasets and real-world remote sensing images. | 翻訳日:2022-11-02 18:04:25 公開日:2020-08-05 |
# MultiCheXNet:X線スキャンによる肺炎様疾患診断のためのマルチタスク学習ディープネットワーク MultiCheXNet: A Multi-Task Learning Deep Network For Pneumonia-like Diseases Diagnosis From X-ray Scans ( http://arxiv.org/abs/2008.01973v1 ) ライセンス: Link先を確認 | Abdullah Tarek Farag, Ahmed Raafat Abd El-Wahab, Mahmoud Nada, Mohamed Yasser Abd El-Hakeem, Omar Sayed Mahmoud, Reem Khaled Rashwan and Ahmad El Sallab | (参考訳) 我々は,1つのニューラルアーキテクチャにおける肺炎様疾患の異なるX線データセットを活用可能な,エンドツーエンドのマルチタスク学習モデルであるMultiCheXNetを提案し,同時に3つのタスクを実行する。
私たちのアーキテクチャの共通エンコーダは、異なるタスクに存在する有用な共通機能をキャプチャできます。
一般的なエンコーダには、別のモデルと比較して推論時間を高速化する効率的な計算の利点がある。
特殊なデコーダヘッドはタスク固有の特徴をキャプチャできる。
我々は教師に課せられ、セグメンテーションとローカライゼーション性能を損なう負のサンプルの問題に対処する。
最後に, 肺炎様疾患の分類を微調整するために, 転写学習を用いた。
MTLアーキテクチャは、ジョイントまたは非ジョイントラベル付きデータセットでトレーニングすることができる。
アーキテクチャのトレーニングは、MTLモデルに統合される前に、特定のデータセット上で異なるサブモデルを事前訓練する、慎重に設計されたプロトコルに従っている。
私たちの実験では、3つのタスクのベースラインパフォーマンスとmtlアーキテクチャのパフォーマンスを比較した、さまざまなデータセットを設定しました。
さらに、個別分類器モデルとMTLアーキテクチャ分類ヘッドの両方から、COVID-19データセットへの転送学習モードの評価を行った。 We present MultiCheXNet, an end-to-end Multi-task learning model, that is able to take advantage of different X-rays data sets of Pneumonia-like diseases in one neural architecture, performing three tasks at the same time; diagnosis, segmentation and localization. The common encoder in our architecture can capture useful common features present in the different tasks. The common encoder has another advantage of efficient computations, which speeds up the inference time compared to separate models. The specialized decoders heads can then capture the task-specific features. We employ teacher forcing to address the issue of negative samples that hurt the segmentation and localization performance. Finally,we employ transfer learning to fine tune the classifier on unseen pneumonia-like diseases. The MTL architecture can be trained on joint or dis-joint labeled data sets. The training of the architecture follows a carefully designed protocol, that pre trains different sub-models on specialized datasets, before being integrated in the joint MTL model. Our experimental setup involves variety of data sets, where the baseline performance of the 3 tasks is compared to the MTL architecture performance. Moreover, we evaluate the transfer learning mode to COVID-19 data set,both from individual classifier model, and from MTL architecture classification head. | 翻訳日:2022-11-02 18:04:06 公開日:2020-08-05 |
# 深い畳み込みオートエンコーダを用いた教師なし地震波の分類 Unsupervised seismic facies classification using deep convolutional autoencoder ( http://arxiv.org/abs/2008.01995v1 ) ライセンス: Link先を確認 | Vladimir Puzyrev and Chris Elders | (参考訳) 地震探査の規模と複雑さの増加に伴い,手作業による地震動のラベリングが大きな課題となっている。
地震相解析への自動手法の適用は、従来手法に存在した特定のインタプリタのマニュアル作業と主観性を著しく減少させる可能性がある。
最近登場した手法群はディープニューラルネットワークに基づいている。
これらのアプローチはデータ駆動であり、ネットワークトレーニングには大きなラベル付きデータセットを必要とする。
手動でラベル付けした例を必要としない震源域分類に深部畳み込みオートエンコーダを適用した。
入力データから得られた深層特徴ベクトルをクラスタリングしてファシーマップを生成する。
本手法は実データに正確な結果を与え,それらを瞬時に提供する。
提案手法は,人間の介入なしに地質パターンをリアルタイムで解析する可能性を開く。 With the increased size and complexity of seismic surveys, manual labeling of seismic facies has become a significant challenge. Application of automatic methods for seismic facies interpretation could significantly reduce the manual labor and subjectivity of a particular interpreter present in conventional methods. A recently emerged group of methods is based on deep neural networks. These approaches are data-driven and require large labeled datasets for network training. We apply a deep convolutional autoencoder for unsupervised seismic facies classification, which does not require manually labeled examples. The facies maps are generated by clustering the deep-feature vectors obtained from the input data. Our method yields accurate results on real data and provides them instantaneously. The proposed approach opens up possibilities to analyze geological patterns in real time without human intervention. | 翻訳日:2022-11-02 18:03:46 公開日:2020-08-05 |
# 局所的機能増強のための肺塗抹による結節の特徴抽出と活用 Extracting and Leveraging Nodule Features with Lung Inpainting for Local Feature Augmentation ( http://arxiv.org/abs/2008.02030v1 ) ライセンス: Link先を確認 | Sebastian Guendel, Arnaud Arindra Adiyoso Setio, Sasa Grbic, Andreas Maier, Dorin Comaniciu | (参考訳) 胸部X線(CXR)は肺疾患の迅速検出法として最もよく用いられる。
近年、CXRスキャンで複数の疾患や異常を分類する自動アルゴリズムが開発されている。
しかし, 結節を含むスキャンが限られており, cxrsにおける結節の微妙な性質から, 結節分類では最先端の手法がうまく機能しない。
トレーニングプロセスのための追加データを作成するために、標準拡張技術が適用される。
しかし、これらの手法によって引き起こされるばらつきは、画像が一般的にグローバルに修正されるため、制限される。
本稿では,局所的な結節特徴を生成的着色ネットワークを用いて抽出し,局所的特徴増強手法を提案する。
ネットワークは、結節を含むパッチにおいて、現実的な健全な組織と構造を生成するために適用される。
結節は、インペインテッド表現で完全に除去される。
結節の特徴の抽出は、結節パッチから塗られたパッチを減算することで処理される。
CXRスキャンの異なる肺領域における結節の任意の変位と,訓練中の局所的な変化により,結節分類性能と最先端の拡張法が有意に向上した。 Chest X-ray (CXR) is the most common examination for fast detection of pulmonary abnormalities. Recently, automated algorithms have been developed to classify multiple diseases and abnormalities in CXR scans. However, because of the limited availability of scans containing nodules and the subtle properties of nodules in CXRs, state-of-the-art methods do not perform well on nodule classification. To create additional data for the training process, standard augmentation techniques are applied. However, the variance introduced by these methods are limited as the images are typically modified globally. In this paper, we propose a method for local feature augmentation by extracting local nodule features using a generative inpainting network. The network is applied to generate realistic, healthy tissue and structures in patches containing nodules. The nodules are entirely removed in the inpainted representation. The extraction of the nodule features is processed by subtraction of the inpainted patch from the nodule patch. With arbitrary displacement of the extracted nodules in the lung area across different CXR scans and further local modifications during training, we significantly increase the nodule classification performance and outperform state-of-the-art augmentation methods. | 翻訳日:2022-11-02 18:03:35 公開日:2020-08-05 |
# 光カーテンを用いた自律走行用アクティブ知覚 Active Perception using Light Curtains for Autonomous Driving ( http://arxiv.org/abs/2008.02191v1 ) ライセンス: Link先を確認 | Siddharth Ancha, Yaadhav Raaj, Peiyun Hu, Srinivasa G. Narasimhan, David Held | (参考訳) lidarのような現実世界の3dセンサーのほとんどは、センサーデータを処理する認識システムから切り離されながら、環境全体の固定的なスキャンを行う。
本研究では,資源効率の良い制御可能なセンサである光カーテンを用いた3次元物体認識手法を提案する。
そこで本研究では,ディープラーニングを用いた3dポイントクラウド検出器の予測不確実性を用いて,能動的知覚を導出する。
ニューラルネットワークの不確実性を考えると、情報ゲインを最大化する原理を用いて光カーテンを配置する最適化目標を導出する。
そこで我々は,制約グラフにデバイスの物理的制約を符号化し,動的プログラミングで最適化することで,この目的を最大化する,新しい効率的な最適化アルゴリズムを開発した。
本研究では,不確実性誘導光カーテンを順次配置し,連続的に検出精度を向上させることで,シーン内の物体を検出する3D検出器の訓練方法を示す。
コードと詳細はプロジェクトのwebページにある。 http://siddancha.github.io/projects/active-perception-light-curtains。 Most real-world 3D sensors such as LiDARs perform fixed scans of the entire environment, while being decoupled from the recognition system that processes the sensor data. In this work, we propose a method for 3D object recognition using light curtains, a resource-efficient controllable sensor that measures depth at user-specified locations in the environment. Crucially, we propose using prediction uncertainty of a deep learning based 3D point cloud detector to guide active perception. Given a neural network's uncertainty, we derive an optimization objective to place light curtains using the principle of maximizing information gain. Then, we develop a novel and efficient optimization algorithm to maximize this objective by encoding the physical constraints of the device into a constraint graph and optimizing with dynamic programming. We show how a 3D detector can be trained to detect objects in a scene by sequentially placing uncertainty-guided light curtains to successively improve detection accuracy. Code and details can be found on the project webpage: http://siddancha.github.io/projects/active-perception-light-curtains. | 翻訳日:2022-11-02 18:03:01 公開日:2020-08-05 |
# ロバストテンソル主成分分析:決定論的モデルによる完全回復 Robust Tensor Principal Component Analysis: Exact Recovery via Deterministic Model ( http://arxiv.org/abs/2008.02211v1 ) ライセンス: Link先を確認 | Bo Shen, Zhenyu (James) Kong | (参考訳) テンソルは多次元配列としても知られ、信号処理、製造プロセス、医療などの多くの応用から生じる。
テンソル文学において最も一般的な方法の1つとして、ロバストテンソル主成分分析(RTPCA)はテンソル内の低階成分とスパース成分を抽出する非常に効果的なツールである。
本稿では,最近開発されたテンソルテンソル積とテンソル特異値分解(t-SVD)に基づいてRTPCAを解析する新しい手法を提案する。
具体的には、テンソル核ノルムとl1-ノルムの重み付け結合を目的関数とする凸最適化問題を解くことを目的とする。
RTPCAのほとんどの文献において、正確な回復はテンソルの不整合条件とスパース支持に関する一様モデルの仮定に基づいて構築される。
この従来の方法とは異なり、本論文では、低ランクテンソル空間とスパーステンソルパターンの不確かさであるテンソル階数-スパーシティの不整合を特徴付けることによって、完全決定論的手法で正確なリカバリを実現することができる。 Tensor, also known as multi-dimensional array, arises from many applications in signal processing, manufacturing processes, healthcare, among others. As one of the most popular methods in tensor literature, Robust tensor principal component analysis (RTPCA) is a very effective tool to extract the low rank and sparse components in tensors. In this paper, a new method to analyze RTPCA is proposed based on the recently developed tensor-tensor product and tensor singular value decomposition (t-SVD). Specifically, it aims to solve a convex optimization problem whose objective function is a weighted combination of the tensor nuclear norm and the l1-norm. In most of literature of RTPCA, the exact recovery is built on the tensor incoherence conditions and the assumption of a uniform model on the sparse support. Unlike this conventional way, in this paper, without any assumption of randomness, the exact recovery can be achieved in a completely deterministic fashion by characterizing the tensor rank-sparsity incoherence, which is an uncertainty principle between the low-rank tensor spaces and the pattern of sparse tensor. | 翻訳日:2022-11-02 17:55:49 公開日:2020-08-05 |
# 高速でスマートな蛍光寿命顕微鏡のための機械学習 Machine learning for faster and smarter fluorescence lifetime imaging microscopy ( http://arxiv.org/abs/2008.02320v1 ) ライセンス: Link先を確認 | Varun Mannam, Yide Zhang, Xiaotong Yuan, Cara Ravasio and Scott S. Howard | (参考訳) 蛍光寿命イメージング顕微鏡(FLIM)は、蛍光顕微鏡のさらなるコントラストを与えるためにフルオロフォア崩壊率を利用するバイオメディカル研究において強力な技術である。
しかしながら、flimの計算、解析、解釈は、現在複雑で、遅く、計算的に高価なプロセスである。
機械学習(ML)技術は,従来の手法よりも高速で,多次元FLIMデータセットから測定を抽出し,解釈するのに適している。
本稿ではまず,FILMとMLの基礎について論じる。
第2に,MLを用いた終生抽出戦略の要約とFILM画像の分類・セグメント化への応用について,従来の方法と比較して高い精度で述べる。
最後に,概念実証を用いてFLIMをMLで改善する2つの可能性について論じる。 Fluorescence lifetime imaging microscopy (FLIM) is a powerful technique in biomedical research that uses the fluorophore decay rate to provide additional contrast in fluorescence microscopy. However, at present, the calculation, analysis, and interpretation of FLIM is a complex, slow, and computationally expensive process. Machine learning (ML) techniques are well suited to extract and interpret measurements from multi-dimensional FLIM data sets with substantial improvement in speed over conventional methods. In this topical review, we first discuss the basics of FILM and ML. Second, we provide a summary of lifetime extraction strategies using ML and its applications in classifying and segmenting FILM images with higher accuracy compared to conventional methods. Finally, we discuss two potential directions to improve FLIM with ML with proof of concept demonstrations. | 翻訳日:2022-11-02 17:55:13 公開日:2020-08-05 |
# 機械学習アルゴリズムを用いたベイズ最適化による異常検出 Bayesian Optimization with Machine Learning Algorithms Towards Anomaly Detection ( http://arxiv.org/abs/2008.02327v1 ) ライセンス: Link先を確認 | MohammadNoor Injadat, Fadi Salo, Ali Bou Nassif, Aleksander Essex, Abdallah Shami | (参考訳) ネットワーク・アタックは、ネットワーク・アタックの頻度が非常に高くなっている。
組織と個人は、ネットワーク攻撃によってしばしば影響を受ける重要な情報の機密性、完全性、可用性を心配している。
その目的のために、このような攻撃からネットワークインフラストラクチャを保護するために、機械学習ベースの侵入検知方法がいくつか開発されている。
本稿では,gaussian kernel (svm-rbf), random forest (rf), k-nearest neighbor (k-nn) アルゴリズムを用いたサポートベクターマシンのパラメータをチューニングするために,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。 Network attacks have been very prevalent as their rate is growing tremendously. Both organization and individuals are now concerned about their confidentiality, integrity and availability of their critical information which are often impacted by network attacks. To that end, several previous machine learning-based intrusion detection methods have been developed to secure network infrastructure from such attacks. In this paper, an effective anomaly detection framework is proposed utilizing Bayesian Optimization technique to tune the parameters of Support Vector Machine with Gaussian Kernel (SVM-RBF), Random Forest (RF), and k-Nearest Neighbor (k-NN) algorithms. The performance of the considered algorithms is evaluated using the ISCX 2012 dataset. Experimental results show the effectiveness of the proposed framework in term of accuracy rate, precision, low-false alarm rate, and recall. | 翻訳日:2022-11-02 17:55:01 公開日:2020-08-05 |
# Adiabatic Quantum Linear Regression Adiabatic Quantum Linear Regression ( http://arxiv.org/abs/2008.02355v1 ) ライセンス: Link先を確認 | Prasanna Date, Thomas Potok | (参考訳) 機械学習における大きな課題は、これらのモデルのトレーニングに要する計算コストである。
モデルのトレーニングは、機械学習モデルを一連のデータに適合させる最適化の一形態と見なすことができ、古典的なコンピュータでかなりの時間を要する可能性がある。
断熱型量子コンピュータは最適化問題の解法に優れており、機械学習のトレーニング時間を改善するための有望な代替手段であると考えている。
本稿では,線形回帰モデルの学習のための断熱的量子コンピューティング手法を提案する。
これを実現するために、回帰問題を二次非拘束二元最適化(qubo)問題として定式化する。
量子アプローチを理論的に解析し、d-wave 2000q adiabatic quantum computerでテストし、そのパフォーマンスをpythonのscikit-learnライブラリを使用する古典的なアプローチと比較する。
解析により、量子的アプローチは、より大きなデータセットの古典的アプローチよりも最大2.8倍のスピードアップを実現し、回帰誤差計量の古典的アプローチと同等の性能を発揮することが示された。 A major challenge in machine learning is the computational expense of training these models. Model training can be viewed as a form of optimization used to fit a machine learning model to a set of data, which can take up significant amount of time on classical computers. Adiabatic quantum computers have been shown to excel at solving optimization problems, and therefore, we believe, present a promising alternative to improve machine learning training times. In this paper, we present an adiabatic quantum computing approach for training a linear regression model. In order to do this, we formulate the regression problem as a quadratic unconstrained binary optimization (QUBO) problem. We analyze our quantum approach theoretically, test it on the D-Wave 2000Q adiabatic quantum computer and compare its performance to a classical approach that uses the Scikit-learn library in Python. Our analysis shows that the quantum approach attains up to 2.8x speedup over the classical approach on larger datasets, and performs at par with the classical approach on the regression error metric. | 翻訳日:2022-11-02 17:54:48 公開日:2020-08-05 |
# 機械学習モデルのトレーニングのためのQUBO定式化 QUBO Formulations for Training Machine Learning Models ( http://arxiv.org/abs/2008.02369v1 ) ライセンス: Link先を確認 | Prasanna Date, Davis Arthur, Lauren Pusey-Nazzaro | (参考訳) 古典的コンピュータ上での機械学習モデルのトレーニングは通常、時間と計算集約的なプロセスである。
ムーアの法則が終わり、機械学習を使った大規模データ分析の需要がますます高まる中、量子コンピューティングのような非伝統的なコンピューティングパラダイムを活用して機械学習モデルを効率的に訓練する必要がある。
d-wave 2000qのような断熱量子コンピュータは、古典的コンピュータよりも高速に2次最適化(qubo)のようなnpハード最適化問題をほぼ解決することができる。
多くの機械学習問題もnpハードであるため、断熱量子コンピュータはポストムーアの法則の時代において機械学習モデルを効率的にトレーニングするのに役立つかもしれない。
断熱的量子コンピュータの問題を解くためには、QUBO問題として定式化する必要がある。
本稿では,線形回帰,サポートベクターマシン(svm),および等価サイズのk平均クラスタリングという3つの機械学習モデルのトレーニング問題をqubo問題として定式化し,断熱量子コンピュータ上で効率的にトレーニングできるようにする。
また,我々の定式化の時間と空間の複雑さを分析し,これらの機械学習モデルをトレーニングするための最先端の古典的アルゴリズムと比較する。
我々の定式化の時間と空間の複雑さは(SVM や等サイズの k-平均クラスタリングの場合)、あるいは(線形回帰の場合)その古典的表現と同等であることを示す。 Training machine learning models on classical computers is usually a time and compute intensive process. With Moore's law coming to an end and ever increasing demand for large-scale data analysis using machine learning, we must leverage non-conventional computing paradigms like quantum computing to train machine learning models efficiently. Adiabatic quantum computers like the D-Wave 2000Q can approximately solve NP-hard optimization problems, such as the quadratic unconstrained binary optimization (QUBO), faster than classical computers. Since many machine learning problems are also NP-hard, we believe adiabatic quantum computers might be instrumental in training machine learning models efficiently in the post Moore's law era. In order to solve a problem on adiabatic quantum computers, it must be formulated as a QUBO problem, which is a challenging task in itself. In this paper, we formulate the training problems of three machine learning models---linear regression, support vector machine (SVM) and equal-sized k-means clustering---as QUBO problems so that they can be trained on adiabatic quantum computers efficiently. We also analyze the time and space complexities of our formulations and compare them to the state-of-the-art classical algorithms for training these machine learning models. We show that the time and space complexities of our formulations are better (in the case of SVM and equal-sized k-means clustering) or equivalent (in case of linear regression) to their classical counterparts. | 翻訳日:2022-11-02 17:54:31 公開日:2020-08-05 |
# 多忠実ガウス過程に対する直交埋め込みのベイズ学習 Bayesian learning of orthogonal embeddings for multi-fidelity Gaussian Processes ( http://arxiv.org/abs/2008.02386v1 ) ライセンス: Link先を確認 | Panagiotis Tsilifis, Piyush Pandita, Sayan Ghosh, Valeria Andreoli, Thomas Vandeputte, Liping Wang | (参考訳) モデル入力点を低次元の潜在変数に写像する最適変換をベイズ法で同定する。
投影」マッピングは、事前不明と見なされ、利用可能なトレーニングデータに基づいてGPパラメータと共同で推論する必要がある正則行列からなる。
提案したベイズ推論スキームは,それぞれGPパラメータの辺縁部分と投射行列から,マルコフ・チェイン・モンテカルロ(MCMC)サンプリングを用いてサンプリングする2段階反復アルゴリズムに依存している。
正規直交射影行列に課される直交性制約を考慮するために、多様体上の確率測度を利用するのに適した測地的モンテカルロサンプリングアルゴリズムを用いる。
提案するフレームワークをGPを用いたマルチ忠実度モデルに拡張し,複数の出力を同時にトレーニングするシナリオを含む。
我々は、既知の低次元部分空間を持つ3つの合成問題の枠組みを検証する。
提案手法の利点は, 産業用ガスタービン用最終段羽根の3次元空力最適化の計算的挑戦に基づくものであり, 85次元翼形状パラメータ化が2つの出力量, 特に空力効率と反応度に及ぼす影響について検討する。 We present a Bayesian approach to identify optimal transformations that map model input points to low dimensional latent variables. The "projection" mapping consists of an orthonormal matrix that is considered a priori unknown and needs to be inferred jointly with the GP parameters, conditioned on the available training data. The proposed Bayesian inference scheme relies on a two-step iterative algorithm that samples from the marginal posteriors of the GP parameters and the projection matrix respectively, both using Markov Chain Monte Carlo (MCMC) sampling. In order to take into account the orthogonality constraints imposed on the orthonormal projection matrix, a Geodesic Monte Carlo sampling algorithm is employed, that is suitable for exploiting probability measures on manifolds. We extend the proposed framework to multi-fidelity models using GPs including the scenarios of training multiple outputs together. We validate our framework on three synthetic problems with a known lower-dimensional subspace. The benefits of our proposed framework, are illustrated on the computationally challenging three-dimensional aerodynamic optimization of a last-stage blade for an industrial gas turbine, where we study the effect of an 85-dimensional airfoil shape parameterization on two output quantities of interest, specifically on the aerodynamic efficiency and the degree of reaction. | 翻訳日:2022-11-02 17:54:06 公開日:2020-08-05 |
# 深部連続ニューラルネットワーク Continuous-in-Depth Neural Networks ( http://arxiv.org/abs/2008.02389v1 ) ライセンス: Link先を確認 | Alejandro F. Queiruga, N. Benjamin Erichson, Dane Taylor and Michael W. Mahoney | (参考訳) 最近の研究は、残留ネットワーク(ResNets)を通常の微分方程式のオイラー離散化の一段階として解釈しようと試みており、主に2つの系間の構文的代数的類似性に焦点を当てている。
しかし、連続力学系の離散力学積分器はよりリッチな構造を持つ。
まず、このリッチな意味では、resnetは意味のある動的インテグレータにはなりません。
次に,このリッチな構造と性質を持つ連続力学系を,runge kuttaスキームのような高次数値積分スキームに組み込むことにより,ニューラルネットワークモデルで表現できることを実証する。
これらの知見に基づいて、ContinuousNetをResNetアーキテクチャの詳細な一般化として紹介する。
連続ネットは特定の計算グラフの表現に不変性を示す。
すなわち、階層数を変化させる離散時間ステップサイズと、グラフ接続を変化させる異なる数値積分スキームによって、深度の連続モデルを評価することができる。
モデル品質を向上し,トレーニング時間を著しく短縮するインクリメンタル・イン・ディーズ・トレーニング・スキームの開発に使用できることを示す。
また、トレーニングを済ませば、計算グラフ内のユニット数を減らし、精度を低下させることなく高速な推論を行うことも示している。 Recent work has attempted to interpret residual networks (ResNets) as one step of a forward Euler discretization of an ordinary differential equation, focusing mainly on syntactic algebraic similarities between the two systems. Discrete dynamical integrators of continuous dynamical systems, however, have a much richer structure. We first show that ResNets fail to be meaningful dynamical integrators in this richer sense. We then demonstrate that neural network models can learn to represent continuous dynamical systems, with this richer structure and properties, by embedding them into higher-order numerical integration schemes, such as the Runge Kutta schemes. Based on these insights, we introduce ContinuousNet as a continuous-in-depth generalization of ResNet architectures. ContinuousNets exhibit an invariance to the particular computational graph manifestation. That is, the continuous-in-depth model can be evaluated with different discrete time step sizes, which changes the number of layers, and different numerical integration schemes, which changes the graph connectivity. We show that this can be used to develop an incremental-in-depth training scheme that improves model quality, while significantly decreasing training time. We also show that, once trained, the number of units in the computational graph can even be decreased, for faster inference with little-to-no accuracy drop. | 翻訳日:2022-11-02 17:53:43 公開日:2020-08-05 |
# 自由点トランスフォーマーネットワークを用いた多モード生体医用画像登録 Multimodality Biomedical Image Registration using Free Point Transformer Networks ( http://arxiv.org/abs/2008.01885v1 ) ライセンス: Link先を確認 | Zachary M. C. Baum, Yipeng Hu, Dean C. Barratt | (参考訳) 本稿では,超音波ガイド下介入手順で頻繁に発生するような,複数モードのバイオメディカル画像から抽出した点を対象とした,新しいフリーポイントトランスフォーマ(FPT)ネットワークに基づくポイントセット登録アルゴリズムについて述べる。
FPTは、大域的特徴抽出器で構築され、未順序のソースと可変サイズのターゲットポイントセットを受け入れる。
抽出した特徴を共有多層パーセプトロン点変圧器モジュールで条件付けし、各ソース点の変位ベクトルを予測し、ターゲット空間に変換する。
点変換モジュールは、空間変換の予測において近傍や滑らかさを仮定せず、グローバル特徴抽出器と共に教師なし損失関数を備えたデータ駆動方式で訓練される。
前立腺mrとスパース取得超音波画像を用いたマルチモーダル登録タスクでは、fptは他の剛体および非剛体登録法と同等または改善された結果が得られる。
これは、実際の臨床訓練データから直接登録を学習し、提示された介入アプリケーションのような困難な課題に一般化するfptの汎用性を示す。 We describe a point-set registration algorithm based on a novel free point transformer (FPT) network, designed for points extracted from multimodal biomedical images for registration tasks, such as those frequently encountered in ultrasound-guided interventional procedures. FPT is constructed with a global feature extractor which accepts unordered source and target point-sets of variable size. The extracted features are conditioned by a shared multilayer perceptron point transformer module to predict a displacement vector for each source point, transforming it into the target space. The point transformer module assumes no vicinity or smoothness in predicting spatial transformation and, together with the global feature extractor, is trained in a data-driven fashion with an unsupervised loss function. In a multimodal registration task using prostate MR and sparsely acquired ultrasound images, FPT yields comparable or improved results over other rigid and non-rigid registration methods. This demonstrates the versatility of FPT to learn registration directly from real, clinical training data and to generalize to a challenging task, such as the interventional application presented. | 翻訳日:2022-11-02 17:53:21 公開日:2020-08-05 |
# duality diagram similarity:タスク転送学習における初期化選択のための汎用フレームワーク Duality Diagram Similarity: a generic framework for initialization selection in task transfer learning ( http://arxiv.org/abs/2008.02107v1 ) ライセンス: Link先を確認 | Kshitij Dwivedi, Jiahui Huang, Radoslaw Martin Cichy, Gemma Roig | (参考訳) 本稿では,いくつかの事前学習モデルから,新しいタスクにおいて高い性能を達成するためにモデル初期化を選択するトランスファー学習におけるオープンな研究課題に取り組む。
本稿では、ディープニューラルネットワーク(DNN)間の双対性図類似性(DDS)に基づく、高効率で正確なアプローチを提案する。
DDSは、異なる特徴次元のデータを表現し比較するための一般的なフレームワークである。
提案手法は,17課題の実際の伝達学習成績ランキングと予測順位の対応度を測定し,タスクノミーデータセット上でのアプローチを検証する。
DDSベースの17-times17$転送のランキングは2分未満で、実際の転送学習ランキングと高い相関(0.86$)を示し、Taskonomyベンチマークでは、最先端のメソッドよりも大きなマージン(10-%$)高いパフォーマンスを示している。
また、新しいタスク、すなわちPascal VOCセマンティックセマンティックセグメンテーションに対するモデル選択アプローチの堅牢性を示す。
さらに,本手法は,NYUv2およびPascal VOCデータセット上での2D,3D,セマンティックタスクの伝達学習において,DNN内の最良層選択に適用可能であることを示す。 In this paper, we tackle an open research question in transfer learning, which is selecting a model initialization to achieve high performance on a new task, given several pre-trained models. We propose a new highly efficient and accurate approach based on duality diagram similarity (DDS) between deep neural networks (DNNs). DDS is a generic framework to represent and compare data of different feature dimensions. We validate our approach on the Taskonomy dataset by measuring the correspondence between actual transfer learning performance rankings on 17 taskonomy tasks and predicted rankings. Computing DDS based ranking for $17\times17$ transfers requires less than 2 minutes and shows a high correlation ($0.86$) with actual transfer learning rankings, outperforming state-of-the-art methods by a large margin ($10\%$) on the Taskonomy benchmark. We also demonstrate the robustness of our model selection approach to a new task, namely Pascal VOC semantic segmentation. Additionally, we show that our method can be applied to select the best layer locations within a DNN for transfer learning on 2D, 3D and semantic tasks on NYUv2 and Pascal VOC datasets. | 翻訳日:2022-11-02 17:46:30 公開日:2020-08-05 |
# 6VecLM:IPv6ターゲット生成のためのベクトル空間における言語モデリング 6VecLM: Language Modeling in Vector Space for IPv6 Target Generation ( http://arxiv.org/abs/2008.02213v1 ) ライセンス: Link先を確認 | Tianyu Cui, Gang Xiong, Gaopeng Gou, Junzheng Shi and Wei Xia | (参考訳) 高速IPv6スキャンは、現在の計算能力によって制限されているIPv6アドレス空間全体を探索する必要があるため、ネットワーク計測の分野では困難である。
研究者は、アクティブな種子集合をアルゴリズムで解析することにより、調査可能なアクティブなターゲット候補集合を得るように提案する。
しかし、IPv6アドレスには意味情報がなく、多くのアドレッシングスキームが含まれており、効率的なアルゴリズムを設計するのは難しい。
本稿では,このようなターゲット生成アルゴリズムを実現するための6VecLMを提案する。
アーキテクチャはアドレスをベクトル空間にマッピングして意味関係を解釈し、トランスフォーマーネットワークを使用してipv6言語モデルを構築し、アドレスシーケンスを予測する。
実験により,本手法はアドレス空間のセマンティックな分類が可能であることが示された。
新しい世代アプローチを追加することで、従来の言語モデルと比較して、制御可能な単語革新能力を持つ。
この研究は、2つのアクティブアドレスデータセットで最先端のターゲット生成アルゴリズムを上回り、より高品質な候補セットに到達した。 Fast IPv6 scanning is challenging in the field of network measurement as it requires exploring the whole IPv6 address space but limited by current computational power. Researchers propose to obtain possible active target candidate sets to probe by algorithmically analyzing the active seed sets. However, IPv6 addresses lack semantic information and contain numerous addressing schemes, leading to the difficulty of designing effective algorithms. In this paper, we introduce our approach 6VecLM to explore achieving such target generation algorithms. The architecture can map addresses into a vector space to interpret semantic relationships and uses a Transformer network to build IPv6 language models for predicting address sequence. Experiments indicate that our approach can perform semantic classification on address space. By adding a new generation approach, our model possesses a controllable word innovation capability compared to conventional language models. The work outperformed the state-of-the-art target generation algorithms on two active address datasets by reaching more quality candidate sets. | 翻訳日:2022-11-02 17:45:45 公開日:2020-08-05 |
# 臨床テキストによるシックル細胞疾患の痛みの測定 Measuring Pain in Sickle Cell Disease using Clinical Text ( http://arxiv.org/abs/2008.11081v1 ) ライセンス: Link先を確認 | Amanuel Alambo, Ryan Andrew, Sid Gollarahalli, Jacqueline Vaughn, Tanvi Banerjee, Krishnaprasad Thirunarayan, Daniel Abrams, Nirmish Shah | (参考訳) シックル細胞病(Sickle Cell Disease, SCD)は、ヒトの赤血球の遺伝性疾患である。
痛み、脳卒中、臓器不全などの合併症がSCDで発生し、小さな血管を通過する病気の赤い赤血球が閉じ込められる。
特に急性痛はscdの一次症状として知られている。
scd痛の不快で主観的な性質は、医療従事者(mps)の痛み評価の課題に繋がる。
したがって、SCD患者の痛みマーカーの正確な同定は、痛み管理に不可欠である。
痛みレベルに基づくSCD患者の臨床ノートの分類により、MPは適切な治療を受けることができる。
臨床ノートの痛み関連性を予測する二分分類モデルと,痛みレベルを予測する多クラス分類モデルを提案する。
我々の4つのバイナリ機械学習(ML)分類器はその性能に匹敵するが、決定木はF測定で0.70に達するマルチクラス分類タスクで最高のパフォーマンスを示した。
以上の結果から,シックル細胞患者の痛み管理における臨床テキスト解析と機械学習の有用性が示唆された。 Sickle Cell Disease (SCD) is a hereditary disorder of red blood cells in humans. Complications such as pain, stroke, and organ failure occur in SCD as malformed, sickled red blood cells passing through small blood vessels get trapped. Particularly, acute pain is known to be the primary symptom of SCD. The insidious and subjective nature of SCD pain leads to challenges in pain assessment among Medical Practitioners (MPs). Thus, accurate identification of markers of pain in patients with SCD is crucial for pain management. Classifying clinical notes of patients with SCD based on their pain level enables MPs to give appropriate treatment. We propose a binary classification model to predict pain relevance of clinical notes and a multiclass classification model to predict pain level. While our four binary machine learning (ML) classifiers are comparable in their performance, Decision Trees had the best performance for the multiclass classification task achieving 0.70 in F-measure. Our results show the potential clinical text analysis and machine learning offer to pain management in sickle cell patients. | 翻訳日:2022-11-02 17:45:31 公開日:2020-08-05 |
# プライバシー以上のもの:人工知能の重要分野における差別的プライバシーの適用 More Than Privacy: Applying Differential Privacy in Key Areas of Artificial Intelligence ( http://arxiv.org/abs/2008.01916v1 ) ライセンス: Link先を確認 | Tianqing Zhu and Dayong Ye and Wei Wang and Wanlei Zhou and Philip S. Yu | (参考訳) 近年,人工知能(AI)が注目されている。
しかし、その進歩と並行して、プライバシー侵害、セキュリティ問題、モデルフェアネスといった問題も発生している。
微分プライバシーは、有望な数学的モデルとして、これらの問題を解決するのに役立ついくつかの魅力的な性質を持っている。
この理由から、微分プライバシーはAIに広く適用されているが、これまでのところ、差分プライバシーメカニズムがその問題やそれを可能にするプロパティを克服するために利用可能か、あるいは利用されたかが文書化されていない。
本稿では、差分プライバシーが単にプライバシー保護以上のことができることを示す。
また、セキュリティを改善し、学習を安定させ、公正なモデルを構築し、AIの選択領域にコンポジションを課すためにも使用できる。
通常の機械学習、分散機械学習、ディープラーニング、マルチエージェントシステムに焦点を当てた本記事の目的は、差分プライバシー技術でAIのパフォーマンスを改善する多くの可能性について、新たな視点を提供することである。 Artificial Intelligence (AI) has attracted a great deal of attention in recent years. However, alongside all its advancements, problems have also emerged, such as privacy violations, security issues and model fairness. Differential privacy, as a promising mathematical model, has several attractive properties that can help solve these problems, making it quite a valuable tool. For this reason, differential privacy has been broadly applied in AI but to date, no study has documented which differential privacy mechanisms can or have been leveraged to overcome its issues or the properties that make this possible. In this paper, we show that differential privacy can do more than just privacy preservation. It can also be used to improve security, stabilize learning, build fair models, and impose composition in selected areas of AI. With a focus on regular machine learning, distributed machine learning, deep learning, and multi-agent systems, the purpose of this article is to deliver a new view on many possibilities for improving AI performance with differential privacy techniques. | 翻訳日:2022-11-02 17:45:15 公開日:2020-08-05 |
# MusPy: シンボリック音楽生成のためのツールキット MusPy: A Toolkit for Symbolic Music Generation ( http://arxiv.org/abs/2008.01951v1 ) ライセンス: Link先を確認 | Hao-Wen Dong, Ke Chen, Julian McAuley, Taylor Berg-Kirkpatrick | (参考訳) 本稿では,シンボリック音楽生成のためのPythonライブラリであるMusPyを紹介する。
MusPyは、データセット管理、データI/O、データ前処理、モデル評価など、音楽生成システムで不可欠なコンポーネントに対して、使いやすいツールを提供する。
その可能性を示すために,MusPyが現在サポートしている11のデータセットの統計分析を行った。
さらに,各データセット上で自己回帰モデルをトレーニングし,他のデータセットに対する保持可能性を測定することで,データセット間の一般化性実験を行う。
結果は、よく使われるデータセット間のドメイン重複のマップを提供し、いくつかのデータセットが他のデータセットよりも代表的なクロスジェネリックサンプルを含んでいることを示す。
データセット分析とともに、これらの結果は将来の研究でデータセットを選択するためのガイドとして役立ちます。
ソースコードとドキュメントはhttps://github.com/salu133445/muspyで入手できる。 In this paper, we present MusPy, an open source Python library for symbolic music generation. MusPy provides easy-to-use tools for essential components in a music generation system, including dataset management, data I/O, data preprocessing and model evaluation. In order to showcase its potential, we present statistical analysis of the eleven datasets currently supported by MusPy. Moreover, we conduct a cross-dataset generalizability experiment by training an autoregressive model on each dataset and measuring held-out likelihood on the others---a process which is made easier by MusPy's dataset management system. The results provide a map of domain overlap between various commonly used datasets and show that some datasets contain more representative cross-genre samples than others. Along with the dataset analysis, these results might serve as a guide for choosing datasets in future research. Source code and documentation are available at https://github.com/salu133445/muspy . | 翻訳日:2022-11-02 17:44:56 公開日:2020-08-05 |
# 微分プライベート高速化最適化アルゴリズム Differentially Private Accelerated Optimization Algorithms ( http://arxiv.org/abs/2008.01989v1 ) ライセンス: Link先を確認 | Nurdan Kuru, \c{S}. \.Ilker Birbil, Mert Gurbuzbalaban, and Sinan Yildirim | (参考訳) 本稿では、よく知られた加速1次法から導かれる微分プライベート最適化アルゴリズムの2つのクラスを示す。
最初のアルゴリズムはPolyakのヘビーボール法にインスパイアされ、微分プライバシーに必要な勾配ステップの蓄積ノイズを低減するスムーズなアプローチを採用している。
第2のアルゴリズムは、ネステロフの加速勾配法とその最近の多段階変種に基づいている。
本研究では,アルゴリズムの誤り挙動を改善するため,Nesterovの手法の繰り返しに対するノイズ分割機構を提案する。
力学系解析手法を用いて, 重球とネステロフ加速度勾配法の両方について収束速度解析を行った。
最後に,提案アルゴリズムがよく知られた微分プライベートアルゴリズムよりも優れていることを示す数値実験を行った。 We present two classes of differentially private optimization algorithms derived from the well-known accelerated first-order methods. The first algorithm is inspired by Polyak's heavy ball method and employs a smoothing approach to decrease the accumulated noise on the gradient steps required for differential privacy. The second class of algorithms are based on Nesterov's accelerated gradient method and its recent multi-stage variant. We propose a noise dividing mechanism for the iterations of Nesterov's method in order to improve the error behavior of the algorithm. The convergence rate analyses are provided for both the heavy ball and the Nesterov's accelerated gradient method with the help of the dynamical system analysis techniques. Finally, we conclude with our numerical experiments showing that the presented algorithms have advantages over the well-known differentially private algorithms. | 翻訳日:2022-11-02 17:44:41 公開日:2020-08-05 |
# 強化学習によるスポンサー検索のADプルーニング最適化 Optimizing AD Pruning of Sponsored Search with Reinforcement Learning ( http://arxiv.org/abs/2008.02014v1 ) ライセンス: Link先を確認 | Yijiang Lian, Zhijie Chen, Xin Pei, Shuang Li, Yifei Wang, Yuefeng Qiu, Zhiheng Zhang, Zhipeng Tao, Liang Yuan, Hanju Guan, Kefeng Zhang, Zhigang Li, Xiaochun Liu | (参考訳) 産業支援検索システム(SSS)は,キーワードマッチング,広告検索,ランキングの3つのモジュールに論理的に分割することができる。
広告検索中、広告候補は指数関数的に増加する。
高い商業価値のクエリは、ランク付けモジュールに余裕がないような多くの広告候補を取得する可能性がある。
レイテンシとコンピューティングリソースが限られているため、候補は早く刈り取らなければならない。
SSSを上流と下流の2つの部分に分割するプルーニングラインを設定しよう。
システム全体の収益を最大化するために、上流から提供された$N$候補から、最高の$K$アイテムをどうやって取り出すか、という問題に対処します。
産業下流は非常に複雑で迅速に更新されるため、この問題における重要な制限は、選択スキームを下流に適応させることである。
本稿では,この問題を解決するためのモデルなし強化学習手法を提案する。
提案手法は,下流をブラックボックス環境とみなし,エージェントがアイテムを順次選択し,最終的に下流に供給し,収益を推定し,選択政策を改善するための報酬として利用する。
私たちの知る限りでは、下流の適応の観点からシステムの最適化を考えるのはこれが初めてです。
この問題を解決するために強化学習技術を使うのも、今回が初めてだ。
このアイデアはBaiduのスポンサー付き検索システムで成功しており、オンラインの長期A/Bテストでは収益が著しく改善されている。 Industrial sponsored search system (SSS) can be logically divided into three modules: keywords matching, ad retrieving, and ranking. During ad retrieving, the ad candidates grow exponentially. A query with high commercial value might retrieve a great deal of ad candidates such that the ranking module could not afford. Due to limited latency and computing resources, the candidates have to be pruned earlier. Suppose we set a pruning line to cut SSS into two parts: upstream and downstream. The problem we are going to address is: how to pick out the best $K$ items from $N$ candidates provided by the upstream to maximize the total system's revenue. Since the industrial downstream is very complicated and updated quickly, a crucial restriction in this problem is that the selection scheme should get adapted to the downstream. In this paper, we propose a novel model-free reinforcement learning approach to fixing this problem. Our approach considers downstream as a black-box environment, and the agent sequentially selects items and finally feeds into the downstream, where revenue would be estimated and used as a reward to improve the selection policy. To the best of our knowledge, this is first time to consider the system optimization from a downstream adaption view. It is also the first time to use reinforcement learning techniques to tackle this problem. The idea has been successfully realized in Baidu's sponsored search system, and online long time A/B test shows remarkable improvements on revenue. | 翻訳日:2022-11-02 17:44:28 公開日:2020-08-05 |
# 精神シミュレーションのためのニューラルシンボリックフレームワーク A Neural-Symbolic Framework for Mental Simulation ( http://arxiv.org/abs/2008.02356v1 ) ライセンス: Link先を確認 | Michael Kissner | (参考訳) 本稿では,環境を観察し,視覚意味論と直感的物理学を連続的に学習し,それらをインタラクティブなシミュレーションで再現するためのニューラルシンボリックフレームワークを提案する。
フレームワークは、逆グラフィックスのためのカプセルに基づくニューラルシンボリックハイブリッドネットワーク、観測を保存するためのエピソードメモリ、直感的な物理のための相互作用ネットワーク、フレームワークを継続的に改善するメタ学習エージェント、そしてフレームワークのシミュレーションのインターフェースとして機能するクエリ言語からなる。
生涯にわたるメタラーニングにより、カプセルネットワークは、各イテレーションで環境に適応するために、継続的に拡張され、訓練される。
これにより、最小限のアプローチで新しいセマンティクスを学習でき、oracleからの最小限のインプットでその生涯を学べる。
観察を通じて学んだことから、直感的な物理学の部分は、シーン内のオブジェクトの必要な物理的性質をすべて推測し、予測を可能にする。
最後に,ゲーム環境のナビゲーションやソート,シミュレーションなど,さまざまなメンタルシミュレーションタスクを実行できるカスタムクエリ言語を組み合わせることで,新たなアプローチの可能性を示す。 We present a neural-symbolic framework for observing the environment and continuously learning visual semantics and intuitive physics to reproduce them in an interactive simulation. The framework consists of five parts, a neural-symbolic hybrid network based on capsules for inverse graphics, an episodic memory to store observations, an interaction network for intuitive physics, a meta-learning agent that continuously improves the framework and a querying language that acts as the framework's interface for simulation. By means of lifelong meta-learning, the capsule network is expanded and trained continuously, in order to better adapt to its environment with each iteration. This enables it to learn new semantics using a few-shot approach and with minimal input from an oracle over its lifetime. From what it learned through observation, the part for intuitive physics infers all the required physical properties of the objects in a scene, enabling predictions. Finally, a custom query language ties all parts together, which allows to perform various mental simulation tasks, such as navigation, sorting and simulation of a game environment, with which we illustrate the potential of our novel approach. | 翻訳日:2022-11-02 17:38:45 公開日:2020-08-05 |
# Reptile を用いたエンドツーエンド音声・インテント分類の改善 Improving End-to-End Speech-to-Intent Classification with Reptile ( http://arxiv.org/abs/2008.01994v1 ) ライセンス: Link先を確認 | Yusheng Tian, Philip John Gorinski | (参考訳) エンドツーエンド音声言語理解システム(SLU)は従来のパイプラインシステムよりも多くの利点があるが、エンドツーエンドシステムの訓練にはドメイン内の音声データを集めるのに時間と費用がかかる。
唯一の疑問は、限られた量のデータでエンドツーエンドのSLUをトレーニングする方法である。
多くの研究者は、他の関連するデータリソースを利用するアプローチを研究してきた。
本稿では,非標準学習アルゴリズムReptileによるSLUモデルの一般化性能の向上を提案する。
reptileはもともとモデルに依存しないメタ学習のために提案されたが、ターゲットタスクを直接学習し、従来の勾配降下よりもより良い一般化を実現するためにも使用できると論じている。
本研究では,エンドツーエンドの音声意図分類作業にReptileを用いた。
異なる言語とドメインの4つのデータセットに関する実験では、プリトレーニングに加えて、単発使用と使用の両方において、意図予測精度の向上が示されている。 End-to-end spoken language understanding (SLU) systems have many advantages over conventional pipeline systems, but collecting in-domain speech data to train an end-to-end system is costly and time consuming. One question arises from this: how to train an end-to-end SLU with limited amounts of data? Many researchers have explored approaches that make use of other related data resources, typically by pre-training parts of the model on high-resource speech recognition. In this paper, we suggest improving the generalization performance of SLU models with a non-standard learning algorithm, Reptile. Though Reptile was originally proposed for model-agnostic meta learning, we argue that it can also be used to directly learn a target task and result in better generalization than conventional gradient descent. In this work, we employ Reptile to the task of end-to-end spoken intent classification. Experiments on four datasets of different languages and domains show improvement of intent prediction accuracy, both when Reptile is used alone and used in addition to pre-training. | 翻訳日:2022-11-02 17:38:11 公開日:2020-08-05 |
# TPG-DNN:マルチタスク学習による総合確率式とGRU損失に基づくユーザインテント予測手法 TPG-DNN: A Method for User Intent Prediction Based on Total Probability Formula and GRU Loss with Multi-task Learning ( http://arxiv.org/abs/2008.02122v1 ) ライセンス: Link先を確認 | Jingxing Jiang, Zhubin Wang, Fei Fang, Binqiang Zhao | (参考訳) Eコマースプラットフォームは、人々が好きなものを検索、閲覧、支払いする主要な戦場となっている。
顧客や商店のオンラインショッピング体験を改善する上で重要なこととして、ユーザ意図予測の適切なアプローチを見つける方法は、業界と学界の両方で大きな注目を集めている。
本稿では,マルチタスク学習による適応ゲートリカレントユニット(gru)損失関数に基づく課題を完遂するための,新たなユーザ意図予測モデルtpg-dnnを提案する。
ユーザのオンライン購入プロセス全体をモデル化する損失関数として,GRU構造と全確率式を創造的に活用する。
さらに、マルチタスクの重み調整機構により、データ分散によるタスク間の重要度を動的に調整することができる。
Taobaoday and promotion data setで行った実験結果によると、提案モデルは既存のクリックスルーレート(CTR)モデルよりもはるかに優れている。
現在,提案したユーザ意図予測モデルは,ユーザエクスペリエンスとショッピング効率を大幅に向上させるとともに,総商品量(GMV)の促進にも有効である,タオオプラットフォーム上でのクーポンアロケーション,広告,レコメンデーションに広く利用されている。 The E-commerce platform has become the principal battleground where people search, browse and pay for whatever they want. Critical as is to improve the online shopping experience for customers and merchants, how to find a proper approach for user intent prediction are paid great attention in both industry and academia. In this paper, we propose a novel user intent prediction model, TPG-DNN, to complete the challenging task, which is based on adaptive gated recurrent unit (GRU) loss function with multi-task learning. We creatively use the GRU structure and total probability formula as the loss function to model the users' whole online purchase process. Besides, the multi-task weight adjustment mechanism can make the final loss function dynamically adjust the importance between different tasks through data variance. According to the test result of experiments conducted on Taobao daily and promotion data sets, the proposed model performs much better than existing click through rate (CTR) models. At present, the proposed user intent prediction model has been widely used for the coupon allocation, advertisement and recommendation on Taobao platform, which greatly improve the user experience and shopping efficiency, and benefit the gross merchandise volume (GMV) promotion as well. | 翻訳日:2022-11-02 17:37:06 公開日:2020-08-05 |
# FRMDN:フローベースリカレント混合密度ネットワーク FRMDN: Flow-based Recurrent Mixture Density Network ( http://arxiv.org/abs/2008.02144v1 ) ライセンス: Link先を確認 | Seyedeh Fatemeh Razavi and Reshad Hosseini | (参考訳) リカレント混合密度ネットワーク(rmdns)は、リカレントニューラルネットワーク(rnn)とガウス混合モデル(gmm)の2つの主要部分から構成されており、各時間ステップでgmmのパラメータを見つけるために、ある種のrnn(ほぼlstm)が使用される。
RMDNは利用可能なが、様々な困難に直面している。
それらの中で最も重要な問題は高$2次元問題である。
高$-$次元問題に対する共分散行列の推定は、既存の次元間の相関と正の定義条件を満たすため、より困難である。
したがって、利用可能な方法は通常、次元間の独立性を仮定して高次元問題に対して対角共分散行列を持つ RMDN を用いる。
したがって、gmmの文献に共通するアプローチに触発された本論文では、rmdn 内の各精度行列(共分散行列の逆)に対する結合構成を、その対角形を考えるよりも gmm の強化に$(\(\sigma _k^{ - 1} = u{d_k}u\))$とする。
しかし単純さから、$\(U\)$をアイデンティティ行列とし、$(D_k\)$を$(k^{th}\)$コンポーネントの特定の対角行列と仮定する。
これまでは対角行列しか持たず、利用可能な対角 RMDN と異なりません。
さらに、Flow$$ベースのニューラルネットワークは、分布をより単純な分布に変換することができ、逆もまた、可逆関数のシーケンスを通じて、生成モデルの新たなグループである。
そこで,変換観測に対角GMMを適用した。
あらゆる時間ステップにおいて、次の観測値である$\({y_{t + 1}}\)$ はフロー$-$ベースのニューラルネットワークを通してより単純な分布を得る。
強化学習問題に対する実験結果は, rmdnに対する負のlog$-$likelihood (nll) と, 人口サイズの少ないコントローラに対する累積報酬の点において, ベース$-$line法に対する提案手法の優位性を検証する。 Recurrent Mixture Density Networks (RMDNs) are consisted of two main parts: a Recurrent Neural Network (RNN) and a Gaussian Mixture Model (GMM), in which a kind of RNN (almost LSTM) is used to find the parameters of a GMM in every time step. While available RMDNs have been faced with different difficulties. The most important of them is high$-$dimensional problems. Since estimating the covariance matrix for the high$-$dimensional problems is more difficult, due to existing correlation between dimensions and satisfying the positive definition condition. Consequently, the available methods have usually used RMDN with a diagonal covariance matrix for high$-$dimensional problems by supposing independence among dimensions. Hence, in this paper with inspiring a common approach in the literature of GMM, we consider a tied configuration for each precision matrix (inverse of the covariance matrix) in RMDN as $(\(\Sigma _k^{ - 1} = U{D_k}U\))$ to enrich GMM rather than considering a diagonal form for it. But due to simplicity, we assume $\(U\)$ be an Identity matrix and $\(D_k\)$ is a specific diagonal matrix for $\(k^{th}\)$ component. Until now, we only have a diagonal matrix and it does not differ with available diagonal RMDNs. Besides, Flow$-$based neural networks are a new group of generative models that are able to transform a distribution to a simpler distribution and vice versa, through a sequence of invertible functions. Therefore, we applied a diagonal GMM on transformed observations. At every time step, the next observation, $\({y_{t + 1}}\)$, has been passed through a flow$-$based neural network to obtain a much simpler distribution. Experimental results for a reinforcement learning problem verify the superiority of the proposed method to the base$-$line method in terms of Negative Log$-$Likelihood (NLL) for RMDN and the cumulative reward for a controller with fewer population size. | 翻訳日:2022-11-02 17:36:42 公開日:2020-08-05 |
# 産業4.0における教師なし深層学習によるマルチモーダル多変量時系列検証のための因果的フレームワーク A Causal-based Framework for Multimodal Multivariate Time Series Validation Enhanced by Unsupervised Deep Learning as an Enabler for Industry 4.0 ( http://arxiv.org/abs/2008.02171v1 ) ライセンス: Link先を確認 | Cedric Schockaert | (参考訳) 多変量時系列の先進的な概念検証フレームワークは、一変量文脈定義から、産業プロセスに関連する異種データ(画像、時系列、音など)からオートエンコーダによって学習された多変量抽象的文脈表現まで、多段階の文脈異常検出を定義する。
フレームワークの各レベルは、履歴データやライブデータに適用できる。
究極のレベルは、観測データの因果関係を識別する因果発見に基づいており、バイアスデータを除外して機械学習モデルを訓練し、データサンプルで表される基盤プロセスにおける未知の因果関係をドメインの専門家に発見する手段を提供する。
多変量時系列上での長期記憶オートエンコーダの評価に成功し、高炉の複数のアセットに関連する抽象的コンテキストの学習表現を検証する。
因果発見と表現学習をプロセス産業に適用した教師なし根本原因分析の実現者として組み合わせるための研究ロードマップが特定された。 An advanced conceptual validation framework for multimodal multivariate time series defines a multi-level contextual anomaly detection ranging from an univariate context definition, to a multimodal abstract context representation learnt by an Autoencoder from heterogeneous data (images, time series, sounds, etc.) associated to an industrial process. Each level of the framework is either applicable to historical data and/or live data. The ultimate level is based on causal discovery to identify causal relations in observational data in order to exclude biased data to train machine learning models and provide means to the domain expert to discover unknown causal relations in the underlying process represented by the data sample. A Long Short-Term Memory Autoencoder is successfully evaluated on multivariate time series to validate the learnt representation of abstract contexts associated to multiple assets of a blast furnace. A research roadmap is identified to combine causal discovery and representation learning as an enabler for unsupervised Root Cause Analysis applied to the process industry. | 翻訳日:2022-11-02 17:35:58 公開日:2020-08-05 |
# マイノリティオーバーサンプリングのためのAnealing Genetic GAN Annealing Genetic GAN for Minority Oversampling ( http://arxiv.org/abs/2008.01967v1 ) ライセンス: Link先を確認 | Jingyu Hao and Chengjia Wang and Heye Zhang and Guang Yang | (参考訳) クラス不均衡問題を解決する鍵は、マイノリティクラスの分布を正確に捉えることである。
generative adversarial networks (gans) は、十分なトレーニングデータサンプルを与えられたデータ分布を再現する能力があるため、クラス不均衡問題に取り組む可能性を示している。
しかし、1つ以上のクラスのサンプルが不足していることは、GANが少数クラスの正確な分布を学習する上で大きな課題となる。
本研究では,限られたデータサンプルのみを用いて,マイノリティクラスに最も近い分布を再現することを目的としたAnnealing Genetic GAN (AGGAN)法を提案する。
我々のAGGANは、シミュレーションアニーリングのメカニズムを組み込んだ進化過程として、GANのトレーニングを再構築する。
特に、ジェネレータは、複数の子孫を生成し、ベストを維持するために、異なるトレーニング戦略を使用する。
次に、シミュレーションアニーリングでメトロポリス基準を用いて、ジェネレータの最良の子孫を更新すべきかを判断する。
メトロポリスの基準は、より悪い解決策を受け入れる機会を許容するので、AGGANは地域最適化から遠ざかることができる。
複数の不均衡画像データセットに関する理論的解析と実験的研究の両面から、提案したトレーニング戦略により、少ないサンプルからマイノリティクラスの分布を再現することが可能であることが証明され、クラス不均衡問題に対する効果的で堅牢な解が提供される。 The key to overcome class imbalance problems is to capture the distribution of minority class accurately. Generative Adversarial Networks (GANs) have shown some potentials to tackle class imbalance problems due to their capability of reproducing data distributions given ample training data samples. However, the scarce samples of one or more classes still pose a great challenge for GANs to learn accurate distributions for the minority classes. In this work, we propose an Annealing Genetic GAN (AGGAN) method, which aims to reproduce the distributions closest to the ones of the minority classes using only limited data samples. Our AGGAN renovates the training of GANs as an evolutionary process that incorporates the mechanism of simulated annealing. In particular, the generator uses different training strategies to generate multiple offspring and retain the best. Then, we use the Metropolis criterion in the simulated annealing to decide whether we should update the best offspring for the generator. As the Metropolis criterion allows a certain chance to accept the worse solutions, it enables our AGGAN steering away from the local optimum. According to both theoretical analysis and experimental studies on multiple imbalanced image datasets, we prove that the proposed training strategy can enable our AGGAN to reproduce the distributions of minority classes from scarce samples and provide an effective and robust solution for the class imbalance problem. | 翻訳日:2022-11-02 17:29:07 公開日:2020-08-05 |
# 提案要求を自動的にスコアリングする解釈可能な深層学習システム An Interpretable Deep Learning System for Automatically Scoring Request for Proposals ( http://arxiv.org/abs/2008.02347v1 ) ライセンス: Link先を確認 | Subhadip Maji, Anudeep Srivatsav Appe, Raghav Bali, Veera Raghavendra Chikka, Arijit Ghosh Chowdhury and Vamsi M Bhandaru | (参考訳) メディケイド(US Healthcare)内の管理ケアシステムは、RFP(Request For Proposals)を使用して、さまざまな医療関連サービスの契約を付与している。
rfp応答は、競合団体が契約を勝ち取るために提出した非常に詳細な文書(数百ページ)である。
主題の専門知識とドメイン知識は、歴史的提出物の分析とともにRFP応答を作成する上で重要な役割を果たす。
自然言語処理(NLP)システムによるこれらの応答の自動解析は、過去の応答を調べるのに必要な時間と労力を削減し、より良い応答を書くのを支援する。
我々の研究はRFPとエッセイのスコアリングモデルの間に共通点を描き、新しい課題と解釈可能性の必要性を強調した。
典型的なスコアリングモデルは、格付けエッセイや他の短い書き込みに対する単語レベルの影響に焦点を当てている。
本研究では,新しいbi-lstmに基づく回帰モデルを提案し,応答のスコアリングに潜在的に影響を与えるフレーズについて深い洞察を与える。
提案手法の有効性は, 広範囲な定量的実験を用いて論じる。
また,人間の評価を用いた重要なフレーズの影響を質的に評価する。
最後に,NLPに基づく自動スコアリングシステムにおける技術状況を改善するために,新たな問題文を導入する。 The Managed Care system within Medicaid (US Healthcare) uses Request For Proposals (RFP) to award contracts for various healthcare and related services. RFP responses are very detailed documents (hundreds of pages) submitted by competing organisations to win contracts. Subject matter expertise and domain knowledge play an important role in preparing RFP responses along with analysis of historical submissions. Automated analysis of these responses through Natural Language Processing (NLP) systems can reduce time and effort needed to explore historical responses, and assisting in writing better responses. Our work draws parallels between scoring RFPs and essay scoring models, while highlighting new challenges and the need for interpretability. Typical scoring models focus on word level impacts to grade essays and other short write-ups. We propose a novel Bi-LSTM based regression model, and provide deeper insight into phrases which latently impact scoring of responses. We contend the merits of our proposed methodology using extensive quantitative experiments. We also qualitatively asses the impact of important phrases using human evaluators. Finally, we introduce a novel problem statement that can be used to further improve the state of the art in NLP based automatic scoring systems. | 翻訳日:2022-11-02 17:28:32 公開日:2020-08-05 |
# ディープラーニングエンコーダモデルを用いた経路計画アルゴリズムの性能改善 Performance Improvement of Path Planning algorithms with Deep Learning Encoder Model ( http://arxiv.org/abs/2008.02254v1 ) ライセンス: Link先を確認 | Janderson Ferreira (1), Agostinho A. F. J\'unior (1), Yves M. Galv\~ao (1), Pablo Barros (2), Sergio Murilo Maciel Fernandes (1), Bruno J. T. Fernandes (1) ((1) Universidade de Pernambuco - Escola Polit\'ecnica de Pernambuco, (2) Cognitive Architecture for Collaborative Technologies Unit - Istituto Italiano di Tecnologia) | (参考訳) 現在、経路計画アルゴリズムは多くの日常業務で使われている。
交通の最良のルートを見つけ、自律的なロボットがナビゲートできるようにする。
パスプランニングの利用は、大規模および動的環境においていくつかの問題をもたらす。
大きな環境は、これらのアルゴリズムが最も短い経路を見つけるのに多くの時間を費やす。
一方、動的環境は環境の変化が発生するたびにアルゴリズムの新たな実行を要求し、実行時間を増加させる。
この文脈では、これらの環境に存在する役に立たない経路を取り除くことを意味する。
次元を減少させるアルゴリズムのほとんどは、入力データの線形相関に制限される。
近年、畳み込みニューラルネットワーク(cnn)エンコーダが、線形情報と非線形情報の両方をデータ削減に使用できるため、この状況を克服するために用いられた。
本稿では,CNNエンコーダモデルを用いて性能を詳細に解析し,無駄な経路を除去する。
上記のモデル効率を測定するために、異なる経路計画アルゴリズムと組み合わせた。
次に、5つのシナリオからなるデータベースで最終アルゴリズム(組み合わせられず、組み合わせられていない)をチェックする。
各シナリオには固定および動的障害が含まれます。
彼らの提案するモデルであるcnnエンコーダは、文献に存在する他のパス計画アルゴリズムと関連づけられ、解析された全てのパス計画アルゴリズムと比較して最も短いパスを見つけるための時間短縮を得ることができた。
平均減少時間は54.43%でした Currently, path planning algorithms are used in many daily tasks. They are relevant to find the best route in traffic and make autonomous robots able to navigate. The use of path planning presents some issues in large and dynamic environments. Large environments make these algorithms spend much time finding the shortest path. On the other hand, dynamic environments request a new execution of the algorithm each time a change occurs in the environment, and it increases the execution time. The dimensionality reduction appears as a solution to this problem, which in this context means removing useless paths present in those environments. Most of the algorithms that reduce dimensionality are limited to the linear correlation of the input data. Recently, a Convolutional Neural Network (CNN) Encoder was used to overcome this situation since it can use both linear and non-linear information to data reduction. This paper analyzes in-depth the performance to eliminate the useless paths using this CNN Encoder model. To measure the mentioned model efficiency, we combined it with different path planning algorithms. Next, the final algorithms (combined and not combined) are checked in a database that is composed of five scenarios. Each scenario contains fixed and dynamic obstacles. Their proposed model, the CNN Encoder, associated to other existent path planning algorithms in the literature, was able to obtain a time decrease to find the shortest path in comparison to all path planning algorithms analyzed. the average decreased time was 54.43 %. | 翻訳日:2022-11-02 17:27:37 公開日:2020-08-05 |
# マルチタスク領域における補助タスク活用による学習促進 Learning Boost by Exploiting the Auxiliary Task in Multi-task Domain ( http://arxiv.org/abs/2008.02043v1 ) ライセンス: Link先を確認 | Jonghwa Yim, Sang Hwan Kim | (参考訳) ひとつの共有関数で2つのタスクを学ぶことは、いくつかの利点があります。
まず、第2のタスクから情報を取得することで、共有機能は、第1のタスクで無視または過小評価された有用な情報を活用する。
第二に、両方のタスクに一般的に適用される情報を使って学習できる機能を一般化するのに役立ちます。
これらの利点を十分に享受するために、マルチタスク学習(MTL)はコンピュータビジョン、言語理解、音声合成など様々な分野で研究されてきた。
MTLは、複数のタスクからの情報のポジティブな転送から恩恵を受けるが、実際の環境では、タスクは必然的に、負の転送と呼ばれる学習フェーズにおいてそれらの間の衝突を引き起こす。
負の転送ハッパーは、最適性を達成し、性能を低下させる。
タスクコンフリクトの問題を解決するために、以前の研究は基本ではなくアドホックな部分解のみを示唆した。
一般的なアプローチは、損失の重み付け和を使うことである。
重量は正の移動を誘導するために調整される。
逆説的に、この種の解は負の転送の問題を認識し、タスクの重みがゼロに設定されない限り削除できない。
そのため、これらの手法は限られた成功を収めた。
本稿では,学習過程におけるクラスワイドの活用により,ポジティブトランスファーを促進し,ネガティブトランスファーを抑制する新しいアプローチを提案する。
重みは情報の基本単位の仲裁役として機能し、主タスクに対する正または負の状態を決定する。 Learning two tasks in a single shared function has some benefits. Firstly by acquiring information from the second task, the shared function leverages useful information that could have been neglected or underestimated in the first task. Secondly, it helps to generalize the function that can be learned using generally applicable information for both tasks. To fully enjoy these benefits, Multi-task Learning (MTL) has long been researched in various domains such as computer vision, language understanding, and speech synthesis. While MTL benefits from the positive transfer of information from multiple tasks, in a real environment, tasks inevitably have a conflict between them during the learning phase, called negative transfer. The negative transfer hampers function from achieving the optimality and degrades the performance. To solve the problem of the task conflict, previous works only suggested partial solutions that are not fundamental, but ad-hoc. A common approach is using a weighted sum of losses. The weights are adjusted to induce positive transfer. Paradoxically, this kind of solution acknowledges the problem of negative transfer and cannot remove it unless the weight of the task is set to zero. Therefore, these previous methods had limited success. In this paper, we introduce a novel approach that can drive positive transfer and suppress negative transfer by leveraging class-wise weights in the learning process. The weights act as an arbitrator of the fundamental unit of information to determine its positive or negative status to the main task. | 翻訳日:2022-11-02 17:26:43 公開日:2020-08-05 |