このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210723となっている論文です。

PDF登録状況(公開日: 20210723)

TitleAuthorsAbstract論文公表日・翻訳日
# 小格子におけるボゾン分数量子ホールのためのフロケットエンジニアリングフラットバンド

Floquet engineering flat bands for bosonic fractional quantum Hall in small lattices ( http://arxiv.org/abs/2009.00087v2 )

ライセンス: Link先を確認
Rongchun Ge and Michael Kolodrubetz(参考訳) トポロジカル秩序で新しい物質相を実現するための探求は、強く相関した物理学と量子情報に意味を持つ重要な追求である。 超伝導回路などの人工量子システムの最先端のコヒーレント制御のアイデアを活かし、スタッガードフラックスパターンを用いたほぼ平坦なトポロジーバンドを作成し、小格子上のボソニック分数量子ホール物理を実現する。 電荷ポンプによる分数化の指紋は、24個の格子点(2つの光子)を用いてほぼ完全な量子化で観察することができる。 超伝導量子ビットの有限格子を用いた三角格子および正方格子上の円筒接続の実装を提案する。

The quest to realize novel phases of matter with topological order is an important pursuit with implications for strongly correlated physics and quantum information. Utilizing ideas from state-of-the-art coherent control of artificial quantum systems such as superconducting circuits, we present a proposal to realize bosonic fractional quantum Hall physics on small lattices by creating nearly flat topological bands using staggered flux patterns. Fingerprints of fractionalization through charge pumping can be observed with nearly perfect quantization using as few as 24 lattice sites (two photons). We suggest an implementation using a finite lattice of superconducting qubits with cylindrical connectivity on both triangular and square lattices.
翻訳日:2023-05-04 05:13:29 公開日:2021-07-23
# ベイズ量子多相推定アルゴリズム

Bayesian Quantum Multiphase Estimation Algorithm ( http://arxiv.org/abs/2010.09075v2 )

ライセンス: Link先を確認
Valentin Gebhart, Augusto Smerzi, Luca Pezz\`e(参考訳) 量子位相推定(QPE)は、いくつかの量子コンピューティングアルゴリズムの重要なサブルーチンであり、量子計算化学と量子シミュレーションの中心的な要素である。 QPE戦略は単一位相の推定に重点を置いているが、複数の位相の同時推定への応用は、例えば空間的制約や時間的制約の存在において、大きな利点をもたらす可能性がある。 本研究では,複数の任意位相の並列(同時)推定のためのベイズアルゴリズムについて検討する。 このプロトコルはベイズ多相分布の相関へのアクセスを与え、量子リソースの総数の2乗に逆比例する共分散行列要素を生成する。 並列推定は相の最適線形結合に対する逐次単相推定戦略の感度を超越することができる。 さらに、アルゴリズムは特定のノイズ耐性を証明し、現在利用可能な実験において単一の光子と標準光学素子を用いて実装することができる。

Quantum phase estimation (QPE) is the key subroutine of several quantum computing algorithms as well as a central ingredient in quantum computational chemistry and quantum simulation. While QPE strategies have focused on the estimation of a single phase, applications to the simultaneous estimation of several phases may bring substantial advantages; for instance, in the presence of spatial or temporal constraints. In this work, we study a Bayesian algorithm for the parallel (simultaneous) estimation of multiple arbitrary phases. The protocol gives access to correlations in the Bayesian multi-phase distribution resulting in covariance matrix elements scaling inversely proportional to the square of the total number of quantum resources. The parallel estimation allows to surpass the sensitivity of sequential single-phase estimation strategies for optimal linear combinations of phases. Furthermore, the algorithm proves a certain noise resilience and can be implemented using single photons and standard optical elements in currently accessible experiments.
翻訳日:2023-04-28 17:50:47 公開日:2021-07-23
# 超伝導量子室温制御システムのための高周波混合モジュール

Radio frequency mixing modules for superconducting qubit room temperature control systems ( http://arxiv.org/abs/2101.00066v3 )

ライセンス: Link先を確認
Yilun Xu, Gang Huang, David I. Santiago and Irfan Siddiqi(参考訳) 量子処理ユニットの量子ビット数が増加するにつれて、第1世代実験で使用されるコネクタ化されたRFアナログ回路は非常に複雑になる。 物理的サイズ、コスト、電気的故障率は全て制御システムの拡張性に制限因子となる。 I/Q二次混合、IF/LO/RFパワーレベル調整、直流(直流)バイアス微調整を40 mm $\times $ 80 mm 4-layer PCB(プリント回路基板)基板とEMI(電磁妨害)シールドと組み合わせることで、この課題に対処するためのコンパクトなRF混合基板を開発した。 RF混合モジュールは2.5GHzから8.5GHzのRFとLOの周波数で動作するように設計されている。 典型的な画像拒絶と隣接するチャネル分離は、$\sim$27 dbcと$\sim$50 dbと測定される。 ループバックテストで駆動位相を走査することで、モジュールの短期振幅と位相線形性は通常、5$\times$10$^{-4}$ (v$_{\mathrm{pp}}$/v$_{\mathrm{mean}}$)、1$\times$10$^{-3}$ radian (pk-pk)と測定される。 RF混合基板の動作は、超伝導量子プロセッサの室温制御システムに統合し、単一および2つの量子ビットゲートのランダム化ベンチマーク特性を実行することにより検証された。 単量子プロセス不完全度は9.3(3) \times 10^{-4}$、2量子プロセス不忠実度は2.7(1) \times 10^{-2}$である。

As the number of qubits in nascent quantum processing units increases, the connectorized RF (radio frequency) analog circuits used in first generation experiments become exceedingly complex. The physical size, cost and electrical failure rate all become limiting factors in the extensibility of control systems. We have developed a series of compact RF mixing boards to address this challenge by integrating I/Q quadrature mixing, IF(intermediate frequency)/LO(local oscillator)/RF power level adjustments, and DC (direct current) bias fine tuning on a 40 mm $\times $ 80 mm 4-layer PCB (printed circuit board) board with EMI (electromagnetic interference) shielding. The RF mixing module is designed to work with RF and LO frequencies between 2.5 and 8.5 GHz. The typical image rejection and adjacent channel isolation are measured to be $\sim$27 dBc and $\sim$50 dB. By scanning the drive phase in a loopback test, the module short-term amplitude and phase linearity are typically measured to be 5$\times$10$^{-4}$ (V$_{\mathrm{pp}}$/V$_{\mathrm{mean}}$) and 1$\times$10$^{-3}$ radian (pk-pk). The operation of RF mixing board was validated by integrating it into the room temperature control system of a superconducting quantum processor and executing randomized benchmarking characterization of single and two qubit gates. We measured a single-qubit process infidelity of $9.3(3) \times 10^{-4}$ and a two-qubit process infidelity of $2.7(1) \times 10^{-2}$.
翻訳日:2023-04-18 05:32:17 公開日:2021-07-23
# パラメータ化回路の時間発展のための効率的な量子アルゴリズム

An efficient quantum algorithm for the time evolution of parameterized circuits ( http://arxiv.org/abs/2101.04579v3 )

ライセンス: Link先を確認
Stefano Barison and Filippo Vicentini and Giuseppe Carleo(参考訳) パラメータ化量子回路を用いた量子システムのリアルタイム進化をシミュレートする新しいハイブリッドアルゴリズムを提案する。 この手法は"projected- variational quantum dynamics" (p-vqd) と呼ばれ、パラメータ化された多様体に正確な時間発展を反復的に大域的に投影する。 小さな時間段階の極限では、これはマクラークランの変分原理と同値である。 本手法は,変動パラメータの総数を考慮した最適線形スケーリングを示すという意味で効率的である。 さらに、全てのパラメータを一度に最適化するために変分原理を使用するという意味ではグローバルである。 提案手法のグローバルな性質は,変分パラメータの制限された部分集合の反復的最適化に依存する従来の効率的な変分メソッドの範囲を大幅に拡張する。 数値実験により,パラメータ数による2次スケーリングが要求されるため,大規模なパラメータ化量子回路には適さないという時間依存性の変動原理に基づいて,既存のグローバル最適化アルゴリズムよりも特に有利であることを示す。

We introduce a novel hybrid algorithm to simulate the real-time evolution of quantum systems using parameterized quantum circuits. The method, named "projected - Variational Quantum Dynamics" (p-VQD) realizes an iterative, global projection of the exact time evolution onto the parameterized manifold. In the small time-step limit, this is equivalent to the McLachlan's variational principle. Our approach is efficient in the sense that it exhibits an optimal linear scaling with the total number of variational parameters. Furthermore, it is global in the sense that it uses the variational principle to optimize all parameters at once. The global nature of our approach then significantly extends the scope of existing efficient variational methods, that instead typically rely on the iterative optimization of a restricted subset of variational parameters. Through numerical experiments, we also show that our approach is particularly advantageous over existing global optimization algorithms based on the time-dependent variational principle that, due to a demanding quadratic scaling with parameter numbers, are unsuitable for large parameterized quantum circuits.
翻訳日:2023-04-17 00:33:48 公開日:2021-07-23
# 光子の一般量子状態に対する高次元密度行列の直接トモグラフィー

Direct tomography of high-dimensional density matrices for general quantum states of photons ( http://arxiv.org/abs/2102.01271v2 )

ライセンス: Link先を確認
Yiyu Zhou, Jiapeng Zhao, Darrick Hay, Kendrick McGonagle, Robert W. Boyd, Zhimin Shi(参考訳) 量子状態トモグラフィーは、一般的な量子状態の密度行列を特徴づけるために用いられる従来の方法である。 しかし、データ取得時間は一般にヒルベルト空間の次元と線形にスケールし、高次元量子システムの動的監視の可能性を妨げる。 本研究では,偏光分解カメラを用いて,光子の密度行列を位置ベースで測定するための直接トモグラフィープロトコルを示す。 偏光分解カメラを用いることにより、位置および偏光ベースでの並列測定が可能となり、その結果、このプロトコルのデータ取得時間はヒルベルト空間の次元に応じて増加せず、カメラ露光時間(10ms)でのみ決定される。 本手法は, 量子状態のダイナミクスのリアルタイムモニタリングに有用であり, 高次元, 時間効率の量子メトロロジー手法の開発への道を開くものである。

Quantum state tomography is the conventional method used to characterize density matrices for general quantum states. However, the data acquisition time generally scales linearly with the dimension of the Hilbert space, hindering the possibility of dynamic monitoring of a high-dimensional quantum system. Here, we demonstrate a direct tomography protocol to measure density matrices of photons in the position basis through the use of a polarization-resolving camera, where the dimension of density matrices can be as large as 580$\times$580 in our experiment. The use of the polarization-resolving camera enables parallel measurements in the position and polarization basis and as a result, the data acquisition time of our protocol does not increase with the dimension of the Hilbert space and is solely determined by the camera exposure time (on the order of 10 ms). Our method is potentially useful for the real-time monitoring of the dynamics of quantum states and paves the way for the development of high-dimensional, time-efficient quantum metrology techniques.
翻訳日:2023-04-13 00:51:41 公開日:2021-07-23
# 密度汎関数理論の電荷非局在化誤差の低減

Reducing charge delocalization error of density functional theory ( http://arxiv.org/abs/2102.12992v2 )

ライセンス: Link先を確認
Emil Proynov and Jing Kong(参考訳) 非動的相関の他に電荷非局在化誤差は密度汎関数論にとって大きな課題となっている。 対称電荷二量体A2+の解離は、単純だが厳密な試験であり、急激な障壁を予測し、荷電分子クラスターの電荷を不適切に非局在化する。 非動的相関のために設計された関数を拡張し、平行スピンに対する非動的相関を修正して電荷非局在化誤差に対処する。 修正された関数はこれらの問題を排除し、多電子自己相互作用誤差を低減する。 さらに、ccsd(t) の解離範囲全体において、その結果は現代の函数と比較して最も近い。 正の正電荷を(CH4)n+クラスターに正しく局在させ、その結果、ほぼ一定のイオン化ポテンシャルを予測する。 sie4x4 セットのテストは、このセットが文献で評価された多種多様な機能よりも優れていることを示している。 総じて,電荷非局在化と非動的相関を併用した処理の可能性を示す。

The charge delocalization error, besides nondynamic correlation, has been a major challenge to density functional theory. Contemporary functionals undershoot the dissociation of symmetric charged dimers A2+, a simple but stringent test, predict a spurious barrier and improperly delocalize charges for charged molecular clusters. We extend a functional designed for nondynamic correlation to treat the charge delocalization error by modifying the nondynamic correlation for parallel spins. The modified functional eliminates those problems and reduces the multielectron self-interaction error. Furthermore, its results are the closest to those of CCSD(T) in the whole range of the dissociation compared with contemporary functionals. It correctly localizes the net positive charge in (CH4)n+ clusters and predicts a nearly constant ionization potential as a result. Testing of the SIE4x4 set shows that the new functional outperforms a wide variety of functionals assessed for this set in the literature. Overall, we show the feasibility of treating charge delocalization together with nondynamic correlation.
翻訳日:2023-04-09 22:40:14 公開日:2021-07-23
# 熱化高調波発振器のパルス特性関数測定

Pulsed characteristic-function measurement of a thermalizing harmonic oscillator ( http://arxiv.org/abs/2103.00877v2 )

ライセンス: Link先を確認
Ralf Betzholz, Yu Liu, Jianming Cai(参考訳) 本稿では、制御や測定に完全にアクセスできない熱化高調波発振器のウィグナー特性関数を直接測定する方法を提案する。 この戦略は、最近提案された2段プローブのパルス制御に依存するプローブ測定に基づくスキーム(Phys. Lett. 122, 110406 (2019))を採用している。 我々はこのスキームを、ターゲット調和振動子の非単位時間発展の場合に一般化し、リンドブラッドマスター方程式の形で与えられる有限温度環境との接触による熱化を記述する。 この一般化は超作用素形式を用いて達成され、測定過程におけるデコヒーレンスを考慮した特性関数の直接測定のための解析式を得る。

We present a method for the direct measurement of the Wigner characteristic function of a thermalizing harmonic oscillator that is completely inaccessible for control or measurement. The strategy employs a recently proposed probe-measurement-based scheme [Phys. Rev. Lett. 122, 110406 (2019)] which relies on the pulsed control of a two-level probe. We generalize this scheme to the case of a nonunitary time evolution of the target harmonic oscillator, describing its thermalization through contact to a finite-temperature environment, given in the form of a Lindblad master equation. This generalization is achieved using a superoperator formalism and yields analytical expressions for the direct measurement of the characteristic function, accounting for the decoherence during the measurement process.
翻訳日:2023-04-09 14:42:58 公開日:2021-07-23
# ツイストモイレヘテロ二層膜の格子構造と次元性のフロケット工学

Floquet engineering of lattice structure and dimensionality in twisted moir\'e heterobilayers ( http://arxiv.org/abs/2103.09874v2 )

ライセンス: Link先を確認
Rong-Chun Ge, Michael Kolodrubetz(参考訳) 本稿では, 時間周期フロッケ駆動による遷移金属ジカルコゲナイド(tmd)ヘテロ二層における有効格子構造をチューニングするための実験的提案を行う。 楕円偏光はサブテラヘルツ周波数$\hbar\omega\sim 1$ meVと中等電場$E\sim0.2$~MV/cmで固有三角格子と正方格子のチューニングが可能であり、線形偏光は準一次元幾何学への次元還元を可能にすることを示す。 ドライブなしでは、これらのねじれたTMDはシングルバンドのFermi-Hubbardモデルをシミュレートする。 この制御は、スピン液体やd波超伝導など、多様な相関した物質の相を探索するための扉を開く。

We present an experimental proposal to tune the effective lattice structure in twisted transition metal dichalcogenide (TMD) heterobilayers with time-periodic Floquet drive. We show that elliptically polarized light with sub-terahertz frequencies $\hbar\omega\sim 1$ meV and moderate electric fields $E\sim0.2$~MV/cm allows tuning between the native triangular lattice and a square lattice, while linearly polarized light enables dimensional reduction to a quasi-one-dimensional geometry. Without drive, these twisted TMDs simulate the single band Fermi-Hubbard model; we show that this approximation still holds in the presence of drive. This control opens the door to explore a rich variety of correlated phases of matter, such as spin liquids and d-wave superconductivity.
翻訳日:2023-04-07 21:01:05 公開日:2021-07-23
# 情報共有を用いた変分量子アルゴリズム

Variational quantum algorithm with information sharing ( http://arxiv.org/abs/2103.16161v2 )

ライセンス: Link先を確認
Chris N. Self, Kiran E. Khosla, Alistair W. R. Smith, Frederic Sauvage, Peter D. Haynes, Johannes Knolle, Florian Mintert, and M. S. Kim(参考訳) 本稿では,変分量子アルゴリズムの最適化手法を導入し,naive実装と比較して100倍の効率改善を実験的に実証する。 提案手法の有効性は, 小分子の多次元エネルギー面とスピンモデルにより示される。 本手法は,ベイズ最適化のグローバルな性質と,異なるオプティマイザ間での情報共有を利用して,関連する変分問題を並列に解く。 並列化は,様々な自由度を持つ次世代の変分問題に最適である。 これは、実世界の関心のある問題に対する量子優位を示すために量子アルゴリズムをスケールアップする上での重要な課題である。

We introduce an optimisation method for variational quantum algorithms and experimentally demonstrate a 100-fold improvement in efficiency compared to naive implementations. The effectiveness of our approach is shown by obtaining multi-dimensional energy surfaces for small molecules and a spin model. Our method solves related variational problems in parallel by exploiting the global nature of Bayesian optimisation and sharing information between different optimisers. Parallelisation makes our method ideally suited to next generation of variational problems with many physical degrees of freedom. This addresses a key challenge in scaling-up quantum algorithms towards demonstrating quantum advantage for problems of real-world interest.
翻訳日:2023-04-06 03:49:59 公開日:2021-07-23
# 磁場下における双曲バンド理論と高次属表面上のディラックコーン

Hyperbolic Band Theory under Magnetic Field and Dirac Cones on a Higher Genus Surface ( http://arxiv.org/abs/2104.13314v4 )

ライセンス: Link先を確認
Kazuki Ikeda, Shoto Aoki, Yoshiyuki Matsuki(参考訳) 我々は磁場下での双曲バンド理論を初めて研究する。 この理論は、ユークリッド格子上で定義される従来のバンド理論の一般双曲格子/リーマン面上のバンド理論への一般化である。 この方法と結果は回路量子電磁力学(cqed)によって実験的に確認でき、双曲空間で新しい材料を作成できる。 バンド構造を調べるために、双曲磁性ブロッホ状態を直接構築し、それらは座標近傍でディラック錐を形成し、実験室で検出可能な大域的な量子重力解と見なすことができる。 さらにこれは、高次の属表面上の質量を持たないディラック状態の最初の明示的な例である。 さらに, 磁束関数としてプロットした場合, エネルギースペクトルは負曲率を屈折する異常なフラクタル構造を示すことを示した。

We explore the hyperbolic band theory under a magnetic field for the first time. Our theory is a general extension of the conventional band theory defined on a Euclidean lattice into the band theory on a general hyperbolic lattice/Riemann surface. Our methods and results can be confirmed experimentally by circuit quantum electrodynamics (cQED), which enables us to create novel materials in a hyperbolic space. To investigate the band structures, we construct directly the hyperbolic magnetic Bloch states and find that they form Dirac cones on a coordinate neighborhood, by which they can be regarded as a global quantum gravity solution detectable in a laboratory. Besides this is the first explicit example of a massless Dirac state on a higher genus surface. Moreover we show that the energy spectrum exhibits an unusual fractal structure refracting the negative curvature, when plotted as a function of a magnetic flux.
翻訳日:2023-04-02 06:39:13 公開日:2021-07-23
# 原子配列と相互作用する光に対する最低次平均場理論

Beyond lowest order mean field theory for light interacting with atom arrays ( http://arxiv.org/abs/2105.06786v2 )

ライセンス: Link先を確認
F. Robicheaux and Deepak A. Suresh(参考訳) 原子配列と相互作用する光の高次平均場計算の結果を1時間と2時間の期待値の計算に用いた。 原子は2つの準位に近似し、空間的に固定される。 1つの演算子(平均場)、2つの演算子(平均場-2)、3つの演算子(平均場-3)の期待値を含む平均場近似について計算を行った。 1回の期待値について,平均場の次数の増加と高次平均場近似のいくつかの制限を伴う収束を理解するために,3つの異なる状況を検討した。 2回期待値の表現として、複数の放射角と2つの異なる強度で垂直平面波によって照らされた原子列に対する$g^{(2)}(\tau )$を計算した。 多くの場合、平均場2は1時間予測値によって測定された原子の応答を定量的に予測するのに十分な精度を持つ。 しかし、平均体 3 近似は2回の期待値にしばしば必要となる。

Results from higher order mean field calculations of light interacting with atom arrays are presented for calculations of one- and two-time expectation values. The atoms are approximated as two-levels and are fixed in space. Calculations were performed for mean field approximations that include the expectation value of one operator (mean field), two operators (mean field-2), and three operators (mean field-3). For the one-time expectation values, we examined three different situations to understand the convergence with increasing order of mean field and some limitations of higher order mean field approximations. As a representation of a two-time expectation value, we calculated the $g^{(2)}(\tau )$ for a line of atoms illuminated by a perpendicular plane wave at several emission angles and two different intensities. For many cases, the mean field-2 will be sufficiently accurate to quantitatively predict the response of the atoms as measured by one-time expectation values. However, the mean field-3 approximation will often be needed for two-time expectation values.
翻訳日:2023-03-31 04:20:59 公開日:2021-07-23
# ボース・アインシュタイン凝縮体における星型表面パターンの自発的形成

Spontaneous Formation of Star-Shaped Surface Patterns in a Driven Bose-Einstein Condensate ( http://arxiv.org/abs/2105.09794v2 )

ライセンス: Link先を確認
K. Kwon, K. Mukherjee, S. Huh, K. Kim, S. I. Mistakidis, D. K. Maity, P. G. Kevrekidis, S. Majumder, P. Schmelcher, J.-y. Choi(参考訳) ボース・アインシュタイン凝縮体における星形表面パターンの自然形成を実験的に観察した。 四重極(l=2$)から六角形(l=7$)までの2次元の星形パターンは、フェシュバッハ共鳴付近の散乱長を調節することによってパラメトリック的に励起される。 マチュー方程式とフロケ解析を有効に利用し、不安定性条件と閉じ込められた超流体の表面モードの分散を関連づける。 パターンの共鳴周波数を同定し,集合励起の分散関係を正確に測定した。 表面励起の振動振幅は変調中に指数関数的に増加する。 l=6$モードだけが不安定であることは、雲の双極子運動と創発的結合のためである。 実験結果は平均場フレームワークとよく一致している。 本研究は, 量子流体のエキゾチックな性質の探索や, 量子乱流の生成機構などの応用により, 高次集団励起を生成する新しい経路を開拓する。

We observe experimentally the spontaneous formation of star-shaped surface patterns in driven Bose-Einstein condensates. Two-dimensional star-shaped patterns with $l$-fold symmetry, ranging from quadrupole ($l=2$) to heptagon modes ($l=7$), are parametrically excited by modulating the scattering length near the Feshbach resonance. An effective Mathieu equation and Floquet analysis are utilized, relating the instability conditions to the dispersion of the surface modes in a trapped superfluid. Identifying the resonant frequencies of the patterns, we precisely measure the dispersion relation of the collective excitations. The oscillation amplitude of the surface excitations increases exponentially during the modulation. We find that only the $l=6$ mode is unstable due to its emergent coupling with the dipole motion of the cloud. Our experimental results are in excellent agreement with the mean-field framework. Our work opens a new pathway for generating higher-lying collective excitations with applications, such as the probing of exotic properties of quantum fluids and providing a generation mechanism of quantum turbulence.
翻訳日:2023-03-30 07:18:09 公開日:2021-07-23
# 超短パルスレーザーにおけるフラストレーショントンネルダイナミクス

Frustrated tunneling dynamics in ultrashort laser pulses ( http://arxiv.org/abs/2106.01082v2 )

ライセンス: Link先を確認
Edvin Olofsson, Stefanos Carlstr\"om and Jan Marcus Dahlstr\"om(参考訳) 超短パルスレーザーを用いたフラストレーショントンネルイオン化モデルについて検討した。 このモデルは強磁場近似に基づいており、リドバーグ状態において捕獲される準古典的軌道を予測するために鞍点近似を用いる。 本研究では, サドル点解の分類を行い, 最終状態の角運動量, レーザーパルスのキャリア-エンベロープ位相 (cep) の関数としての挙動について検討する。 モデルにより計算された最終状態の個体群と,水素原子に対する時間依存型シュリンガー方程式(TDSE)の数値伝播により得られた結果とを比較した。 主量子数における集団のCEP依存性の質的な一致は、$n$、個々の角運動量チャネルへの集団$\ell$は、モデルとTDSEの間に矛盾する。 以上の結果から, フラストレーショントンネルアイオニザイトンの定量的モデルとして, 準古典軌道の改良が期待できることがわかった。

We study a model for frustrated tunneling ionization using ultrashort laser pulses. The model is based on the strong field approximation and it employs the saddle point approximation to predict quasiclassical trajectories that are captured on Rydberg states. We present a classification of the saddle-point solutions and explore their behavior as functions of angular momentum of the final state, as well as the carrier--envelope phase (CEP) of the laser pulse. We compare the final state population computed by the model to results obtained by numerical propagation of the time-dependent Schr\"odinger equation (TDSE) for the hydrogen atom. While we find qualitative agreement in the CEP dependence of the populations in principal quantum numbers, $n$, the populations to individual angular momentum channels, $\ell$, are found to be inconsistent between model and TDSE. Thus, our results show that improvements of the quasiclassical trajectories are in order for a quantitative model of frustrated tunneling ionizaiton.
翻訳日:2023-03-28 01:33:24 公開日:2021-07-23
# 二次ハミルトニアンおよび任意の初期状態に対する絡み合いエントロピーの線形成長

Linear growth of the entanglement entropy for quadratic Hamiltonians and arbitrary initial states ( http://arxiv.org/abs/2107.11064v1 )

ライセンス: Link先を確認
Giacomo De Palma, Lucas Hackl(参考訳) 我々は、不安定な二次ハミルトニアンによって引き起こされる力学に関して、2部量子系の純粋な初期状態の絡み合いエントロピーが時間的に線形に増加することを証明した。 成長速度は初期状態に依存しず、対応する古典力学のある種のリアプノフ指数の和に等しい。 本稿では, [Bianchi et al., JHEP 2018, 25 (2018)] の結果を一般化する。 我々の証明は、ボゾン量子系 [De Palma et al., arXiv:2105.05627] に対するフォン・ノイマンエントロピーの強い部分付加性の最近の一般化に基づいている。 この手法により, エンタングルメントエントロピーの正しい一般化を実現するため, 一般混合初期状態まで結果を拡張できる。 我々は、ハミルトニアンの相互作用と周期的に駆動される量子系を持つ物理系に対して、ある量子場理論モデルを含むいくつかの結果の応用について論じる。

We prove that the entanglement entropy of any pure initial state of a bipartite bosonic quantum system grows linearly in time with respect to the dynamics induced by any unstable quadratic Hamiltonian. The growth rate does not depend on the initial state and is equal to the sum of certain Lyapunov exponents of the corresponding classical dynamics. This paper generalizes the findings of [Bianchi et al., JHEP 2018, 25 (2018)], which proves the same result in the special case of Gaussian initial states. Our proof is based on a recent generalization of the strong subadditivity of the von Neumann entropy for bosonic quantum systems [De Palma et al., arXiv:2105.05627]. This technique allows us to extend our result to generic mixed initial states, with the squashed entanglement providing the right generalization of the entanglement entropy. We discuss several applications of our results to physical systems with (weakly) interacting Hamiltonians and periodically driven quantum systems, including certain quantum field theory models.
翻訳日:2023-03-21 03:30:48 公開日:2021-07-23
# 量子非対称性とノイズマルチモード干渉法

Quantum asymmetry and noisy multi-mode interferometry ( http://arxiv.org/abs/2107.11057v1 )

ライセンス: Link先を確認
Francesco Albarelli, Mateusz Mazelanik, Micha{\l} Lipka, Alexander Streltsov, Micha{\l} Parniak, Rafal Demkowicz-Dobrzanski(参考訳) 量子非対称性(quantum asymmetry)は、干渉実験における位相符号化を担う発電機の固有空間間のコヒーレンス量と一致する物理資源である。 退化部分空間内でのコヒーレンスの結果、非対称性が \emph{increase} となるという明らかに反直観的な振る舞いを強調する。 一つのアームが信号を持ち、2つのノイズの基準アームが変動する3つのモードの単光子干渉実験を行うことで、直感的に現象を説明し、説明する。 観測された感度向上の源は、これらのゆらぎ間の相関の低減であり、単一光子量子レベルから古典的レジームへの移行における効果の影響についてのコメントである。 最後に, 絡み合い資源理論における効果の類似性も確立する。

Quantum asymmetry is a physical resource which coincides with the amount of coherence between the eigenspaces of a generator responsible for phase encoding in interferometric experiments. We highlight an apparently counter-intuitive behavior that the asymmetry may \emph{increase} as a result of a \emph{decrease} of coherence inside a degenerate subspace. We intuitively explain and illustrate the phenomena by performing a three-mode single-photon interferometric experiment, where one arm carries the signal and two noisy reference arms have fluctuating phases. We show that the source of the observed sensitivity improvement is the reduction of correlations between these fluctuations and comment on the impact of the effect when moving from the single-photon quantum level to the classical regime. Finally, we also establish the analogy of the effect in the case of entanglement resource theory.
翻訳日:2023-03-21 03:30:31 公開日:2021-07-23
# 散乱問題の前漸近解析

Pre-asymptotic analysis of scattering problem ( http://arxiv.org/abs/2107.11040v1 )

ライセンス: Link先を確認
S.E. Korenblit, S.V. Lovtsov, A.V. Sinitskaya(参考訳) 任意のスピンと短距離相互作用を持つ粒子に対するマルチチャネル散乱問題の漸近前解析を行った。 ユニタリティ条件と正確に一致する目標までの距離における散乱微分フラックスの完全作用素値依存性が得られた。

The pre-asymptotic analysis of the multichannel scattering problem for particles with an arbitrary spin and short-range interactions has been presented. The complete operator-valued dependence of the scattered differential flux on the distance to the target exactly consistent with the unitarity condition has been obtained.
翻訳日:2023-03-21 03:30:03 公開日:2021-07-23
# ユビキタスデバイスによるプライバシーのユーザ認識

User Perception of Privacy with Ubiquitous Devices ( http://arxiv.org/abs/2107.11029v1 )

ライセンス: Link先を確認
Priyam Rajkhowa and Pradipta Biswas(参考訳) プライバシーは、日常生活のすべての個人にとって重要である。 新興技術、ARを搭載したスマートフォン、さまざまなソーシャルネットワークアプリケーション、人工知能による監視モードなど、プライバシーを侵害する傾向がある。 本研究は,ユビキタス技術時代におけるプライバシの認識に関する様々な懸念を探究し,探究することを目的とした。 プライバシのユーザ視点を調査するために,オンラインアンケートを用いた。 60名の被験者からデータを収集するために, 推定サンプリングが用いられた。 帰納的主題分析はデータ分析に用いられた。 本研究では,公私空間におけるプライバシに対する態度,プライバシ意識,同意を求めること,さまざまな技術に関連するジレンマ/融和,公私空間におけるプライバシの侵入から身を守る方法に関する個人行動に対する態度と信念の影響について検討した。 これらのテーマは互いに相互作用し、様々な行動の形成に影響した。 それらは、参加者と傍観者の両方のプライバシー侵害を防ぐ行動を形成する中核的な原則のようだった。 この研究の発見は、様々な新興技術のプライバシーとパーソナライズを改善するのに役立つだろう。 本研究は,ユーザの心理的ニーズを考慮し,デザインによるプライバシとポジティブデザインに寄与する。 この知見は, 経験設計, 肯定的技術, ソーシャルコンピューティング, 行動介入の分野に適用可能であることが示唆された。

Privacy is important for all individuals in everyday life. With emerging technologies, smartphones with AR, various social networking applications and artificial intelligence driven modes of surveillance, they tend to intrude privacy. This study aimed to explore and discover various concerns related to perception of privacy in this era of ubiquitous technologies. It employed online survey questionnaire to study user perspectives of privacy. Purposive sampling was used to collect data from 60 participants. Inductive thematic analysis was used to analyze data. Our study discovered key themes like attitude towards privacy in public and private spaces, privacy awareness, consent seeking, dilemmas/confusions related to various technologies, impact of attitude and beliefs on individuals actions regarding how to protect oneself from invasion of privacy in both public and private spaces. These themes interacted amongst themselves and influenced formation of various actions. They were like core principles that molded actions that prevented invasion of privacy for both participant and bystander. Findings of this study would be helpful to improve privacy and personalization of various emerging technologies. This study contributes to privacy by design and positive design by considering psychological needs of users. This is suggestive that the findings can be applied in the areas of experience design, positive technologies, social computing and behavioral interventions.
翻訳日:2023-03-21 03:29:59 公開日:2021-07-23
# UAVを用いたインターネット・オブ・Thingsデータ収集のための軌道設計:深層強化学習アプローチ

Trajectory Design for UAV-Based Internet-of-Things Data Collection: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2107.11015v1 )

ライセンス: Link先を確認
Yang Wang, Zhen Gao, Jun Zhang, Xianbin Cao, Dezhi Zheng, Yue Gao, Derrick Wing Kwan Ng, Marco Di Renzo(参考訳) 本論文では,UAVの軌道を最適化して複数のIoT地上ノードから効率的にデータを収集する高度3次元環境において,無人航空機(UAV)を利用したIoT(Internet-of-Things)システムについて検討する。 従来の2次元シナリオと完全チャネル状態情報(csi)の可用性にのみ焦点をあてたアプローチとは異なり,本論文では,実用的スループットと飛行動作制約によるデータ収集完了時間の最小化を目的とした,不完全csiを用いた実用的な3次元都市環境を考察する。 具体的には、最先端の深部強化学習アプローチから着想を得て、ツイン遅延の深部決定性ポリシー勾配(TD3)を利用してUAVの軌道を設計し、TD3に基づくTD3-TDCTMアルゴリズムを提案する。 特に,統合フェロモンという付加情報を,UAVと環境の状態情報を表すために,アルゴリズム設計を容易にする報酬の参照として設定した。 IoTノードのサービスステータス、UAVの位置、およびマージされたフェロモンを入力として、提案アルゴリズムは、UAVの動作戦略の調整方法を継続的に適応的に学習することができる。 マルコフ決定過程における外部環境との相互作用により,提案アルゴリズムは準最適ナビゲーション戦略を実現することができる。 提案するtd3-tdctmアルゴリズムは,従来の3つの非学習ベースライン法よりも優れていることを示す。

In this paper, we investigate an unmanned aerial vehicle (UAV)-assisted Internet-of-Things (IoT) system in a sophisticated three-dimensional (3D) environment, where the UAV's trajectory is optimized to efficiently collect data from multiple IoT ground nodes. Unlike existing approaches focusing only on a simplified two-dimensional scenario and the availability of perfect channel state information (CSI), this paper considers a practical 3D urban environment with imperfect CSI, where the UAV's trajectory is designed to minimize data collection completion time subject to practical throughput and flight movement constraints. Specifically, inspired from the state-of-the-art deep reinforcement learning approaches, we leverage the twin-delayed deep deterministic policy gradient (TD3) to design the UAV's trajectory and present a TD3-based trajectory design for completion time minimization (TD3-TDCTM) algorithm. In particular, we set an additional information, i.e., the merged pheromone, to represent the state information of UAV and environment as a reference of reward which facilitates the algorithm design. By taking the service statuses of IoT nodes, the UAV's position, and the merged pheromone as input, the proposed algorithm can continuously and adaptively learn how to adjust the UAV's movement strategy. By interacting with the external environment in the corresponding Markov decision process, the proposed algorithm can achieve a near-optimal navigation strategy. Our simulation results show the superiority of the proposed TD3-TDCTM algorithm over three conventional non-learning based baseline methods.
翻訳日:2023-03-21 03:29:38 公開日:2021-07-23
# 単一核スピンへのメカニクスのコヒーレントカップリング

Coherent coupling of mechanics to a single nuclear spin ( http://arxiv.org/abs/2107.10961v1 )

ライセンス: Link先を確認
Smarak Maity, Benjamin Pingault, Graham Joe, Michelle Chalupnik, Daniel Assump\c{c}\~ao, Eliza Cornell, Linbo Shao, Marko Lon\v{c}ar(参考訳) 核スピンは環境と弱い相互作用をする。 特に、一般に機械的な振動に敏感である。 ここでは,単一核スピンへの力学のコヒーレント結合を実証することに成功した。 この結合はダイヤモンド中のシリコン空孔(SiV)中心によって媒介され、その大きなひずみ感受性と核スピンとの超微細な相互作用を利用する。 核スピンはこのカップリングの存在下でも優れたコヒーレンス特性を保っていることを実証する。 これにより、量子状態における機械系の量子記憶として核スピンを利用することができる。

Nuclear spins interact weakly with their environment. In particular, they are generally insensitive to mechanical vibrations. Here, we successfully demonstrate the coherent coupling of mechanics to a single nuclear spin. This coupling is mediated by a silicon vacancy (SiV) centre in diamond, taking advantage of its large strain susceptibility and hyperfine interaction with nuclear spins. Importantly, we demonstrate that the nuclear spin retains its excellent coherence properties even in the presence of this coupling. This provides a way to leverage nuclear spins as quantum memories for mechanical systems in the quantum regime.
翻訳日:2023-03-21 03:28:55 公開日:2021-07-23
# 変調傾斜光学格子における任意の分散関係の合成

Synthesizing arbitrary dispersion relations in a modulated tilted optical lattice ( http://arxiv.org/abs/2107.11268v1 )

ライセンス: Link先を確認
Jean Claude Garreau and V\'eronique Zehnl\'e(参考訳) 分散関係は量子系と波動系の力学の基本特性である。 本研究では,変調傾斜格子内の任意の分散関係を生成するための簡易な手法を提案する。 この技法はディラック、ボゴリューボフ、ランダウの分散関係(後者はロートンとマクソンを表わす)という重要な例によって示される。 格子変調にスローチャープを加えることで,動的量から分散関係を再構築できることを示す。 最後に,この手法を高次元に一般化し,グラフェン様のディラック点と平面帯を2次元で生成する。

Dispersion relations are fundamental characteristics of the dynamics of quantum and wave systems. In this work we introduce a simple technique to generate arbitrary dispersion relations in a modulated tilted lattice. The technique is illustrated by important examples: the Dirac, Bogoliubov and Landau dispersion relations (the latter exhibiting the roton and the maxon). We show that adding a slow chirp to the lattice modulation allows one to reconstruct the dispersion relation from dynamical quantities. Finally, we generalize the technique to higher dimensions, and generate graphene-like Dirac points and flat bands in two dimensions.
翻訳日:2023-03-21 03:23:12 公開日:2021-07-23
# 純粋および混合独立古典環境における三部構造エンタングルメントとコヒーレンスダイナミクスの探索

Probing tripartite entanglement and coherence dynamics in pure and mixed independent classical environments ( http://arxiv.org/abs/2107.11259v1 )

ライセンス: Link先を確認
Atta Ur Rahman, Muhammad Javed, Arif Ullah, Quantum Optics and Quantum Information Research Group, Department of Physics, University of Malakand, Chakdara Dir, Pakistan(参考訳) 量子情報処理は非局所的な機能を利用しており、量子力学的プロトコルの展開に成功している。 ここでは、独立古典環境と結合した最大絡み合いGHZ様状態として当初準備された3つの非相互作用量子ビットの絡み合いとコヒーレンスのダイナミクスについて述べる。 純雑音と混合雑音の2つの異なるガウス雑音, 純雑音, 純雑音, パワーノイズの最大化, 分数雑音の最大化が環境を特徴づけていると仮定した。 時間依存的な絡み合いの目撃者,純度,脱コヒーレンス対策の助けを借りて,現在の混合ノイズケースは,絡み合いとコヒーレンスが短命である純粋なものよりも有害であることを示す。 特にパワーローノイズの位相は、長期保存効果に対してより柔軟で有効であるように見える。 対照的に、純音と混合雑音の両方において、絡み合いとコヒーレンスが相対的に高い速度で低下する場合には、分数ガウス雑音の有害な強調効果を避けるための究極の解は存在しない。 3量子状態は、純粋なガウスノイズと混合ガウスノイズの両方によって駆動される独立した古典環境において、長い相互作用時間または短い相互作用時間において、歪んで非コヒーレントになる。 また、絡み合い復興現象が欠如しているため、システムと環境の間には情報交換がない。 したがって、3量子GHZライクな状態は、パラメータ値が極端に低い純粋パワーローノイズによって駆動される古典的な独立チャネルにおける、十分に長い量子相関、コヒーレンス、量子情報保存のための優れた資源であることが判明した。

Quantum information processing exploits non-local functionality that has led to significant breakthroughs in the successful deployment of quantum mechanical protocols. In this regard, we address the dynamics of entanglement and coherence for three non-interacting qubits initially prepared as maximally entangled GHZ-like state coupled with independent classical environments. Two different Gaussian noises in pure and mixed noisy situations, namely, pure power-law noise, pure fractional Gaussian noise, power-law noise maximized and fractional Gaussian noise maximized cases are assumed to characterize the environments. With the help of time-dependent entanglement witnesses, purity, and decoherence measures, within the full range of parameters, we show that the current mixed noise cases are more detrimental than pure ones where entanglement and coherence are found short-lived. The power-law noise phase, in particular, appears to be more flexible and exploitable for long-term preservation effects. In contrast, we find that in both pure and mixed noise cases, where entanglement and coherence degrade at a relatively high rate, there is no ultimate solution for avoiding the detrimental dephasing effects of fractional Gaussian noise. The three-qubit state becomes disentangled and decoherent within independent classical environments driven by both pure and mixed Gaussian noises, either in long or short interaction time. In addition, due to the lack of the entanglement revival phenomenon, there is no information exchange between the system and the environment. The three-qubit GHZ-like states have thus been realized to be an excellent resource for long enough quantum correlations, coherence, and quantum information preservation in classical independent channels driven by pure power-law noise with extremely low parameter values.
翻訳日:2023-03-21 03:23:00 公開日:2021-07-23
# 古典的オルンシュタイン・ウレンベック雑音下での多部交絡・コヒーレンス・量子情報保存の提案

Probing multipartite entanglement, coherence and quantum information preservation under classical Ornstein-Uhlenbeck noise ( http://arxiv.org/abs/2107.11251v1 )

ライセンス: Link先を確認
Atta Ur Rahman, Muhammad Javed, Arif Ullah,(Quantum Optics and Quantum Information Research Group, Department of Physics, University of Malakand), Khyber Pakhtunkhwa (Pakistan)(参考訳) 我々は,Ornstein-Uhlenbeck(ORU)ノイズによって記述された4つの非相互作用量子ビットと異なる古典的環境,すなわちCommon, bipartite, tripartite,および独立環境を結合したシステムにおいて,絡み合い,コヒーレンス,情報保護を扱う。 四量子状態で保存される量子情報は、時間依存的な絡み合い、純度、シャノンエントロピーを用いて、絡み合いよりもコヒーレンスに依存することを示す。 これらの2つの量子現象は、oruノイズのある環境で直接相互に関連し、非常に脆弱であり、結果としてかなりの量の指数関数的崩壊を生じさせる。 現在のマルコフ力学写像、および環境の変動特性の抑制は、ノイズのガウス的性質に完全に関連していると観察される。 さらに、環境の増大が崩壊を加速させるのを目撃する。 他のノイズとは異なり、現在のノイズパラメータのフレキシブルレンジは容易に活用でき、メモリ特性を十分に保持できる。 4ビットのGHZ状態は、大きな情報記憶電位を持つ以外に、部分的に絡み合っていて、一定期間は共通環境にある。 したがって、2部量子系や三部量子系よりも関数型量子コンピューティングにとって有望な資源である。 さらに,各システム環境相互作用の計算値を導出し,量子実践者が関連する古典的環境を最適化するのに役立つ。

We address entanglement, coherence, and information protection in a system of four non-interacting qubits coupled with different classical environments, namely: common, bipartite, tripartite, and independent environments described by Ornstein-Uhlenbeck (ORU) noise. We show that quantum information preserved by the four qubit state is more dependent on the coherence than the entanglement using time-dependent entanglement witness, purity, and Shannon entropy. We find these two quantum phenomena directly interrelated and highly vulnerable in environments with ORU noise, resulting in the pure exponential decay of a considerable amount. The current Markovian dynamical map, as well as suppression of the fluctuating character of the environments are observed to be entirely attributable to the Gaussian nature of the noise. Furthermore, the increasing number of environments are witnessed to accelerate the amount of decay. Unlike other noises, the current noise parameter's flexible range is readily exploitable, ensuring long enough preserved memory properties. The four-qubit GHZ state, besides having a large information storage potential, stands partially entangled and coherent in common environments for an indefinite duration. Thus, it appeared to be a more promising resource for functional quantum computing than bipartite and tripartite quantum systems. In addition, we derive computational values for each system-environment interaction, which will help quantum practitioners to optimize the related kind of classical environments.
翻訳日:2023-03-21 03:22:26 公開日:2021-07-23
# 精密色中心創製のためのテーラーイオンビーム

Tailored Ion Beam for Precise Color Center Creation ( http://arxiv.org/abs/2107.11249v1 )

ライセンス: Link先を確認
A. Tobalina, C. Munuera-Javaloy, E. Torrontegui, J. G. Muga, J. Casanova(参考訳) 本稿では,ポールトラップから高単色イオンビームを生成するユニタリ量子制御方式を提案する。 このプロトコルは、セグメント電極にボルトのオーダーの電圧を供給することで実装可能であり、これにより以前の設計では変動電圧の影響を緩和し、イオンの分散ビームを発生させる。 さらに、この提案では、イオンを同調的に冷却することはせず、これはトラップ内で異なる種をロードする必要性を回避し、すなわち、推進イオンと、例えば、同調的に冷却することができる$^{40}$Ca$^+$原子が、発射手順の反復率を増大させる。 我々のスキームは、位置と運動量に線形な不変作用素に基づいており、平均抽出エネルギーと出力モーメントの拡散を制御することができる。 さらに,射出前のビームの横方向特性を調整し,衝突箇所を最小化し,インプラントの側方分解能を高めるためのシーケンシャルな操作を提案する。

We present a unitary quantum control scheme that produces a highly monochromatic ion beam from a Paul trap. Our protocol is implementable by supplying the segmented electrodes with voltages of the order of Volts, which mitigates the impact of fluctuating voltages in previous designs and leads to a low-dispersion beam of ions. Moreover, our proposal does not rely on sympathetically cooling the ions, which bypasses the need of loading different species in the trap -- namely, the propelled ion and, e.g., a $^{40}$Ca$^+$ atom able to exert sympathetic cooling -- incrementing the repetition rate of the launching procedure. Our scheme is based on an invariant operator linear in position and momentum, which enables us to control the average extraction energy and the outgoing momentum spread. In addition, we propose a sequential operation to tailor the transversal properties of the beam before the ejection to minimize the impact spot and to increase the lateral resolution of the implantation.
翻訳日:2023-03-21 03:21:59 公開日:2021-07-23
# 古典変動環境がデコヒーレンスと2成分量子相関ダイナミクスに及ぼす影響

Effects of classical fluctuating environments on decoherence and bipartite quantum correlations dynamics ( http://arxiv.org/abs/2107.11241v1 )

ライセンス: Link先を確認
Atta Ur Rahman, Muhammad Javed, Muhammad Noman, Arif Ullah (Quantum Optics and Quantum Information Research Group, Department of Physics, University of Malakand), Chakdara Dir (Pakistan), Ming-Xing Luo (The school of information science and technology, Southwest Jiaotong University, Chengdu 610031, China)(参考訳) 量子相関(QCs$)の時間的発展(エンタングルメント、純度、コヒーレンス)について、最初は最大エンタングルド二部状態として準備された2つの非相互作用量子ビットのモデルについて論じる。 古典場の比較ポテンシャルは、ノイズやノイズのない領域においてこれらの$QCs$を保存するのと対照的である。 また,2量子ビット状態の$qcs$の特徴的動的挙動を,共通および異なる構成モデルに由来する静的ノイズの影響下で明らかにする。 環境によって許容されるゆらぎと$qcs$保存の間には直接関係があることを示す。 静的なノイズ緩和効果のため、$qcs$が抑制され、2量子ビットのエンタングル状態は有限長の後に分離可能となる。 ここで、$qcs$減衰効果は、共通の構成モデルにおいて、相手よりもはるかに小さい。 さらに、このQCs$の保護は、大きな間隔で静的ノイズの下での保護は、突然死と出生現象の絡み合いの存在に起因する。 最も重要なのは、静的ノイズ下での3部構成のものに比べて、2部構成の$qcs$が脆弱でないことだ。 対策の場合には、純度やデコヒーレンスと比較して、突然死や出産回復の絡み合いを示すため、再帰がより鋭いことが分かる。

We address the time evolution of the quantum correlations ($QCs$) such as entanglement, purity, and coherence for a model of two non-interacting qubits initially prepared as a maximally entangled bipartite state. We contrast the comparative potential of the classical fields to preserve these $QCs$ in the noisy and noiseless realms. We also disclose the characteristic dynamical behavior of the $QCs$ of the two-qubit state under the static noisy effects originating from the common and different configuration models. We show that there is a direct connection between the fluctuations allowed by an environment and the $QCs$ preservation. Due to the static noisy dephasing effects, the $QCs$ are suppressed, resulting in the separability of the two-qubit entangled state after a finite duration. Here, the $QCs$ decay effects are found much smaller in the common configuration model than that of the opponent. Furthermore, this protection of the $QCs$ under static noise for large intervals is entirely attributable to the existence of the entanglement sudden death and birth phenomenon. Most importantly, we found the bipartite $QCs$ less fragile than the tripartite ones in comparison under the static noise. In the case of the measures, the concurrence is found to be sharper for showing the entanglement sudden death and birth revivals in comparison to the purity and decoherence.
翻訳日:2023-03-21 03:21:41 公開日:2021-07-23
# 原子からのノイズ誘起放射による新しいCSL境界

Novel CSL bounds from the noise-induced radiation emission from atoms ( http://arxiv.org/abs/2107.11237v1 )

ライセンス: Link先を確認
Sandro Donadi, Kristian Piscicchia, Raffaele Del Grande, Catalina Curceanu, Matthias Laubenstein, Angelo Bassi(参考訳) 連続自発局所化(CSL)崩壊モデルにより予測された物質からの自然放射について検討した。 我々は、放射される放射線の適切なエネルギー範囲において、最大の寄与は原子核に由来することを示す。 具体的には、エネルギー範囲 $e\sim 10\,-\,10^{5}$ kev において、原子核からの放射への寄与は原子の原子数と二次的に成長し、電子からの寄与は線形にしか成長しないことを示した。 この理論予測は、ゲルマニウムの試料から放射される放射を計測したグラン・サッソ国立研究所の非常に低い背景環境で行われた専用実験のデータと比較される。 その結果、CSLパラメータの最大値が$r_C\leq 10^{-6}$ m となり、前の値が桁違いに改善された。

We study spontaneous radiation emission from matter, as predicted by the Continuous Spontaneous Localization (CSL) collapse model. We show that, in an appropriate range of energies of the emitted radiation, the largest contribution comes from the atomic nuclei. Specifically, we show that in the energy range $E\sim 10\,-\,10^{5}$ keV the contribution to the radiation emission from the atomic nuclei grows quadratically with the atomic number of the atom, overtaking the contribution from the electrons, which grows only linearly. This theoretical prediction is then compared with the data from a dedicated experiment performed at the extremely low background environment of the Gran Sasso underground National Laboratory, where the radiation emitted from a sample of Germanium was measured. As a result, we obtain the strongest bounds on the CSL parameters for $r_C\leq 10^{-6}$ m, improving the previous ones by more than an order of magnitude.
翻訳日:2023-03-21 03:21:19 公開日:2021-07-23
# yb$^+$における電気八面体放射の自然放出に対する^2f_{7/2}$レベルの寿命

Lifetime of the $^2F_{7/2}$ level in Yb$^+$ for spontaneous emission of electric octupole radiation ( http://arxiv.org/abs/2107.11229v1 )

ライセンス: Link先を確認
R. Lange, A. A. Peshkov, N. Huntemann, Chr. Tamm, A. Surzhykov, E. Peik(参考訳) 電気オクタポール遷移により, 地上状態に結合した$^2F_{7/2}$レベルの$^{171}$Yb$^+$の測定を行った。 放射寿命は4.98(25)\times 10^7$ sと決定され、1.58(8)年に対応する。 この結果は、この非常に長い励起状態の寿命における相対的不確かさを、以前の実験的な推定値に対して1桁程度減少させる。 本手法は, 対応する遷移のコヒーレント励起に基づいて, 競合する崩壊過程による制限を回避する。 共振rabi周波数と誘導二次スタークシフトを同時に測定することにより、レーザ強度に対する明示的な依存を解消する。 結果と動的微分偏光性に関する情報を組み合わせることで、遷移行列要素の計算により放射寿命を推定できる。

We report a measurement of the radiative lifetime of the $^2F_{7/2}$ level of $^{171}$Yb$^+$ that is coupled to the $^2S_{1/2}$ ground state via an electric octupole transition. The radiative lifetime is determined to be $4.98(25)\times 10^7$ s, corresponding to 1.58(8) years. The result reduces the relative uncertainty in this exceptionally long excited state lifetime by one order of magnitude with respect to previous experimental estimates. Our method is based on the coherent excitation of the corresponding transition and avoids limitations through competing decay processes. The explicit dependence on the laser intensity is eliminated by simultaneously measuring the resonant Rabi frequency and the induced quadratic Stark shift. Combining the result with information on the dynamic differential polarizability permits a calculation of the transition matrix element to infer the radiative lifetime.
翻訳日:2023-03-21 03:21:00 公開日:2021-07-23
# 長距離テンソルネットワークダイナミクスを持つ開量子系における非マルコフ時空シグナル伝達

Unveiling non-Markovian spacetime signalling in open quantum systems with long-range tensor network dynamics ( http://arxiv.org/abs/2107.11217v1 )

ライセンス: Link先を確認
Thibaut Lacroix, Angus Dunnett, Dominic Gribben, Brendon W. Lovett, Alex Chin(参考訳) ナノスケールデバイス - 生物学的または人工的 – は、通常の無構造、マルコビアン風呂の仮定が保たない状態で動作する。 このようなシステムのダイナミクスを予測し、研究することは重要であり、通常、環境に関する情報を失うことを暗示する自由度を追跡することで行われる。 これらのアプローチを超越するために、システムの量子状態とその環境の行列積状態表現に依存する数値的厳密な方法を用いて、浴を明示的に追跡する。 この方法は、システムの空間構造に依存する相互作用の特定の例に適用される。 その結果、長距離結合が環境に相関を誘導する非マルコフ力学を予測できる。 本手法から自然に環境動態を抽出し, システムの固有個体群における観測された非マルコフ性再発の原因となる長期フィードバック効果に光を当てることができる。

Nanoscale devices - either biological or artificial - operate in a regime where the usual assumptions of a structureless, Markovian, bath do not hold. Being able to predict and study the dynamics of such systems is crucial and is usually done by tracing out the bath degrees of freedom, which implies losing information about the environment. To go beyond these approaches we use a numerically exact method relying on a Matrix Product State representation of the quantum state of a system and its environment to keep track of the bath explicitly. This method is applied to a specific example of interaction that depends on the spatial structure of the system. The result is that we predict a non-Markovian dynamics where long-range couplings induce correlations into the environment. The environment dynamics can be naturally extracted from our method and shine a light on long time feedback effects that are responsible for the observed non-Markovian recurrences in the eigen-populations of the system.
翻訳日:2023-03-21 03:20:45 公開日:2021-07-23
# Tileable 3D Integrated Superconducting Circuit Architectureにおける高コヒーレンス

High Coherence in a Tileable 3D Integrated Superconducting Circuit Architecture ( http://arxiv.org/abs/2107.11140v1 )

ライセンス: Link先を確認
Peter A. Spring, Shuxiang Cao, Takahiro Tsunoda, Giulio Campanaro, Simone D. Fasciati, James Wills, Vivek Chidambaram, Boris Shteynas, Mustafa Bakr, Paul Gow, Lewis Carpenter, James Gates, Brian Vlastakis, Peter J. Leek(参考訳) 高量子ビットコヒーレンスと低クロストーク、単一量子ビットゲートエラーを超伝導回路アーキテクチャで報告し、2次元の量子ビットの格子にタイル化できることを約束する。 このアーキテクチャは、誘導性に絞られたキャビティ囲いを、非ガルバニックな外界制御配線と、基板の反対側で作製されたクビットと共振器を備えた設計に統合する。 4つの未結合トランスモン量子ビットを備え、平均エネルギー緩和時間$T_1=149(38)~\mu$s、純エコー劣化時間$T_{\phi,e}=189(34)~\mu$s、同時ランダム化ベンチマークにより測定されたシングルキュービットゲートフィデリティ$F=99.982(4)\%$である。 制御配線の3D統合の性質は、アーキテクチャがより大きな量子ビット格子を形成するため、量子ビットは対応可能であることを意味する。 バンド構造シミュレーションは、タイルで囲まれた囲いは、任意のスケールで閉じた量子ビットにクリーンな電磁環境を提供すると予測するために用いられる。

We report high qubit coherence as well as low crosstalk and single-qubit gate errors in a superconducting circuit architecture that promises to be tileable to 2D lattices of qubits. The architecture integrates an inductively shunted cavity enclosure into a design featuring non-galvanic out-of-plane control wiring and qubits and resonators fabricated on opposing sides of a substrate. The proof-of-principle device features four uncoupled transmon qubits and exhibits average energy relaxation times $T_1=149(38)~\mu$s, pure echoed dephasing times $T_{\phi,e}=189(34)~\mu$s, and single-qubit gate fidelities $F=99.982(4)\%$ as measured by simultaneous randomized benchmarking. The 3D integrated nature of the control wiring means that qubits will remain addressable as the architecture is tiled to form larger qubit lattices. Band structure simulations are used to predict that the tiled enclosure will still provide a clean electromagnetic environment to enclosed qubits at arbitrary scale.
翻訳日:2023-03-21 03:20:29 公開日:2021-07-23
# 測定誘起定常エンタングルメント遷移による雑音および乱れスピンチェーンの絡み合いダイナミクスの診断

Diagnosing entanglement dynamics in noisy and disordered spin chains via the measurement-induced steady-state entanglement transition ( http://arxiv.org/abs/2107.11354v1 )

ライセンス: Link先を確認
T. Boorman, M. Szyniszewski, H. Schomerus, A. Romito(参考訳) 局所雑音および乱れハミルトニアンの下で進化する1次元量子スピン鎖の絡み合いを発生・破壊する過程の相互作用と競合を分析するために、測定誘起絡み合い遷移の概念を利用する。 定常エントロピーの体積から面積法スケールへの遷移を誘発するために,連続的な変動強度測定を用いた。 静的背景障害は臨界測定強度を体系的に減少させるが、この臨界値は非定常雑音の強度に依存する。 抽出した微細スケール指数によると、遷移の普遍性クラスはノイズや障害強度とは無関係である。 本研究は, 測定値の欠如によるハミルトニアンによる絡み合い発生速度の複雑なダイナミクスに及ぼす静的および非静的障害の影響の観点から解釈し, 臨界測定強度の挙動に完全に反映している。 以上の結果から, このエンタングルメント成長と測定制御系の定常挙動との密接な関係が確立され, 定常相転移を通じて複雑な多体系における過渡的エンタングルメントダイナミクスの特徴を定量化し, 検証するためのツールとなる。

We utilize the concept of a measurement-induced entanglement transition to analyze the interplay and competition of processes that generate and destroy entanglement in a one-dimensional quantum spin chain evolving under a locally noisy and disordered Hamiltonian. We employ continuous measurements of variable strength to induce a transition from volume to area-law scaling of the steady-state entanglement entropy. While static background disorder systematically reduces the critical measurement strength, this critical value depends non-monotonically on the strength of non-static noise. According to the extracted fine-size scaling exponents, the universality class of the transition is independent of the noise and disorder strength. We interpret the results in terms of the effect of static and non-static disorder on the intricate dynamics of the entanglement generation rate due to the Hamiltonian in the absence of measurement, which is fully reflected in the behavior of the critical measurement strength. Our results establish a firm connection between this entanglement growth and the steady-state behavior of the measurement-controlled systems, which therefore can serve as a tool to quantify and investigate features of transient entanglement dynamics in complex many-body systems via a steady-state phase transition.
翻訳日:2023-03-21 03:12:59 公開日:2021-07-23
# ペアワイズ配列アラインメントのための量子ドットプロット生成アルゴリズム

A Quantum Dot Plot Generation Algorithm for Pairwise Sequence Alignment ( http://arxiv.org/abs/2107.11346v1 )

ライセンス: Link先を確認
Joseph Clapis(参考訳) 量子ペアワイズシーケンスアライメント(QPSA)アルゴリズムは、データアライメントタスクにおいて指数的なスピードアップを提供する。 しかし、これは古典的データを量子重ね合わせに効率的に符号化するオープン問題に依存している。 以前の研究は、重ね合わせを達成するブラックボックスのオラクルを実装するために特殊な非線形カーメディアを使うことを示唆している。 汎用ゲートマシンと互換性のある量子ドットプロット(QDP)と呼ばれる,このオラクルの代替的,明示的な構築を提供する。 各種サンプル回路用Q#およびQiskitソフトウェアフレームワークによって生成された量子マシン命令の解析により,QDPの運用複雑性を評価する。 解析により、汎用量子コンピュータにおけるQDP(およびQPSA)の利用を除外し、データ符号化方式が指数関数的に困難であることを確認した。 それでも、IBMの超伝導アーキテクチャとAQTのトラップイオンアーキテクチャにおけるQDPとQPSAの両方の回路深度と実行時間を直接比較および全体的な実用性のために推定するのに有用である。

The Quantum Pairwise Sequence Alignment (QPSA) algorithm offers exponential speedups in data alignment tasks. However, it relies on an open problem of efficiently encoding the classical data being aligned into quantum superposition. Previous works suggest the use of specialized nonlinear Kerr media to implement a black-box oracle that achieves the superposition. We provide an alternative, explicit construction of this oracle called the Quantum Dot Plot (QDP), which is compatible with universal gate machines. We evaluate QDP's operational complexity via analysis of the quantum machine instructions generated by the Q# and Qiskit software frameworks for various sample circuits. Our analysis confirms that the data encoding scheme is exponentially difficult, precluding QDP's (and thus, QPSA's) employment on general-purpose quantum computers. Nevertheless, we find utility in estimating the circuit depth and run time of both QDP and QPSA for IBM's superconducting architecture and AQT's trapped ion architecture for direct comparison and overall practicality purposes.
翻訳日:2023-03-21 03:12:35 公開日:2021-07-23
# オープンピットマイニング問題に対する量子計算的アプローチ

A quantum computational approach to the open-pit mining problem ( http://arxiv.org/abs/2107.11345v1 )

ライセンス: Link先を確認
Yousef Hindy and Jessica Pointing and Meltem Tolunay and Sreeram Venkatarao and Mario Motta and Joseph A. Latone(参考訳) 最適オープンピットプロファイルの決定はよく研究された組合せ最適化問題であり、計算マイニングにおいて深い技術的および概念的関連性を持つ。 量子コンピューティングハードウェアの現在進行中の進化とヒューリスティックな量子アルゴリズムの最近の進歩は、量子コンピュータにおけるオープンピットマイニング問題の解決策を探求する価値がある。 本研究では,ハミルトン基底状態探索問題としてオープンピットマイニング問題を論じ,変分量子固有解法アルゴリズムの専用実装で解くとともに,今日の小規模量子ハードウェアの到達範囲を拡大するための領域分解手法を提案する。 この手順は4つのキュービットを用いてIBMQデバイスで実証される。 量子ハードウェア上で行われるオープンピットプロファイル計算の、私たちの知る限りでは、これが最初の例です。

The determination of optimal open-pit profiles is a well-studied combinatorial optimization problem, with profound technical and conceptual relevance in computational mining. The ongoing evolution of quantum computing hardware and the recent advances of heuristic quantum algorithms make it worthwhile to explore the solution of the open-pit mining problem on quantum computers. In this work, we cast the open-pit mining problem as a Hamiltonian ground-state search problem, which in turn we solve with a dedicated implementation of the variational quantum eigensolver algorithm, and we propose a domain decomposition approach to extend the reach of today's small scale quantum hardware. The procedure is demonstrated on IBMQ devices using four qubits. This is the first example, to the best of our knowledge, of open-pit profile calculations being performed on quantum hardware.
翻訳日:2023-03-21 03:12:18 公開日:2021-07-23
# 進化的アルゴリズムをうまく適用する: 実世界のアプリケーションから得られたガイド

Applying Evolutionary Algorithms Successfully: A Guide Gained from Real-world Applications ( http://arxiv.org/abs/2107.11300v1 )

ライセンス: Link先を確認
Wilfried Jakob(参考訳) 一般にメタヒューリスティックス(mhs)、特に進化アルゴリズム(eas)は難しい問題の最適化に成功するためのよく知られたツールである。 しかし、それらのアプリケーションがいつ意味を持つのか、どのようにして初心者のようなプロジェクトにアプローチするのか? 初心者のミスをどうやって避けるか、メタヒューリスティック検索の可能性をできるだけ効率的に活用するか? 本稿では,30年間にわたる進化的アルゴリズムGLEAMとそのメメティック拡張HyGLEAMの応用に基づいて,これらの質問に対する回答を提案する。 ここで収集し議論した経験のほとんどは、antアルゴリズムや particle swarm optimizationのような他のメタヒューリスティックの使用にも適用できます。 本稿では,MHの一般知識,特に最適化プロジェクトに適用したいEAについて述べる。 この目的のために、このようなプロジェクトの過程で生じる多くの疑問が解決される。 最後に、プロジェクト成功の重要性を過小評価する非技術プロジェクト管理の問題が議論される。

Metaheuristics (MHs) in general and Evolutionary Algorithms (EAs) in particular are well known tools for successful optimization of difficult problems. But when is their application meaningful and how does one approach such a project as a novice? How do you avoid beginner's mistakes or use the design possibilities of a metaheuristic search as efficiently as possible? This paper tries to give answers to these questions based on 30 years of research and application of the Evolutionary Algorithm GLEAM and its memetic extension HyGLEAM. Most of the experience gathered and discussed here can also be applied to the use of other metaheuristics such as ant algorithms or particle swarm optimization. This paper addresses users with basic knowledge of MHs in general and EAs in particular who want to apply them in an optimization project. For this purpose, a number of questions that arise in the course of such a project are addressed. At the end, some non-technical project management issues are discussed, whose importance for project success is often underestimated.
翻訳日:2023-03-21 03:11:32 公開日:2021-07-23
# 非加法的安定化符号の幾何学

The geometry of non-additive stabiliser codes ( http://arxiv.org/abs/2107.11281v1 )

ライセンス: Link先を確認
Simeon Ball and Pablo Puig(参考訳) 本稿では,安定化器符号と非付加安定化器符号を含む付加および非付加安定化器符号を構成する幾何学的枠組みを提案する。

We present a geometric framework for constructing additive and non-additive stabiliser codes which encompasses stabiliser codes and graphical non-additive stabiliser codes.
翻訳日:2023-03-21 03:10:59 公開日:2021-07-23
# 量子プライベート放送

Quantum Private Broadcasting ( http://arxiv.org/abs/2107.11474v1 )

ライセンス: Link先を確認
Anne Broadbent (1), Carlos E. Gonz\'alez-Guill\'en (2), Christine Schuknecht (1) ((1) University of Ottawa, Ottawa, Canada, (2) Universidad Polit\'ecnica de Madrid, Madrid, Spain)(参考訳) プライベートブロードキャストでは、1つのプレーンテキストが暗号化された形式で複数の受信者にブロードキャストされ、各受信者がローカルに復号することができる。 メッセージが古典的な場合、簡単な解決策は、すべての当事者間で共有される1つのキーで平文を暗号化し、各受信者に暗号文のコピーを送信することである。 驚くべきことに、メッセージが量子である場合(QPB(Quantum Private Broadcasting))には、類似の手法が不十分である。 本稿では、$t$-recipient Quantum Private Broadcasting(t$-QPB)の3つのソリューションを提供し、キー長の点で比較する。 最初の方法は、量子ワンタイムパッドを持つ独立暗号であり、受信者数に線形なキーが必要であり、$t$である。 単元$t$-designsを用いて、キー長をt$で対数的に減らすことができることを示す。 我々の主な貢献は、対称部分空間の次元において対数的なキー長に改善できることを示し、対称ユニタリな$t$-設計を定義する新しい概念を使って、独立に興味を持つかもしれない。

In Private Broadcasting, a single plaintext is broadcast to multiple recipients in an encrypted form, such that each recipient can decrypt locally. When the message is classical, a straightforward solution is to encrypt the plaintext with a single key shared among all parties, and to send to each recipient a copy of the ciphertext. Surprisingly, the analogous method is insufficient in the case where the message is quantum (i.e. in Quantum Private Broadcasting (QPB)). In this work, we give three solutions to $t$-recipient Quantum Private Broadcasting ($t$-QPB) and compare them in terms of key lengths. The first method is the independent encryption with the quantum one-time pad, which requires a key linear in the number of recipients, $t$. We show that the key length can be decreased to be logarithmic in $t$ by using unitary $t$-designs. Our main contribution is to show that this can be improved to a key length that is logarithmic in the dimension of the symmetric subspace, using a new concept that we define of symmetric unitary $t$-designs, that may be of independent interest.
翻訳日:2023-03-21 03:04:39 公開日:2021-07-23
# 量子ハサミによる偏光エンタングルメントの創製

Heralded preparation of polarization entanglement via quantum scissors ( http://arxiv.org/abs/2107.11471v1 )

ライセンス: Link先を確認
Dat Thanh Le, Warit Asavanant, and Nguyen Ba An(参考訳) 量子エンタングルメントは、量子情報科学と量子技術の中心にある。 光領域において、最も一般的な量子エンタングルメントのタイプは偏光エンタングルメントであり、これは通常、破壊的な光子検出を伴う後選法で作成され、容易に利用可能なエンタングルメントリソースを必要とするさらなる応用を妨げる。 本研究では,偏光子の多部交絡状態,すなわちポストセレクションを伴わずに,偏光子の多部交絡状態を作成する手法を提案する。 量子はさみ法を利用して、与えられた連続変数の絡み合いを、ハイブリッド離散連続型または単独離散型である対象の絡み合い状態に切り詰める。 量子ハサミの2つの実装について検討する: 1つは、単一光子と線形光学を用いたオリジナルの量子ハサミ [pegg et al., phys. rev. lett. 81, 1604 (1998)] から修正され、もう1つはタイプiiの2モード圧縮器を用いてここで設計された。 これら2つの実装の長所と短所を明らかにし、絡み合いの準備の実践的側面について議論する。 本研究は、様々な種類の光エンタングルメントと、提案する量子ハサミ技術とのインタフェースを、偏光エンタングルメントのヘラルド生成の代替手段として利用できることを示す。

Quantum entanglement is at the heart of quantum information sciences and quantum technologies. In the optical domain, the most common type of quantum entanglement is polarization entanglement, which is usually created in a postselection manner involving destructive photon detection and thus hindering further applications which require readily available entanglement resources. In this work, we propose a scheme to prepare multipartite entangled states of polarized photons in a heralded manner, i.e., without postselection. We exploit the quantum scissors technique to truncate a given continuous-variable entanglement into the target entangled states which are of hybrid discrete-continuous or solely discrete types. We consider two implementations of the quantum scissors: one modified from the original quantum scissors [Pegg et al., Phys. Rev. Lett. 81, 1604 (1998)] using single photons and linear optics and the other designed here using a type-II two-mode squeezer. We clarify the pros and cons of these two implementations as well as discussing practical aspects of the entanglement preparation. Our work illustrates an interface between various types of optical entanglement and the proposed quantum scissors techniques could serve as alternative methods for heralded generation of polarization entanglement.
翻訳日:2023-03-21 03:04:18 公開日:2021-07-23
# 相互作用と準理想時計を用いたPage-Wootters機構の非線形運動方程式

Non-linear equation of motion for Page-Wootters mechanism with interaction and quasi-ideal clocks ( http://arxiv.org/abs/2107.11452v1 )

ライセンス: Link先を確認
Leandro R. S. Mendes, Frederico Brito, Diogo O. Soares-Pinto(参考訳) 量子論における時間の概念にアプローチする多くの提案の中で、ページウーター機構はここ数年多くの注目を集めてきた。 もともとそのような機構は、静止二成分の非相互作用大域系、すなわち、時間的発展が時計の状態の測定に条件づけられた量子粒子の運動方程式としてどのように現れるかを決定するために、円周時計と共に関心のシステム(英語版)を探索した。 セミナルな提案の後、様々なバリエーションが検討され、そのメカニズムの異なる側面が解明された。 これらの研究への貢献は、そのような時間のない量子理論のアプローチを解析するが、非理想的量子時計との重力誘起相互作用に基づいて進化する混合状態系の運動方程式を導出することである。 検討された相互作用は重力デコヒーレンス機構を記述することで知られており、クロックモデルは最近提案された準理想時計である。 考察の結果,システムの初期条件に依存する非線形な運動方程式が得られた。

Among the many proposals to approach the concept of time in quantum theory, the Page-Wootters mechanism has attracted much attention in the last few years. Originally, such a mechanism explored a stationary bipartite non-interacting global system, i.e., a system of interest together with an ancillary clock, to determine how the evolution in time can emerge as an equation of motion for a quantum particle conditioned to the measurement of the state of the clock. After the seminal proposal, many variations of it were considered, and different aspects of the mechanism were elucidated. Our contribution to these investigations is that we analyze such a timeless approach to quantum theory but deriving an equation of motion for a mixed state system that evolves according to its gravitationally induced interaction with a non-ideal quantum clock. The interaction considered is known to describe the gravitational decoherence mechanism, and the clock model is the recently proposed quasi-ideal clock, i.e., one constructed to approximate the time-energy canonical commutation relation. As a result of our considerations, we obtained an equation of motion that is non-linear in nature, dependent on the system's initial conditions.
翻訳日:2023-03-21 03:03:49 公開日:2021-07-23
# ニュートリノ振動における幾何相とマヨラナ相

Geometric and Majorana phases in neutrino oscillations ( http://arxiv.org/abs/2107.11434v1 )

ライセンス: Link先を確認
Lucas Johns(参考訳) ニュートリノ振動における幾何学的(アハロノフ-アナンダン)相は、ニュートリノ混合のマヨラナ相に敏感であると主張した[phys. lett. b 780 (2018) 216]。 しかし、最近では [Phys. Lett. B 818 (2021) 136376] では、提案された位相はゲージ不変ではないことが指摘されている。 キネマティックと幾何学の両方のアプローチを用いて、ゲージ不変なアハロノフ-アナンダン相(フレーバー転移に付随するオフ対角幾何相を含む)はマヨラナ相とは独立であることを示す。 この発見は、従来の発振実験がニュートリノのディラックやマヨラナの性質を識別できないというよく知られた事実を一般化し、仮説的干渉実験が両者を区別できないことを示唆している。

Geometric (Aharonov--Anandan) phases in neutrino oscillations have been claimed [Phys. Lett. B 780 (2018) 216] to be sensitive to the Majorana phases in neutrino mixing. More recently, however, it has been pointed out [Phys. Lett. B 818 (2021) 136376] that the proposed phases are not gauge invariant. Using both kinematic and geometric approaches, we show that all gauge-invariant Aharonov--Anandan phases (including the off-diagonal geometric phases associated with flavor transitions) are independent of the Majorana phases. This finding, which generalizes the well-known fact that conventional oscillation experiments cannot discern the Dirac or Majorana nature of the neutrino, implies that a hypothetical interference experiment cannot distinguish between the two either.
翻訳日:2023-03-21 03:03:28 公開日:2021-07-23
# moliereスクリーニング角のクーロン補正に対する核および電子的貢献

Nuclear and electronic contributions to Coulomb correction for Moliere screening angle ( http://arxiv.org/abs/2107.11409v1 )

ライセンス: Link先を確認
M.V. Bondarenco(参考訳) 多重クーロン散乱理論において、クーロン補正(第1ボルン近似との違い)からmori\`{e}reスクリーニング角を非弾性寄与の条件として評価する。 クーロン補正に対する近接的あるいは遠隔的貢献の優位の論争について論じる。 一般的な(必ずしも球対称ではない)クラインニング関数を持つクーロンポテンシャルで表される散乱中心に対して、クーロン補正はクーロン特異点から離れた領域における固有位相キャンセルによりスクリーニング非依存であることが証明される。 点状電子と核の組立体として、さらに自己整合的に原子を処理し、全ての最終原子状態の散乱確率を合計すると、入射荷電粒子と原子核との密接な衝突によるクーロン補正に加えて、原子電子との密接な衝突(ブロッホ補正の類似)による同様の補正が存在することが示されている。 低い$Z\neq1$の場合、後者の寄与は$\sim 25\%$に達するが、その観測は多重散乱効果によって部分的には曖昧である。

The Coulomb correction (difference from the 1st Born approximation) to the Moli\`{e}re screening angle in multiple Coulomb scattering theory is evaluated with the allowance for inelastic contribution. The controversy between dominance of close- or remote-collision contributions to Coulomb correction is discussed. For scattering centres represented by a Coulomb potential with a generic (not necessarily spherically symmetric) creening function, the Coulomb correction is proven to be screening-independent, by virtue of the eikonal phase cancellation in regions distant from the Coulomb singularity. Treating the atom %more self-consistently, as an assembly of pointlike electrons and the nucleus, and summing the scattering probability over all the final atom states, it is shown that besides the Coulomb correction due to close encounters of the incident charged particle with atomic nuclei, there are similar corrections due to close encounters with atomic electrons (an analog of Bloch correction). For low $Z\neq1$ the latter contribution can reach $\sim 25\%$, but its observation is partly obscured by multiple scattering effects.
翻訳日:2023-03-21 03:02:49 公開日:2021-07-23
# 連続量子誤差補正の実験的検討

Experimental demonstration of continuous quantum error correction ( http://arxiv.org/abs/2107.11398v1 )

ライセンス: Link先を確認
William P. Livingston, Machiel S. Blok, Emmanuel Flurin, Justin Dressel, Andrew N. Jordan, and Irfan Siddiqi(参考訳) 量子情報の保存と処理は外部ノイズに影響を受けやすく、結果として計算エラーは本質的に連続的に発生し、これらの効果を抑制する強力な方法は量子誤差補正を使用することである。 通常、量子エラー補正は離散ラウンドで行われ、誤差をデジタル化し、射影多重ビットパリティ測定によって検出される。 これらの安定化器の測定は、伝統的にゲートの絡み合いとアクビットの射影測定によって達成され、誤り訂正のラウンドが完了する。 しかし、それらのゲート構造は、コード内の特定のタイミングで発生するエラーや、アシラキュービット上のエラーに弱い。 ここでは、直接パリティ測定を用いて、連続量子ビットフリップ補正符号を資源効率よく実装し、絡み合うゲート、アシラ量子ビットとその関連エラーを除去する。 連続測定はFPGAコントローラによって監視され、検出されたエラーを積極的に修正する。 この手法を用いて,最大91%のビットフリップ検出効率を実現する。 さらに、このプロトコルを用いて、保護された論理量子ビットの緩和時間を、素構成量子ビットの緩和時間よりも2.7倍に向上させる。 本研究は,マルチキュービットアーキテクチャにおける資源効率の安定度を測定し,フォールトトレラントシステムを実現する上での課題に対して,連続的な誤り訂正符号がどう対処できるかを示す。

The storage and processing of quantum information are susceptible to external noise, resulting in computational errors that are inherently continuous A powerful method to suppress these effects is to use quantum error correction. Typically, quantum error correction is executed in discrete rounds where errors are digitized and detected by projective multi-qubit parity measurements. These stabilizer measurements are traditionally realized with entangling gates and projective measurement on ancillary qubits to complete a round of error correction. However, their gate structure makes them vulnerable to errors occurring at specific times in the code and errors on the ancilla qubits. Here we use direct parity measurements to implement a continuous quantum bit-flip correction code in a resource-efficient manner, eliminating entangling gates, ancilla qubits, and their associated errors. The continuous measurements are monitored by an FPGA controller that actively corrects errors as they are detected. Using this method, we achieve an average bit-flip detection efficiency of up to 91%. Furthermore, we use the protocol to increase the relaxation time of the protected logical qubit by a factor of 2.7 over the relaxation times of the bare comprising qubits. Our results showcase resource-efficient stabilizer measurements in a multi-qubit architecture and demonstrate how continuous error correction codes can address challenges in realizing a fault-tolerant system.
翻訳日:2023-03-21 03:02:28 公開日:2021-07-23
# 雑音量子パラメータによる動的不確かさ伝播

Dynamical uncertainty propagation with noisy quantum parameters ( http://arxiv.org/abs/2107.11388v1 )

ライセンス: Link先を確認
Mogens Dalgaard and Carrie A. Weidner and Felix Motzoi(参考訳) 多くの量子技術は高精度のダイナミクスに依存しており、実生活で常に存在する実験的な不確実性にどのように影響されているかという疑問を提起している。 これを評価するための文献の標準的なアプローチはモンテカルロサンプリングであり、2つの大きな欠点に苦しむ。 第一に、計算コストが高い。 第二に、個々の不確実性パラメータがシステムの状態に与える影響を明らかにしない。 本研究では, 量子力学のシミュレーションに不確かさの伝播を直接組み込んで, モンテカルロシミュレーションよりも高速な手法を求め, それぞれの不確実性パラメータがシステムダイナミクスにどのように影響するかに関する情報を直接提供することにより, これらの欠点を回避した。 さらに,本手法をIBM量子コンピュータを用いた実験結果と比較した。

Many quantum technologies rely on high-precision dynamics, which raises the question of how these are influenced by the experimental uncertainties that are always present in real-life settings. A standard approach in the literature to assess this is Monte Carlo sampling, which suffers from two major drawbacks. First, it is computationally expensive. Second, it does not reveal the effect that each individual uncertainty parameter has on the state of the system. In this work, we evade both these drawbacks by incorporating propagation of uncertainty directly into simulations of quantum dynamics, thereby obtaining a method that is faster than Monte Carlo simulations and directly provides information on how each uncertainty parameter influence the system dynamics. Additionally, we compare our method to experimental results obtained using the IBM quantum computers.
翻訳日:2023-03-21 03:02:06 公開日:2021-07-23
# フィードバック緩和制御の規則性と安定性

Regularity and stability of feedback relaxed controls ( http://arxiv.org/abs/2001.03148v2 )

ライセンス: Link先を確認
Christoph Reisinger, Yufei Zhang(参考訳) 本稿では,多次元連続時間確率出口時間問題に対する頑健なフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。 我々は、正規化制御問題にH\"{o}lder連続フィードバック制御が認められることを証明し、パラメータ摂動に対する値関数と正規化制御問題のフィードバック制御の両方がリプシッツ安定であることを示す。 さらに、事前計算されたフィードバック緩和制御は摂動系において頑健な性能を示し、値関数と最適フィードバック緩和制御の両方に対して1次感度方程式を導出する。 これらの安定性は、最適化目標に探索報酬を含む最近の強化学習ヒューリスティックスの理論的正当化をもたらし、より堅牢な意思決定につながる。 最終的に、探索パラメータの消失による緩和制御問題に対する値関数の1次単調収束を証明し、フィードバック緩和制御に基づいて元の制御問題の純粋活用戦略を構築することができる。

This paper proposes a relaxed control regularization with general exploration rewards to design robust feedback controls for multi-dimensional continuous-time stochastic exit time problems. We establish that the regularized control problem admits a H\"{o}lder continuous feedback control, and demonstrate that both the value function and the feedback control of the regularized control problem are Lipschitz stable with respect to parameter perturbations. Moreover, we show that a pre-computed feedback relaxed control has a robust performance in a perturbed system, and derive a first-order sensitivity equation for both the value function and optimal feedback relaxed control. These stability results provide a theoretical justification for recent reinforcement learning heuristics that including an exploration reward in the optimization objective leads to more robust decision making. We finally prove first-order monotone convergence of the value functions for relaxed control problems with vanishing exploration parameters, which subsequently enables us to construct the pure exploitation strategy of the original control problem based on the feedback relaxed controls.
翻訳日:2023-01-13 05:24:31 公開日:2021-07-23
# 深層編集による圧縮性の向上

Better Compression with Deep Pre-Editing ( http://arxiv.org/abs/2002.00113v3 )

ライセンス: Link先を確認
Hossein Talebi, Damien Kelly, Xiyang Luo, Ignacio Garcia Dorado, Feng Yang, Peyman Milanfar and Michael Elad(参考訳) 目に見えるアーティファクトを避けながら、標準コーデックで画像を圧縮できますか? 答えは明らかです -- これはビット予算が十分寛大である限り、実行可能です。 もし圧縮のために割り当てられたビットレートが不十分なら? 残念なことに、アーティファクトは人生の事実です。 この現象と闘うために長年にわたって様々な試みが行われ、様々な成功を収めた。 本研究は,ビットレートと画像品質の不均一な接続を断ち切ることを目的として,入力画像の事前編集と,その内容の変更によって圧縮アーティファクトを回避する方法を提案する。 我々は,この編集操作を学習畳み込みニューラルネットワークとして設計し,その学習のための最適化問題を定式化する。 我々の損失は、原画像と編集画像との近接性、提案画像に対するビット予算のペナルティ、および、結果を視覚的に喜ばせるように強制する非参照画像品質指標を考慮に入れている。 提案手法は、JPEG圧縮において、ビットの節約と、複雑な編集効果によって得られる視覚的品質の改善を示す。

Could we compress images via standard codecs while avoiding visible artifacts? The answer is obvious -- this is doable as long as the bit budget is generous enough. What if the allocated bit-rate for compression is insufficient? Then unfortunately, artifacts are a fact of life. Many attempts were made over the years to fight this phenomenon, with various degrees of success. In this work we aim to break the unholy connection between bit-rate and image quality, and propose a way to circumvent compression artifacts by pre-editing the incoming image and modifying its content to fit the given bits. We design this editing operation as a learned convolutional neural network, and formulate an optimization problem for its training. Our loss takes into account a proximity between the original image and the edited one, a bit-budget penalty over the proposed image, and a no-reference image quality measure for forcing the outcome to be visually pleasing. The proposed approach is demonstrated on the popular JPEG compression, showing savings in bits and/or improvements in visual quality, obtained with intricate editing effects.
翻訳日:2023-01-05 01:13:51 公開日:2021-07-23
# FrameAxis: ワード埋め込みによるマイクロフレームバイアスと強度のキャラクタリゼーション

FrameAxis: Characterizing Microframe Bias and Intensity with Word Embedding ( http://arxiv.org/abs/2002.08608v4 )

ライセンス: Link先を確認
Haewoon Kwak and Jisun An and Elise Jing and Yong-Yeol Ahn(参考訳) フレーミング(framing)は、他の問題よりも問題のある側面を強調するプロセスであり、バイアスのある議論をすることなく、読者やリスナーを問題に関する異なるポジションに向かわせる。 本稿では,テキスト中に単語埋め込みを用いて過剰表現される最も関連性の高い意味軸(「マイクロフレーム」)を識別し,文書を特徴付ける手法であるframeaxisを提案する。 手動アノテーションを必要としないので、教師なしのアプローチは大規模なデータセットにも簡単に適用できます。 豊富なセマンティクス軸を考えることで、ニュアンス的な洞察を提供することもできる。 frameaxisは、テキストでマイクロフレームがどのように使われているかの2つの重要な次元を定量的に解くように設計されている。 \textit{Microframe bias}は、あるマイクロフレーム上でのテキストの偏りをキャプチャし、 \textit{microframe intensity}は、あるマイクロフレームがどれだけアクティブに使われているかを示す。 それらは、テキストの詳細な特徴付けを提供する。 レストランレビューから政治ニュースまで,複数のデータセットにFrameAxisを適用することで,感情,トピック,パルチザンのスペクトルと高いバイアスと強度のマイクロフレームが一致していることを示す。 } 既存のドメイン知識は、カスタムマイクロフレームと反復探索分析器としてのフレーム軸を用いて、フレーム軸に組み込むことができる。 さらに,個々の単語や文書のレベルでフレーム軸の結果を説明する手法を提案する。 本手法は,分野間のフラーミングのスケーラブルで高度な計算解析を高速化する。

Framing is a process of emphasizing a certain aspect of an issue over the others, nudging readers or listeners towards different positions on the issue even without making a biased argument. {Here, we propose FrameAxis, a method for characterizing documents by identifying the most relevant semantic axes ("microframes") that are overrepresented in the text using word embedding. Our unsupervised approach can be readily applied to large datasets because it does not require manual annotations. It can also provide nuanced insights by considering a rich set of semantic axes. FrameAxis is designed to quantitatively tease out two important dimensions of how microframes are used in the text. \textit{Microframe bias} captures how biased the text is on a certain microframe, and \textit{microframe intensity} shows how actively a certain microframe is used. Together, they offer a detailed characterization of the text. We demonstrate that microframes with the highest bias and intensity well align with sentiment, topic, and partisan spectrum by applying FrameAxis to multiple datasets from restaurant reviews to political news.} The existing domain knowledge can be incorporated into FrameAxis {by using custom microframes and by using FrameAxis as an iterative exploratory analysis instrument.} Additionally, we propose methods for explaining the results of FrameAxis at the level of individual words and documents. Our method may accelerate scalable and sophisticated computational analyses of framing across disciplines.
翻訳日:2022-12-30 08:02:06 公開日:2021-07-23
# 低階半定プログラムの単純性と条件付けについて

On the simplicity and conditioning of low rank semidefinite programs ( http://arxiv.org/abs/2002.10673v2 )

ライセンス: Link先を確認
Lijun Ding, Madeleine Udell(参考訳) 低位行列回復問題は統計学、コンビネータ学、画像学に広く見られる。 これらの問題の解法として、半確定プログラム(SDP)を定式化して解く方法がある。 完全データによるSDPの正確な解は、元の低階行列回復問題に対する解を復元することがよく知られている。 ノイズのある問題データで定式化されたsdpに対する近似解が元の問題を許容的に解くことを示すことはより困難であり、議論は通常各問題の設定に対してアドホックであり、複雑である。 本稿では,ノイズのある問題データや不完全な収束による誤差を制限する,単純さと呼ばれる条件のセットを特定する。 この意味では、単純なsdpsは堅牢であり、単純なsdpsは(ほぼ)スケールで効率的に解くことができ、結果として得られる近似解は、ノイズデータであっても信頼できる。 さらに,確率ブロックモデルや$\mathbb{z}_2$同期,行列補完など,多くの構造的低ランク行列回復問題に対して,単純性が汎用的に保持されることを示した。 形式的には、全射制約写像を持ち、一意の原始および双対解対を認め、強い双対性と厳密な相補性を満たすならば、SDP を単純と呼ぶ。 しかし、単純性はパナセアではない: SDP のブラー・モンティロ定式化は、ランク 1 の解を持つ単純な SDP であっても、二階臨界点を突発的に持つ可能性があることを示す。

Low rank matrix recovery problems appear widely in statistics, combinatorics, and imaging. One celebrated method for solving these problems is to formulate and solve a semidefinite program (SDP). It is often known that the exact solution to the SDP with perfect data recovers the solution to the original low rank matrix recovery problem. It is more challenging to show that an approximate solution to the SDP formulated with noisy problem data acceptably solves the original problem; arguments are usually ad hoc for each problem setting, and can be complex. In this note, we identify a set of conditions that we call simplicity that limit the error due to noisy problem data or incomplete convergence. In this sense, simple SDPs are robust: simple SDPs can be (approximately) solved efficiently at scale; and the resulting approximate solutions, even with noisy data, can be trusted. Moreover, we show that simplicity holds generically, and also for many structured low rank matrix recovery problems, including the stochastic block model, $\mathbb{Z}_2$ synchronization, and matrix completion. Formally, we call an SDP simple if it has a surjective constraint map, admits a unique primal and dual solution pair, and satisfies strong duality and strict complementarity. However, simplicity is not a panacea: we show the Burer-Monteiro formulation of the SDP may have spurious second-order critical points, even for a simple SDP with a rank 1 solution.
翻訳日:2022-12-28 21:11:50 公開日:2021-07-23
# 大規模任意超解法のための単一ネットワークの学習

Learning A Single Network for Scale-Arbitrary Super-Resolution ( http://arxiv.org/abs/2004.03791v2 )

ライセンス: Link先を確認
Longguang Wang, Yingqian Wang, Zaiping Lin, Jungang Yang, Wei An, and Yulan Guo(参考訳) 近年,シングルイメージ超解像(SR)の性能は強力なネットワークで大幅に向上している。 しかし、これらのネットワークは1つの特定の整数スケール(x2;x3,x4など)のイメージSR向けに開発されており、非整数および非対称SRには使用できない。 本稿では,スケール固有のネットワークからスケール・アビトリ・イメージSRネットワークを学習することを提案する。 具体的には,複数のスケール対応特徴適応ブロックとスケール対応アップサンプリング層で構成される,既存のSRネットワーク用のプラグインモジュールを提案する。 さらに,スケール特化ネットワークからスケール特化ネットワークへ知識を伝達するための,スケール対応知識伝達パラダイムを導入する。 このプラグインモジュールは既存のネットワークに容易に適用でき、スケールアビタリーsrを実現します。 これらのネットワークをモジュールに接続することで、整数スケール係数を持つSRの最先端性能を維持しつつ、非整数および非対称SRに対して有望な結果が得られる。 さらに、我々のモジュールの計算コストとメモリコストも非常に小さいです。

Recently, the performance of single image super-resolution (SR) has been significantly improved with powerful networks. However, these networks are developed for image SR with a single specific integer scale (e.g., x2;x3,x4), and cannot be used for non-integer and asymmetric SR. In this paper, we propose to learn a scale-arbitrary image SR network from scale-specific networks. Specifically, we propose a plug-in module for existing SR networks to perform scale-arbitrary SR, which consists of multiple scale-aware feature adaption blocks and a scale-aware upsampling layer. Moreover, we introduce a scale-aware knowledge transfer paradigm to transfer knowledge from scale-specific networks to the scale-arbitrary network. Our plug-in module can be easily adapted to existing networks to achieve scale-arbitrary SR. These networks plugged with our module can achieve promising results for non-integer and asymmetric SR while maintaining state-of-the-art performance for SR with integer scale factors. Besides, the additional computational and memory cost of our module is very small.
翻訳日:2022-12-15 09:03:59 公開日:2021-07-23
# REVISE:ビジュアルデータセットにおけるバイアスの測定と緩和ツール

REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets ( http://arxiv.org/abs/2004.07999v4 )

ライセンス: Link先を確認
Angelina Wang and Alexander Liu and Ryan Zhang and Anat Kleiman and Leslie Kim and Dora Zhao and Iroha Shirai and Arvind Narayanan and Olga Russakovsky(参考訳) 機械学習モデルは、データに存在するバイアスを持続し、増幅することさえも知られている。 しかし、これらのデータバイアスはしばしば、モデルがデプロイされるまで明らかにならない。 この課題に対処し、大規模データセットのプリエンプティブ分析を可能にする。 revise (revealing visual biases) は、(1)オブジェクトベース、(2)人ベース、(3)地理ベースという3次元に沿って潜在的なバイアスを示す、ビジュアルデータセットの調査を支援するツールである。 オブジェクトベースのバイアスは、表現されたオブジェクトのサイズ、コンテキスト、多様性に関連する。 人ベースのメトリクスは、データセット内の人々の描写を分析することに焦点を当てます。 地理に基づく解析は、異なる地理的位置の表現を考える。 これらの3つの次元は、データセットのバイアスと相互作用する方法に深く絡み合っており、REVISEはこれに光を当てている。 このツールは、露見したバイアスを緩和するためのアクション可能なステップを提案することによって、ユーザをさらに支援する。 全体として、私たちの仕事の重要な目的は、パイプラインの早い段階で機械学習バイアス問題に取り組むことです。 REVISEはhttps://github.com/princetonvisualai/revise-toolで利用可能である。

Machine learning models are known to perpetuate and even amplify the biases present in the data. However, these data biases frequently do not become apparent until after the models are deployed. Our work tackles this issue and enables the preemptive analysis of large-scale datasets. REVISE (REvealing VIsual biaSEs) is a tool that assists in the investigation of a visual dataset, surfacing potential biases along three dimensions: (1) object-based, (2) person-based, and (3) geography-based. Object-based biases relate to the size, context, or diversity of the depicted objects. Person-based metrics focus on analyzing the portrayal of people within the dataset. Geography-based analyses consider the representation of different geographic locations. These three dimensions are deeply intertwined in how they interact to bias a dataset, and REVISE sheds light on this; the responsibility then lies with the user to consider the cultural and historical context, and to determine which of the revealed biases may be problematic. The tool further assists the user by suggesting actionable steps that may be taken to mitigate the revealed biases. Overall, the key aim of our work is to tackle the machine learning bias problem early in the pipeline. REVISE is available at https://github.com/princetonvisualai/revise-tool
翻訳日:2022-12-12 21:54:34 公開日:2021-07-23
# 自動教室観察に向けて:CLASS陽性気候と負気候を推定するマルチモーダル機械学習

Toward Automated Classroom Observation: Multimodal Machine Learning to Estimate CLASS Positive Climate and Negative Climate ( http://arxiv.org/abs/2005.09525v3 )

ライセンス: Link先を確認
Anand Ramakrishnan and Brian Zylich and Erin Ottmar and Jennifer LoCasale-Crouch and Jacob Whitehill(参考訳) 本研究では,多変量機械学習システムacornを提案する。このシステムは,教育研究で広く利用されているクラス観測プロトコルの正の気候 (pc) と負の気候 (nc) のための学校教室のビデオを分析する。 ACORNは畳み込みニューラルネットワークを使用して、スペクトルオーディオの特徴、教師や学生の顔、各画像フレームのピクセルを分析し、時間とともに時間をかけてこの情報を統合します。 オーディオヴィジュアル ACORN の PC と NC の予測では Pearson の相関は0.55$ と 0.63$ であり、UVA の Toddler データセットの CLASS コーダーが提供し、純粋なオーディエンス ACORN は PC と NC の相関関係を MET データセットの 0.36$ と 0.41$ (テストセットは $n=2000$ ビデオセグメント) で予測する。 これらの数値は、人間のコーダのコーダ間信頼性に類似している。 最後に、グラフ畳み込みネットワークを用いて、PCが特に弱い/強いときの特定の瞬間(45-90秒のクリップ)を予測するために、早期の進歩(AUC=0.70$)を行う。 本研究は,自動教室観察と,より一般的な映像活動認識・要約認識システムの設計について報告する。

In this work we present a multi-modal machine learning-based system, which we call ACORN, to analyze videos of school classrooms for the Positive Climate (PC) and Negative Climate (NC) dimensions of the CLASS observation protocol that is widely used in educational research. ACORN uses convolutional neural networks to analyze spectral audio features, the faces of teachers and students, and the pixels of each image frame, and then integrates this information over time using Temporal Convolutional Networks. The audiovisual ACORN's PC and NC predictions have Pearson correlations of $0.55$ and $0.63$ with ground-truth scores provided by expert CLASS coders on the UVA Toddler dataset (cross-validation on $n=300$ 15-min video segments), and a purely auditory ACORN predicts PC and NC with correlations of $0.36$ and $0.41$ on the MET dataset (test set of $n=2000$ videos segments). These numbers are similar to inter-coder reliability of human coders. Finally, using Graph Convolutional Networks we make early strides (AUC=$0.70$) toward predicting the specific moments (45-90sec clips) when the PC is particularly weak/strong. Our findings inform the design of automatic classroom observation and also more general video activity recognition and summary recognition systems.
翻訳日:2022-12-01 13:48:20 公開日:2021-07-23
# 工学応用のための基底適応スパース多項式カオス展開の自動選択

Automatic selection of basis-adaptive sparse polynomial chaos expansions for engineering applications ( http://arxiv.org/abs/2009.04800v3 )

ライセンス: Link先を確認
Nora L\"uthen, Stefano Marelli, Bruno Sudret(参考訳) スパース多項式カオス展開 (sparse polynomial chaos expansions, pce) は、計算コストの高いモデルを持つ工学的問題に対する不確実性定量化において効率的かつ広く用いられる超解法である。 利用可能な情報を最も効率的に利用するために、ベース適応スパースPCEと呼ばれるいくつかのアプローチが提案され、PCEの多項式回帰器(基底)の集合を適応的に決定する。 本研究の目的は,サロゲートPCEをモデルとして構築する上で,実践者が最も適した方法を特定することである。 近年のスパースPCE文献から得られた3つの最新技術に基づく基礎適応的アプローチについて述べるとともに,大規模な計算モデルに対する大域的近似精度のベンチマークを行う。 スパース回帰解法と基底適応スキームの相乗効果について検討した結果,適切な解法と基底適応スキームの選択は非常に重要であることがわかった。 1つの手法が他の手法よりも優れることはないが、解析をクラスに分割し(入力次元と実験設計サイズを考慮)、より優れた性能を示すクラスごとに特定のスパースソルバと基底適応結合を特定できる。 これらの知見をさらに改善するために,クロスバリデーションエラーによって導かれる新しい解法と基底適応性選択方式を導入する。 我々は,この自動選択手法が,ベンチマークで得られたケースバイケースのレコメンデーションよりも一般的でありながら,精度,かつはるかにロバストなソリューションとして,最適に近い結果をもたらすことを実証する。

Sparse polynomial chaos expansions (PCE) are an efficient and widely used surrogate modeling method in uncertainty quantification for engineering problems with computationally expensive models. To make use of the available information in the most efficient way, several approaches for so-called basis-adaptive sparse PCE have been proposed to determine the set of polynomial regressors ("basis") for PCE adaptively. The goal of this paper is to help practitioners identify the most suitable methods for constructing a surrogate PCE for their model. We describe three state-of-the-art basis-adaptive approaches from the recent sparse PCE literature and conduct an extensive benchmark in terms of global approximation accuracy on a large set of computational models. Investigating the synergies between sparse regression solvers and basis adaptivity schemes, we find that the choice of the proper solver and basis-adaptive scheme is very important, as it can result in more than one order of magnitude difference in performance. No single method significantly outperforms the others, but dividing the analysis into classes (regarding input dimension and experimental design size), we are able to identify specific sparse solver and basis adaptivity combinations for each class that show comparatively good performance. To further improve on these findings, we introduce a novel solver and basis adaptivity selection scheme guided by cross-validation error. We demonstrate that this automatic selection procedure provides close-to-optimal results in terms of accuracy, and significantly more robust solutions, while being more general than the case-by-case recommendations obtained by the benchmark.
翻訳日:2022-10-20 04:02:31 公開日:2021-07-23
# 運動最適化のためのタスク非依存行動空間の学習

Learning Task-Agnostic Action Spaces for Movement Optimization ( http://arxiv.org/abs/2009.10337v2 )

ライセンス: Link先を確認
Amin Babadi, Michiel van de Panne, C. Karen Liu, Perttu H\"am\"al\"ainen(参考訳) 本稿では,身体的アニメーションキャラクタのダイナミクスを探索し,動作最適化を容易にするタスク非依存な動作空間を学習する新しい手法を提案する。 いくつかの論文と同様に、動作を目標状態としてパラメータ化し、エージェントの状態を目標に向かって駆動する短期目標条件の低レベル制御ポリシーを学ぶ。 我々の新しい貢献は、探索データにより、参照移動データなしで、一般的な方法で低レベル政策を学習できるということです。 各エージェントやシミュレーション環境で一度トレーニングされたポリシは、複数のタスクと最適化アルゴリズムをまたいだトラジェクトリとハイレベルポリシの両方を最適化する効率を改善する。 また、ターゲット状態を動作として使用することで、最適化された軌道が障害に対してより堅牢になることを示す新しい視覚化も提供します。 その単純さと汎用性から,提案手法は,多種多様な移動最適化手法やアプリケーションを改善するビルディングブロックを提供するべきである。

We propose a novel method for exploring the dynamics of physically based animated characters, and learning a task-agnostic action space that makes movement optimization easier. Like several previous papers, we parameterize actions as target states, and learn a short-horizon goal-conditioned low-level control policy that drives the agent's state towards the targets. Our novel contribution is that with our exploration data, we are able to learn the low-level policy in a generic manner and without any reference movement data. Trained once for each agent or simulation environment, the policy improves the efficiency of optimizing both trajectories and high-level policies across multiple tasks and optimization algorithms. We also contribute novel visualizations that show how using target states as actions makes optimized trajectories more robust to disturbances; this manifests as wider optima that are easy to find. Due to its simplicity and generality, our proposed approach should provide a building block that can improve a large variety of movement optimization methods and applications.
翻訳日:2022-10-15 22:15:37 公開日:2021-07-23
# グラフニューラルネットワークの計算:アルゴリズムから加速器へのサーベイ

Computing Graph Neural Networks: A Survey from Algorithms to Accelerators ( http://arxiv.org/abs/2010.00130v3 )

ライセンス: Link先を確認
Sergi Abadal, Akshay Jain, Robert Guirado, Jorge L\'opez-Alonso, Eduard Alarc\'on(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データからモデル化および学習する能力のため、近年、機械学習シーンに爆発的に普及している。 このような能力は、データが本質的にリレーショナルであり、従来のニューラルネットワークがうまく機能しない様々な分野において強い意味を持つ。 実際、最近のレビューが示すように、GNNの領域の研究は急速に成長し、様々なGNNアルゴリズムの変種の開発や、化学、神経学、エレクトロニクス、通信ネットワークなどにおける画期的な応用の探索につながっている。 しかし、現在の研究の段階では、いくつかの理由から、GNNの効率的な処理は依然としてオープンな課題である。 新規性に加えて、GNNは入力グラフへの依存、密度と非常にスパースな操作の組み合わせ、あるいはいくつかのアプリケーションで巨大なグラフにスケールする必要があるため、計算が困難である。 本稿では,2つの主な貢献点について述べる。 一方、gnnsの分野に関するレビューは、コンピューティングの観点から提示されている。 これには、GNNの基本に関する簡単なチュートリアル、過去10年間のフィールドの進化の概要、異なるGNNアルゴリズムの複数のフェーズで実行される操作の概要が含まれる。 一方,gnn加速器のハードウェア・ソフトウェア,グラフ認識,通信中心のビジョンを蒸留した,現在のソフトウェアとハードウェア・アクセラレーション・スキームの詳細な分析を行う。

Graph Neural Networks (GNNs) have exploded onto the machine learning scene in recent years owing to their capability to model and learn from graph-structured data. Such an ability has strong implications in a wide variety of fields whose data is inherently relational, for which conventional neural networks do not perform well. Indeed, as recent reviews can attest, research in the area of GNNs has grown rapidly and has lead to the development of a variety of GNN algorithm variants as well as to the exploration of groundbreaking applications in chemistry, neurology, electronics, or communication networks, among others. At the current stage of research, however, the efficient processing of GNNs is still an open challenge for several reasons. Besides of their novelty, GNNs are hard to compute due to their dependence on the input graph, their combination of dense and very sparse operations, or the need to scale to huge graphs in some applications. In this context, this paper aims to make two main contributions. On the one hand, a review of the field of GNNs is presented from the perspective of computing. This includes a brief tutorial on the GNN fundamentals, an overview of the evolution of the field in the last decade, and a summary of operations carried out in the multiple phases of different GNN algorithm variants. On the other hand, an in-depth analysis of current software and hardware acceleration schemes is provided, from which a hardware-software, graph-aware, and communication-centric vision for GNN accelerators is distilled.
翻訳日:2022-10-12 23:20:21 公開日:2021-07-23
# 人間のポーズと武器の外観を組み合わせた拳銃検出

Handgun detection using combined human pose and weapon appearance ( http://arxiv.org/abs/2010.13753v4 )

ライセンス: Link先を確認
Jesus Ruiz-Santaquiteria, Alberto Velasco-Mata, Noelia Vallez, Gloria Bueno, Juan A. \'Alvarez-Garc\'ia, Oscar Deniz(参考訳) 近年、早期発見が不可欠であるセキュリティ上の脅威や危険な状況を防止するために、CCTVシステムは不可欠である。 深層学習に基づく新しい手法は、有望な結果を持つ自動兵器検知器の開発を可能にした。 しかし、これらのアプローチは主に視覚兵器のみに基づいている。 拳銃の場合、特に銃がほとんど見えない場合、身体のポーズは有用な手がかりとなる可能性がある。 本研究は、武器の出現と人間のポーズ情報の両方を単一のアーキテクチャで組み合わせた新しい手法を提案する。 まず、ポーズキーポイントを推定してハンド領域を抽出し、モデル入力であるバイナリポーズ画像を生成する。 そして、各入力を異なるサブネットで処理し、組み合わせて拳銃バウンディングボックスを生成する。 その結果, 組み合わせモデルにより, 従来よりも4.23点から18.9点のAPポイントを達成し, ハンドガン検出精度が向上することがわかった。

Closed-circuit television (CCTV) systems are essential nowadays to prevent security threats or dangerous situations, in which early detection is crucial. Novel deep learning-based methods have allowed to develop automatic weapon detectors with promising results. However, these approaches are mainly based on visual weapon appearance only. For handguns, body pose may be a useful cue, especially in cases where the gun is barely visible. In this work, a novel method is proposed to combine, in a single architecture, both weapon appearance and human pose information. First, pose keypoints are estimated to extract hand regions and generate binary pose images, which are the model inputs. Then, each input is processed in different subnetworks and combined to produce the handgun bounding box. Results obtained show that the combined model improves the handgun detection state of the art, achieving from 4.23 to 18.9 AP points more than the best previous approach.
翻訳日:2022-10-02 18:05:30 公開日:2021-07-23
# 個人不均一性のためのディープラーニング:自動推論フレームワーク

Deep Learning for Individual Heterogeneity: An Automatic Inference Framework ( http://arxiv.org/abs/2010.14694v2 )

ライセンス: Link先を確認
Max H. Farrell and Tengyuan Liang and Sanjog Misra(参考訳) 我々は,機械学習を用いて経済モデルを強化する手法を開発した。 我々のフレームワークは標準的な経済モデルを採用し、パラメータを完全なフレキシブルな非パラメトリック関数として再キャストし、潜在的に高次元または複雑な可観測特性に基づいてリッチな不均一性を捉える。 これらの「パラメータ関数」は古典的パラメータの解釈可能性、経済的意味、規律を保持する。 ディープラーニングは、経済学における異質性の構造化モデリングに特に適しています。 本稿では,経済モデルの構造に合わせてネットワークアーキテクチャを設計し,予測を超えて深層学習を行う新しい手法を提案する。 推定パラメータ関数に対する収束率を示す。 これらの関数は、推論利子の有限次元パラメータへのキー入力である。 本研究では,第2段階パラメータをカバーする新しい影響関数計算と,可観測損失関数を滑らかに用いた機械学習エンリッチモデルに基づく推論を行う。 追加の派生は必要ない。 スコアは、必要に応じて自動微分を使用して、データに直接取得することができる。 研究者はオリジナルのモデルを定義し、関心のパラメータを定義する必要がある。 重要な洞察は、データ上でそれを評価するために影響関数を書き留める必要はないということです。 当社のフレームワークは,価格弾力性,支払意欲,二項選択モデルや多項選択モデルにおける余剰測度,連続処理変数の影響,分数結果モデル,データ数,異種生産関数など,さまざまな例をカバーした,コンテキストのホストに対して新たな結果を提供します。 本手法を短期融資のための大規模広告実験に適用する。 経済的な意味のある見積もりと推測が、結果なしでは利用できないことを示す。

We develop methodology for estimation and inference using machine learning to enrich economic models. Our framework takes a standard economic model and recasts the parameters as fully flexible nonparametric functions, to capture the rich heterogeneity based on potentially high dimensional or complex observable characteristics. These "parameter functions" retain the interpretability, economic meaning, and discipline of classical parameters. Deep learning is particularly well-suited to structured modeling of heterogeneity in economics. We show how to design the network architecture to match the structure of the economic model, delivering novel methodology that moves deep learning beyond prediction. We prove convergence rates for the estimated parameter functions. These functions are the key inputs into the finite-dimensional parameter of inferential interest. We obtain inference based on a novel influence function calculation that covers any second-stage parameter and any machine-learning-enriched model that uses a smooth per-observation loss function. No additional derivations are required. The score can be taken directly to data, using automatic differentiation if needed. The researcher need only define the original model and define the parameter of interest. A key insight is that we need not write down the influence function in order to evaluate it on the data. Our framework gives new results for a host of contexts, covering such diverse examples as price elasticities, willingness-to-pay, and surplus measures in binary or multinomial choice models, effects of continuous treatment variables, fractional outcome models, count data, heterogeneous production functions, and more. We apply our methodology to a large scale advertising experiment for short-term loans. We show how economically meaningful estimates and inferences can be made that would be unavailable without our results.
翻訳日:2022-10-02 05:11:15 公開日:2021-07-23
# テンサイグロボットのためのデータ効率の良い微分可能物理エンジンのSim2Sim評価

Sim2Sim Evaluation of a Novel Data-Efficient Differentiable Physics Engine for Tensegrity Robots ( http://arxiv.org/abs/2011.04929v2 )

ライセンス: Link先を確認
Kun Wang, Mridul Aanjaneya and Kostas Bekris(参考訳) シミュレーションにおける学習方針は、ロボットコントローラのトレーニングにおける人間の労力を減らすことに有望である。 これは、より適応的で安全でありながら、正確にモデル化と制御が難しいソフトロボットに特に当てはまる。 sim2real gapは、シミュレーションから実際のロボットへポリシーをうまく移行するための主要な障壁である。 システム識別は、このギャップを減らすために応用できるが、従来の識別方法は、多くの手動チューニングを必要とする。 データ駆動の代替手段は、データから直接動的モデルをチューニングできるが、しばしばデータに飢えている。 この研究は、テンセグリティロボットのエキサイティングだが挑戦的な領域に焦点を当てたデータ駆動、エンドツーエンドの微分可能シミュレータを提案する。 著者たちの知る限りでは、これはケーブル、接触、アクチベーションモデリングをサポートするtensegrityロボットにとって、最初の微分可能な物理エンジンである。 目的は、限定された基底真理データで近似力学を学習できる、合理的に単純化されたデータ駆動シミュレーションを開発することである。 ダイナミクスは、地上システムに戻ることができるポリシーを生成するのに十分正確でなければなりません。 この方向への第一歩として、現在の研究は、無名の MuJoCo の物理モデルが基底真理系として機能するsim2sim 転送を実証している。 2つの異なるtensegrityロボットがロコモーションポリシーの評価と学習に使用され、6バーと3バーのtensegrityである。 この結果から, 基本真理システム上での政策訓練に異種エンジンを用いる場合, 基本真理システム上で機能する政策の訓練には, 0.25 % のグラウンド真理データしか必要とされないことがわかった。

Learning policies in simulation is promising for reducing human effort when training robot controllers. This is especially true for soft robots that are more adaptive and safe but also more difficult to accurately model and control. The sim2real gap is the main barrier to successfully transfer policies from simulation to a real robot. System identification can be applied to reduce this gap but traditional identification methods require a lot of manual tuning. Data-driven alternatives can tune dynamical models directly from data but are often data hungry, which also incorporates human effort in collecting data. This work proposes a data-driven, end-to-end differentiable simulator focused on the exciting but challenging domain of tensegrity robots. To the best of the authors' knowledge, this is the first differentiable physics engine for tensegrity robots that supports cable, contact, and actuation modeling. The aim is to develop a reasonably simplified, data-driven simulation, which can learn approximate dynamics with limited ground truth data. The dynamics must be accurate enough to generate policies that can be transferred back to the ground-truth system. As a first step in this direction, the current work demonstrates sim2sim transfer, where the unknown physical model of MuJoCo acts as a ground truth system. Two different tensegrity robots are used for evaluation and learning of locomotion policies, a 6-bar and a 3-bar tensegrity. The results indicate that only 0.25\% of ground truth data are needed to train a policy that works on the ground truth system when the differentiable engine is used for training against training the policy directly on the ground truth system.
翻訳日:2022-09-27 07:13:21 公開日:2021-07-23
# グラフニューラルネットワークのための設計空間

Design Space for Graph Neural Networks ( http://arxiv.org/abs/2011.08843v2 )

ライセンス: Link先を確認
Jiaxuan You, Rex Ying, Jure Leskovec(参考訳) グラフニューラルネットワーク(GNN)の急速な進化は、新しいアーキテクチャや新しいアプリケーションの増加につながっている。 しかしながら、現在の研究は、GNNの特定のアーキテクチャ設計を提案し評価することに焦点を当てており、GNNのより一般的な設計空間は、層数や集約関数の型など、異なる設計次元のカルト積からなる。 さらに、GNNの設計は単一のタスクに特化されることが多いが、新しいタスクや新しいデータセットに最適なGNN設計を素早く見つける方法を理解するための努力はほとんど行われていない。 ここでは,32種類の予測タスクに対して315,000の異なる設計からなるgnnのアーキテクチャ設計空間を定義し,体系的に検討する。 提案手法は,(1)汎用gnn設計空間,(2)類似度メトリクスを持つgnnタスク空間,(2)与えられた新規なタスク/データセットに対して,最適なアーキテクチャを迅速に識別・移行できる,(3)モデル・タスクの組み合わせから洞察を抽出可能な効率的かつ効果的な設計空間評価手法,の3つの重要な革新を特徴とする。 本研究の主な成果は,(1) 優れたGNNを設計するための包括的ガイドライン,(2) 異なるタスクに対する最高のGNN設計は著しく異なるが,GNNタスク空間は,異なるタスク間で最高の設計を転送することができる,(3) デザイン空間を用いて発見されたモデルが最先端のパフォーマンスを達成する。 全体として、我々の研究は、特定のタスクに対する個々のGNN設計の研究から、GNN設計空間とタスク空間の体系的な研究へと、原則的かつスケーラブルなアプローチを提供する。 最後に、さまざまなGNN設計とタスクを探索する強力なプラットフォームであるGraphGymをリリースします。 GraphGymはモジュール化されたGNN実装、標準化されたGNN評価、再現可能でスケーラブルな実験管理を備えている。

The rapid evolution of Graph Neural Networks (GNNs) has led to a growing number of new architectures as well as novel applications. However, current research focuses on proposing and evaluating specific architectural designs of GNNs, as opposed to studying the more general design space of GNNs that consists of a Cartesian product of different design dimensions, such as the number of layers or the type of the aggregation function. Additionally, GNN designs are often specialized to a single task, yet few efforts have been made to understand how to quickly find the best GNN design for a novel task or a novel dataset. Here we define and systematically study the architectural design space for GNNs which consists of 315,000 different designs over 32 different predictive tasks. Our approach features three key innovations: (1) A general GNN design space; (2) a GNN task space with a similarity metric, so that for a given novel task/dataset, we can quickly identify/transfer the best performing architecture; (3) an efficient and effective design space evaluation method which allows insights to be distilled from a huge number of model-task combinations. Our key results include: (1) A comprehensive set of guidelines for designing well-performing GNNs; (2) while best GNN designs for different tasks vary significantly, the GNN task space allows for transferring the best designs across different tasks; (3) models discovered using our design space achieve state-of-the-art performance. Overall, our work offers a principled and scalable approach to transition from studying individual GNN designs for specific tasks, to systematically studying the GNN design space and the task space. Finally, we release GraphGym, a powerful platform for exploring different GNN designs and tasks. GraphGym features modularized GNN implementation, standardized GNN evaluation, and reproducible and scalable experiment management.
翻訳日:2022-09-24 16:20:17 公開日:2021-07-23
# ブラックボックスの内部を覗く: 太陽系外惑星の大気観測のための深層学習モデル解釈

Peeking inside the Black Box: Interpreting Deep Learning Models for Exoplanet Atmospheric Retrievals ( http://arxiv.org/abs/2011.11284v2 )

ライセンス: Link先を確認
Kai Hou Yip, Quentin Changeat, Nikolaos Nikolaou, Mario Morvan, Billy Edwards, Ingo P. Waldmann, Giovanna Tinetti(参考訳) 深層学習アルゴリズムは、高非線形関係をモデル化し、データ駆動方式で興味深い問題を解く能力によって、外惑星科学の分野で人気が高まっている。 いくつかの研究は、ディープニューラルネットワーク(DNN)のような機械学習アルゴリズムを用いて、大気パラメータの高速な検索を試みた。 しかし、高い予測力にもかかわらず、DNNは「ブラックボックス」としても悪名高い。 天体物理学のコミュニティがそれを採用するのを嫌うのは、説明可能性の明らかな欠如である。 彼らの予測は何に基づいていますか。 どの程度の自信を持つべきか? 彼らはいつ間違っているのか、どのくらい間違っているのか? 本稿では,トレーニングモデルに適用可能な一般的な評価手法をいくつか提示し,このような質問に回答する。 特に、外惑星スペクトルから大気パラメータを抽出するために3つの異なるDNNアーキテクチャを訓練し、3つとも良好な予測性能を示すことを示す。 次に、DNNの予測を広範囲に分析し、与えられた機器やモデルに対する大気パラメータの信頼性限界を(特に)知らせる。 最後に,摂動に基づく感度解析を行い,検索結果がどのスペクトルの特徴に最も敏感かを特定する。 我々は、異なる分子に対して、DNNの予測が最も感度が高い波長範囲は、その特性吸収領域と実際に一致していると結論付けた。 本研究で提示される手法は,DNNの評価を改善し,その予測に解釈可能性を与えるのに役立つ。

Deep learning algorithms are growing in popularity in the field of exoplanetary science due to their ability to model highly non-linear relations and solve interesting problems in a data-driven manner. Several works have attempted to perform fast retrievals of atmospheric parameters with the use of machine learning algorithms like deep neural networks (DNNs). Yet, despite their high predictive power, DNNs are also infamous for being 'black boxes'. It is their apparent lack of explainability that makes the astrophysics community reluctant to adopt them. What are their predictions based on? How confident should we be in them? When are they wrong and how wrong can they be? In this work, we present a number of general evaluation methodologies that can be applied to any trained model and answer questions like these. In particular, we train three different popular DNN architectures to retrieve atmospheric parameters from exoplanet spectra and show that all three achieve good predictive performance. We then present an extensive analysis of the predictions of DNNs, which can inform us - among other things - of the credibility limits for atmospheric parameters for a given instrument and model. Finally, we perform a perturbation-based sensitivity analysis to identify to which features of the spectrum the outcome of the retrieval is most sensitive. We conclude that for different molecules, the wavelength ranges to which the DNN's predictions are most sensitive, indeed coincide with their characteristic absorption regions. The methodologies presented in this work help to improve the evaluation of DNNs and to grant interpretability to their predictions.
翻訳日:2022-09-22 03:21:16 公開日:2021-07-23
# (参考訳) GSVMA:Z-Alizadeh Saniデータセットに基づくCAD診断のための遺伝的支援ベクトルマシン-Anova法

GSVMA: A Genetic-Support Vector Machine-Anova method for CAD diagnosis based on Z-Alizadeh Sani dataset ( http://arxiv.org/abs/2108.08292v1 )

ライセンス: CC BY-SA 4.0
Javad Hassannataj Joloudari, Faezeh Azizi, Mohammad Ali Nematollahi, Roohallah Alizadehsani, Edris Hassannataj, Amir Mosavi(参考訳) 冠動脈疾患 (CAD) は, 世界中の中年者において, 心臓血管死の重要な原因の1つである。 最も一般的なツールはCAD診断のための血管造影である。 血管造影によるCAD診断の課題は費用がかかり副作用がある。 代替ソリューションの1つは、CAD診断に機械学習ベースのパターンを使用することである。 そこで本研究では,遺伝的支援ベクトルマシンと可変解析(GSVMA)と呼ばれるハイブリッド機械学習モデルを提案する。 ANOVAはSVMのカーネル関数として知られている。 提案モデルはz-alizadeh saniデータセットに基づいて実行される。 遺伝的最適化アルゴリズムは重要な特徴の選択に使用される。 さらに、データセットの分類には、Anova、Linear SVM、LibSVM、radial basis functionメソッドを使用したSVMを適用した。 その結果,GSVMAハイブリッド法は他の方法よりも優れた性能を示した。 提案手法は,z-alizadeh saniデータセット上で選択された35の特徴を持つ10倍のクロスバリデーション手法により,89.45%の精度を持つ。 したがって、遺伝的最適化アルゴリズムは精度を向上させるのに非常に効果的である。 コンピュータ支援GSVMA法はCAD診断で臨床医を助けることができる。

Coronary heart disease (CAD) is one of the crucial reasons for cardiovascular mortality in middle-aged people worldwide. The most typical tool is angiography for diagnosing CAD. The challenges of CAD diagnosis using angiography are costly and have side effects. One of the alternative solutions is the use of machine learning-based patterns for CAD diagnosis. Hence, this paper provides a new hybrid machine learning model called Genetic Support Vector Machine and Analysis of Variance (GSVMA). The ANOVA is known as the kernel function for SVM. The proposed model is performed based on the Z-Alizadeh Sani dataset. A genetic optimization algorithm is used to select crucial features. In addition, SVM with Anova, Linear SVM, and LibSVM with radial basis function methods were applied to classify the dataset. As a result, the GSVMA hybrid method performs better than other methods. This proposed method has the highest accuracy of 89.45% through a 10-fold cross-validation technique with 35 selected features on the Z-Alizadeh Sani dataset. Therefore, the genetic optimization algorithm is very effective for improving accuracy. The computer-aided GSVMA method can be helped clinicians with CAD diagnosis.
翻訳日:2021-08-22 17:04:57 公開日:2021-07-23
# gaussモデルとニューラルネットワークによる石炭燃焼過程における余剰空気係数の推定

Estimation of excess air coefficient on coal combustion processes via gauss model and artificial neural network ( http://arxiv.org/abs/2108.04180v1 )

ライセンス: Link先を確認
Sedat Golgiyaz, Muhammed Fatih Talu, Mahmut Daskin, Cem Onat(参考訳) 石炭燃焼熱システムのグローバル効率の最も重要な原因が燃焼効率であることは間違いない。 本研究では,CCDカメラで得られた炎像と余剰空気係数({\lambda})の関係をモデル化した。 データ収集と同期: 直径10cmの観測ポートに装着したCCDカメラで火炎画像を取得することにより, フラワーガス分析装置により, フラワーデータを協調的に測定し, 記録する。 2)特徴抽出:炎像を格子状に配置し、小片に分割する。 最適火炎画像に対する各ピースの均一性は、単変量および多変量ガウスのモデリング、色確率の計算、ガウス混合アプローチによって計算されている。 3)マッチングとテスト:多層人工ニューラルネットワーク(ANN)が機能-{\lambda}のマッチングに使用されている。

It is no doubt that the most important contributing cause of global efficiency of coal fired thermal systems is combustion efficiency. In this study, the relationship between the flame image obtained by a CCD camera and the excess air coefficient ({\lambda}) has been modelled. The model has been obtained with a three-stage approach: 1) Data collection and synchronization: Obtaining the flame images by means of a CCD camera mounted on a 10 cm diameter observation port, {\lambda} data has been coordinately measured and recorded by the flue gas analyzer. 2) Feature extraction: Gridding the flame image, it is divided into small pieces. The uniformity of each piece to the optimal flame image has been calculated by means of modelling with single and multivariable Gaussian, calculating of color probabilities and Gauss mixture approach. 3) Matching and testing: A multilayer artificial neural network (ANN) has been used for the matching of feature-{\lambda}.
翻訳日:2021-08-15 11:30:42 公開日:2021-07-23
# (参考訳) 会話場面における医学文献のマイニングと検索

Medical Literature Mining and Retrieval in a Conversational Setting ( http://arxiv.org/abs/2108.01436v1 )

ライセンス: CC BY 4.0
Souvik Das, Sougata Saha, and Rohini K. Srihari(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、医学研究の文献に刺激を与えた。 ウイルスを理解するための新たな研究の進展により、簡潔で消費可能な方法で文献から回答を処理、抽出、提示できる堅牢なテキストマイニングツールが必要である。 本稿では,ダイアロGPTをベースとしたマルチターン会話生成モジュールとBM-25 \&ニューラル埋め込みを用いたアンサンブル情報検索モジュールを用いて,豊かな医療文献から新型コロナウイルス関連クエリを検索・回答できる対話システムを提案し,ユーザとの会話環境で提示する。 さらに,ニューラルネットワークを用いた文書検索と従来のBM25検索アルゴリズムを比較し,結果を報告する。

The Covid-19 pandemic has caused a spur in the medical research literature. With new research advances in understanding the virus, there is a need for robust text mining tools which can process, extract and present answers from the literature in a concise and consumable way. With a DialoGPT based multi-turn conversation generation module, and BM-25 \& neural embeddings based ensemble information retrieval module, in this paper we present a conversational system, which can retrieve and answer coronavirus-related queries from the rich medical literature, and present it in a conversational setting with the user. We further perform experiments to compare neural embedding-based document retrieval and the traditional BM25 retrieval algorithm and report the results.
翻訳日:2021-08-08 11:36:12 公開日:2021-07-23
# 軟弱隣接損失のアニーリングによるテキスト分類とクラスタリング

Text Classification and Clustering with Annealing Soft Nearest Neighbor Loss ( http://arxiv.org/abs/2107.14597v1 )

ライセンス: Link先を確認
Abien Fred Agarap(参考訳) 我々は,クラス差分データポイント間の距離を,クラス差分データポイント間の距離と定義する。 表現学習中に絡み合いを最大化すると、データポイントのクラスメンバシップが保存される変換された特徴表現が得られる。 データポイントのクラスメンバシップが保存されている場合、最寄りのクラス化子やクラスタリングアルゴリズムがうまく機能する特徴表現空間を持つことになります。 この手法を利用して、より優れた自然言語表現を学習し、テキスト分類やテキストクラスタリングタスクに活用する。 乱れにより,クラスタ性が向上したテキスト表現を得るとともに,テキスト分類性能を向上させる。 我々のアプローチでは、テスト分類の精度は90.11%、テストクラスタリングの精度は88%で、私たちのベースラインモデルよりも優れています。

We define disentanglement as how far class-different data points from each other are, relative to the distances among class-similar data points. When maximizing disentanglement during representation learning, we obtain a transformed feature representation where the class memberships of the data points are preserved. If the class memberships of the data points are preserved, we would have a feature representation space in which a nearest neighbour classifier or a clustering algorithm would perform well. We take advantage of this method to learn better natural language representation, and employ it on text classification and text clustering tasks. Through disentanglement, we obtain text representations with better-defined clusters and improve text classification performance. Our approach had a test classification accuracy of as high as 90.11% and test clustering accuracy of 88% on the AG News dataset, outperforming our baseline models -- without any other training tricks or regularization.
翻訳日:2021-08-08 11:05:17 公開日:2021-07-23
# 集中治療における連続的非侵襲眼球追跡

Continuous Non-Invasive Eye Tracking In Intensive Care ( http://arxiv.org/abs/2108.01439v1 )

ライセンス: Link先を確認
Ahmed Al-Hindawi, Marcela Paula Vizcaychipi, Yiannis Demiris(参考訳) デリリウムは急激な混乱状態であり、ICU(Intensive Care Units)でよく見られる。 デリリウムを発症する患者は、そうでない患者よりも全世界的に予後が悪く、デリウムの診断が重要である。 現在の診断法にはいくつかの制限があり、眼球追跡による診断の提案につながっている。 成人ICUにおける視線追跡システムの要件を確認するため,チェルシー・アンド・ウェストミンスター病院 NHS Foundation Trust で測定を行った。 臨床基準は侵襲性とキャリブレーション法の経験的要求を指導し, 正確性と正確性を測定した。 患者向けrgbカメラとシーン向けrgbdカメラを利用した非侵襲システムを開発した。 このシステムの性能は,非侵襲的かつキャリブレーションフリーであると同時に,必要以上の精度と精度を呈する健康なボランティアによる再現実験環境で測定された。 このシステムは、ICUに配備された最初のアイトラッキングシステムである。

Delirium, an acute confusional state, is a common occurrence in Intensive Care Units (ICUs). Patients who develop delirium have globally worse outcomes than those who do not and thus the diagnosis of delirium is of importance. Current diagnostic methods have several limitations leading to the suggestion of eye-tracking for its diagnosis through in-attention. To ascertain the requirements for an eye-tracking system in an adult ICU, measurements were carried out at Chelsea & Westminster Hospital NHS Foundation Trust. Clinical criteria guided empirical requirements of invasiveness and calibration methods while accuracy and precision were measured. A non-invasive system was then developed utilising a patient-facing RGB-camera and a scene-facing RGBD-camera. The system's performance was measured in a replicated laboratory environment with healthy volunteers revealing an accuracy and precision that outperforms what is required while simultaneously being non-invasive and calibration-free The system was then deployed as part CONfuSED, a clinical feasibility study where we report aggregated data from 5 patients as well as the acceptability of the system to bedside nursing staff. The system is the first eye-tracking system to be deployed in an ICU.
翻訳日:2021-08-08 11:04:41 公開日:2021-07-23
# 畳み込みニューラルネットワークを用いたコーカサス性2次元フットプリント

Sexing Caucasian 2D footprints using convolutional neural networks ( http://arxiv.org/abs/2108.01554v1 )

ライセンス: Link先を確認
Marcin Budka, Matthew R. Bennet, Sally Reynolds, Shelby Barefoot, Sarah Reel, Selina Reidy, Jeremy Walker(参考訳) 足跡は、犯罪現場から人類学的調査まで、様々なシナリオで残されたり、得られたりする。 足跡の性別を決定することは、シングルまたはマルチランドマーク距離、形状解析、摩擦隆起の密度を用いてこのような印象や試みをスクリーニングするのに有用である。 ここでは,2次元足の印象,すなわちサイズ,形状,テクスチャの性差における異なる成分の相対的重要性について検討する。 機械学習のアプローチを使って、これを従来の差別方法と比較します。 2つのデータセット、ボーンマス大学の学生から収集されたパイロットデータセット(n=196)、シェフィールドnhs教育病院のポディアトリストによって収集されたより大きなデータセット(n=2677)が使用される。 我々の畳み込みニューラルネットワークは、すべての画像成分を用いてN=267フットプリント画像のテストセット上で、90%の精度でフットプリントをセックスすることができます。 しかし、印象の質は、この成功率に影響を及ぼすが、結果は有望であり、いずれは、どんな種類の医師(医学的または法医学的)でも、2次元の足跡の1次性交を得ることができる自動スクリーニングアルゴリズムを作成できるかもしれない。

Footprints are left, or obtained, in a variety of scenarios from crime scenes to anthropological investigations. Determining the sex of a footprint can be useful in screening such impressions and attempts have been made to do so using single or multi landmark distances, shape analyses and via the density of friction ridges. Here we explore the relative importance of different components in sexing two-dimensional foot impressions namely, size, shape and texture. We use a machine learning approach and compare this to more traditional methods of discrimination. Two datasets are used, a pilot data set collected from students at Bournemouth University (N=196) and a larger data set collected by podiatrists at Sheffield NHS Teaching Hospital (N=2677). Our convolutional neural network can sex a footprint with accuracy of around 90% on a test set of N=267 footprint images using all image components, which is better than an expert can achieve. However, the quality of the impressions impacts on this success rate, but the results are promising and in time it may be possible to create an automated screening algorithm in which practitioners of whatever sort (medical or forensic) can obtain a first order sexing of a two-dimensional footprint.
翻訳日:2021-08-08 11:04:25 公開日:2021-07-23
# 神経常微分方程式を用いたスピントロニクス実験の結果予測

Forecasting the outcome of spintronic experiments with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2108.02318v1 )

ライセンス: Link先を確認
Xing Chen, Flavio Abreu Araujo, Mathieu Riou, Jacob Torrejon, Dafin\'e Ravelosona, Wang Kang, Weisheng Zhao, Julie Grollier, Damien Querlioz(参考訳) ディープラーニングは、例えば新しい素材の発見を可能にするなど、研究を支援する効果が増大している。 しかしこれまで、これらの人工知能技術は、実験的な物理システムの完全な微分方程式の発見に至らなかった。 ここでは、最小限のデータ量に基づいてトレーニングされた動的ニューラルネットワークが、通常モデル化に使用される電磁シミュレーションと比較して、高精度で極めて効率的なシミュレーション時間でスピントロニクスデバイスの挙動を予測することができることを示す。 この目的のために、神経常微分方程式(英語版)(odes)の形式をスピントロニクスの制約(計測された出力、複数の入力、内部パラメータ)に再構成する。 複雑な問題に対するマイクロ磁気シミュレーションと比較し,200以上の加速度係数をスピンニューラルodesを用いて実証した。 第2の実現法では,実験スピントロニクスナノオシレータの雑音応答を,異なる励起に対する測定応答の5ミリ秒のスピンニューラルODEのトレーニング後に予測できることが示されている。 スピンニューラルodeは、マイクロ磁気シミュレーションを補完するスピントロニクス応用を開発するための破壊的ツールであり、ノイズや不完全な場合の実験には適さない。 スピンニューラルodeは、ダイナミクスを含む他の電子機器に一般化することもできる。

Deep learning has an increasing impact to assist research, allowing, for example, the discovery of novel materials. Until now, however, these artificial intelligence techniques have fallen short of discovering the full differential equation of an experimental physical system. Here we show that a dynamical neural network, trained on a minimal amount of data, can predict the behavior of spintronic devices with high accuracy and an extremely efficient simulation time, compared to the micromagnetic simulations that are usually employed to model them. For this purpose, we re-frame the formalism of Neural Ordinary Differential Equations (ODEs) to the constraints of spintronics: few measured outputs, multiple inputs and internal parameters. We demonstrate with Spin-Neural ODEs an acceleration factor over 200 compared to micromagnetic simulations for a complex problem -- the simulation of a reservoir computer made of magnetic skyrmions (20 minutes compared to three days). In a second realization, we show that we can predict the noisy response of experimental spintronic nano-oscillators to varying inputs after training Spin-Neural ODEs on five milliseconds of their measured response to different excitations. Spin-Neural ODE is a disruptive tool for developing spintronic applications in complement to micromagnetic simulations, which are time-consuming and cannot fit experiments when noise or imperfections are present. Spin-Neural ODE can also be generalized to other electronic devices involving dynamics.
翻訳日:2021-08-08 11:03:34 公開日:2021-07-23
# (参考訳) ProtoTransformer: 学生のフィードバックを提供するメタラーニングアプローチ

ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback ( http://arxiv.org/abs/2107.14035v1 )

ライセンス: CC BY 4.0
Mike Wu, Noah Goodman, Chris Piech, Chelsea Finn(参考訳) 高品質なコンピュータサイエンス教育は、大規模な学生にインストラクターのフィードバックを提供することの難しさによって制限されている。 このフィードバックは原則として自動化される可能性があるが、正しいフィードバックを予測するための教師付きアプローチは、大量の学生コードの注釈付けの難しさによってボトルネックとなる。 そこで,本研究では,メタラーナーが,教師が注釈付けしたいくつかの例から,新たなプログラミング問題に対する学生コードへのフィードバックをフィードバックするために適応する。 メタトレーニングのためのデータは限られているため、合成タスクを作成するタスク拡張や、各タスクに関するより強力な事前情報を構築するためのサイド情報など、典型的な数ショット学習フレームワークに対する多くの修正を提案する。 これらの追加は、離散シーケンス(例えば)を埋め込むトランスフォーマーアーキテクチャと組み合わせられる。 コード) フィードバッククラスラベルのプロトタイプ表現へ。 数ショットの自然言語処理タスクのスイートでは、最先端のパフォーマンスにマッチするか、向上します。 そして,初等教育課程の受験問題に対する学生ソリューションのコレクションにおいて,学習指導者の82%の精度を上回って,見当たらない質問に対して平均88%の精度に到達したことを示す。 本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。 これは、私たちの知る限りでは、機械学習ベースのフィードバックをオープンエンドの学生コードに展開する最初の成功例です。

High-quality computer science education is limited by the difficulty of providing instructor feedback to students at scale. While this feedback could in principle be automated, supervised approaches to predicting the correct feedback are bottlenecked by the intractability of annotating large quantities of student code. In this paper, we instead frame the problem of providing feedback as few-shot classification, where a meta-learner adapts to give feedback to student code on a new programming question from just a few examples annotated by instructors. Because data for meta-training is limited, we propose a number of amendments to the typical few-shot learning framework, including task augmentation to create synthetic tasks, and additional side information to build stronger priors about each task. These additions are combined with a transformer architecture to embed discrete sequences (e.g. code) to a prototypical representation of a feedback class label. On a suite of few-shot natural language processing tasks, we match or outperform state-of-the-art performance. Then, on a collection of student solutions to exam questions from an introductory university course, we show that our approach reaches an average precision of 88% on unseen questions, surpassing the 82% precision of teaching assistants. Our approach was successfully deployed to deliver feedback to 16,000 student exam-solutions in a programming course offered by a tier 1 university. This is, to the best of our knowledge, the first successful deployment of a machine learning based feedback to open-ended student code.
翻訳日:2021-08-01 12:01:39 公開日:2021-07-23
# パフォーマンスのギャップを意識する - 予測バリデーション中のデータセットシフトの検討

Mind the Performance Gap: Examining Dataset Shift During Prospective Validation ( http://arxiv.org/abs/2107.13964v1 )

ライセンス: Link先を確認
Erkin \"Otle\c{s}, Jeeheh Oh, Benjamin Li, Michelle Bochinski, Hyeon Joo, Justin Ortwine, Erica Shenoy, Laraine Washer, Vincent B. Young, Krishna Rao, Jenna Wiens(参考訳) 臨床医療に統合されると、患者のリスク階層化モデルは、振り返りのパフォーマンスよりも悪化する可能性がある。 現在までに、ケアプロセスや患者人口の変化により、パフォーマンスが経時的に低下することが広く受け入れられている。 しかし、将来的な検証性能を報告する研究者はほとんどいないため、この現象の程度はよく分かっていない。 本研究では,2020-2021('20-'21)の医療関連感染症予測のための患者リスク階層化モデルの性能を,同じモデルに対する2019-2020('19-'20)のふりかえり検証と比較した。 私たちは、レトロスペクティブと将来のパフォーマンスの違いをパフォーマンスのギャップとして定義します。 i)「時間的変化」,すなわち臨床ワークフローと患者人口の変化,ii)「インフラシフト」,すなわちデータのアクセス・抽出・変換の変化が,ともにパフォーマンスギャップに寄与していると推定する。 2020年7月から2021年6月までの12カ月間26,864件の病院通院を前向きに適用し、受信機動作特性曲線(AUROC)が0.767(95%信頼区間(CI):0.737,0.801)、ブライアスコアが0.189(95%CI:0.186,0.191)であった。 前向きのパフォーマンスは、AUROCが0.778(95% CI: 0.744, 0.815)、Brierスコアが0.163(95% CI: 0.161, 0.165)である'19-'20の振り返りのパフォーマンスと比べてわずかに低下した。 結果として生じるパフォーマンスギャップは、主にインフラストラクチャシフトによるものであり、時間シフトによるものではない。 大規模な研究データウェアハウスに格納されたデータを使用してモデルの開発と検証を続ける限り、データアクセスの方法と時期の違いを検討し、これらの違いが将来のパフォーマンスにどのように影響するかを計測し、これらの違いを緩和するために取り組む必要があります。

Once integrated into clinical care, patient risk stratification models may perform worse compared to their retrospective performance. To date, it is widely accepted that performance will degrade over time due to changes in care processes and patient populations. However, the extent to which this occurs is poorly understood, in part because few researchers report prospective validation performance. In this study, we compare the 2020-2021 ('20-'21) prospective performance of a patient risk stratification model for predicting healthcare-associated infections to a 2019-2020 ('19-'20) retrospective validation of the same model. We define the difference in retrospective and prospective performance as the performance gap. We estimate how i) "temporal shift", i.e., changes in clinical workflows and patient populations, and ii) "infrastructure shift", i.e., changes in access, extraction and transformation of data, both contribute to the performance gap. Applied prospectively to 26,864 hospital encounters during a twelve-month period from July 2020 to June 2021, the model achieved an area under the receiver operating characteristic curve (AUROC) of 0.767 (95% confidence interval (CI): 0.737, 0.801) and a Brier score of 0.189 (95% CI: 0.186, 0.191). Prospective performance decreased slightly compared to '19-'20 retrospective performance, in which the model achieved an AUROC of 0.778 (95% CI: 0.744, 0.815) and a Brier score of 0.163 (95% CI: 0.161, 0.165). The resulting performance gap was primarily due to infrastructure shift and not temporal shift. So long as we continue to develop and validate models using data stored in large research data warehouses, we must consider differences in how and when data are accessed, measure how these differences may affect prospective performance, and work to mitigate those differences.
翻訳日:2021-08-01 11:05:51 公開日:2021-07-23
# 持続可能な開発目標達成のための人工知能

Artificial Intelligence in Achieving Sustainable Development Goals ( http://arxiv.org/abs/2107.13966v1 )

ライセンス: Link先を確認
Hoe-Han Goh(参考訳) この視点は、SDGの達成を加速できるAIアプリケーションの一部を示し、また、それらに対する取り組みを妨げる可能性がある考慮事項を強調している。 これは、AIの有益な応用のための標準AIガイドラインと規則を確立することの重要性を強調している。

This perspective illustrates some of the AI applications that can accelerate the achievement of SDGs and also highlights some of the considerations that could hinder the efforts towards them. This emphasizes the importance of establishing standard AI guidelines and regulations for the beneficial applications of AI.
翻訳日:2021-08-01 11:04:50 公開日:2021-07-23
# (参考訳) 食料価格予測における予言と深層学習と有馬の比較

Comparing Prophet and Deep Learning to ARIMA in Forecasting Wholesale Food Prices ( http://arxiv.org/abs/2107.12770v1 )

ライセンス: CC BY 4.0
Lorenzo Menculini, Andrea Marini, Massimiliano Proietti, Alberto Garinei, Alessio Bozza, Cecilia Moretti, Marcello Marconi(参考訳) 販売価格を正しく設定することは企業にとって非常に重要であり、価格時系列の研究と予測は、データサイエンスの観点からだけでなく、経済的かつ応用的な視点からも関連する話題である。 本稿では,イタリア食品問屋が適用する食品3種の販売価格を予測するための異なる手法について検討する。 我々は、ARIMAモデルを検討し、それらを、Facebookが開発した拡張予測ツールであるProphetと、Long Short-Term Memory (LSTM)とConvolutional Neural Networks (CNN)に基づくディープラーニングモデルと比較する。 アリマモデルは計量分析でよく使われ、研究中の問題に良いベキマークを与えている。 この結果から, ARIMA は LSTM ニューラルネットワークと同等に動作し, CNN と LSTM を組み合わせることで, 全体的な精度は向上するが, 調整に要する時間が増大することがわかった。 逆にProphetは非常に速く使えるが、正確ではない。

Setting sale prices correctly is of great importance for firms, and the study and forecast of prices time series is therefore a relevant topic not only from a data science perspective but also from an economic and applicative one. In this paper we exhamine different techniques to forecast the sale prices of three food products applied by an Italian food wholesaler, as a step towards the automation of pricing tasks usually taken care by human workforce. We consider ARIMA models and compare them to Prophet, a scalable forecasting tool developed by Facebook and based on a generalized additive model, and to deep learning models based on Long Short--Term Memory (LSTM) and Convolutional Neural Networks (CNNs). ARIMA models are frequently used in econometric analyses, providing a good bechmark for the problem under study. Our results indicate that ARIMA performs similarly to LSTM neural networks for the problem under study, while the combination of CNNs and LSTMs attains the best overall accuracy, but requires more time to be tuned. On the contrary, Prophet is very fast to use, but less accurate.
翻訳日:2021-07-29 06:17:02 公開日:2021-07-23
# (参考訳) ラベル雑音学習のための現実的なシミュレーションフレームワーク

A Realistic Simulation Framework for Learning with Label Noise ( http://arxiv.org/abs/2107.11413v1 )

ライセンス: CC BY 4.0
Keren Gu, Xander Masotto, Vandana Bachani, Balaji Lakshminarayanan, Jack Nikodem, Dong Yin(参考訳) 擬似ラベル手法を用いて実例依存型ノイズラベルを生成するためのシミュレーションフレームワークを提案する。 提案手法は,cifar10-hデータセットとの比較により,ラベルノイズの重要な特性を示す合成雑音ラベルを生成する。 制御可能なラベルノイズを伴って,いくつかの現実的な環境におけるノイズラベルの負の影響について検討し,ラベルノイズがより問題となる場合を理解する。 また、ノイズの多いラベルで学習するための既存のアルゴリズムをベンチマークし、我々の合成データセットとデータセットの振る舞いを独立したランダムなラベルノイズと比較する。 さらに,シミュレーションフレームワークからアノテータ情報の提供により,アノテータ機能を利用したノイズラベルの予測と修正を行う新しい手法であるラベル品質モデル(LQM)を提案する。 既存の雑音ラベル技術を適用する前にラベル補正ステップとしてLQMを追加することで、モデルの性能をさらに改善できることを示す。

We propose a simulation framework for generating realistic instance-dependent noisy labels via a pseudo-labeling paradigm. We show that this framework generates synthetic noisy labels that exhibit important characteristics of the label noise in practical settings via comparison with the CIFAR10-H dataset. Equipped with controllable label noise, we study the negative impact of noisy labels across a few realistic settings to understand when label noise is more problematic. We also benchmark several existing algorithms for learning with noisy labels and compare their behavior on our synthetic datasets and on the datasets with independent random label noise. Additionally, with the availability of annotator information from our simulation framework, we propose a new technique, Label Quality Model (LQM), that leverages annotator features to predict and correct against noisy labels. We show that by adding LQM as a label correction step before applying existing noisy label techniques, we can further improve the models' performance.
翻訳日:2021-07-28 14:15:52 公開日:2021-07-23
# (参考訳) グローバル非定常多腕バンディットの有限時間解析

Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits ( http://arxiv.org/abs/2107.11419v1 )

ライセンス: CC BY 4.0
Junpei Komiyama, Edouard Fouch\'e, Junya Honda(参考訳) アームのモデルパラメータが時間とともに変化する非定常なマルチアームバンディット問題を考える。 本稿では,データストリームコミュニティの適応ウィンドウ技術を活用した帯域幅アルゴリズムのクラスであるAdaptive Resetting Bandit(ADR-bandit)を紹介する。 まず、データマイニングコミュニティに独立した関心を持つ、適応型ウィンドウ技術による推定器の品質に関する新たな保証を提供する。 さらに,ADR帯域の有限時間解析を2つの典型的な環境 – 変化が瞬時に発生する急激な環境と,変化が徐々に起こる段階的環境 – で実施する。 adr-banditは、突然あるいは大域的な変化が、地球規模の変化と呼ばれる協調的な方法で起こる場合に、ほぼ最適なパフォーマンスを示す。 グローバルな変化に対する関心を制限する場合、強制探査は不要であることを示す。 既存の非定常バンディットアルゴリズムとは異なり、adr-banditは静止環境だけでなく、グローバルに変化のある非定常環境においても最適な性能を持つ。 実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。

We consider nonstationary multi-armed bandit problems where the model parameters of the arms change over time. We introduce the adaptive resetting bandit (ADR-bandit), which is a class of bandit algorithms that leverages adaptive windowing techniques from the data stream community. We first provide new guarantees on the quality of estimators resulting from adaptive windowing techniques, which are of independent interest in the data mining community. Furthermore, we conduct a finite-time analysis of ADR-bandit in two typical environments: an abrupt environment where changes occur instantaneously and a gradual environment where changes occur progressively. We demonstrate that ADR-bandit has nearly optimal performance when the abrupt or global changes occur in a coordinated manner that we call global changes. We demonstrate that forced exploration is unnecessary when we restrict the interest to the global changes. Unlike the existing nonstationary bandit algorithms, ADR-bandit has optimal performance in stationary environments as well as nonstationary environments with global changes. Our experiments show that the proposed algorithms outperform the existing approaches in synthetic and real-world environments.
翻訳日:2021-07-28 13:51:58 公開日:2021-07-23
# (参考訳) HierMUD: 橋梁間の階層的マルチタスク非教師領域適応による損傷診断

HierMUD: Hierarchical Multi-task Unsupervised Domain Adaptation between Bridges for Drive-by Damage Diagnosis ( http://arxiv.org/abs/2107.11435v1 )

ライセンス: CC BY-SA 4.0
Jingxiao Liu, Susu Xu, Mario Berg\'es, Hae Young Noh(参考訳) 車両の振動を利用した橋梁の健康モニタリングには、橋に直接センサーを設置し維持する必要がないなど、様々な利点がある。 しかしながら、既存のdrive-by監視アプローチの多くは、すべての関心橋からのラベル付きデータを必要とする教師付き学習モデルに基づいている。 そこで本研究では,ある橋梁から学習したモデルを伝達し,対象橋のラベルを使わずに別の橋梁の損傷を診断する新しい枠組みを提案する。 我々のフレームワークは、複数の診断タスクに有用なタスク共有およびタスク固有の特徴を抽出し、複数のブリッジで不変な階層型ニューラルネットワークモデルを訓練する。 2つの橋と3台の車両から収集した実験データに関する枠組みを評価する。 被害検出の精度は95%,局所化の93%,定量化の最大72%であり,ベースライン法に比べて約2倍改善されている。

Monitoring bridge health using vibrations of drive-by vehicles has various benefits, such as no need for directly installing and maintaining sensors on the bridge. However, many of the existing drive-by monitoring approaches are based on supervised learning models that require labeled data from every bridge of interest, which is expensive and time-consuming, if not impossible, to obtain. To this end, we introduce a new framework that transfers the model learned from one bridge to diagnose damage in another bridge without any labels from the target bridge. Our framework trains a hierarchical neural network model in an adversarial way to extract task-shared and task-specific features that are informative to multiple diagnostic tasks and invariant across multiple bridges. We evaluate our framework on experimental data collected from 2 bridges and 3 vehicles. We achieve accuracies of 95% for damage detection, 93% for localization, and up to 72% for quantification, which are ~2 times improvements from baseline methods.
翻訳日:2021-07-28 13:50:48 公開日:2021-07-23
# (参考訳) ニューラルネットワークの圧縮:最適層分解の決定に向けて

Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition ( http://arxiv.org/abs/2107.11442v1 )

ライセンス: CC BY 4.0
Lucas Liebenwein, Alaa Maalouf, Oren Gal, Dan Feldman, Daniela Rus(参考訳) 本稿では,各層を自動的に解析して最適な層間圧縮比を同定し,同時に所望の全体圧縮を実現するディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。 提案手法は,各畳み込み層(あるいは完全連結層)を複数のグループにスライスし,低ランク分解により各グループを分解する手法に依拠する。 アルゴリズムの核心は、エッカート・ヤング・ミルスキーの定理による層分解誤差境界の導出である。 次に、これらの境界を利用して圧縮問題を最適化問題とし、層間の最大圧縮誤差を最小限に抑え、解に対する効率的なアルゴリズムを提案する。 実験の結果,提案手法は,既存の低ランク圧縮手法を,幅広いネットワークやデータセットで採用している。 我々は,現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する今後の研究の新たな道を開くと信じている。 私たちのコードはhttps://github.com/lucaslie/torchpruneで利用可能です。

We present a novel global compression framework for deep neural networks that automatically analyzes each layer to identify the optimal per-layer compression ratio, while simultaneously achieving the desired overall compression. Our algorithm hinges on the idea of compressing each convolutional (or fully-connected) layer by slicing its channels into multiple groups and decomposing each group via low-rank decomposition. At the core of our algorithm is the derivation of layer-wise error bounds from the Eckart Young Mirsky theorem. We then leverage these bounds to frame the compression problem as an optimization problem where we wish to minimize the maximum compression error across layers and propose an efficient algorithm towards a solution. Our experiments indicate that our method outperforms existing low-rank compression approaches across a wide range of networks and data sets. We believe that our results open up new avenues for future research into the global performance-size trade-offs of modern neural networks. Our code is available at https://github.com/lucaslie/torchprune.
翻訳日:2021-07-28 13:12:38 公開日:2021-07-23
# (参考訳) 深層学習に基づく心臓MRIのセグメンテーション:専門家は必要か?

Deep Learning Based Cardiac MRI Segmentation: Do We Need Experts? ( http://arxiv.org/abs/2107.11447v1 )

ライセンス: CC BY 4.0
Youssef Skandarani, Pierre-Marc Jodoin and Alain Lalande(参考訳) ディープ・ラーニング(Deep Learning)は、医療画像解析タスクのデファクト・ソリューションである。 心臓MRIセグメント化(Cardiac MRI segmentation)は、他の多くのアプリケーションと同様に、トレーニングされたネットワークが適切に一般化できるように、大量の注釈付きデータを必要とするアプリケーションである。 残念なことに、医療専門家による大量の手作業による画像のキュレーションプロセスは、遅くて全く高価である。 本稿では、機械学習がうまくトレーニングできる注釈付きデータセットの作成において、専門家の知識が厳しい要件であるかどうかを検討する。 そこで我々は,U-Net,Attention U-Net,ENetの3つのセグメンテーションモデルの性能評価を行った。 心室吐出率や心筋量など,古典的セグメンテーション測定値(Dice index, Hausdorff distance)と臨床測定値を用いて評価を行った。 その結果,非熟練の基幹データで訓練されたセグメンテーションニューラルネットの一般化性能は,専門家の基幹データと同等に実用的であり,特に非熟練者が適正なトレーニングレベルを得た場合において,心臓データセットのためのアノテーションを効率的かつ安価に作成する機会を浮き彫りにした。

Deep learning methods are the de-facto solutions to a multitude of medical image analysis tasks. Cardiac MRI segmentation is one such application which, like many others, requires a large number of annotated data so a trained network can generalize well. Unfortunately, the process of having a large number of manually curated images by medical experts is both slow and utterly expensive. In this paper, we set out to explore whether expert knowledge is a strict requirement for the creation of annotated datasets that machine learning can successfully train on. To do so, we gauged the performance of three segmentation models, namely U-Net, Attention U-Net, and ENet, trained with different loss functions on expert and non-expert groundtruth for cardiac cine-MRI segmentation. Evaluation was done with classic segmentation metrics (Dice index and Hausdorff distance) as well as clinical measurements, such as the ventricular ejection fractions and the myocardial mass. Results reveal that generalization performances of a segmentation neural network trained on non-expert groundtruth data is, to all practical purposes, as good as on expert groundtruth data, in particular when the non-expert gets a decent level of training, highlighting an opportunity for the efficient and cheap creation of annotations for cardiac datasets.
翻訳日:2021-07-28 12:36:20 公開日:2021-07-23
# (参考訳) 機械学習を用いた射撃場における騒音事象の自動検出

Automatic Detection Of Noise Events at Shooting Range Using Machine Learning ( http://arxiv.org/abs/2107.11453v1 )

ライセンス: CC BY-SA 4.0
Jon Nordby, Fabian Nemazi, Dag Rieber(参考訳) 屋外射撃場は、地方や国家当局の騒音規制の対象となっている。 これらの規則で見出される制限には、活動時間、ノイズイベントの全体数、ノイズの種類やアクティビティのクラスによるイベント数制限が含まれる。 騒音監視システムは、全体の音レベルを追跡するために用いられるが、このような規制と直接比較するために必要な活動を検出したり、イベント数を数えたりすることは滅多にない。 本研究では,ノイズイベントをカウントする自動検出システムの実現可能性と性能について検討する。 新たに構築した射撃場と訓練施設でデータを収集し,実験的な評価を行った。 このデータには、小火器から高口径ライフルや爆発物まで、複数のソース位置で複数の武器構成をテストし、異なる日に収集するテストが含まれている。 いくつかの機械学習モデルがテストされ、A重音レベルや1/3オクターブスペクトログラムなどの標準音響指標と、ロジスティック回帰や畳み込みニューラルネットワークのような分類器の入力として使用される。 様々な代替案のパフォーマンスは偽陽性率と偽陰性率で報告される。 検出性能はトレーニング活動を伴う時間の自動記録に有効であることが判明した。

Outdoor shooting ranges are subject to noise regulations from local and national authorities. Restrictions found in these regulations may include limits on times of activities, the overall number of noise events, as well as limits on number of events depending on the class of noise or activity. A noise monitoring system may be used to track overall sound levels, but rarely provide the ability to detect activity or count the number of events, required to compare directly with such regulations. This work investigates the feasibility and performance of an automatic detection system to count noise events. An empirical evaluation was done by collecting data at a newly constructed shooting range and training facility. The data includes tests of multiple weapon configurations from small firearms to high caliber rifles and explosives, at multiple source positions, and collected on multiple different days. Several alternative machine learning models are tested, using as inputs time-series of standard acoustic indicators such as A-weighted sound levels and 1/3 octave spectrogram, and classifiers such as Logistic Regression and Convolutional Neural Networks. Performance for the various alternatives are reported in terms of the False Positive Rate and False Negative Rate. The detection performance was found to be satisfactory for use in automatic logging of time-periods with training activity.
翻訳日:2021-07-28 12:22:38 公開日:2021-07-23
# (参考訳) 畳み込みオートエンコーダを用いた多孔質媒質中の自然対流の非侵入的減少次数モデリング:線形部分空間法との比較

Non-intrusive reduced order modeling of natural convection in porous media using convolutional autoencoders: comparison with linear subspace techniques ( http://arxiv.org/abs/2107.11460v1 )

ライセンス: CC BY 4.0
T. Kadeethum, F. Ballarin, Y. Cho, D. O'Malley, H. Yoon, N. Bouklas(参考訳) 多孔質媒質中の自然対流は、多くの工学的応用(例えば$\mathrm{CO_2}$Sequestration)に関連する非常に非線形な多物理問題である。 本稿では, 圧縮・再構成に深い畳み込み自己エンコーダを用いた多孔質媒体の自然対流の非侵襲的縮小秩序モデルと, 対応する非線形多様体上の偏微分方程式 (PDE) のパラメータに対する放射基底関数 (RBF) 補間あるいは人工ニューラルネットワーク (ANN) について述べる。 また, 線形圧縮と再構成プロセスについて, 正規直交分解 (POD) と ANN を用いて検討した。 3つのベンチマーク問題を通じて,異なるモデル間の包括的比較を行う。 還元次数モデル、線形および非線形アプローチは有限要素モデルよりもはるかに高速であり、我々のフレームワークはCourant-Friedrichs-Lewy条件に縛られないため、最大速度は7 \times 10^{6}$となる。 我々のモデルの精度は、最悪のシナリオでは平均2乗誤差0.07(有限要素結果の最大値より2桁低い)の範囲内にある。 我々は、特定の設定において、非線形アプローチが線形アプローチよりも優れており、逆もまた可能であることを示す。 主成分分析 (PCA) と t-Distributed Stochastic Neighbor Embedding (T-SNE) の視覚的比較は, 特定の圧縮戦略を採用する前にどの手法がより良く動作するかを示すことができる。

Natural convection in porous media is a highly nonlinear multiphysical problem relevant to many engineering applications (e.g., the process of $\mathrm{CO_2}$ sequestration). Here, we present a non-intrusive reduced order model of natural convection in porous media employing deep convolutional autoencoders for the compression and reconstruction and either radial basis function (RBF) interpolation or artificial neural networks (ANNs) for mapping parameters of partial differential equations (PDEs) on the corresponding nonlinear manifolds. To benchmark our approach, we also describe linear compression and reconstruction processes relying on proper orthogonal decomposition (POD) and ANNs. We present comprehensive comparisons among different models through three benchmark problems. The reduced order models, linear and nonlinear approaches, are much faster than the finite element model, obtaining a maximum speed-up of $7 \times 10^{6}$ because our framework is not bound by the Courant-Friedrichs-Lewy condition; hence, it could deliver quantities of interest at any given time contrary to the finite element model. Our model's accuracy still lies within a mean squared error of 0.07 (two-order of magnitude lower than the maximum value of the finite element results) in the worst-case scenario. We illustrate that, in specific settings, the nonlinear approach outperforms its linear counterpart and vice versa. We hypothesize that a visual comparison between principal component analysis (PCA) or t-Distributed Stochastic Neighbor Embedding (t-SNE) could indicate which method will perform better prior to employing any specific compression strategy.
翻訳日:2021-07-28 12:14:06 公開日:2021-07-23
# (参考訳) 線形プローブのクロスタスクグリッドを用いた網膜画像上のCNNモデル予測の解釈

Using a Cross-Task Grid of Linear Probes to Interpret CNN Model Predictions On Retinal Images ( http://arxiv.org/abs/2107.11468v1 )

ライセンス: CC BY 4.0
Katy Blumer, Subhashini Venugopalan, Michael P. Brenner, Jon Kleinberg(参考訳) 網膜画像のデータセットを線形プローブを用いて解析する: ある"ターゲット"タスクでトレーニングされた線形回帰モデル、ある"ソース"タスクでトレーニングされたディープ畳み込み(cnn)モデルからの埋め込みを入力として使用する。 我々はこの手法を、UK Biobankの網膜画像データセットにおける93タスクの可能な全てのペアリングに使用し、約164kの異なるモデルに導いた。 我々は,これらの線形プローブの性能を,震源および対象タスクと層深さで解析する。 ネットワークの中間層からの表現がより一般化可能であることを観察する。 対象タスクのいくつかは、ソースタスクに関係なく容易に予測でき、他の対象タスクは、同じタスクでトレーニングされた組込みよりも、相関したソースタスクからより正確に予測できる。

We analyze a dataset of retinal images using linear probes: linear regression models trained on some "target" task, using embeddings from a deep convolutional (CNN) model trained on some "source" task as input. We use this method across all possible pairings of 93 tasks in the UK Biobank dataset of retinal images, leading to ~164k different models. We analyze the performance of these linear probes by source and target task and by layer depth. We observe that representations from the middle layers of the network are more generalizable. We find that some target tasks are easily predicted irrespective of the source task, and that some other target tasks are more accurately predicted from correlated source tasks than from embeddings trained on the same task.
翻訳日:2021-07-28 12:12:38 公開日:2021-07-23
# (参考訳) plinko: 統計的学習とメンタルモデル更新のための事前の理論自由行動尺度

Plinko: A Theory-Free Behavioral Measure of Priors for Statistical Learning and Mental Model Updating ( http://arxiv.org/abs/2107.11477v1 )

ライセンス: CC BY 4.0
Peter A. V. DiBerardino, Alexandre L. S. Filipowicz, James Danckert, Britt Anderson(参考訳) 確率分布はベイズ人の認知的説明の中心であるが、行動評価はそれらを直接測定しない。 後部分布は通常、個々の参加者の行動の集合から計算されるが、参加者の信念の内部構造に関する結論を引き出すために用いられる。 また、明確に測定されていないのは、ベイズ模型と他者とを区別する以前の分布である。 代わりに、事前は実験者の直観やモデル仮定から導き出され、全ての参加者に等しく適用される。 本稿では,すべての結果に対してボール滴の分布を推定し,観察前に分布を明示的に測定する行動課題である「plinko」を用いた3つの実験について述べる。 実験1では,主観的確率分布(ガウス,バイモーダルなど)に先行する参加者が集まることを示す。 また,事前クラスタメンバシップは学習能力を示す可能性がある。 実験2では,発表されていない分布の変化に更新する能力と,環境操作による影響を強調する。 最後に,実験3では,個々の参加者が信頼できる表現であり,個々の参加者の入力に応じて動的に定義されたボールドロップ分布に直面すると,学習が妨げられなくなることを検証した。 この課題は、より伝統的な計算モデリング手法による仮定の多くを必要とせずに、統計学習とメンタルモデル更新のメカニズムをより精査する上で有用である。

Probability distributions are central to Bayesian accounts of cognition, but behavioral assessments do not directly measure them. Posterior distributions are typically computed from collections of individual participant actions, yet are used to draw conclusions about the internal structure of participant beliefs. Also not explicitly measured are the prior distributions that distinguish Bayesian models from others by representing initial states of belief. Instead, priors are usually derived from experimenters' intuitions or model assumptions and applied equally to all participants. Here we present three experiments using "Plinko", a behavioral task in which participants estimate distributions of ball drops over all available outcomes and where distributions are explicitly measured before any observations. In Experiment 1, we show that participant priors cluster around prototypical probability distributions (Gaussian, bimodal, etc.), and that prior cluster membership may indicate learning ability. In Experiment 2, we highlight participants' ability to update to unannounced changes of presented distributions and how this ability is affected by environmental manipulation. Finally, in Experiment 3, we verify that individual participant priors are reliable representations and that learning is not impeded when faced with a physically implausible ball drop distribution that is dynamically defined according to individual participant input. This task will prove useful in more closely examining mechanisms of statistical learning and mental model updating without requiring many of the assumptions made by more traditional computational modeling methodologies.
翻訳日:2021-07-28 11:22:40 公開日:2021-07-23
# (参考訳) 類似性に基づく対話生成のためのラベル平滑化

Similarity Based Label Smoothing For Dialogue Generation ( http://arxiv.org/abs/2107.11481v1 )

ライセンス: CC BY 4.0
Sougata Saha, Souvik Das, Rohini Srihari(参考訳) 生成的神経会話システムは一般に、訓練対象の「堅い」目標と予測ロジットの間のエントロピー損失を最小限に抑える目的で訓練される。 しばしば、"ハード"ターゲットを"ソフト"ターゲットに変換するラベル平滑化のような正規化技術を使うことで、パフォーマンスの向上と一般化が達成される。 しかし、ラベルの平滑化は、不正なトレーニング目標に対するデータ独立の均一分布を強制し、各目標に対して不適切な確率的不正確なターゲットを誤った仮定に導く。 本稿では,ラベルの平滑化における不正確な対象確率の均一分布を意味論に基づくより自然な分布に変換するために,データ依存語類似度に基づく重み付け手法を提案する。 また,2つの標準オープンドメイン対話コーパスを用いて,標準ラベルの平滑化に基づく損失をトレーニングしたネットワークに対して,高い性能向上を報告した。

Generative neural conversational systems are generally trained with the objective of minimizing the entropy loss between the training "hard" targets and the predicted logits. Often, performance gains and improved generalization can be achieved by using regularization techniques like label smoothing, which converts the training "hard" targets to "soft" targets. However, label smoothing enforces a data independent uniform distribution on the incorrect training targets, which leads to an incorrect assumption of equi-probable incorrect targets for each correct target. In this paper we propose and experiment with incorporating data dependent word similarity based weighing methods to transforms the uniform distribution of the incorrect target probabilities in label smoothing, to a more natural distribution based on semantics. We introduce hyperparameters to control the incorrect target distribution, and report significant performance gains over networks trained using standard label smoothing based loss, on two standard open domain dialogue corpora.
翻訳日:2021-07-28 10:56:38 公開日:2021-07-23
# Robust Explainability:Deep Neural Networksのためのグラディエントベース属性法に関するチュートリアル

Robust Explainability: A Tutorial on Gradient-Based Attribution Methods for Deep Neural Networks ( http://arxiv.org/abs/2107.11400v1 )

ライセンス: Link先を確認
Ian E. Nielsen, Ghulam Rasool, Dimah Dera, Nidhal Bouaynaya, Ravi P. Ramachandran(参考訳) ディープニューラルネットワークの台頭に伴い、これらのネットワークの予測を説明するという課題がますます認識されるようになった。 ディープニューラルネットワークの判断を説明する多くの方法が存在するが、それらを評価する方法についてのコンセンサスはない。 一方、堅牢性は深層学習研究において一般的な話題であるが、説明可能性についてはごく最近までほとんど語られていない。 本稿では,勾配に基づく解釈可能性法を提案することから始める。 これらの手法は、入力特徴に対する決定の重み付けに勾配信号を使用する。 その後,そのロバスト性について,勾配に基づく手法がどのように評価されるか,また,逆ロバスト性が有意義な説明に果たす役割について論じる。 また,勾配に基づく手法の限界についても論じる。 最後に,説明可能性を選択する前に検討すべきベストプラクティスと属性を紹介する。 我々は、堅牢性と説明可能性の収束における研究の今後の方向性を結論づける。

With the rise of deep neural networks, the challenge of explaining the predictions of these networks has become increasingly recognized. While many methods for explaining the decisions of deep neural networks exist, there is currently no consensus on how to evaluate them. On the other hand, robustness is a popular topic for deep learning research; however, it is hardly talked about in explainability until very recently. In this tutorial paper, we start by presenting gradient-based interpretability methods. These techniques use gradient signals to assign the burden of the decision on the input features. Later, we discuss how gradient-based methods can be evaluated for their robustness and the role that adversarial robustness plays in having meaningful explanations. We also discuss the limitations of gradient-based methods. Finally, we present the best practices and attributes that should be examined before choosing an explainability method. We conclude with the future directions for research in the area at the convergence of robustness and explainability.
翻訳日:2021-07-27 16:27:56 公開日:2021-07-23
# egg:eigen-gap guide search\\ make subspace clustering

EGGS: Eigen-Gap Guided Search\\ Making Subspace Clustering Easy ( http://arxiv.org/abs/2107.12183v1 )

ライセンス: Link先を確認
Jicong Fan, Yiheng Tu, Zhao Zhang, Mingbo Zhao(参考訳) スペクトルクラスタリングの性能は親和性マトリックスの品質に大きく依存する。 様々な親和性-行列-構成法が提案されているが、前もって決定するハイパーパラメータがあり、特にクラスタ間類似度が高い場合やデータセットが大きい場合、特に実際のアプリケーションでは困難となる。 一方、経験に依存している線形モデルや非線形モデルを使うかどうかを判断する必要があることが多い。 本稿では,これら2つの問題を解決するために,部分空間クラスタリングのための固有ガップ誘導探索法を提案する。 主アイデアは、線形回帰と核回帰によって構築された候補群の中で最も信頼性の高い親和性行列を見出すことであり、ここでは、この論文で定義されたグラフラプラシアンの \textit{relative-eigen-gap} によって信頼性を定量化する。 理論的および数値的に、相対固有ギャップが大きいラプラシアン行列は、クラスタリングの精度と安定性が高くなることが示されている。 本手法は,事前定義された空間における最良モデルとハイパーパラメータを自動的に探索することができる。 探索空間は非常に容易に決定でき、任意に大きいが、比較的コンパクトな探索空間は、非常に不要な計算を減らすことができる。 提案手法は実アプリケーションにおいて高い柔軟性と利便性を有し,また,アフィニティ行列が反復最適化によって計算されないため,計算コストも低い。 本手法をmnistなどの大規模データセットに拡張し,時間コストが90秒未満でクラスタリング精度が最先端であることを示す。 自然画像クラスタリングの広範な実験により,本手法はベースライン法よりも安定で精度が高く,効率的であることが判明した。

The performance of spectral clustering heavily relies on the quality of affinity matrix. A variety of affinity-matrix-construction methods have been proposed but they have hyper-parameters to determine beforehand, which requires strong experience and lead to difficulty in real applications especially when the inter-cluster similarity is high or/and the dataset is large. On the other hand, we often have to determine to use a linear model or a nonlinear model, which still depends on experience. To solve these two problems, in this paper, we present an eigen-gap guided search method for subspace clustering. The main idea is to find the most reliable affinity matrix among a set of candidates constructed by linear and kernel regressions, where the reliability is quantified by the \textit{relative-eigen-gap} of graph Laplacian defined in this paper. We show, theoretically and numerically, that the Laplacian matrix with a larger relative-eigen-gap often yields a higher clustering accuracy and stability. Our method is able to automatically search the best model and hyper-parameters in a pre-defined space. The search space is very easy to determine and can be arbitrarily large, though a relatively compact search space can reduce the highly unnecessary computation. Our method has high flexibility and convenience in real applications, and also has low computational cost because the affinity matrix is not computed by iterative optimization. We extend the method to large-scale datasets such as MNIST, on which the time cost is less than 90s and the clustering accuracy is state-of-the-art. Extensive experiments of natural image clustering show that our method is more stable, accurate, and efficient than baseline methods.
翻訳日:2021-07-27 16:21:48 公開日:2021-07-23
# 制限放射を用いた自由双曲型ニューラルネットワーク

Free Hyperbolic Neural Networks with Limited Radii ( http://arxiv.org/abs/2107.11472v1 )

ライセンス: Link先を確認
Yunhui Guo and Xudong Wang and Yubei Chen and Stella X. Yu(参考訳) 一定の負の曲率を持つ非ユークリッド幾何学、すなわち双曲空間は、機械学習のコミュニティにおいて引き続き注目を集めている。 階層構造を低歪みで連続的に埋め込む能力により、双曲空間は木のような構造を持つデータ学習に応用されている。 双曲型空間で直接動作する双曲型ニューラルネットワーク(HNN)も近年、双曲型表現の可能性をさらに活用するために提案されている。 HNNは、暗黙の階層構造を持つデータセット上でのユークリッドニューラルネットワーク(ENN)よりも優れたパフォーマンスを実現しているが、CIFARやImageNetのような標準分類ベンチマークでは依然としてパフォーマンスが低い。 従来の知恵は、データがHNNを適用する際に双曲幾何学を尊重することが重要であるということである。 本稿では,まず,標準認識データセットにおけるhnnの劣る性能は,悪名高い消失勾配問題に起因していることを示す実証研究を行う。 さらに、この問題はHNNのハイブリッドアーキテクチャに由来することが判明した。 この手法は,標準値が与えられたしきい値を超えるといつでも,双曲的埋め込みを規則化する。 提案手法は, バックプロパゲーションによるHNNのトレーニングにおいて, 消失する勾配問題を回避することができることを示す。 改良されたHNNは、MNIST、CIFAR10、CIFAR100、ImageNetなどの標準画像認識データセット上で、ENNと同等のパフォーマンスを達成できると同時に、より敵対的な堅牢性とより強力な分布検出能力を示すことができる。

Non-Euclidean geometry with constant negative curvature, i.e., hyperbolic space, has attracted sustained attention in the community of machine learning. Hyperbolic space, owing to its ability to embed hierarchical structures continuously with low distortion, has been applied for learning data with tree-like structures. Hyperbolic Neural Networks (HNNs) that operate directly in hyperbolic space have also been proposed recently to further exploit the potential of hyperbolic representations. While HNNs have achieved better performance than Euclidean neural networks (ENNs) on datasets with implicit hierarchical structure, they still perform poorly on standard classification benchmarks such as CIFAR and ImageNet. The traditional wisdom is that it is critical for the data to respect the hyperbolic geometry when applying HNNs. In this paper, we first conduct an empirical study showing that the inferior performance of HNNs on standard recognition datasets can be attributed to the notorious vanishing gradient problem. We further discovered that this problem stems from the hybrid architecture of HNNs. Our analysis leads to a simple yet effective solution called Feature Clipping, which regularizes the hyperbolic embedding whenever its norm exceeding a given threshold. Our thorough experiments show that the proposed method can successfully avoid the vanishing gradient problem when training HNNs with backpropagation. The improved HNNs are able to achieve comparable performance with ENNs on standard image recognition datasets including MNIST, CIFAR10, CIFAR100 and ImageNet, while demonstrating more adversarial robustness and stronger out-of-distribution detection capability.
翻訳日:2021-07-27 16:20:16 公開日:2021-07-23
# TargetNet: ディープニューラルネットワークによる機能的マイクロRNAターゲット予測

TargetNet: Functional microRNA Target Prediction with Deep Neural Networks ( http://arxiv.org/abs/2107.11381v1 )

ライセンス: Link先を確認
Seonwoo Min, Byunghan Lee, and Sungroh Yoon(参考訳) マイクロRNA(miRNA)はメッセンジャーRNA(mRNA)の標的部位に結合することで遺伝子発現調節に重要な役割を果たす。 miRNAの機能的標的を特定することは最も重要であるが、その予測は依然として大きな課題である。 従来の計算アルゴリズムには大きな制限がある。 彼らは、主に標準サイトタイプに焦点をあてた保守的候補標的サイト(CTS)の選択基準を使用し、手間と時間を要する手動の特徴抽出に依存しており、miRNA-CTS相互作用の根底にある情報を十分に活用していない。 本稿では,機能的miRNAターゲット予測のための新しいディープラーニングベースのアルゴリズムであるTargetNetを紹介する。 従来のアプローチの限界に対処するため、TargetNetは、(1)種子領域の不規則性を調節するCTS選択基準の緩和、(2)拡張種子領域アライメントを組み込んだ新しいmiRNA-CTSシークエンシングスキーム、(3)深い残留ネットワークベースの予測モデル、の3つの重要な要素を有している。 提案モデルは,miRNA-CTSペアデータセットを用いて訓練し,miRNA-mRNAペアデータセットを用いて評価した。 TargetNetは、機能的miRNAターゲット分類で使用される以前の最先端アルゴリズムを前進させる。 さらに、高機能なmiRNAターゲットを識別する大きな可能性を示す。

MicroRNAs (miRNAs) play pivotal roles in gene expression regulation by binding to target sites of messenger RNAs (mRNAs). While identifying functional targets of miRNAs is of utmost importance, their prediction remains a great challenge. Previous computational algorithms have major limitations. They use conservative candidate target site (CTS) selection criteria mainly focusing on canonical site types, rely on laborious and time-consuming manual feature extraction, and do not fully capitalize on the information underlying miRNA-CTS interactions. In this paper, we introduce TargetNet, a novel deep learning-based algorithm for functional miRNA target prediction. To address the limitations of previous approaches, TargetNet has three key components: (1) relaxed CTS selection criteria accommodating irregularities in the seed region, (2) a novel miRNA-CTS sequence encoding scheme incorporating extended seed region alignments, and (3) a deep residual network-based prediction model. The proposed model was trained with miRNA-CTS pair datasets and evaluated with miRNA-mRNA pair datasets. TargetNet advances the previous state-of-the-art algorithms used in functional miRNA target classification. Furthermore, it demonstrates great potential for distinguishing high-functional miRNA targets.
翻訳日:2021-07-27 16:18:16 公開日:2021-07-23
# バニラ政策勾配の一般的なサンプル複雑性解析

A general sample complexity analysis of vanilla policy gradient ( http://arxiv.org/abs/2107.11433v1 )

ライセンス: Link先を確認
Rui Yuan, Robert M. Gower, Alessandro Lazaric(参考訳) 政策勾配(PG)は強化学習(RL)問題を解く最も一般的な方法の1つである。 しかしながら、"バニラ" PG さえもしっかりとした理論的理解は長い間解明され続けている。 本稿では、非凸最適化におけるSGD解析のために開発された最近のツールを適用し、推定勾配のノルムの第2モーメントにおける目的関数と弱条件の滑らか性仮定の下で、REINFORCEとGPOMDPの収束保証を得る。 ポリシー空間の一般的な仮定の下でインスタンス化されると、我々の一般的な結果は、既存の$\widetilde{\mathcal{O}}(\epsilon^{-4})$サンプルの複雑さを保証するが、以前の文献では幅広いパラメータ(例えば、ステップサイズとバッチサイズ$m$)に対して直ちに回復する。 特に、この結果には単一の軌道の場合(例えば$m=1$)が含まれており、文献で利用可能な以前の結果を修正することで、問題固有のパラメータへの依存性をより正確に分析することができる。 非凸最適化による最先端ツールの統合は、pg法が強い理論的保証を享受するより広い範囲の問題を特定できると信じている。

The policy gradient (PG) is one of the most popular methods for solving reinforcement learning (RL) problems. However, a solid theoretical understanding of even the "vanilla" PG has remained elusive for long time. In this paper, we apply recent tools developed for the analysis of SGD in non-convex optimization to obtain convergence guarantees for both REINFORCE and GPOMDP under smoothness assumption on the objective function and weak conditions on the second moment of the norm of the estimated gradient. When instantiated under common assumptions on the policy space, our general result immediately recovers existing $\widetilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity guarantees, but for wider ranges of parameters (e.g., step size and batch size $m$) with respect to previous literature. Notably, our result includes the single trajectory case (i.e., $m=1$) and it provides a more accurate analysis of the dependency on problem-specific parameters by fixing previous results available in the literature. We believe that the integration of state-of-the-art tools from non-convex optimization may lead to identify a much broader range of problems where PG methods enjoy strong theoretical guarantees.
翻訳日:2021-07-27 16:15:26 公開日:2021-07-23
# wav2vec 2.0を用いたポルトガル語音声認識

Brazilian Portuguese Speech Recognition Using Wav2vec 2.0 ( http://arxiv.org/abs/2107.11414v1 )

ライセンス: Link先を確認
Lucas Rafael Stefanel Gris, Edresson Casanova, Frederico Santos de Oliveira, Anderson da Silva Soares, Arnaldo Candido Junior(参考訳) 深層学習技術は様々なタスクにおいて効率的であることが示されており、特に音声認識システム、すなわち音声の文を一連の単語で書き起こすシステムの開発において有効であることが示されている。 この地域の進歩にもかかわらず、特にブラジルポルトガル語のように利用可能なデータを持たない言語では、音声認識は依然として難しいと考えられている。 本研究は,ブラジルのポルトガル語データを用いた多くの言語で事前訓練されたWav2vec 2.0 XLSR-53モデルの微調整から,オープンな音声データのみを用いた公開音声認識システムの開発について述べる。 最終モデルはワードエラー率11.95%(共通音声データセット)である。 これは、我々の知る限り、ブラジルのポルトガル語における最高のオープン自動音声認識モデルよりも13%少ない。 一般に、この研究は、利用可能なデータが少ない言語であっても、堅牢なシステムの開発において、特にWav2vec 2.0アーキテクチャを使用した自己監督学習技術の使用を検証する。

Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, speech recognition can still be considered difficult, especially for languages lacking available data, as Brazilian Portuguese. In this sense, this work presents the development of an public Automatic Speech Recognition system using only open available audio data, from the fine-tuning of the Wav2vec 2.0 XLSR-53 model pre-trained in many languages over Brazilian Portuguese data. The final model presents a Word Error Rate of 11.95% (Common Voice Dataset). This corresponds to 13% less than the best open Automatic Speech Recognition model for Brazilian Portuguese available according to our best knowledge, which is a promising result for the language. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust systems, even for languages having few available data.
翻訳日:2021-07-27 16:12:53 公開日:2021-07-23
# 多エージェント深部強化学習のための協調探索

Cooperative Exploration for Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2107.11444v1 )

ライセンス: Link先を確認
Iou-Jen Liu, Unnat Jain, Raymond A. Yeh, Alexander G. Schwing(参考訳) 探索は深い強化学習のよい結果に不可欠であり、多くの注目を集めている。 しかし、既存のマルチエージェントディープ強化学習アルゴリズムは、主にノイズベースの手法を用いている。 近年,複数エージェント間の連携を考慮した探索手法が開発されている。 エージェントは探索する価値のある状態を特定するのに苦労し、それらの州に対する探検活動の調整をほとんど行わない。 本稿では,協調型マルチエージェント探索(CMAE):エージェントが探索中に共通の目標を共有することを提案する。 ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 そしてエージェントは、この目標を協調的に達成するように訓練される。 CMAEは多粒子環境(MPE)のスパース・リワード版やスタークラフト・マルチエージェント・チャレンジ(SMAC)など,様々なタスクのベースラインを一貫して上回ることを示す。

Exploration is critical for good results in deep reinforcement learning and has attracted much attention. However, existing multi-agent deep reinforcement learning algorithms still use mostly noise-based techniques. Very recently, exploration methods that consider cooperation among multiple agents have been developed. However, existing methods suffer from a common challenge: agents struggle to identify states that are worth exploring, and hardly coordinate exploration efforts toward those states. To address this shortcoming, in this paper, we propose cooperative multi-agent exploration (CMAE): agents share a common goal while exploring. The goal is selected from multiple projected state spaces via a normalized entropy-based technique. Then, agents are trained to reach this goal in a coordinated manner. We demonstrate that CMAE consistently outperforms baselines on various tasks, including a sparse-reward version of the multiple-particle environment (MPE) and the Starcraft multi-agent challenge (SMAC).
翻訳日:2021-07-27 16:11:31 公開日:2021-07-23
# 映像活動における時間的・意味的関係

Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation ( http://arxiv.org/abs/2107.11443v1 )

ライセンス: Link先を確認
Jiabo Huang, Yang Liu, Shaogang Gong and Hailin Jin(参考訳) ビデオのアクティビティのローカライゼーションは、言語記述(文)に対応する最も健全な視覚セグメントを、非トリミングビデオや非構造化ビデオから自動的にローカライズするという実用的価値から、近年注目を集めている。 教師付きモデルトレーニングには、文(ビデオモーメント)に対する各ビデオセグメントの開始時と終了時のインデックスの時間アノテーションを与える必要がある。 これは非常に高価であるだけでなく、曖昧さや主観的アノテーションバイアスにも敏感である。 本研究では、映像モーメントの提案生成にCRM(クロス・センテンス・リレーションズ・マイニング)を導入し、時間単位のアノテーションのないアクティビティの項記述のみを利用できるようにすることで、より正確な教師付きソリューションを開発する。 具体的には,(1)時間的順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つについて検討する。 既存の弱教師付き手法は, クロス文節文脈を考慮せずに, トレーニングにおけるシーン内ビデオセグメントの相関についてのみ検討する。 これは、視覚的にビデオモーメントの提案を別々に区別しない個々の文のあいまいな表現のために誤解を招く可能性がある。 2つの公に利用可能なアクティビティローカライズデータセットに関する実験は、最先端の弱い教師付きメソッド、特にビデオアクティビティの記述がより複雑になる場合に、このアプローチの利点を示しています。

Video activity localisation has recently attained increasing attention due to its practical values in automatically localising the most salient visual segments corresponding to their language descriptions (sentences) from untrimmed and unstructured videos. For supervised model training, a temporal annotation of both the start and end time index of each video segment for a sentence (a video moment) must be given. This is not only very expensive but also sensitive to ambiguity and subjective annotation bias, a much harder task than image labelling. In this work, we develop a more accurate weakly-supervised solution by introducing Cross-Sentence Relations Mining (CRM) in video moment proposal generation and matching when only a paragraph description of activities without per-sentence temporal annotation is available. Specifically, we explore two cross-sentence relational constraints: (1) Temporal ordering and (2) semantic consistency among sentences in a paragraph description of video activities. Existing weakly-supervised techniques only consider within-sentence video segment correlations in training without considering cross-sentence paragraph context. This can mislead due to ambiguous expressions of individual sentences with visually indiscriminate video moment proposals in isolation. Experiments on two publicly available activity localisation datasets show the advantages of our approach over the state-of-the-art weakly supervised methods, especially so when the video activity descriptions become more complex.
翻訳日:2021-07-27 16:10:11 公開日:2021-07-23
# 3次元物体検出用マルチエコーライダー

Multi-Echo LiDAR for 3D Object Detection ( http://arxiv.org/abs/2107.11470v1 )

ライセンス: Link先を確認
Yunze Man, Xinshuo Weng, Prasanna Kumar Sivakuma, Matthew O'Toole, Kris Kitani(参考訳) LiDARセンサーは、単純な3Dポイントクラウド以外の幅広い計測信号を得るために使用することができ、これらの信号を利用して3Dオブジェクト検出のような知覚タスクを改善することができる。 単一レーザーパルスはその経路に沿って複数の物体によって部分的に反射され、エコーと呼ばれる複数の測定結果が得られる。 マルチエコ計測は、オブジェクトの輪郭や半透明な表面に関する情報を提供することができる。 lidarはまた、表面反射率(レーザーパルスリターンの強度)や、シーンの周囲光(物体が反射する太陽光)を測定することもできる。 これらの信号は、既に商用のLiDARデバイスで利用可能であるが、ほとんどのLiDARベースの検出モデルでは使用されていない。 本稿では,LiDARによる計測信号の全スペクトルを利用する3次元物体検出モデルを提案する。 まず,(1)2次元CNNで抽出した反射特性と周囲特徴と,(2)3次元グラフニューラルネットワーク(GNN)を用いて抽出した点雲特徴とを組み合わせた多信号融合(MSF)モジュールを提案する。 次に,異なるエコー点の集合に符号化された情報を組み合わせたマルチエコアグリゲーション(MEA)モジュールを提案する。 従来の単一エコーポイントクラウド法と比較して,提案手法では,より広い範囲のセンシング計測からよりリッチなコンテキスト情報を抽出し,より正確な3次元物体検出を実現する。 実験の結果,LiDARのマルチモーダリティを組み込むことで,最先端の技術を最大9.1%向上させることができることがわかった。

LiDAR sensors can be used to obtain a wide range of measurement signals other than a simple 3D point cloud, and those signals can be leveraged to improve perception tasks like 3D object detection. A single laser pulse can be partially reflected by multiple objects along its path, resulting in multiple measurements called echoes. Multi-echo measurement can provide information about object contours and semi-transparent surfaces which can be used to better identify and locate objects. LiDAR can also measure surface reflectance (intensity of laser pulse return), as well as ambient light of the scene (sunlight reflected by objects). These signals are already available in commercial LiDAR devices but have not been used in most LiDAR-based detection models. We present a 3D object detection model which leverages the full spectrum of measurement signals provided by LiDAR. First, we propose a multi-signal fusion (MSF) module to combine (1) the reflectance and ambient features extracted with a 2D CNN, and (2) point cloud features extracted using a 3D graph neural network (GNN). Second, we propose a multi-echo aggregation (MEA) module to combine the information encoded in different set of echo points. Compared with traditional single echo point cloud methods, our proposed Multi-Signal LiDAR Detector (MSLiD) extracts richer context information from a wider range of sensing measurements and achieves more accurate 3D object detection. Experiments show that by incorporating the multi-modality of LiDAR, our method outperforms the state-of-the-art by up to 9.1%.
翻訳日:2021-07-27 16:09:48 公開日:2021-07-23
# GANイントラモード崩壊におけるブラックボックス診断と校正 : パイロット研究

Black-Box Diagnosis and Calibration on GAN Intra-Mode Collapse: A Pilot Study ( http://arxiv.org/abs/2107.12202v1 )

ライセンス: Link先を確認
Zhenyu Wu, Zhaowen Wang, Ye Yuan, Jianming Zhang, Zhangyang Wang, Hailin Jin(参考訳) 現在、gans(generative adversarial network)は驚くべきリアリズムのイメージを生み出すことができる。 懸念の1つは、最先端のGANの学習分布が依然としてモード崩壊に悩まされているかどうか、そしてもしそうならどうするべきかである。 ganからのサンプルの既存の多様性テストは通常、小規模で定性的に実施され、/または訓練されたモデルパラメータと同様に元のトレーニングデータへのアクセスに依存する。 本稿では,GANのモード内崩壊を診断し,新たなブラックボックス設定で,トレーニングデータやトレーニングされたモデルパラメータへのアクセスが想定されないことを校正する。 新しい設定は実質的に要求されるが、ほとんど探究されず、はるかに困難である。 最初のスタブとして,サンプリングに基づく統計ツールセットを考案し,モード内崩壊の可視化,定量化,修正を行う。 提案手法は,非条件GAN画像生成(例えば,顔と車体)における広範囲なシミュレーションと実験を通じて,診断・校正手法の有効性を示す。 本研究により, モード内崩壊は依然として最先端のGANにおいて大きな問題であり, モード崩壊はブラックボックス設定で診断可能で校正可能であることが明らかとなった。 私たちのコードは、https://github.com/VITA-Group/BlackBoxGANCollapse.comで利用可能です。

Generative adversarial networks (GANs) nowadays are capable of producing images of incredible realism. One concern raised is whether the state-of-the-art GAN's learned distribution still suffers from mode collapse, and what to do if so. Existing diversity tests of samples from GANs are usually conducted qualitatively on a small scale, and/or depends on the access to original training data as well as the trained model parameters. This paper explores to diagnose GAN intra-mode collapse and calibrate that, in a novel black-box setting: no access to training data, nor the trained model parameters, is assumed. The new setting is practically demanded, yet rarely explored and significantly more challenging. As a first stab, we devise a set of statistical tools based on sampling, that can visualize, quantify, and rectify intra-mode collapse. We demonstrate the effectiveness of our proposed diagnosis and calibration techniques, via extensive simulations and experiments, on unconditional GAN image generation (e.g., face and vehicle). Our study reveals that the intra-mode collapse is still a prevailing problem in state-of-the-art GANs and the mode collapse is diagnosable and calibratable in black-box settings. Our codes are available at: https://github.com/VITA-Group/BlackBoxGANCollapse.
翻訳日:2021-07-27 15:56:50 公開日:2021-07-23
# コンピュータ支援による肺分画法による肺癌早期診断

Early Diagnosis of Lung Cancer Using Computer Aided Detection via Lung Segmentation Approach ( http://arxiv.org/abs/2107.12205v1 )

ライセンス: Link先を確認
Abhir Bhandary, Ananth Prabhu G, Mustafa Basthikodi, Chaitra K M(参考訳) 肺がんは肺から発生し、発生人口の減少に伴ってがんが消失する原因となる。 アメリカがん学会によると、がんによる死者の約27%が死亡している。 進化の初期段階では、肺がんは通常何の症状も起こさない。 多くの患者は、症状がより顕著になる発達段階において診断されており、治療が不十分で死亡率が高い。 コンピュータ支援検出システムは、肺癌の診断の精度を高めるために用いられる。 本研究では,能動輪郭モデルのファジィc平均クラスタリング,適応しきい値,セグメンテーションに基づいて,肺のセグメンテーションを行う新しい手法を提案する。 実験結果は分析され提示される。

Lung cancer begins in the lungs and leading to the reason of cancer demise amid population in the creation. According to the American Cancer Society, which estimates about 27% of the deaths because of cancer. In the early phase of its evolution, lung cancer does not cause any symptoms usually. Many of the patients have been diagnosed in a developed phase where symptoms become more prominent, that results in poor curative treatment and high mortality rate. Computer Aided Detection systems are used to achieve greater accuracies for the lung cancer diagnosis. In this research exertion, we proposed a novel methodology for lung Segmentation on the basis of Fuzzy C-Means Clustering, Adaptive Thresholding, and Segmentation of Active Contour Model. The experimental results are analysed and presented.
翻訳日:2021-07-27 15:52:58 公開日:2021-07-23
# 自己修復型ニューラルネットワーク:動的修復によるディープネットワークの安全性の証明

Self-Repairing Neural Networks: Provable Safety for Deep Networks via Dynamic Repair ( http://arxiv.org/abs/2107.11445v1 )

ライセンス: Link先を確認
Klas Leino, Aymeric Fromherz, Ravi Mangal, Matt Fredrikson, Bryan Parno, Corina P\u{a}s\u{a}reanu(参考訳) ニューラルネットワークは、安全が重要な懸念事項である状況において、ますます展開されている。 本研究では,安全オーダリングプロパティと呼ばれる非リレーショナル安全制約の違反を動的に修復するニューラルネットワーク分類器を構築する手法を提案する。 安全な順序付け特性は、ネットワークの出力指標の順序付け要求と入力条件を関連付け、分類器の非関係安全性の最も有用な概念を表現するのに十分である。 提案手法は, 入力の特性に関わらず, 確実に安全な出力が得られる新しい自己修復層に基づいている。 このレイヤを既存のネットワークで構成し、自己修復ネットワーク(SR-Net)を構築し、安全な出力を提供するとともに、SR-Netが元のネットワークの精度を維持することを保証していることを示す。 特に,本手法はネットワークのサイズや構造によらず,ネットワークの出力の特定の特性や寸法にのみ依存するので,大規模で最先端のネットワークに対してスケーラブルである。 このアプローチは,数十万のニューロンと数百万のパラメータを含む大規模で広く使用されているネットワーク上でさえ,現在のハードウェア上で1ミリ秒未満の実行時のオーバーヘッドを導入して,GPU上で効率的に実行されるベクトル化された計算を使用して実装可能であることを示す。

Neural networks are increasingly being deployed in contexts where safety is a critical concern. In this work, we propose a way to construct neural network classifiers that dynamically repair violations of non-relational safety constraints called safe ordering properties. Safe ordering properties relate requirements on the ordering of a network's output indices to conditions on their input, and are sufficient to express most useful notions of non-relational safety for classifiers. Our approach is based on a novel self-repairing layer, which provably yields safe outputs regardless of the characteristics of its input. We compose this layer with an existing network to construct a self-repairing network (SR-Net), and show that in addition to providing safe outputs, the SR-Net is guaranteed to preserve the accuracy of the original network. Notably, our approach is independent of the size and architecture of the network being repaired, depending only on the specified property and the dimension of the network's output; thus it is scalable to large state-of-the-art networks. We show that our approach can be implemented using vectorized computations that execute efficiently on a GPU, introducing run-time overhead of less than one millisecond on current hardware -- even on large, widely-used networks containing hundreds of thousands of neurons and millions of parameters.
翻訳日:2021-07-27 15:51:08 公開日:2021-07-23
# 深層学習技術と推論音声統計を用いたAI合成音声認識

Using Deep Learning Techniques and Inferential Speech Statistics for AI Synthesised Speech Recognition ( http://arxiv.org/abs/2107.11412v1 )

ライセンス: Link先を確認
Arun Kumar Singh (1), Priyanka Singh (2), Karan Nathwani (1) ((1) Indian Institute of Technology Jammu, (2) Dhirubhai Ambani Institute of Information and Communication Technology)(参考訳) 最近の技術開発は、TACOTRONやWAVENETSのような素晴らしいオーディオ合成モデルで私たちを再び巻き込んだ。 他方では、音声クローンやディープフェイクといった、検出されない可能性のある大きな脅威を引き起こす。 このような危機的状況に対処するためには、合成音声と実際の人間の音声を区別し、その合成の源を識別するためのモデルを提案する必要がある。 本稿では、上記両方の目的を達成するために、畳み込みニューラルネットワーク(CNN)と双方向リカレントニューラルネットワーク(Bi direction Recurrent Neural Network)に基づくモデルを提案する。 AI合成音声における時間依存性を双方向RNNとCNNを用いて活用する。 このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。

The recent developments in technology have re-warded us with amazing audio synthesis models like TACOTRON and WAVENETS. On the other side, it poses greater threats such as speech clones and deep fakes, that may go undetected. To tackle these alarming situations, there is an urgent need to propose models that can help discriminate a synthesized speech from an actual human speech and also identify the source of such a synthesis. Here, we propose a model based on Convolutional Neural Network (CNN) and Bidirectional Recurrent Neural Network (BiRNN) that helps to achieve both the aforementioned objectives. The temporal dependencies present in AI synthesized speech are exploited using Bidirectional RNN and CNN. The model outperforms the state-of-the-art approaches by classifying the AI synthesized audio from real human speech with an error rate of 1.9% and detecting the underlying architecture with an accuracy of 97%.
翻訳日:2021-07-27 15:47:06 公開日:2021-07-23
# 非同期フェデレーション学習のためのデバイススケジューリングと更新集約ポリシー

Device Scheduling and Update Aggregation Policies for Asynchronous Federated Learning ( http://arxiv.org/abs/2107.11415v1 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, Erik G. Larsson(参考訳) Federated Learning(FL)は、デバイス上でのローカルトレーニングとサーバベースのモデル同期を組み合わせて、分散ノード上で集中型MLモデルをトレーニングする、新たに登場した分散機械学習(ML)フレームワークである。 本稿では,flシステムにおけるストラグラー問題を排除するために,周期的アグリゲーションを伴う非同期flフレームワークを提案する。 提案モデルでは,複数のデバイススケジューリングとアグリゲーションポリシを調査し,デバイスがヘテロジニアスな計算能力とトレーニングデータ分布を持つ場合の性能を比較する。 シミュレーション結果から,非同期FLのスケジューリングとアグリゲーション設計は同期の場合とはかなり異なることが判明した。 例えば、ノルムベースの意味認識スケジューリングポリシーは非同期fl設定では効率的ではなく、モデル集約のための適切な「年齢認識」重み付け設計は、そのようなシステムの学習性能を大幅に向上させることができる。

Federated Learning (FL) is a newly emerged decentralized machine learning (ML) framework that combines on-device local training with server-based model synchronization to train a centralized ML model over distributed nodes. In this paper, we propose an asynchronous FL framework with periodic aggregation to eliminate the straggler issue in FL systems. For the proposed model, we investigate several device scheduling and update aggregation policies and compare their performances when the devices have heterogeneous computation capabilities and training data distributions. From the simulation results, we conclude that the scheduling and aggregation design for asynchronous FL can be rather different from the synchronous case. For example, a norm-based significance-aware scheduling policy might not be efficient in an asynchronous FL setting, and an appropriate "age-aware" weighting design for the model aggregation can greatly improve the learning performance of such systems.
翻訳日:2021-07-27 15:42:54 公開日:2021-07-23
# (参考訳) 構成モデル:モジュールネットワークを用いたマルチタスク学習と知識伝達

Compositional Models: Multi-Task Learning and Knowledge Transfer with Modular Networks ( http://arxiv.org/abs/2107.10963v1 )

ライセンス: CC BY 4.0
Andrey Zhmoginov, Dina Bashkirova and Mark Sandler(参考訳) 近年,複数の再利用可能な計算ブロックに問題解決を分解する手段として,マルチタスク学習などの問題に対して,条件計算とモジュールネットワークが提案されている。 本論文では,同じ構成とパラメータ数を持つ残差ブロックを全て含むresnetの等尺版に基づいて,モジュールネットワークを学習するための新しい手法を提案する。 このアーキテクチャの選択は、残余ブロックの追加、削除、変更を可能にする。 本手法では,モジュールを繰り返し呼び出すことができ,計算順序を調整することで,新しいタスクへの知識伝達を可能にする。 これにより、パラメータ数がわずかに増加するだけでタスク間のソフトウェイト共有が可能になる。 提案手法は,マルチタスク学習や移動学習,ドメイン適応などにおいて,モジュールの自己組織を解釈可能とし,それらのタスクにおいて競合的な結果が得られることを示す。 From practical perspective, our approach allows to: (a) reuse existing modules for learning new task by adjusting the computation order, (b) use it for unsupervised multi-source domain adaptation to illustrate that adaptation to unseen data can be achieved by only manipulating the order of pretrained modules, (c) show how our approach can be used to increase accuracy of existing architectures for image classification tasks such as ImageNet, without any parameter increase, by reusing the same block multiple times.

Conditional computation and modular networks have been recently proposed for multitask learning and other problems as a way to decompose problem solving into multiple reusable computational blocks. We propose a new approach for learning modular networks based on the isometric version of ResNet with all residual blocks having the same configuration and the same number of parameters. This architectural choice allows adding, removing and changing the order of residual blocks. In our method, the modules can be invoked repeatedly and allow knowledge transfer to novel tasks by adjusting the order of computation. This allows soft weight sharing between tasks with only a small increase in the number of parameters. We show that our method leads to interpretable self-organization of modules in case of multi-task learning, transfer learning and domain adaptation while achieving competitive results on those tasks. From practical perspective, our approach allows to: (a) reuse existing modules for learning new task by adjusting the computation order, (b) use it for unsupervised multi-source domain adaptation to illustrate that adaptation to unseen data can be achieved by only manipulating the order of pretrained modules, (c) show how our approach can be used to increase accuracy of existing architectures for image classification tasks such as ImageNet, without any parameter increase, by reusing the same block multiple times.
翻訳日:2021-07-26 22:16:38 公開日:2021-07-23
# (参考訳) リワードマシンを用いた四足歩行政策の学習

Learning Quadruped Locomotion Policies with Reward Machines ( http://arxiv.org/abs/2107.10969v1 )

ライセンス: CC BY 4.0
David DeFazio and Shiqi Zhang(参考訳) 脚のあるロボットは非構造環境の航行に有効であることが示されている。 四足歩行ロボットのロコモーションポリシーの学習は成功したが、この学習プロセスを促進するために人間の知識を組み込む方法についてはほとんど研究されていない。 本稿では,LTL式形式の人間の知識が,リワードマシン(RM)フレームワーク内の4つの移動学習に適用可能であることを実証する。 シミュレーション実験の結果,提案手法は多様なロコモーションスタイルを容易に定義でき,ロコモーションポリシーを効率的に学習できることがわかった。

Legged robots have been shown to be effective in navigating unstructured environments. Although there has been much success in learning locomotion policies for quadruped robots, there is little research on how to incorporate human knowledge to facilitate this learning process. In this paper, we demonstrate that human knowledge in the form of LTL formulas can be applied to quadruped locomotion learning within a Reward Machine (RM) framework. Experimental results in simulation show that our RM-based approach enables easily defining diverse locomotion styles, and efficiently learning locomotion policies of the defined styles.
翻訳日:2021-07-26 21:54:59 公開日:2021-07-23
# (参考訳) プログラムデータ分散シフトによる予測不確かさの推定

Estimating Predictive Uncertainty Under Program Data Distribution Shift ( http://arxiv.org/abs/2107.10989v1 )

ライセンス: CC BY-SA 4.0
Yufei Li, Simin Chen, Wei Yang(参考訳) 深層学習(DL)技術は様々なタスクにおいて予測精度に大きな成功を収めているが、深層ニューラルネットワーク(DNN)は異常なサンプルであっても高い過度なスコアを得られる。 明確に定義された不確実性は、モデルのアウトプットを信頼すべき(あるいは信頼すべきでない)かどうかを示し、多くの要因により通常シフトした入力分布を伴う現実のシナリオにおいて重要なものとなる。 既存の不確実性アプローチでは、異なるデータ分布からの試験サンプルが信頼性の低いモデル予測を誘導すると仮定している。 dlモデルの入力に対する信頼度を校正し、コンピュータビジョン(cv)および自然言語処理(nlp)関連タスクの有効性を評価することにより、モデルの不確実性を定量化する。 しかしながら、それらの方法論の信頼性は、データ表現とシフトパターンの違いにより、プログラミングタスクの下で損なわれる可能性がある。 本稿ではまず,プログラムデータの分散シフトを3種類定義し,大規模にシフトしたJavaデータセットを構築する。 2つの共通プログラミング言語タスクをデータセットに実装し,各分散シフトがdlモデル性能に与える影響について検討した。 また,プログラムタスクにおける現状予測の不確実性の大規模ベンチマークを提案し,データ分散シフト下での有効性について検討する。 実験により、プログラム分布シフトはDLモデルの性能を様々な程度に低下させ、既存の不確実性手法は全て、プログラムデータセットにおける不確実性の定量化に一定の制限を与えることを示した。

Deep learning (DL) techniques have achieved great success in predictive accuracy in a variety of tasks, but deep neural networks (DNNs) are shown to produce highly overconfident scores for even abnormal samples. Well-defined uncertainty indicates whether a model's output should (or should not) be trusted and thus becomes critical in real-world scenarios which typically involves shifted input distributions due to many factors. Existing uncertainty approaches assume that testing samples from a different data distribution would induce unreliable model predictions thus have higher uncertainty scores. They quantify model uncertainty by calibrating DL model's confidence of a given input and evaluate the effectiveness in computer vision (CV) and natural language processing (NLP)-related tasks. However, their methodologies' reliability may be compromised under programming tasks due to difference in data representations and shift patterns. In this paper, we first define three different types of distribution shift in program data and build a large-scale shifted Java dataset. We implement two common programming language tasks on our dataset to study the effect of each distribution shift on DL model performance. We also propose a large-scale benchmark of existing state-of-the-art predictive uncertainty on programming tasks and investigate their effectiveness under data distribution shift. Experiments show that program distribution shift does degrade the DL model performance to varying degrees and that existing uncertainty methods all present certain limitations in quantifying uncertainty on program dataset.
翻訳日:2021-07-26 21:44:11 公開日:2021-07-23
# (参考訳) 単一光子カメラを用いた光子飢餓シーン推定

Photon-Starved Scene Inference using Single Photon Cameras ( http://arxiv.org/abs/2107.11001v1 )

ライセンス: CC0 1.0
Bhavya Goyal, Mohit Gupta(参考訳) 低照度条件下でのシーン理解は難しい問題である。 これは、カメラによって捕捉される少数の光子と、結果として生じる低信号対雑音比(SNR)に起因する。 単一光子カメラ(SPC)は、高感度で画像をキャプチャできる、新たなセンシングモダリティである。 最小の読み取りノイズにもかかわらず、光子餓死状態のspcによって撮影された画像は依然として強いショットノイズに苦しめられ、信頼できるシーン推論ができない。 我々は,低光子フラックス画像上での推論モデルをトレーニングするためのガイドとして,広帯域の光子/ピクセル(PPP)レベルにまたがる高SNR画像の集合体を提案する。 特徴表現空間において、異なる照明レベルの画像を互いに近接させる訓練手法を開発した。 鍵となるアイデアは、トレーニング中に異なる輝度レベルのスペクトルを持つことが効果的な指導を可能にし、極端なノイズケースでもショットノイズに対する堅牢性を高めることだ。 提案手法に基づいて,SPADカメラを用いたシミュレーションおよび実実験により,超低光下での画像分類や単眼深度推定などの様々な推論タスクの高性能化を実現した。

Scene understanding under low-light conditions is a challenging problem. This is due to the small number of photons captured by the camera and the resulting low signal-to-noise ratio (SNR). Single-photon cameras (SPCs) are an emerging sensing modality that are capable of capturing images with high sensitivity. Despite having minimal read-noise, images captured by SPCs in photon-starved conditions still suffer from strong shot noise, preventing reliable scene inference. We propose photon scale-space a collection of high-SNR images spanning a wide range of photons-per-pixel (PPP) levels (but same scene content) as guides to train inference model on low photon flux images. We develop training techniques that push images with different illumination levels closer to each other in feature representation space. The key idea is that having a spectrum of different brightness levels during training enables effective guidance, and increases robustness to shot noise even in extreme noise cases. Based on the proposed approach, we demonstrate, via simulations and real experiments with a SPAD camera, high-performance on various inference tasks such as image classification and monocular depth estimation under ultra low-light, down to < 1 PPP.
翻訳日:2021-07-26 21:24:41 公開日:2021-07-23
# (参考訳) supercaustics: ディープラーニングアプリケーションのための透明オブジェクトのリアルタイムオープンソースシミュレーション

SuperCaustics: Real-time, open-source simulation of transparent objects for deep learning applications ( http://arxiv.org/abs/2107.11008v1 )

ライセンス: CC BY 4.0
Mehdi Mousavi, Rolando Estrada(参考訳) 透明物体はコンピュータビジョンにおいて非常に難しい問題である。 正確な境界の欠如のため、セグメント化や分類が難しいため、ディープニューラルネットワークのトレーニングに利用可能なデータは限られている。 そのため、現在のソリューションでは、柔軟性に欠ける厳密な合成データセットが採用されており、現実のシナリオにデプロイするとパフォーマンスが大幅に低下する。 特に、これらの合成データセットは、レンダリングパイプラインの制限により、屈折、分散、因果といった特徴を省略する。 この問題に対処するため,我々は,ディープラーニングアプリケーション用に設計された透明オブジェクトのリアルタイムオープンソースシミュレーションであるsupercausticsを提案する。 SuperCausticsは確率的環境生成のための広範なモジュールを備え、ハードウェアレイトレーシングを使用して因果性、分散、屈折をサポートし、マルチモーダル、ピクセル完全基底真理アノテーションで巨大なデータセットを生成する。 提案システムを検証するため,難解な照明シナリオにおいて,スクラッチから透明物体をセグメント化するディープニューラルネットワークを訓練した。 私たちのニューラルネットワークは、トレーニングデータの10%とトレーニング時間のごく一部を使用して、実世界のデータセットにおける最先端のパフォーマンスを達成しました。 さらに実験により、複数の重なり合う透明物体を持つ画像においても、SuperCausticsでトレーニングされたモデルが異なる種類の因果関係を分割できることが示されている。 我々の知る限りでは、これは合成データに基づいて訓練されたモデルにとって初めての結果である。 オープンソースコードと実験データの両方がオンラインで無料で利用可能です。

Transparent objects are a very challenging problem in computer vision. They are hard to segment or classify due to their lack of precise boundaries, and there is limited data available for training deep neural networks. As such, current solutions for this problem employ rigid synthetic datasets, which lack flexibility and lead to severe performance degradation when deployed on real-world scenarios. In particular, these synthetic datasets omit features such as refraction, dispersion and caustics due to limitations in the rendering pipeline. To address this issue, we present SuperCaustics, a real-time, open-source simulation of transparent objects designed for deep learning applications. SuperCaustics features extensive modules for stochastic environment creation; uses hardware ray-tracing to support caustics, dispersion, and refraction; and enables generating massive datasets with multi-modal, pixel-perfect ground truth annotations. To validate our proposed system, we trained a deep neural network from scratch to segment transparent objects in difficult lighting scenarios. Our neural network achieved performance comparable to the state-of-the-art on a real-world dataset using only 10% of the training data and in a fraction of the training time. Further experiments show that a model trained with SuperCaustics can segment different types of caustics, even in images with multiple overlapping transparent objects. To the best of our knowledge, this is the first such result for a model trained on synthetic data. Both our open-source code and experimental data are freely available online.
翻訳日:2021-07-26 21:06:14 公開日:2021-07-23
# (参考訳) 危機が発生した場合: 新型コロナウイルスによる感情分析と検出

When a crisis strikes: Emotion analysis and detection during COVID-19 ( http://arxiv.org/abs/2107.11020v1 )

ライセンス: CC BY 4.0
Alexander Tekle, Chau Pham, Cornelia Caragea, Junyi Jessy Li(参考訳) 自然災害、世界的なパンデミック、社会不安といった危機は、我々の世界を脅かし続け、世界中の何百万人もの人々に異なる方法で感情的に影響を及ぼす。 大規模危機の間に人々が表現する感情を理解することは、政策立案者や第一応答者に対して、人口の感情状態について知らせるだけでなく、そのような支援を必要とする人々に感情的な支援を提供する。 感情をラベル付けした1万ツイートのCovidEmoを紹介します。 新型コロナウイルス(covid-19)の文脈における感情予測のタスクにおいて,事前学習された言語モデルがドメインや危機にまたがっていかにうまく一般化するかを検討する。 その結果,既存のモデルが災害タイプから他のモデルへ直接転送するのではなく,ラベル付き感情コーパスを用いてドメイン適応を行うことが有益であることがわかった。

Crises such as natural disasters, global pandemics, and social unrest continuously threaten our world and emotionally affect millions of people worldwide in distinct ways. Understanding emotions that people express during large-scale crises helps inform policy makers and first responders about the emotional states of the population as well as provide emotional support to those who need such support. We present CovidEmo, ~1K tweets labeled with emotions. We examine how well large pre-trained language models generalize across domains and crises in the task of perceived emotion prediction in the context of COVID-19. Our results show that existing models do not directly transfer from one disaster type to another but using labeled emotional corpora for domain adaptation is beneficial.
翻訳日:2021-07-26 20:55:28 公開日:2021-07-23
# (参考訳) 消防環境における深層学習と拡張現実の統合による状況認識の促進

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments ( http://arxiv.org/abs/2107.11043v1 )

ライセンス: CC BY-SA 4.0
Manish Bhattarai(参考訳) 文献の中では,消防士の状況認識を構築するための新たな4つのアプローチを提案する。 我々は,消防隊が緊急対応設定で行う救助任務の安全性,効率,及び成功率を高めるために,相互上に構築された一連の深層学習フレームワークを構築した。 まず、深層畳み込みニューラルネットワーク(CNN)システムを用いて、熱画像から興味のある物体をリアルタイムで分類、同定した。 次に,オブジェクト検出,追跡,セグメンテーションのためのcnnフレームワークをマスクrcnnフレームワークで拡張し,マルチモーダル自然言語処理(nlp)フレームワークを用いてシーン記述を行った。 第3に,ストレスによる不整合や不安に対して免疫を付与する深層Q学習エージェントを構築し,実火環境における観測および保存された事実に基づいて,明確なナビゲーション決定を行うことができた。 最後に,テンソル分解と呼ばれる低計算非教師学習手法を用いて,異常検出のための有意義な特徴抽出を行った。 このようなアドホックなディープラーニング構造によって、消防士の状況認識のための人工知能システムのバックボーンを構築しました。 本研究では,消防士が設計したシステムを消防士が活用するための物理的な構造を設計し,その処理結果を,救助活動に欠かせない位置や周辺の特徴を消防士にアドバイスできる拡張現実(AR)の創出のインプットとして用いるとともに,意図しないファーストレスポンダの安全回復を支援する仮想ガイドとして機能する経路計画機能を設計した。 これら4つのアプローチを組み合わせることで、消防士の反応と効果を劇的に改善し、寿命を減少させる情報理解、伝達、合成への新しいアプローチが示される。

We present a new four-pronged approach to build firefighter's situational awareness for the first time in the literature. We construct a series of deep learning frameworks built on top of one another to enhance the safety, efficiency, and successful completion of rescue missions conducted by firefighters in emergency first response settings. First, we used a deep Convolutional Neural Network (CNN) system to classify and identify objects of interest from thermal imagery in real-time. Next, we extended this CNN framework for object detection, tracking, segmentation with a Mask RCNN framework, and scene description with a multimodal natural language processing(NLP) framework. Third, we built a deep Q-learning-based agent, immune to stress-induced disorientation and anxiety, capable of making clear navigation decisions based on the observed and stored facts in live-fire environments. Finally, we used a low computational unsupervised learning technique called tensor decomposition to perform meaningful feature extraction for anomaly detection in real-time. With these ad-hoc deep learning structures, we built the artificial intelligence system's backbone for firefighters' situational awareness. To bring the designed system into usage by firefighters, we designed a physical structure where the processed results are used as inputs in the creation of an augmented reality capable of advising firefighters of their location and key features around them, which are vital to the rescue operation at hand, as well as a path planning feature that acts as a virtual guide to assist disoriented first responders in getting back to safety. When combined, these four approaches present a novel approach to information understanding, transfer, and synthesis that could dramatically improve firefighter response and efficacy and reduce life loss.
翻訳日:2021-07-26 20:48:32 公開日:2021-07-23
# (参考訳) 風の構造を学習する:大気境界層に対するデータ駆動非局所乱流モデル

Learning the structure of wind: A data-driven nonlocal turbulence model for the atmospheric boundary layer ( http://arxiv.org/abs/2107.11046v1 )

ライセンス: CC BY 4.0
Brendan Keith, Ustim Khristenko, Barbara Wohlmuth(参考訳) 大気境界層をモデル化する新しいデータ駆動手法を開発した。 このアプローチは、我々がディープ・ラピッド・歪(drd)モデルと呼ぶ非局所的異方性合成乱流モデルに繋がる。 提案手法は,ニューラルネットワークによってパラメータ化された非局所共分散カーネルの一般族における最適適合候補を特徴付ける演算子回帰問題に依存する。 この共分散核の族はフーリエ空間で表現され、非常に高いレイノルズ数でのナビエ-ストークス方程式の近似解から得られる。 ファミリーの各メンバーは、質量保存や現実的なエネルギーカスケードといった重要な物理的性質を取り入れている。 DRDモデルは、フィールド実験からノイズの多いデータで校正することができる。 キャリブレーション後、モデルは合成乱流速度場を生成するために使用できる。 そこで本研究では,DRDモデルだけでなく,スケーラブルでメモリ効率のよい乱流生成を実現する,ドメイン分解に基づく新しい数値手法を提案する。 1968年のカンザス州空軍ケンブリッジ研究所の実験から得られたフィルタデータとノイズデータの両方を用いて,我々のアプローチの堅牢性を実証した。 このデータを用いて、特に国際電気技術委員会標準と比較した場合、ddrモデルにおいて異常な精度を示す。

We develop a novel data-driven approach to modeling the atmospheric boundary layer. This approach leads to a nonlocal, anisotropic synthetic turbulence model which we refer to as the deep rapid distortion (DRD) model. Our approach relies on an operator regression problem which characterizes the best fitting candidate in a general family of nonlocal covariance kernels parameterized in part by a neural network. This family of covariance kernels is expressed in Fourier space and is obtained from approximate solutions to the Navier--Stokes equations at very high Reynolds numbers. Each member of the family incorporates important physical properties such as mass conservation and a realistic energy cascade. The DRD model can be calibrated with noisy data from field experiments. After calibration, the model can be used to generate synthetic turbulent velocity fields. To this end, we provide a new numerical method based on domain decomposition which delivers scalable, memory-efficient turbulence generation with the DRD model as well as others. We demonstrate the robustness of our approach with both filtered and noisy data coming from the 1968 Air Force Cambridge Research Laboratory Kansas experiments. Using this data, we witness exceptional accuracy with the DRD model, especially when compared to the International Electrotechnical Commission standard.
翻訳日:2021-07-26 20:45:19 公開日:2021-07-23
# (参考訳) MCDAL: アクティブラーニングのための最大分類法

MCDAL: Maximum Classifier Discrepancy for Active Learning ( http://arxiv.org/abs/2107.11049v1 )

ライセンス: CC BY 4.0
Jae Won Cho, Dong-Jin Kim, Yunjae Jung, In So Kweon(参考訳) 最近の最先端アクティブラーニング手法は、ほとんどがgan(generative adversarial network)をサンプル取得に利用しているが、ganは通常、不安定とハイパーパラメータに対する感度に苦しむことが知られている。 これらの手法とは対照的に,本研究では,複数の分類器間での予測の相違を考慮した,MCDAL(Maximum Classifier Discrepancy for Active Learning)と呼ぶ,新たなアクティブラーニングフレームワークを提案する。 特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。 直観的には、補助分類層の予測の相違は予測の不確実性を示す。 そこで本研究では,能動学習のための獲得関数に対する分類器の相違を利用した新しい手法を提案する。 また、既存のGANベースのアクティブラーニング手法やドメイン適応フレームワークに関連して、私たちのアイデアを解釈する。 さらに,本手法の有効性を実証し,アクティブラーニングにおける画像分類と意味セグメンテーションデータセットの性能が最先端手法を上回っていることを示す。

Recent state-of-the-art active learning methods have mostly leveraged Generative Adversarial Networks (GAN) for sample acquisition; however, GAN is usually known to suffer from instability and sensitivity to hyper-parameters. In contrast to these methods, we propose in this paper a novel active learning framework that we call Maximum Classifier Discrepancy for Active Learning (MCDAL) which takes the prediction discrepancies between multiple classifiers. In particular, we utilize two auxiliary classification layers that learn tighter decision boundaries by maximizing the discrepancies among them. Intuitively, the discrepancies in the auxiliary classification layers' predictions indicate the uncertainty in the prediction. In this regard, we propose a novel method to leverage the classifier discrepancies for the acquisition function for active learning. We also provide an interpretation of our idea in relation to existing GAN based active learning methods and domain adaptation frameworks. Moreover, we empirically demonstrate the utility of our approach where the performance of our approach exceeds the state-of-the-art methods on several image classification and semantic segmentation datasets in active learning setups.
翻訳日:2021-07-26 20:22:53 公開日:2021-07-23
# (参考訳) ビデオセマンティクスセグメンテーションのための教師なし領域適応

Unsupervised Domain Adaptation for Video Semantic Segmentation ( http://arxiv.org/abs/2107.11052v1 )

ライセンス: CC BY 4.0
Inkyu Shin, Kwanyong Park, Sanghyun Woo, In So Kweon(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションから実(Sim2Real)へ知識を伝達できるため、実際のピクセル単位のラベリングの労力を大幅に削減できるため、大きな人気を集めている。 本稿では,ビデオ意味セグメンテーションのための教師なし領域適応という,この課題の新しいビデオ拡張を提案する。 シミュレーションにより大規模ビデオラベルの取得が容易になったため,Sim2Realの知識伝達可能性の最大化は,ビデオの基本的データ不足を解決する上で有望な方法の1つであると信じている。 この問題に対処するため,新しい2相適応方式を提案する。 最初のステップでは、教師付き損失関数を用いて、ソースドメインの知識を徹底的に蒸留する。 同時に、ビデオコンテキストを利用して、ソースからターゲットへ特徴を調整するために、VAT(Video Adversarial Training)が使用される。 第2のステップでは,対象データのみに焦点を当てたビデオ自己学習(vst)を適用する。 頑健な擬似ラベルを構築するには,従来の画像に基づく自己学習手法ではめったに研究されていない映像の時間的情報を利用する。 我々は,「VIPER to CityscapeVPS」適応シナリオに強い基準スコアを設定した。 提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。

Unsupervised Domain Adaptation for semantic segmentation has gained immense popularity since it can transfer knowledge from simulation to real (Sim2Real) by largely cutting out the laborious per pixel labeling efforts at real. In this work, we present a new video extension of this task, namely Unsupervised Domain Adaptation for Video Semantic Segmentation. As it became easy to obtain large-scale video labels through simulation, we believe attempting to maximize Sim2Real knowledge transferability is one of the promising directions for resolving the fundamental data-hungry issue in the video. To tackle this new problem, we present a novel two-phase adaptation scheme. In the first step, we exhaustively distill source domain knowledge using supervised loss functions. Simultaneously, video adversarial training (VAT) is employed to align the features from source to target utilizing video context. In the second step, we apply video self-training (VST), focusing only on the target data. To construct robust pseudo labels, we exploit the temporal information in the video, which has been rarely explored in the previous image-based self-training approaches. We set strong baseline scores on 'VIPER to CityscapeVPS' adaptation scenario. We show that our proposals significantly outperform previous image-based UDA methods both on image-level (mIoU) and video-level (VPQ) evaluation metrics.
翻訳日:2021-07-26 20:08:18 公開日:2021-07-23
# (参考訳) グレー画像セグメンテーションのための貯留層計算手法

Reservoir Computing Approach for Gray Images Segmentation ( http://arxiv.org/abs/2107.11077v1 )

ライセンス: CC BY 4.0
Petia Koprinkova-Hristova(参考訳) 本稿では,グレースケール画像セグメンテーションのための新しいアプローチを提案する。 これは、Echo状態ネットワークを使用して、画像画素当たりの単一特徴、すなわちその強度値から抽出された複数の特徴に基づいている。 新たに抽出された機能 -- 貯水池平衡状態 -- は、クラスタリングアルゴリズムによるセグメンテーションを改善する隠れたイメージ特性を明らかにする。 さらに,貯水池の固有塑性調整法は,原画像強度分布と平衡状態に適合し,より優れたセグメンテーションを可能にすることを示した。 提案手法はベンチマーク画像のLenaで検証される。

The paper proposes a novel approach for gray scale images segmentation. It is based on multiple features extraction from single feature per image pixel, namely its intensity value, using Echo state network. The newly extracted features -- reservoir equilibrium states -- reveal hidden image characteristics that improve its segmentation via a clustering algorithm. Moreover, it was demonstrated that the intrinsic plasticity tuning of reservoir fits its equilibrium states to the original image intensity distribution thus allowing for its better segmentation. The proposed approach is tested on the benchmark image Lena.
翻訳日:2021-07-26 19:54:04 公開日:2021-07-23
# (参考訳) データ駆動深部密度推定

Data-driven deep density estimation ( http://arxiv.org/abs/2107.11085v1 )

ライセンス: CC BY 4.0
Patrik Puchert, Pedro Hermosilla, Tobias Ritschel, Timo Ropinski(参考訳) 密度推定は多くのデータ解析タスクにおいて重要な役割を担い、離散サンプルから連続確率密度関数(PDF)を推定する。 したがって、人口データの解析や2dセンサーによる読み出しの空間的位置、あるいは3dスキャンからシーンを再構築するなど、様々なタスクで使用される。 本稿では,領域次元やサンプルサイズに依存せず,PDFを高精度かつ効率的に推定するための,学習されたデータ駆動深度推定(DDE)を提案する。 さらに、推定中に元のPDFにアクセスする必要はなく、パラメトリック形式でも、事前形式でも、多くのサンプルの形でもありません。 これは、無限の合成PDFストリーム上の非構造化畳み込みニューラルネットワークをトレーニングすることで実現される。 このように、我々の公開DDE法は、離散的な観測から連続的なモデルを推定するデータ分析の多くの分野において有益であることを期待している。

Density estimation plays a crucial role in many data analysis tasks, as it infers a continuous probability density function (PDF) from discrete samples. Thus, it is used in tasks as diverse as analyzing population data, spatial locations in 2D sensor readings, or reconstructing scenes from 3D scans. In this paper, we introduce a learned, data-driven deep density estimation (DDE) to infer PDFs in an accurate and efficient manner, while being independent of domain dimensionality or sample size. Furthermore, we do not require access to the original PDF during estimation, neither in parametric form, nor as priors, or in the form of many samples. This is enabled by training an unstructured convolutional neural network on an infinite stream of synthetic PDFs, as unbound amounts of synthetic training data generalize better across a deck of natural PDFs than any natural finite training data will do. Thus, we hope that our publicly available DDE method will be beneficial in many areas of data analysis, where continuous models are to be estimated from discrete observations.
翻訳日:2021-07-26 19:46:48 公開日:2021-07-23
# (参考訳) マルチモーダル学習による早期セプシス予測の改善

Improving Early Sepsis Prediction with Multi Modal Learning ( http://arxiv.org/abs/2107.11094v1 )

ライセンス: CC0 1.0
Fred Qin, Vivek Madan, Ujjwal Ratan, Zohar Karnin, Vishaal Kapoor, Parminder Bhatia, and Taha Kass-Hout(参考訳) 敗血症は死亡率、死亡率、医療費が高い生命を脅かす病気である。 抗生物質と静脈内液の早期予測と管理は、敗血症の治療に不可欠であり、数百万人の命と数十億ドルの医療費を節約できると考えられている。 専門医は敗血症の早期発見を支援する臨床基準を提案したが、その性能は限られていることが多い。 臨床テキストは、構造的な臨床データに加えて、敗血症の重症度を推定するための必須情報を提供する。 本研究では, 臨床テキストが構造化データを早期敗血症予測タスクに補完する方法について検討する。 本稿では,患者測定の形式で構造化されたデータと,患者のテキストノートを組み込んだマルチモーダルモデルを提案する。 Amazon Comprehend MedicalではBERTのような最先端のNLPモデルと高度に専門化されたNLPモデルを用いてテキストを表現している。 ICU入院記録を含むMIMIC-IIIデータセットにおいて、これらのメモを用いて、Sepsis予測のための標準的なユーティリティスコアの6.07ポイント、AUROCスコアの2.89%の改善が達成されている。 本手法は, セプシス予測のためのPhystoNet Computing in Cardiology Challengeの勝利モデルとともに, 専門医であるqSOFAが提案する臨床基準を著しく上回っている。

Sepsis is a life-threatening disease with high morbidity, mortality and healthcare costs. The early prediction and administration of antibiotics and intravenous fluids is considered crucial for the treatment of sepsis and can save potentially millions of lives and billions in health care costs. Professional clinical care practitioners have proposed clinical criterion which aid in early detection of sepsis; however, performance of these criterion is often limited. Clinical text provides essential information to estimate the severity of the sepsis in addition to structured clinical data. In this study, we explore how clinical text can complement structured data towards early sepsis prediction task. In this paper, we propose multi modal model which incorporates both structured data in the form of patient measurements as well as textual notes on the patient. We employ state-of-the-art NLP models such as BERT and a highly specialized NLP model in Amazon Comprehend Medical to represent the text. On the MIMIC-III dataset containing records of ICU admissions, we show that by using these notes, one achieves an improvement of 6.07 points in a standard utility score for Sepsis prediction and 2.89% in AUROC score. Our methods significantly outperforms a clinical criteria suggested by experts, qSOFA, as well as the winning model of the PhysioNet Computing in Cardiology Challenge for predicting Sepsis.
翻訳日:2021-07-26 19:32:56 公開日:2021-07-23
# (参考訳) 時系列における生成的逆ネットワーク:調査と分類

Generative adversarial networks in time series: A survey and taxonomy ( http://arxiv.org/abs/2107.11098v1 )

ライセンス: CC BY 4.0
Eoin Brophy, Zhengwei Wang, Qi She, Tomas Ward(参考訳) 過去数年間、gans(generative adversarial networks)の研究は指数関数的に増加している。 その影響は、主に写実的な画像とビデオ操作、特に生成を伴うコンピュータビジョンの分野で見られ、大きな進歩を遂げている。 これらのコンピュータビジョンの進歩は注目されているが、GANアプリケーションは時系列やシーケンス生成といった分野に多様化している。 GANの比較的新しいニッチとして、フィールドワークは高品質で多様性があり、プライベートな時系列データの開発を続けている。 本稿では,時系列関連アプリケーション用に設計されたGAN変種についてレビューする。 本稿では,ganが離散時系列と連続時系列データを扱う離散変数ganと連続変数ganの分類法を提案する。 ここでは,この分野の最新かつ最も人気のある文献,そのアーキテクチャ,結果,アプリケーションを紹介する。 また、最も人気のある評価指標とアプリケーション間の適合性のリストも提供します。 また、これらのGANのプライバシー対策と、機密データを扱うためのさらなる保護と方向性についても議論する。 我々は,この領域における最新かつ最先端の研究の明確かつ簡潔な枠組みと実世界の技術への応用を目指しています。

Generative adversarial networks (GANs) studies have grown exponentially in the past few years. Their impact has been seen mainly in the computer vision field with realistic image and video manipulation, especially generation, making significant advancements. While these computer vision advances have garnered much attention, GAN applications have diversified across disciplines such as time series and sequence generation. As a relatively new niche for GANs, fieldwork is ongoing to develop high quality, diverse and private time series data. In this paper, we review GAN variants designed for time series related applications. We propose a taxonomy of discrete-variant GANs and continuous-variant GANs, in which GANs deal with discrete time series and continuous time series data. Here we showcase the latest and most popular literature in this field; their architectures, results, and applications. We also provide a list of the most popular evaluation metrics and their suitability across applications. Also presented is a discussion of privacy measures for these GANs and further protections and directions for dealing with sensitive data. We aim to frame clearly and concisely the latest and state-of-the-art research in this area and their applications to real-world technologies.
翻訳日:2021-07-26 19:17:45 公開日:2021-07-23
# (参考訳) 距離正規化レベルセットに基づく心臓CTのセグメンテーション

Cardiac CT segmentation based on distance regularized level set ( http://arxiv.org/abs/2107.11119v1 )

ライセンス: CC BY 4.0
Xinyang Wu(参考訳) analy z ing の前には、心臓画像の分割が非常に重要であり、左大静脈(lv)の内膜および外膜分割は最も重要な内容の1つである。 しかし、手動セグメンテーションは退屈で時間がかかります。 医師が疾患解析や診断などのハイテクなタスクに集中できるようにするためには、迅速かつ正確なセグメント化法を開発することが重要である[1]。 本稿では, 距離正規化レベルセット(drl se)を用いて, 心内膜と心内膜2のセグメンテーション効果について検討する。 最後に,提案手法の検証に5つのCT画像を用い,ディススコアやハウスドルフ距離などの画像品質評価指標を用いてセグメンテーション効果を評価する。 その結果,me tho dは内膜と外膜を非常によく分離できた(endocardium dice = 0.9253, hausdorff = 7.8740, epicardium hausdorff = 0.9687, hausdorff = 6)。

Before analy z ing the CT image, it is very important to segment the heart image, and the left ve ntricular (LV) inner and outer membrane segmentation is one of the most important contents. However, manual segmentation is tedious and time consuming. In order to facilitate doctors to focus on high tech tasks such as disease analysis and diagnosis, it is crucial to develop a fast and accurate segmentation method [1]. In view of this phenomenon, this paper uses distance regularized level set (DRL SE) to explore the segmentation effect of epicardium and endocardium 2 ]], which includes a distance regula riz ed t erm and an external energy term. Finally, five CT images are used to verify the proposed method, and image quality evaluation indexes such as dice score and Hausdorff distance are used to evaluate the segmentation effect. The results showed that the me tho d could separate the inner and outer membrane very well (endocardium dice = 0.9253, Hausdorff = 7.8740; epicardium Hausdorff = 0.9687, Hausdorff = 6 .
翻訳日:2021-07-26 18:43:26 公開日:2021-07-23
# (参考訳) 重み付きデータを用いた高次元微分プライベート確率最適化

High Dimensional Differentially Private Stochastic Optimization with Heavy-tailed Data ( http://arxiv.org/abs/2107.11136v1 )

ライセンス: CC BY 4.0
Lijie Hu and Shuo Ni and Hanshen Xiao and Di Wang(参考訳) 機械学習、統計学、微分プライバシーにおける最も基本的な問題の1つとして、ディファレンシャル・プライベート・確率凸最適化(DP-SCO)が近年広く研究されている。 しかし、以前の研究のほとんどは、低次元空間の場合の正規データ分布または不規則データのみを扱うことができる。 本稿では,不規則なデータ分布から生じる課題をよりよく理解するために,高次元空間における重み付きデータを用いたDP-SCO問題に関する最初の研究を行う。 最初の部分では、ポリトープ制約($\ell_1$-norm ボールなど)よりも問題に焦点を当てています。 損失関数が滑らかで、その勾配が2次モーメントに有界であれば、$n$がサンプルサイズであり、$d$が基礎空間の次元である$\epsilon$-dpモデルにおいて、$\tilde{o}(\frac{\log d}{(n\epsilon)^\frac{1}{3}})$の(高い確率)誤差バウンド(外人口リスク)を得ることができる。 次に、LASSO に対して、4階のモーメントが有界なデータ分布は $(\epsilon, \delta)$-DP モデルにおいて $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{2}{5}})$ となる。 論文の第2部では,重み付きデータを用いたスパース学習について検討した。 まず、スパース線形モデルを再検討し、出力が$\tilde{o}(\frac{s^{*2}\log d}{n\epsilon})$(ここで$s^*$ はパラメータのスパース性である)の誤差を達成することのできる切断dp-iht法を提案する。 次に、スパーシリティ上のより一般的な問題 ({\em i.e.,} $\ell_0$-norm) について研究し、損失関数が滑らかで強凸であれば、$\tilde{O}(\frac{s^{*\frac{3}{2}}\log d}{n\epsilon})$が$\tilde{O}{(\sqrt{s^*})}$に近く最適であることを示す。

As one of the most fundamental problems in machine learning, statistics and differential privacy, Differentially Private Stochastic Convex Optimization (DP-SCO) has been extensively studied in recent years. However, most of the previous work can only handle either regular data distribution or irregular data in the low dimensional space case. To better understand the challenges arising from irregular data distribution, in this paper we provide the first study on the problem of DP-SCO with heavy-tailed data in the high dimensional space. In the first part we focus on the problem over some polytope constraint (such as the $\ell_1$-norm ball). We show that if the loss function is smooth and its gradient has bounded second order moment, it is possible to get a (high probability) error bound (excess population risk) of $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{1}{3}})$ in the $\epsilon$-DP model, where $n$ is the sample size and $d$ is the dimensionality of the underlying space. Next, for LASSO, if the data distribution that has bounded fourth-order moments, we improve the bound to $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{2}{5}})$ in the $(\epsilon, \delta)$-DP model. In the second part of the paper, we study sparse learning with heavy-tailed data. We first revisit the sparse linear model and propose a truncated DP-IHT method whose output could achieve an error of $\tilde{O}(\frac{s^{*2}\log d}{n\epsilon})$, where $s^*$ is the sparsity of the underlying parameter. Then we study a more general problem over the sparsity ({\em i.e.,} $\ell_0$-norm) constraint, and show that it is possible to achieve an error of $\tilde{O}(\frac{s^{*\frac{3}{2}}\log d}{n\epsilon})$, which is also near optimal up to a factor of $\tilde{O}{(\sqrt{s^*})}$, if the loss function is smooth and strongly convex.
翻訳日:2021-07-26 18:39:10 公開日:2021-07-23
# (参考訳) ユーザの嗜好と最短経路

User Preferences and the Shortest Path ( http://arxiv.org/abs/2107.11150v1 )

ライセンス: CC BY 4.0
Isabella Kreller and Bernd Ludwig(参考訳) 屋内ナビゲーションシステムは最短経路アルゴリズムを利用して経路を計算する。 最短経路”を定義するには、アプリケーション領域の理論とヒューリスティックスに基づいてコスト関数を指定する必要がある。 屋内ルーティングの領域について,文献から人間の経路計画に不可欠な理論と基準を考察する。 私たちは量的定義を推進し、それらをそれぞれの基準を個別に重み付けするコスト関数に統合します。 次に、理想的なコスト関数につながる重みを見つけるために網羅的なグリッド探索を適用する。 ここでのIdealは、人間が選択したルートと最もよく似たルートを計画するアルゴリズムを導くものである。 改良されたパスフィニングアルゴリズムにおいてどの基準を考慮すべきかを検討するため、過去の研究で経路選択に有利な影響を及ぼす要因を11種類検討した。 各因子はディヒクストラのアルゴリズムに別々に含められ、その結果、レーゲンスブルク大学の学生が選択した実際のルートとの類似性が決定された。 これにより、要因の影響を定量的に評価し、直接比較する方法を構成することができる。 ターン数、道路数、回転ドア数、入口数、エレベーター数、および上記要因の組み合わせは、肯定的な効果を示し、最短経路上で好まれる経路を生成することが判明した。 ターンと基準の組み合わせが最も影響があることが判明した。

Indoor navigation systems leverage shortest path algorithms to calculate routes. In order to define the "shortest path", a cost function has to be specified based on theories and heuristics in the application domain. For the domain of indoor routing, we survey theories and criteria identified in the literature as essential for human path planning. We drive quantitative definitions and integrate them into a cost function that weights each of the criteria separately. We then apply an exhaustive grid search to find weights that lead to an ideal cost function. "Ideal" here is defined as guiding the algorithm to plan routes that are most similar to those chosen by humans. To explore which criteria should be taken into account in an improved pathfinding algorithm, eleven different factors whose favorable impact on route selection has been established in past research were considered. Each factor was included separately in the Dijkstra algorithm and the similarity of thus calculated routes to the actual routes chosen by students at the University of Regensburg was determined. This allows for a quantitative assessment of the factors' impact and further constitutes a way to directly compare them. A reduction of the number of turns, streets, revolving doors, entryways, elevators as well as the combination of the aforementioned factors was found to have a positive effect and generate paths that were favored over the shortest path. Turns and the combination of criteria turned out to be most impactful.
翻訳日:2021-07-26 17:42:25 公開日:2021-07-23
# (参考訳) 複数ラベル画像認識のための学習識別表現

Learning Discriminative Representations for Multi-Label Image Recognition ( http://arxiv.org/abs/2107.11159v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Ibrahim Radwan, Salman Khan, Murat Tahtali(参考訳) マルチラベル認識は基本的なものであり、コンピュータビジョンでは難しい課題である。 近年,ディープラーニングモデルは入力画像から識別的特徴を学習する上で大きな進歩を遂げている。 しかし、従来の手法では、画像レベルの特徴識別のために設計されているため、マルチラベル画像の特徴間のクラス間差異をモデル化できない。 本稿では,マルチラベルタスクの識別特徴を学習するための統合深層ネットワークを提案する。 マルチラベル画像が与えられた場合、提案手法はまず異なるクラスに対応する特徴を分離する。 そして、出力空間におけるクラス内差を小さくしながら、クラス間距離を増大させ、これらのクラス間での識別を行う。 ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。 COCO-2014、VOC2007、VOC2012データセットで大規模な実験が行われ、提案手法は大規模COCOデータセットでは3:5%の差で最先端のアプローチより優れていることを示した。 さらに,識別的特徴学習手法の解析により,汎用モジュールとして様々な種類のマルチラベルメソッドにプラグインできることが示されている。

Multi-label recognition is a fundamental, and yet is a challenging task in computer vision. Recently, deep learning models have achieved great progress towards learning discriminative features from input images. However, conventional approaches are unable to model the inter-class discrepancies among features in multi-label images, since they are designed to work for image-level feature discrimination. In this paper, we propose a unified deep network to learn discriminative features for the multi-label task. Given a multi-label image, the proposed method first disentangles features corresponding to different classes. Then, it discriminates between these classes via increasing the inter-class distance while decreasing the intra-class differences in the output space. By regularizing the whole network with the proposed loss, the performance of applying the wellknown ResNet-101 is improved significantly. Extensive experiments have been performed on COCO-2014, VOC2007 and VOC2012 datasets, which demonstrate that the proposed method outperforms state-of-the-art approaches by a significant margin of 3:5% on large-scale COCO dataset. Moreover, analysis of the discriminative feature learning approach shows that it can be plugged into various types of multi-label methods as a general module.
翻訳日:2021-07-26 17:29:21 公開日:2021-07-23
# (参考訳) スマートフォンデータと機械学習を用いたモバイルマルウェアの動的検出

Dynamic detection of mobile malware using smartphone data and machine learning ( http://arxiv.org/abs/2107.11167v1 )

ライセンス: CC BY-SA 4.0
J.S. Panman de Wit, J. van der Ham, D. Bucur(参考訳) モバイルマルウェアは、モバイルデバイスをターゲットにした悪意のあるプログラムである。 毎年検出されるモバイルマルウェアのサンプルが増加しているように、これらはますます問題になっている。 アクティブなスマートフォンユーザーの数は増加すると予想され、モバイルマルウェアの検出に関する研究の重要性を強調している。 モバイルマルウェアの検出方法は存在するが、まだ限られている。 本稿では,特権アクセスを使わずに,Android上でマルウェアを検出する機械学習(ML)技術の性能について概説する。 ML分類器は、CPU使用量、バッテリ使用量、メモリ使用量などのデバイス情報を使用して、Android Operating System (OS)上で10のMobile Trojansのサブタイプを検出する。 我々は1年(2016年)に47ユーザーのデバイスとマルウェアのデータを含む実生活データセットを使用する。 私たちはどの特徴、すなわち、どの特徴を検証します。 デバイスのアスペクトは、モバイルのトロイの木馬を検出する(サブタイプ)のに最も重要である。 本論文の焦点は、動的ハードウェア機能である。 これらの動的機能を使用して、Random Forest、K-Nearest Neighbour、AdaBoostといった最先端の機械学習分類器を適用します。 我々は、異なる機能セットで分類結果を示し、グローバルデバイス機能と特定のアプリ機能とを区別する。 測定された機能セットには特権アクセスは必要ない。 その結果,ランダムフォレスト分類器は10種類の移動トロイの木馬のF1スコアを0.09の偽陽性率(FPR)と0.380の偽陰性率(FNR)で達成し,一般的なマルウェア分類器として最適であることがわかった。 ランダムフォレスト(Random Forest)、K-Nearest Neighbours(K-Nearest Neighbours)、AdaBoost分類器(AdaBoost分類器)は0.72以上のF1スコア、0.02以下のFPR、0.33以下のFNRをそれぞれ別々に訓練し、移動トロイの木の各サブタイプを検出する。

Mobile malware are malicious programs that target mobile devices. They are an increasing problem, as seen in the rise of detected mobile malware samples per year. The number of active smartphone users is expected to grow, stressing the importance of research on the detection of mobile malware. Detection methods for mobile malware exist but are still limited. In this paper, we provide an overview of the performance of machine learning (ML) techniques to detect malware on Android, without using privileged access. The ML-classifiers use device information such as the CPU usage, battery usage, and memory usage for the detection of 10 subtypes of Mobile Trojans on the Android Operating System (OS). We use a real-life dataset containing device and malware data from 47 users for a year (2016). We examine which features, i.e. aspects, of a device, are most important to monitor to detect (subtypes of) Mobile Trojans. The focus of this paper is on dynamic hardware features. Using these dynamic features we apply state-of-the-art machine learning classifiers: Random Forest, K-Nearest Neighbour, and AdaBoost. We show classification results on different feature sets, making a distinction between global device features, and specific app features. None of the measured feature sets require privileged access. Our results show that the Random Forest classifier performs best as a general malware classifier: across 10 subtypes of Mobile Trojans, it achieves an F1 score of 0.73 with a False Positive Rate (FPR) of 0.009 and a False Negative Rate (FNR) of 0.380. The Random Forest, K-Nearest Neighbours, and AdaBoost classifiers achieve F1 scores above 0.72, an FPR below 0.02 and, an FNR below 0.33, when trained separately to detect each subtype of Mobile Trojans.
翻訳日:2021-07-26 17:11:36 公開日:2021-07-23
# (参考訳) リカレントグラフ畳み込みによるばらばらな慣性測定による人間のポーズ推定

Human Pose Estimation from Sparse Inertial Measurements through Recurrent Graph Convolution ( http://arxiv.org/abs/2107.11214v1 )

ライセンス: CC BY-SA 4.0
Patrik Puchert, Timo Ropinski(参考訳) 6つの測定単位から得られたスパース慣性測定から人のポーズ推定のためのアジャシアン適応グラフ畳み込み長短メモリネットワーク(AAGC-LSTM)を提案する。 AAGC-LSTMは、単一ネットワーク操作における空間的および時間的依存を結合する。 グラフ畳み込みに隣接適応性を持たせることで、人間の関節の未知の依存関係を学習することができる。 さらに精度を高めるために,自然運動パターンを考慮した縦断損失重み付けと,体認識による対側データ拡張を提案する。 これらの貢献を組み合わせることで、人体の固有のグラフの性質を生かして、少ない慣性測定から人間のポーズ推定の技術を上回ることができる。

We propose the adjacency adaptive graph convolutional long-short term memory network (AAGC-LSTM) for human pose estimation from sparse inertial measurements, obtained from only 6 measurement units. The AAGC-LSTM combines both spatial and temporal dependency in a single network operation. This is made possible by equipping graph convolutions with adjacency adaptivity, which also allows for learning unknown dependencies of the human body joints. To further boost accuracy, we propose longitudinal loss weighting to consider natural movement patterns, as well as body-aware contralateral data augmentation. By combining these contributions, we are able to utilize the inherent graph nature of the human body, and can thus outperform the state of the art for human pose estimation from sparse inertial measurements.
翻訳日:2021-07-26 16:49:51 公開日:2021-07-23
# (参考訳) 深層登録ラテントスペースの探索

Exploring Deep Registration Latent Spaces ( http://arxiv.org/abs/2107.11238v1 )

ライセンス: CC BY-SA 4.0
Th\'eo Estienne, Maria Vakalopoulou, Stergios Christodoulidis, Enzo Battistella, Th\'eophraste Henry, Marvin Lerousseau, Amaury Leroy, Guillaume Chassagnon, Marie-Pierre Revel, Nikos Paragios and Eric Deutsch(参考訳) ディープニューラルネットワークの説明は、この分野で最も困難で興味深い問題の1つだ。 本研究では,深層学習に基づく登録手法の解釈可能性に着目した話題について検討する。 特に、適切なモデルアーキテクチャと単純な線形射影を用いて、符号化空間を分解し、新しい基底を生成し、この基底が解剖学的に認識された様々な幾何学的変換を捉えることを実証的に示す。 肺と海馬MRIに焦点を当てた2つの異なるデータセットを用いて実験を行った。 このような手法は、いくつかの興味深い性質を持つ直交空間において、非常に複雑な登録パイプラインの潜在空間を分解できることを示す。 この研究が深層学習に基づく登録方法の理解を深めることを願っている。

Explainability of deep neural networks is one of the most challenging and interesting problems in the field. In this study, we investigate the topic focusing on the interpretability of deep learning-based registration methods. In particular, with the appropriate model architecture and using a simple linear projection, we decompose the encoding space, generating a new basis, and we empirically show that this basis captures various decomposed anatomically aware geometrical transformations. We perform experiments using two different datasets focusing on lungs and hippocampus MRI. We show that such an approach can decompose the highly convoluted latent spaces of registration pipelines in an orthogonal space with several interesting properties. We hope that this work could shed some light on a better understanding of deep learning-based registration methods.
翻訳日:2021-07-26 16:32:48 公開日:2021-07-23
# (参考訳) テンソル代数を用いたマルチチャネル自動音楽転写

Multi-Channel Automatic Music Transcription Using Tensor Algebra ( http://arxiv.org/abs/2107.11250v1 )

ライセンス: CC BY-SA 4.0
Marmoret Axel, Bertin Nancy, Cohen Jeremy(参考訳) 音楽は芸術であり、すべてのリスナーによって独特な方法で知覚され、音響信号から来る。 その間、音楽の楽譜としての基準が存在している。 たとえ人間がこの書き起こしができるとしても、時間と努力の面ではコストがかかる。 その意味では、研究は音楽の自動転写の方向に向けられている。 単音符の場合、このタスクは解決されると考えられるが、音符が自身を重ね合わせ、和音を形成するときはまだ開いている。 本報告は,既存の音楽転写技術,特に行列分解技術を開発し,マルチチャンネル自動音楽転写の概念を導入することを目的とする。 この概念はテンソルと呼ばれる数学的対象で探求される。

Music is an art, perceived in unique ways by every listener, coming from acoustic signals. In the meantime, standards as musical scores exist to describe it. Even if humans can make this transcription, it is costly in terms of time and efforts, even more with the explosion of information consecutively to the rise of the Internet. In that sense, researches are driven in the direction of Automatic Music Transcription. While this task is considered solved in the case of single notes, it is still open when notes superpose themselves, forming chords. This report aims at developing some of the existing techniques towards Music Transcription, particularly matrix factorization, and introducing the concept of multi-channel automatic music transcription. This concept will be explored with mathematical objects called tensors.
翻訳日:2021-07-26 16:22:14 公開日:2021-07-23
# (参考訳) 低分解能コンディショニングによる画像間変換

Image-to-Image Translation with Low Resolution Conditioning ( http://arxiv.org/abs/2107.11262v1 )

ライセンス: CC BY 4.0
Mohamed Abderrahmen Abid, Ihsen Hedhli, Jean-Fran\c{c}ois Lalonde, Christian Gagne(参考訳) ほとんどの画像から画像への翻訳手法は、画像がコンテンツ(例えばポーズ)を共有することを前提として、ドメイン間のマッピングの学習に焦点を当てているが、スタイルとして知られる独自のドメイン固有の情報を持っている。 対象画像に条件付けされた場合、そのような手法はターゲットのスタイルを抽出し、ソース画像の内容と組み合わせることを目的としている。 本研究では,対象画像の解像度が極めて低いシナリオについて考察する。 より具体的には、ターゲットの粗い低解像度(LR)画像表現に適合させるために、高解像度(HR)画像から細部を転送することを目的としている。 したがって、HRとLRの両方の入力から特徴を共有するHR画像を生成する。 これは、ある画像スタイルを対象コンテンツに変換することに焦点を当てた従来の方法とは異なり、我々の翻訳アプローチは、そのスタイルを同時に模倣し、LRターゲットの構造情報をマージすることができる。 提案手法は, HRターゲット画像を生成するための生成モデルをトレーニングすることに依存し, 1) 対応するソース画像の固有情報を共有すること, 2) ダウンスケール時のLRターゲット画像と正しく一致させることである。 我々は,CelebA-HQとAFHQのデータセットを用いて,視覚的品質,多様性,カバレッジの面での改善を示す。 質的・定量的な結果から,stargan-v2 のような最先端の手法と比較して,ドメイン内画像翻訳を扱う場合,より現実的なサンプルを生成することが判明した。

Most image-to-image translation methods focus on learning mappings across domains with the assumption that images share content (e.g., pose) but have their own domain-specific information known as style. When conditioned on a target image, such methods aim to extract the style of the target and combine it with the content of the source image. In this work, we consider the scenario where the target image has a very low resolution. More specifically, our approach aims at transferring fine details from a high resolution (HR) source image to fit a coarse, low resolution (LR) image representation of the target. We therefore generate HR images that share features from both HR and LR inputs. This differs from previous methods that focus on translating a given image style into a target content, our translation approach being able to simultaneously imitate the style and merge the structural information of the LR target. Our approach relies on training the generative model to produce HR target images that both 1) share distinctive information of the associated source image; 2) correctly match the LR target image when downscaled. We validate our method on the CelebA-HQ and AFHQ datasets by demonstrating improvements in terms of visual quality, diversity and coverage. Qualitative and quantitative results show that when dealing with intra-domain image translation, our method generates more realistic samples compared to state-of-the-art methods such as Stargan-v2
翻訳日:2021-07-26 16:21:19 公開日:2021-07-23
# (参考訳) 都市・シーンセグメンテーションにおける未予測道路障害物の簡易かつ効果的な同定手法

Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation ( http://arxiv.org/abs/2107.11264v1 )

ライセンス: CC BY 4.0
Sanghun Jung, Jungsoo Lee, Daehoon Gwak, Sungha Choi, Jaegul Choo(参考訳) セマンティックセグメンテーション(例えば、道路上の犬を識別する)における道路上の予期せぬ物体の同定は、安全クリティカルな応用において不可欠である。 既存のアプローチでは、外部データセットからの予期せぬオブジェクトの画像を使用するか、追加のトレーニング(セグメンテーションネットワークの再トレーニングや余分なネットワークのトレーニングなど)を必要とする。 考えられる選択肢の1つは、事前訓練されたネットワークの予測スコア(例えば、max logits(最終softmax層前のクラス間の最大値)を使用して、そのようなオブジェクトを検出することである。 しかし,各予測クラスにおける最大ロジットの分布は,都市間セグメンテーションにおける予期せぬ対象の識別性能を低下させるため,大きく異なる。 この問題に対処するために,我々は,各予測クラスにおけるmaxロジットの相対的意味を反映するために,maxロジットを標準化する単純かつ効果的なアプローチを提案する。 さらに,隣接画素が類似した意味情報を共有するという直観に基づいて,二つの異なる視点から局所領域を考える。 従来のアプローチとは対照的に,本手法では外部データセットは使用せず,追加のトレーニングも必要とせず,既存の事前学習されたセグメンテーションモデルに広く適用できる。 このような直接的なアプローチは、広く入手可能なfishyscapes lost & found leaderboardにおける最先端のパフォーマンスを、大きなマージンで達成する。

Identifying unexpected objects on roads in semantic segmentation (e.g., identifying dogs on roads) is crucial in safety-critical applications. Existing approaches use images of unexpected objects from external datasets or require additional training (e.g., retraining segmentation networks or training an extra network), which necessitate a non-trivial amount of labor intensity or lengthy inference time. One possible alternative is to use prediction scores of a pre-trained network such as the max logits (i.e., maximum values among classes before the final softmax layer) for detecting such objects. However, the distribution of max logits of each predicted class is significantly different from each other, which degrades the performance of identifying unexpected objects in urban-scene segmentation. To address this issue, we propose a simple yet effective approach that standardizes the max logits in order to align the different distributions and reflect the relative meanings of max logits within each predicted class. Moreover, we consider the local regions from two different perspectives based on the intuition that neighboring pixels share similar semantic information. In contrast to previous approaches, our method does not utilize any external datasets or require additional training, which makes our method widely applicable to existing pre-trained segmentation models. Such a straightforward approach achieves a new state-of-the-art performance on the publicly available Fishyscapes Lost & Found leaderboard with a large margin.
翻訳日:2021-07-26 16:08:51 公開日:2021-07-23
# (参考訳) 3次元点雲上の弱い教師付きセマンティクスセグメンテーションに対する密集した監督伝播

Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds ( http://arxiv.org/abs/2107.11267v1 )

ライセンス: CC BY 4.0
Jiacheng Wei, Guosheng Lin, Kim-Hui Yap, Fayao Liu, Tzu-Yi Hung(参考訳) 3Dポイントクラウド上のセマンティックセグメンテーションは、3Dシーン理解の重要なタスクである。 3dデータへの密なラベリングは高価で時間がかかりますが、よりシンプルで安価なラベルから学習することでラベリングコストを和らげるために、弱い教師付きセマンティックポイントクラウドセグメンテーションメソッドに対処できる作業はごくわずかです。 一方、既存の弱教師付きメソッドと最先端の完全教師付きメソッドの間には、依然として大きなパフォーマンスギャップがある。 本稿では,少数のポイントをラベル付けした意味点クラウドセグメンテーションネットワークを訓練する。 我々は、ラベル付き点から入力サンプル内および他の点への監督信号を密に伝播するので、限られた監視情報をより有効に活用することができると論じる。 具体的には,類似した特徴を伝達し,共通クラスを持つ2つのサンプル間の勾配を再ルーティングするクロスサンプル機能再配置モジュールと,非ラベル点の監視信号を点群内および点群内へ伝達するサンプル機能再分配モジュールを提案する。 公開データセットS3DISとScanNetについて広範な実験を行った。 ラベルの10 % と 1 % しか持たない弱教師付き手法では,完全教師付き手法と互換性のある結果が得られる。

Semantic segmentation on 3D point clouds is an important task for 3D scene understanding. While dense labeling on 3D data is expensive and time-consuming, only a few works address weakly supervised semantic point cloud segmentation methods to relieve the labeling cost by learning from simpler and cheaper labels. Meanwhile, there are still huge performance gaps between existing weakly supervised methods and state-of-the-art fully supervised methods. In this paper, we train a semantic point cloud segmentation network with only a small portion of points being labeled. We argue that we can better utilize the limited supervision information as we densely propagate the supervision signal from the labeled points to other points within and across the input samples. Specifically, we propose a cross-sample feature reallocating module to transfer similar features and therefore re-route the gradients across two samples with common classes and an intra-sample feature redistribution module to propagate supervision signals on unlabeled points across and within point cloud samples. We conduct extensive experiments on public datasets S3DIS and ScanNet. Our weakly supervised method with only 10\% and 1\% of labels can produce compatible results with the fully supervised counterpart.
翻訳日:2021-07-26 15:54:39 公開日:2021-07-23
# (参考訳) テキスト分類器における微分言語モデル逆攻撃

A Differentiable Language Model Adversarial Attack on Text Classifiers ( http://arxiv.org/abs/2107.11275v1 )

ライセンス: CC BY 4.0
Ivan Fursov, Alexey Zaytsev, Pavel Burnyshev, Ekaterina Dmitrieva, Nikita Klyuchnikov, Andrey Kravchenko, Ekaterina Artemova, Evgeny Burnaev(参考訳) 自然言語処理のための巨大なTransformerベースのモデルのロバストさは、その能力と広範な採用のために重要な問題である。 これらのモデルのロバスト性を理解し、改善する方法の1つは、敵対的な攻撃シナリオを探求することである。 テキストデータの離散的な性質のため、コンピュータビジョンで広く使われている勾配に基づく逆法は適用できない。 この問題を解決するための標準的な戦略は、文全体を考慮しないトークンレベルの変換を開発することである。 本稿では,新しいブラックボックス文レベル攻撃を提案する。 本手法は,事前学習した言語モデルを微調整し,逆例を生成する。 提案する微分可能損失関数は、置換分類子スコアと、ディープラーニングモデルで計算された近似編集距離に依存する。 提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。 さらに、微調整言語モデルの使用により、生成した逆数例は検出が困難であるため、現在のモデルは堅牢ではない。 したがって、提案された攻撃から防御することは困難であり、他の攻撃はそうではない。

Robustness of huge Transformer-based models for natural language processing is an important issue due to their capabilities and wide adoption. One way to understand and improve robustness of these models is an exploration of an adversarial attack scenario: check if a small perturbation of an input can fool a model. Due to the discrete nature of textual data, gradient-based adversarial methods, widely used in computer vision, are not applicable per~se. The standard strategy to overcome this issue is to develop token-level transformations, which do not take the whole sentence into account. In this paper, we propose a new black-box sentence-level attack. Our method fine-tunes a pre-trained language model to generate adversarial examples. A proposed differentiable loss function depends on a substitute classifier score and an approximate edit distance computed via a deep learning model. We show that the proposed attack outperforms competitors on a diverse set of NLP problems for both computed metrics and human evaluation. Moreover, due to the usage of the fine-tuned language model, the generated adversarial examples are hard to detect, thus current models are not robust. Hence, it is difficult to defend from the proposed attack, which is not the case for other attacks.
翻訳日:2021-07-26 15:42:52 公開日:2021-07-23
# (参考訳) リジェクトオプションによる機械学習: 調査

Machine Learning with a Reject Option: A survey ( http://arxiv.org/abs/2107.11277v1 )

ライセンス: CC BY 4.0
Kilian Hendrickx, Lorenzo Perini, Dries Van der Plas, Wannes Meert, Jesse Davis(参考訳) 機械学習モデルは、不正確になりやすい場合でも、常に予測を行う。 この振る舞いは、多くの意思決定支援アプリケーションで避けるべきであり、ミスが深刻な結果をもたらす可能性がある。 1970年にはすでに勉強していたが、リジェクションオプション付きの機械学習が最近注目を集めた。 この機械学習サブフィールドにより、機械学習モデルは、間違いを犯す可能性のある予測を控えることができる。 この調査は、リジェクションオプションによる機械学習の概要を提供することを目的としている。 我々は, 曖昧さと新規性拒絶という2種類の拒絶につながる条件を紹介する。 さらに,モデルの既存アーキテクチャを拒絶オプションで定義し,モデルをトレーニングするための標準学習戦略を記述し,従来の機械学習手法を拒絶に関連付ける。 さらに,モデルの予測的かつ拒絶的品質を評価する戦略について検討する。 最後に、関連するアプリケーションドメインの例を示し、機械学習が他の機械学習研究領域とどのように関係しているかを示す。

Machine learning models always make a prediction, even when it is likely to be inaccurate. This behavior should be avoided in many decision support applications, where mistakes can have severe consequences. Albeit already studied in 1970, machine learning with a reject option recently gained interest. This machine learning subfield enables machine learning models to abstain from making a prediction when likely to make a mistake. This survey aims to provide an overview on machine learning with a reject option. We introduce the conditions leading to two types of rejection, ambiguity and novelty rejection. Moreover, we define the existing architectures for models with a reject option, describe the standard learning strategies to train such models and relate traditional machine learning techniques to rejection. Additionally, we review strategies to evaluate a model's predictive and rejective quality. Finally, we provide examples of relevant application domains and show how machine learning with rejection relates to other machine learning research areas.
翻訳日:2021-07-26 15:29:59 公開日:2021-07-23
# (参考訳) surfacenet:単一の画像による逆svbrdf推定

SurfaceNet: Adversarial SVBRDF Estimation from a Single Image ( http://arxiv.org/abs/2107.11298v1 )

ライセンス: CC BY 4.0
Giuseppe Vecchio, Simone Palazzo, Concetto Spampinato(参考訳) 本稿では,空間変動型双方向反射率分布関数(svbrdf)の材料特性を単一画像から推定する手法であるsurfacenetを提案する。 画像翻訳タスクとしてこの問題に対処し、高品質で高解像度な表面反射率マップを作成可能な、パッチベースの新規な生成対向ネットワーク(GAN)を提案する。 ganパラダイムの雇用は、1)モデルが標準翻訳モデルよりも細かい詳細を回復すること、2)合成データと実データ分布の間のドメインシフトを教師なしの方法で低減することの2つの目的を持っている。 異なる照明条件下での合成画像と実画像の公開ベンチマークにより、SurfaceNetは既存のSVBRDF再構築手法よりも定量的かつ定性的に優れていることを示す。 さらにsurfacenetは、トレーニング時に監視することなく、実際のサンプルから高品質なマップを生成する素晴らしい能力を示している。

In this paper we present SurfaceNet, an approach for estimating spatially-varying bidirectional reflectance distribution function (SVBRDF) material properties from a single image. We pose the problem as an image translation task and propose a novel patch-based generative adversarial network (GAN) that is able to produce high-quality, high-resolution surface reflectance maps. The employment of the GAN paradigm has a twofold objective: 1) allowing the model to recover finer details than standard translation models; 2) reducing the domain shift between synthetic and real data distributions in an unsupervised way. An extensive evaluation, carried out on a public benchmark of synthetic and real images under different illumination conditions, shows that SurfaceNet largely outperforms existing SVBRDF reconstruction methods, both quantitatively and qualitatively. Furthermore, SurfaceNet exhibits a remarkable ability in generating high-quality maps from real samples without any supervision at training time.
翻訳日:2021-07-26 15:29:04 公開日:2021-07-23
# (参考訳) robust adaptive submodular maximization

Robust Adaptive Submodular Maximization ( http://arxiv.org/abs/2107.11333v1 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 適応的部分モジュラー最適化に関する既存の研究の多くは、平均ケース、すなわち、その目的は、既知の実現の分布よりも期待される効用を最大化するポリシーを見つけることである。 しかし、平均的なパフォーマンスが良いポリシーは、最悪のケースではパフォーマンスが非常に悪いかもしれない。 本研究では,適応部分モジュラー最適化問題の2つの変種,すなわち,最悪の場合適応部分モジュラー最大化とロバスト部分モジュラー最大化について検討する。 最初の問題は、最悪のケースのユーティリティを最大化するポリシーを見つけることであり、後者は、少なくとも、最適な平均ケースのユーティリティと最悪のケースのユーティリティの両方を同時に達成するポリシーを見つけることを目的としている。 確率関数の新しいクラスである \emph{worst-case submodular function} を導入する。 p$-system制約を受ける最悪のケース適応サブモジュラー最大化問題に対して、ユーティリティ関数が最悪のケースサブモジュラーである場合、最適なワーストケースユーティリティに対する$\frac{1}{p+1}$近似比を達成する適応的最悪のケースグリーディポリシーを開発する。 基数制約を受けるロバスト適応部分モジュラー最大化問題に対して、実用関数が最悪ケース部分モジュラーかつ適応部分モジュラーの両方である場合、最悪のケース設定と平均ケース設定の両方で1-e^{-\frac{1}{2}}$に近い近似を同時に達成するハイブリッド適応ポリシーを開発する。 また、プールベースアクティブラーニング、確率的サブモジュール集合被覆、適応的バイラルマーケティングなど、理論的結果のいくつかの応用について述べる。

Most of existing studies on adaptive submodular optimization focus on the average-case, i.e., their objective is to find a policy that maximizes the expected utility over a known distribution of realizations. However, a policy that has a good average-case performance may have very poor performance under the worst-case realization. In this study, we propose to study two variants of adaptive submodular optimization problems, namely, worst-case adaptive submodular maximization and robust submodular maximization. The first problem aims to find a policy that maximizes the worst-case utility and the latter one aims to find a policy, if any, that achieves both near optimal average-case utility and worst-case utility simultaneously. We introduce a new class of stochastic functions, called \emph{worst-case submodular function}. For the worst-case adaptive submodular maximization problem subject to a $p$-system constraint, we develop an adaptive worst-case greedy policy that achieves a $\frac{1}{p+1}$ approximation ratio against the optimal worst-case utility if the utility function is worst-case submodular. For the robust adaptive submodular maximization problem subject to a cardinality constraint, if the utility function is both worst-case submodular and adaptive submodular, we develop a hybrid adaptive policy that achieves an approximation close to $1-e^{-\frac{1}{2}}$ under both worst case setting and average case setting simultaneously. We also describe several applications of our theoretical results, including pool-base active learning, stochastic submodular set cover and adaptive viral marketing.
翻訳日:2021-07-26 15:17:51 公開日:2021-07-23
# (参考訳) 気候知識ベースによる効果的な気候コミュニケーションの活用

Powering Effective Climate Communication with a Climate Knowledge Base ( http://arxiv.org/abs/2107.11351v1 )

ライセンス: CC BY 4.0
Kameron B. Rodrigues, Shweta Khushu, Mukut Mukherjee, Andrew Banister, Anthony Hevia, Sampath Duddu, Nikita Bhutani(参考訳) 多くの人は気候変動とその拡大する影響を受け入れるが、それに対応するのに必要な社会的変化の採用速度を制限し、それについてうまく議論する人は少ない。 効果的な気候コミュニケーションを容易にするため、我々は、個人が予測する気候情報を最良の動機付けとして提示し、独自の個人的価値観から行動を起こすよう促すシステムの構築を目指している。 コールドスタート問題を緩和するため、このシステムは気候変動の原因と影響の知識ベース(クライメートKB)と、その個人的価値との関連に依存する。 このような総合的なClimateKBは存在しないため、知識ベース構築技術を再考し、フリーテキストからClimateKBを構築する。 climatekbと関連するコードをオープンソースにして、今後の研究と応用を促進する予定です。

While many accept climate change and its growing impacts, few converse about it well, limiting the adoption speed of societal changes necessary to address it. In order to make effective climate communication easier, we aim to build a system that presents to any individual the climate information predicted to best motivate and inspire them to take action given their unique set of personal values. To alleviate the cold-start problem, the system relies on a knowledge base (ClimateKB) of causes and effects of climate change, and their associations to personal values. Since no such comprehensive ClimateKB exists, we revisit knowledge base construction techniques and build a ClimateKB from free text. We plan to open source the ClimateKB and associated code to encourage future research and applications.
翻訳日:2021-07-26 14:53:29 公開日:2021-07-23
# (参考訳) ジョイントシェープリー値:ジョイント特徴重要度尺度

Joint Shapley values: a measure of joint feature importance ( http://arxiv.org/abs/2107.11357v1 )

ライセンス: CC BY 4.0
Chris Harris, Richard Pymar, Colin Rowat(参考訳) シャプリー値は、説明可能なAIにおける機能の重要性を最も広く認識する尺度の1つであり、公理的基盤が明確であり、一意の存在が保証され、モデルの予測に対する機能の平均的な影響として明確な解釈を持つ。 結合Shapley値を導入し、Shapley公理を直接拡張する。 これは古典的なシェープリー値の直観を保存する: ジョイントシェープリー値はモデルの予測に対する特徴のセットの平均効果を測定する。 任意の説明の順序で、共同シェープ値の特異性を証明する。 ゲームの結果、ジョイントシェープの値は既存の相互作用指標とは異なる洞察を示し、特徴セット内の特徴の効果を評価する。 ml帰属問題におけるジョイント・シャプリー値の導出により,モデル予測における特徴集合のジョイント効果の第一尺度が得られた。 バイナリ機能を持つデータセットでは、効率性を保持するグローバル値を計算するための存在調整法を提案する。

The Shapley value is one of the most widely used model-agnostic measures of feature importance in explainable AI: it has clear axiomatic foundations, is guaranteed to uniquely exist, and has a clear interpretation as a feature's average effect on a model's prediction. We introduce joint Shapley values, which directly extend the Shapley axioms. This preserves the classic Shapley value's intuitions: joint Shapley values measure a set of features' average effect on a model's prediction. We prove the uniqueness of joint Shapley values, for any order of explanation. Results for games show that joint Shapley values present different insights from existing interaction indices, which assess the effect of a feature within a set of features. Deriving joint Shapley values in ML attribution problems thus gives us the first measure of the joint effect of sets of features on model predictions. In a dataset with binary features, we present a presence-adjusted method for calculating global values that retains the efficiency property.
翻訳日:2021-07-26 14:36:53 公開日:2021-07-23
# 不確定な動的環境に対する3次元レーダー速度マップ

3D Radar Velocity Maps for Uncertain Dynamic Environments ( http://arxiv.org/abs/2107.11039v1 )

ライセンス: Link先を確認
Ransalu Senanayake, Kyle Beltran Hatch, Jason Zheng and Mykel J. Kochenderfer(参考訳) 将来の都市交通の概念には、密集した環境で様々な自律性を持つ地上車両と航空車両の混合が含まれる。 このような動的な環境では、占有マップだけでは安全な経路計画には不十分である。 安全で効率的な輸送には、交通の3次元流れを推論し、不確実性を適切にモデル化する必要がある。 3次元速度マップの開発にはいくつかの異なるアプローチが考えられる。 本稿では,訓練データから不確かさを捉えたベイズ的アプローチについて検討する。 このアプローチでは、空間座標を高次元特徴空間に投影し、ベイズ線形回帰を適用して予測を行い、推定の不確かさを定量化する。 航空や地上のデータセットの収集において、このアプローチはいくつかの代替手法よりも効果的でスケーラブルであることを示す。

Future urban transportation concepts include a mixture of ground and air vehicles with varying degrees of autonomy in a congested environment. In such dynamic environments, occupancy maps alone are not sufficient for safe path planning. Safe and efficient transportation requires reasoning about the 3D flow of traffic and properly modeling uncertainty. Several different approaches can be taken for developing 3D velocity maps. This paper explores a Bayesian approach that captures our uncertainty in the map given training data. The approach involves projecting spatial coordinates into a high-dimensional feature space and then applying Bayesian linear regression to make predictions and quantify uncertainty in our estimates. On a collection of air and ground datasets, we demonstrate that this approach is effective and more scalable than several alternative approaches.
翻訳日:2021-07-26 14:17:07 公開日:2021-07-23
# 手術報告作成のための平滑化と校正によるクラスインクリメンタルドメイン適応

Class-Incremental Domain Adaptation with Smoothing and Calibration for Surgical Report Generation ( http://arxiv.org/abs/2107.11091v1 )

ライセンス: Link先を確認
Mengya Xu, Mobarakol Islam, Chwee Ming Lim, Hongliang Ren(参考訳) ロボット支援手術における外科的シーン理解を目的とした手術報告の生成は,作業の文書化や術後分析に寄与する。 印象的な結果にも関わらず、ディープラーニングモデルは、ドメインシフトに遭遇するさまざまなドメインに適用される場合のパフォーマンスを低下させる。 さらに、ロボット手術に現れる外科組織には、新しい器具やバリエーションがある。 そこで本研究では,多層トランスフォーマーモデルを用いたクラスインクリメンタルドメイン適応(CIDA)を提案し,対象領域の新たなクラスとドメインシフトに対処し,手術時の手術報告を生成する。 インクリメンタルなクラスに適応し、ドメイン不変の特徴を抽出するために、教師付きコントラスト(SupCon)損失を持つクラス増分学習法を特徴抽出器に組み込む。 抽出された特徴からキャプションを生成するために、一次元ガウス平滑化(cbs)によるカリキュラムを多層トランスフォーマーに基づくキャプション予測モデルに統合する。 CBSはアンチエイリアスを使って機能を埋め込み、モデルがドメイン不変の機能を学ぶのに役立つ。 また,ラベルスムーシング(LS)を用いて予測確率の調整を行い,特徴抽出モデルとキャプションモデルの両方で特徴表現を改善する。 本手法は腎摘出術と経口腔的ロボット手術の2つの手術領域のデータセットを用いて経験的に評価する。 ドメイン不変機能学習とネットワークの高度化は,単発学習と少数発学習の手法で,ドメインシフトと未認識クラスの下でのソースとターゲットドメインの双方における手術レポート生成性能を向上させる。 コードはhttps://github.com/XuMengyaAmy/CIDACaptioning.comで公開されている。

Generating surgical reports aimed at surgical scene understanding in robot-assisted surgery can contribute to documenting entry tasks and post-operative analysis. Despite the impressive outcome, the deep learning model degrades the performance when applied to different domains encountering domain shifts. In addition, there are new instruments and variations in surgical tissues appeared in robotic surgery. In this work, we propose class-incremental domain adaptation (CIDA) with a multi-layer transformer-based model to tackle the new classes and domain shift in the target domain to generate surgical reports during robotic surgery. To adapt incremental classes and extract domain invariant features, a class-incremental (CI) learning method with supervised contrastive (SupCon) loss is incorporated with a feature extractor. To generate caption from the extracted feature, curriculum by one-dimensional gaussian smoothing (CBS) is integrated with a multi-layer transformer-based caption prediction model. CBS smoothes the features embedding using anti-aliasing and helps the model to learn domain invariant features. We also adopt label smoothing (LS) to calibrate prediction probability and obtain better feature representation with both feature extractor and captioning model. The proposed techniques are empirically evaluated by using the datasets of two surgical domains, such as nephrectomy operations and transoral robotic surgery. We observe that domain invariant feature learning and the well-calibrated network improves the surgical report generation performance in both source and target domain under domain shift and unseen classes in the manners of one-shot and few-shot learning. The code is publicly available at https://github.com/XuMengyaAmy/CIDACaptioning.
翻訳日:2021-07-26 14:16:56 公開日:2021-07-23
# 事前学習畳み込みニューラルネットワークを用いた移動ロボットのロバストシーン認識のための効率的な転送学習戦略の開発

Developing efficient transfer learning strategies for robust scene recognition in mobile robotics using pre-trained convolutional neural networks ( http://arxiv.org/abs/2107.11187v1 )

ライセンス: Link先を確認
Hermann Baumgartl and Ricardo Buettner(参考訳) 本稿では,ロバストな移動シーン認識のための4種類のロバスト転送学習とデータ拡張戦略を提案する。 広く利用可能なEvent8、Scene15、Stanford40、MIT67データセット上で、3つのモバイル対応(EfficientNetB0、MobileNetV2、MobileNetV3)と2つの大規模なベースライン(VGG16、ResNet50)の畳み込みニューラルネットワークアーキテクチャをトレーニングすることにより、移行学習戦略の一般化能力を示す。 さらに,KTH-Idol2データベースを用いて,視点および照明変化下での移動学習戦略の堅牢性を検証した。 また, 予測最適化手法が一般化性能および異なる移動学習戦略下での堅牢性に及ぼす影響を評価する。 実験結果から,移動シーン認識におけるファインチューニングと拡張データの組み合わせは,移動シーン認識における一般的な精度と堅牢性を向上させることが示された。 我々は,様々なベースライン畳み込みニューラルネットワークを用いて最先端の成果を達成し,移動ロボットの位置認識に挑戦する際の照明や視点変化に対する頑健さを示した。

We present four different robust transfer learning and data augmentation strategies for robust mobile scene recognition. By training three mobile-ready (EfficientNetB0, MobileNetV2, MobileNetV3) and two large-scale baseline (VGG16, ResNet50) convolutional neural network architectures on the widely available Event8, Scene15, Stanford40, and MIT67 datasets, we show the generalization ability of our transfer learning strategies. Furthermore, we tested the robustness of our transfer learning strategies under viewpoint and lighting changes using the KTH-Idol2 database. Also, the impact of inference optimization techniques on the general performance and the robustness under different transfer learning strategies is evaluated. Experimental results show that when employing transfer learning, Fine-Tuning in combination with extensive data augmentation improves the general accuracy and robustness in mobile scene recognition. We achieved state-of-the-art results using various baseline convolutional neural networks and showed the robustness against lighting and viewpoint changes in challenging mobile robot place recognition.
翻訳日:2021-07-26 14:16:27 公開日:2021-07-23
# 高度な運転支援システムのための夜間の車両検出

Provident Vehicle Detection at Night for Advanced Driver Assistance Systems ( http://arxiv.org/abs/2107.11302v1 )

ライセンス: Link先を確認
Lukas Ewecker and Ebubekir Asan and Lars Ohnemus and Sascha Saralajew(参考訳) 近年、コンピュータビジョンアルゴリズムはますます強力になり、自動運転などの技術が急速に進化するようになっている。 しかし、現在のアルゴリズムは、主に1つの制限を共有している。 これは人間の行動と比較して大きな欠点であり、実際の物体(例えば影)によって引き起こされる間接的な視覚的手がかりは、情報検索や発生した物体の予測に直感的に既に使われている。 現在の物体検出システムは、接近する車両の直接視認性に依存しているのに対して、人間はすでに、接近する車両によって引き起こされる光アーティファクトを処理して、将来の外観を想定している。 本稿では,先行研究に基づいて,夜間に対向車を検出するための課題を,その原因となる光アーティファクトに基づいて完全に解決するシステムを提案する。 そのため,画像空間における光人工物の検出,三次元空間における物体の局所化,時間とともに物体の検証など,全アルゴリズムアーキテクチャの概要を述べる。 適用性を示すため,システムを試験車両に展開し,有効に検出された車両の情報を用いて,グラアフリー高ビームシステムを積極的に制御する。 本実験では, 実運用型コンピュータビジョンシステムと比較して, 提供車検出システムが提供する時間的メリットを定量化する。 さらに、glare-free high beamユースケースは、検出結果のリアルタイムおよび実世界の可視化インターフェースを提供する。 この貢献により、提案する物体検出の非従来的センシングタスクに意識を置き、人間の行動とコンピュータビジョンアルゴリズムのパフォーマンスギャップをさらに埋めて、自律運転と自動運転を一歩前進させたいと思っています。

In recent years, computer vision algorithms have become more and more powerful, which enabled technologies such as autonomous driving to evolve with rapid pace. However, current algorithms mainly share one limitation: They rely on directly visible objects. This is a major drawback compared to human behavior, where indirect visual cues caused by the actual object (e.g., shadows) are already used intuitively to retrieve information or anticipate occurring objects. While driving at night, this performance deficit becomes even more obvious: Humans already process the light artifacts caused by oncoming vehicles to assume their future appearance, whereas current object detection systems rely on the oncoming vehicle's direct visibility. Based on previous work in this subject, we present with this paper a complete system capable of solving the task to providently detect oncoming vehicles at nighttime based on their caused light artifacts. For that, we outline the full algorithm architecture ranging from the detection of light artifacts in the image space, localizing the objects in the three-dimensional space, and verifying the objects over time. To demonstrate the applicability, we deploy the system in a test vehicle and use the information of providently detected vehicles to control the glare-free high beam system proactively. Using this experimental setting, we quantify the time benefit that the provident vehicle detection system provides compared to an in-production computer vision system. Additionally, the glare-free high beam use case provides a real-time and real-world visualization interface of the detection results. With this contribution, we want to put awareness on the unconventional sensing task of provident object detection and further close the performance gap between human behavior and computer vision algorithms in order to bring autonomous and automated driving a step forward.
翻訳日:2021-07-26 14:16:06 公開日:2021-07-23
# 一般化移動ピークベンチマークを用いた大規模動的最適化問題の生成

Generating Large-scale Dynamic Optimization Problem Instances Using the Generalized Moving Peaks Benchmark ( http://arxiv.org/abs/2107.11019v1 )

ライセンス: Link先を確認
Mohammad Nabi Omidvar, Danial Yazdani, Juergen Branke, Xiaodong Li, Shengxiang Yang, Xin Yao(参考訳) 本論文は、GMPB(Generalized moving peaks benchmark)と、連続した大規模動的最適化問題に対する問題インスタンスの生成方法について述べる。 15のベンチマーク問題、関連するソースコード、および大規模動的最適化における比較研究と競合のために設計されたパフォーマンス指標を提示する。 その主な目的は、競争を実行するための一貫性のある基盤を提供することであるが、その汎用性により、興味のある読者は、この文書をカスタマイズされた問題インスタンスを設計して、提示されたベンチマークスイートの範囲を超えて問題を調査するためのガイドとして使うことができる。 そこで本研究では,gmpbのモジュラー構造と,その構成成分を組み立てることで,ユニモーダルから高マルチモーダル,対称,高非対称,滑らか,高不規則,多変量相互作用や不定形化といった様々な制御可能な特性を持つ問題インスタンスを形成する方法について述べる。

This document describes the generalized moving peaks benchmark (GMPB) and how it can be used to generate problem instances for continuous large-scale dynamic optimization problems. It presents a set of 15 benchmark problems, the relevant source code, and a performance indicator, designed for comparative studies and competitions in large-scale dynamic optimization. Although its primary purpose is to provide a coherent basis for running competitions, its generality allows the interested reader to use this document as a guide to design customized problem instances to investigate issues beyond the scope of the presented benchmark suite. To this end, we explain the modular structure of the GMPB and how its constituents can be assembled to form problem instances with a variety of controllable characteristics ranging from unimodal to highly multimodal, symmetric to highly asymmetric, smooth to highly irregular, and various degrees of variable interaction and ill-conditioning.
翻訳日:2021-07-26 14:15:39 公開日:2021-07-23
# 多様体上の最適化:シンプレクティックアプローチ

Optimization on manifolds: A symplectic approach ( http://arxiv.org/abs/2107.11231v1 )

ライセンス: Link先を確認
Guilherme Fran\c{c}a, Alessandro Barp, Mark Girolami, Michael I. Jordan(参考訳) 動的システムからのツールの使用や微分方程式の数値解析による新しい最適化手法の理解と構築に大きな関心が寄せられている。 特に近年、ユークリッド空間上の加速最適化法を得るために力学と幾何積分のアイデアを適用する新しいパラダイムが出現している。 高速化メソッドが多くの機械学習アプリケーションを支えるワークホースであることを考えると、これは重要な結果となる。 本稿では, 任意の滑らかな多様体上での最適化問題を解くのに適した, 散逸的かつ制約的ハミルトニアン系の枠組みを提案する。 重要なことに、このことはシンプレクティック積分の確立された理論を利用して「レートマッチング」散逸積分子を導出することができる。 このことは多様体上の最適化の新しい視点をもたらし、収束保証はシンプレクティック幾何や後方誤差解析における古典的議論から導かれる。 さらに, 抽出可能な測地流や退化に依存するリー群と同次空間, 有名なRATTLE積分器の散逸一般化に基づく制約付き部分多様体の2つの散逸的一般化を構築した。

There has been great interest in using tools from dynamical systems and numerical analysis of differential equations to understand and construct new optimization methods. In particular, recently a new paradigm has emerged that applies ideas from mechanics and geometric integration to obtain accelerated optimization methods on Euclidean spaces. This has important consequences given that accelerated methods are the workhorses behind many machine learning applications. In this paper we build upon these advances and propose a framework for dissipative and constrained Hamiltonian systems that is suitable for solving optimization problems on arbitrary smooth manifolds. Importantly, this allows us to leverage the well-established theory of symplectic integration to derive "rate-matching" dissipative integrators. This brings a new perspective to optimization on manifolds whereby convergence guarantees follow by construction from classical arguments in symplectic geometry and backward error analysis. Moreover, we construct two dissipative generalizations of leapfrog that are straightforward to implement: one for Lie groups and homogeneous spaces, that relies on the tractable geodesic flow or a retraction thereof, and the other for constrained submanifolds that is based on a dissipative generalization of the famous RATTLE integrator.
翻訳日:2021-07-26 14:14:53 公開日:2021-07-23
# 臓器マッチングのための適応重み付きトップN勧告

Adaptively Weighted Top-N Recommendation for Organ Matching ( http://arxiv.org/abs/2107.10971v1 )

ライセンス: Link先を確認
Parshin Shojaee, Xiaoyu Chen and Ran Jin(参考訳) 臓器移植では,待ち行列の患者のニーズを満たすための臓器提供の不足が大きな課題となっている。 この不足のため、臓器マッチングの決定は、最も適切な患者に限られた臓器を割り当てる最も重要な決定である。 現在、オルガンマッチングの決定は、最初の原則によって構築されたスコアモデルによって計算されたスコアのマッチングによってのみ行われています。 しかし、これらのモデルは移植後マッチングのパフォーマンス(例えば、患者の移植後品質(QoL)や移植後の故障測定など)に矛盾する可能性がある。 本稿では,臓器マッチング決定をトップNレコメンデーション問題として定式化し,適応重み付きトップNレコメンデーション(AWTR)法を提案する。 AWTRは,臓器提供者や患者からの収集した共変量だけでなく,過去のデータセットにおける実際のマッチング性能の制限を利用して,現在のスコアリングモデルの性能を向上させる。 AWTRは、トップNマッチング患者の推奨とランキングの精度を強調することで、全体的なレコメンデーション精度を犠牲にする。 KAS[60]を用いて臓器-患者の推奨応答をシミュレートするシミュレーション実験で,本手法の有効性を検証した。 その結果,提案手法は,最先端の7つの提案手法よりも優れていることがわかった。

Reducing the shortage of organ donations to meet the demands of patients on the waiting list has being a major challenge in organ transplantation. Because of the shortage, organ matching decision is the most critical decision to assign the limited viable organs to the most suitable patients. Currently, organ matching decisions were only made by matching scores calculated via scoring models, which are built by the first principles. However, these models may disagree with the actual post-transplantation matching performance (e.g., patient's post-transplant quality of life (QoL) or graft failure measurements). In this paper, we formulate the organ matching decision-making as a top-N recommendation problem and propose an Adaptively Weighted Top-N Recommendation (AWTR) method. AWTR improves performance of the current scoring models by using limited actual matching performance in historical data set as well as the collected covariates from organ donors and patients. AWTR sacrifices the overall recommendation accuracy by emphasizing the recommendation and ranking accuracy for top-N matched patients. The proposed method is validated in a simulation study, where KAS [60] is used to simulate the organ-patient recommendation response. The results show that our proposed method outperforms seven state-of-the-art top-N recommendation benchmark methods.
翻訳日:2021-07-26 14:14:33 公開日:2021-07-23
# 深層学習による全太陽放射の再構成

Deep Learning Based Reconstruction of Total Solar Irradiance ( http://arxiv.org/abs/2107.11042v1 )

ライセンス: Link先を確認
Yasser Abduallah, Jason T. L. Wang, Yucong Shen, Khalid A. Alobaid, Serena Criscuoli, Haimin Wang(参考訳) 地球の主要なエネルギー源は、太陽が生成する放射エネルギーであり、全放射を測定する際に太陽放射(英語版)または全太陽放射(英語版) (TSI) と呼ばれる。 太陽の光のわずかな変化は、地球の気候や大気に大きな影響を与える可能性がある。 その結果、太陽放射能の研究と測定は、気候変動と太陽変動を理解する上で重要である。 太陽の照度を長く短期間に再現するためにいくつかの方法が開発されてきたが、物理学に基づくものであり、9000年以上経たないデータの可用性に依存している。 本稿では,TSInetと呼ばれる新しい手法を提案し,物理モデルのデータ利用範囲を超えて,短時間・長期間にわたって深層学習により全太陽放射を再構成する。 利用可能なデータについては、現状の物理に基づく復元モデルとよく一致している。 私たちの知る限りでは、9000年以上にわたって太陽の照度を再現するためにディープラーニングが使われたのは今回が初めてです。

The Earth's primary source of energy is the radiant energy generated by the Sun, which is referred to as solar irradiance, or total solar irradiance (TSI) when all of the radiation is measured. A minor change in the solar irradiance can have a significant impact on the Earth's climate and atmosphere. As a result, studying and measuring solar irradiance is crucial in understanding climate changes and solar variability. Several methods have been developed to reconstruct total solar irradiance for long and short periods of time; however, they are physics-based and rely on the availability of data, which does not go beyond 9,000 years. In this paper we propose a new method, called TSInet, to reconstruct total solar irradiance by deep learning for short and long periods of time that span beyond the physical models' data availability. On the data that are available, our method agrees well with the state-of-the-art physics-based reconstruction models. To our knowledge, this is the first time that deep learning has been used to reconstruct total solar irradiance for more than 9,000 years.
翻訳日:2021-07-26 14:14:14 公開日:2021-07-23
# 睡眠ステージスコアリングのための不均一信号に対する畳み込みニューラルネットワークのアンサンブル

Ensemble of Convolution Neural Networks on Heterogeneous Signals for Sleep Stage Scoring ( http://arxiv.org/abs/2107.11045v1 )

ライセンス: Link先を確認
Enrique Fernandez-Blanco, Carlos Fernandez-Lozano, Alejandro Pazos, Daniel Rivero(参考訳) ここ数年、睡眠ステージの自動スコアリングを行うという問題にいくつかのアプローチが取り組まれてきた。 ポリソノグラフィーは通常、12以上の異なる信号を収集するが、これらの記録に示される脳電図のみを用いて、この問題に対処してきた。 一方、他の録音信号は主に多くの作品で無視されている。 本稿では脳波以外の追加信号の利便性について検討し比較する。 具体的には、2つの脳波として同時に記録された筋電図を含む5,804人の患者でSHHS-1データセットを使用する。 結果を比較するために、最初に同じアーキテクチャを異なる入力信号とそれらのすべての組み合わせで評価した。 これらのテストでは、特に異なるソースの信号が複数の信号を使用することで、分類結果が改善されることを示す。 さらに、1つ以上の信号の組み合わせごとに得られる最良のモデルがアンサンブルモデルで使用され、その性能はこれらの多信号モデルを用いて分類を改善する利便性を示している。 最も優れたモデルである深部分離畳み込みニューラルネットワークのアンサンブルは、Cohen's Kappa の 0.80 と$F_{1}$ の 0.77 で 86.06 % の精度を達成した。 これまでのところ、これらは完全なデータセットの最高の結果であり、データセットで最も珍しいクラスの精度とリコールが大幅に改善されていることを示している。

Over the years, several approaches have tried to tackle the problem of performing an automatic scoring of the sleeping stages. Although any polysomnography usually collects over a dozen of different signals, this particular problem has been mainly tackled by using only the Electroencephalograms presented in those records. On the other hand, the other recorded signals have been mainly ignored by most works. This paper explores and compares the convenience of using additional signals apart from electroencephalograms. More specifically, this work uses the SHHS-1 dataset with 5,804 patients containing an electromyogram recorded simultaneously as two electroencephalograms. To compare the results, first, the same architecture has been evaluated with different input signals and all their possible combinations. These tests show how, using more than one signal especially if they are from different sources, improves the results of the classification. Additionally, the best models obtained for each combination of one or more signals have been used in ensemble models and, its performance has been compared showing the convenience of using these multi-signal models to improve the classification. The best overall model, an ensemble of Depth-wise Separational Convolutional Neural Networks, has achieved an accuracy of 86.06\% with a Cohen's Kappa of 0.80 and a $F_{1}$ of 0.77. Up to date, those are the best results on the complete dataset and it shows a significant improvement in the precision and recall for the most uncommon class in the dataset.
翻訳日:2021-07-26 14:13:59 公開日:2021-07-23
# 紹介:DeepHead, Wide-band Electromagnetic Imaging Paradigm

Introducing: DeepHead, Wide-band Electromagnetic Imaging Paradigm ( http://arxiv.org/abs/2107.11107v1 )

ライセンス: Link先を確認
A. Al-Saffar, L. Guo, A. Abbosh(参考訳) マイクロ波領域の電磁医用イメージングは、1)不安定性2)低決定性で悪名高い問題である。 この二段階問題の解決法は、二段階圧縮を用いて、安価な未ラベルデータ(a)を最大限に活用し、下決定性の緩和に必要な事前情報を提供し、b)入力に対する推論の感度を低下させる。 その結果,高分解能出力の安定解法が得られた。 deepheadはマイクロ波脳イメージングの文脈で提案されたパラダイムの完全なデータ駆動実装である。 幅広い周波数帯に広がる入力を用いて、所望の単一周波数での脳の誘電率分布を推定する。 モデルの性能はシミュレーションと人間のボランティア実験の両方で評価される。 シミュレーションケースにおける地中誘電率分布と、実世界の被験者の金型mri/ct画像モダリティとを重ね合わせて推定する。

Electromagnetic medical imaging in the microwave regime is a hard problem notorious for 1) instability 2) under-determinism. This two-pronged problem is tackled with a two-pronged solution that uses double compression to maximally utilizing the cheap unlabelled data to a) provide a priori information required to ease under-determinism and b) reduce sensitivity of inference to the input. The result is a stable solver with a high resolution output. DeepHead is a fully data-driven implementation of the paradigm proposed in the context of microwave brain imaging. It infers the dielectric distribution of the brain at a desired single frequency while making use of an input that spreads over a wide band of frequencies. The performance of the model is evaluated with both simulations and human volunteers experiments. The inference made is juxtaposed with ground-truth dielectric distribution in simulation case, and the golden MRI / CT imaging modalities of the volunteers in real-world case.
翻訳日:2021-07-26 14:13:36 公開日:2021-07-23
# Structack: グラフニューラルネットワーク上の構造に基づく逆攻撃

Structack: Structure-based Adversarial Attacks on Graph Neural Networks ( http://arxiv.org/abs/2107.11327v1 )

ライセンス: Link先を確認
Hussain Hussain, Tomislav Duricic, Elisabeth Lex, Denis Helic, Markus Strohmaier, Roman Kern(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)がグラフデータに対する敵攻撃に対して脆弱であることが示されている。 一般的な攻撃アプローチは一般的には情報である。 彼らはラベルや特徴ベクトルなどのノード属性に関する情報にアクセスできる。 本研究では,攻撃者がグラフ構造にのみアクセスできるが,ノード属性に関する情報が得られない非インフォームな攻撃について検討する。 ここで攻撃者は、GNNモデルがグラフデータで生み出す構造的知識と仮定を活用することを目指している。 特に、構造ノードの中央性と類似性はGNNによる学習に強い影響を与えることが文献で示されている。 そこで我々は,GNNに対する敵対的攻撃に対する中心性と類似性の影響について検討した。 我々は,この情報を利用して,類似度の低いノード間のリンクの注入に注目することで,gnnの性能を低下させることを実証する。 構造に基づく非情報攻撃は情報攻撃の性能に近づき、計算効率が良くなることを示す。 本稿では,GNNに対する新たな攻撃戦略について述べる。 Structackは、厳密な計算制約の下で動作しながら、非常に限られた情報でGNNのパフォーマンスをうまく操作できる。 私たちの研究は、グラフ上でより堅牢な機械学習アプローチの構築に寄与します。

Recent work has shown that graph neural networks (GNNs) are vulnerable to adversarial attacks on graph data. Common attack approaches are typically informed, i.e. they have access to information about node attributes such as labels and feature vectors. In this work, we study adversarial attacks that are uninformed, where an attacker only has access to the graph structure, but no information about node attributes. Here the attacker aims to exploit structural knowledge and assumptions, which GNN models make about graph data. In particular, literature has shown that structural node centrality and similarity have a strong influence on learning with GNNs. Therefore, we study the impact of centrality and similarity on adversarial attacks on GNNs. We demonstrate that attackers can exploit this information to decrease the performance of GNNs by focusing on injecting links between nodes of low similarity and, surprisingly, low centrality. We show that structure-based uninformed attacks can approach the performance of informed attacks, while being computationally more efficient. With our paper, we present a new attack strategy on GNNs that we refer to as Structack. Structack can successfully manipulate the performance of GNNs with very limited information while operating under tight computational constraints. Our work contributes towards building more robust machine learning approaches on graphs.
翻訳日:2021-07-26 14:13:21 公開日:2021-07-23
# マルコフ決定過程に対する適応的状態集約アルゴリズム

An Adaptive State Aggregation Algorithm for Markov Decision Processes ( http://arxiv.org/abs/2107.11053v1 )

ライセンス: Link先を確認
Guanting Chen, Johann Demetrio Gaebler, Matt Peng, Chunlin Sun, Yinyu Ye(参考訳) 値反復はマルコフ決定過程(MDP)を解く方法としてよく知られている。 しかし、状態空間のサイズが大きくなるにつれて、価値反復の計算コストは急速に高くなる。 大規模状態と動作空間のmdpにおける価値反復に関するこの問題を克服するために、様々な方法が提案されているが、多くの場合、一般化可能性とアルゴリズムの単純さである。 本稿では,同様のコスト対ゴー値の状態を動的にグループ化することで,価値反復更新のコストを削減できるMDPの直感的解法を提案する。 また、このアルゴリズムは \(\ell^\infty\) ノルムにおける真の最適値の \(2\varepsilon / (1 - \gamma)\) 内でほぼ確実に収束することを証明し、ここで \(\gamma\) は割引係数であり、集約状態は少なくとも \(\varepsilon\) で異なることを証明する。 各種シミュレーション環境における数値実験により,提案アルゴリズムのロバスト性と,特にMDP問題の規模が大きくなるにつれて,より安価にMDPを解く能力が確認された。

Value iteration is a well-known method of solving Markov Decision Processes (MDPs) that is simple to implement and boasts strong theoretical convergence guarantees. However, the computational cost of value iteration quickly becomes infeasible as the size of the state space increases. Various methods have been proposed to overcome this issue for value iteration in large state and action space MDPs, often at the price, however, of generalizability and algorithmic simplicity. In this paper, we propose an intuitive algorithm for solving MDPs that reduces the cost of value iteration updates by dynamically grouping together states with similar cost-to-go values. We also prove that our algorithm converges almost surely to within \(2\varepsilon / (1 - \gamma)\) of the true optimal value in the \(\ell^\infty\) norm, where \(\gamma\) is the discount factor and aggregated states differ by at most \(\varepsilon\). Numerical experiments on a variety of simulated environments confirm the robustness of our algorithm and its ability to solve MDPs with much cheaper updates especially as the scale of the MDP problem increases.
翻訳日:2021-07-26 14:12:30 公開日:2021-07-23
# 非可変エキシトン・ポーラリトンノードを用いたニューラルネットワークの学習

Teaching a neural network with non-tunable exciton-polariton nodes ( http://arxiv.org/abs/2107.11156v1 )

ライセンス: Link先を確認
Andrzej Opala, Riccardo Panico, Vincenzo Ardizzone, Barbara Pietka, Jacek Szczytko, Daniele Sanvitto, Micha{\l} Matuszewski, Dario Ballarini(参考訳) ニューラルネットワークのソフトウェアシミュレーションとは対照的に、ハードウェアやニューロモルフィックの実装は、しばしば限定的あるいは変更性がない。 このようなネットワークは、スピードとエネルギー効率において大きな改善を約束するが、その性能は効率的な教育を適用することの難しさによって制限される。 本研究では,非線形ノード応答の精密測定とバックプロパゲーションアルゴリズムの応用により,可変でない励起子・ポーラリトンノードのシステムと効率的な指導手法を提案する。 バックプロパゲーションを使用しない場合と比較して,MNIST手書きディジットベンチマークの分類精度が大幅に向上することを示した。

In contrast to software simulations of neural networks, hardware or neuromorphic implementations have often limited or no tunability. While such networks promise great improvements in terms of speed and energy efficiency, their performance is limited by the difficulty to apply efficient teaching. We propose a system of non-tunable exciton-polariton nodes and an efficient teaching method that relies on the precise measurement of the nonlinear node response and the subsequent use of the backpropagation algorithm. We demonstrate experimentally that the classification accuracy in the MNIST handwritten digit benchmark is greatly improved compared to the case where backpropagation is not used.
翻訳日:2021-07-26 14:12:07 公開日:2021-07-23
# 線形収束を伴う分散アルゴリズムの有限ビット量子化

Finite-Bit Quantization For Distributed Algorithms With Linear Convergence ( http://arxiv.org/abs/2107.11304v1 )

ライセンス: Link先を確認
Chang-Shen Lee, Nicol\`o Michelusi, Gesualdo Scutari(参考訳) 本稿では,メッシュネットワーク上の(強い凸)複合最適化問題に対する分散アルゴリズムを量子化通信の対象として検討する。 特定のアルゴリズム設計に注目するのではなく,線形速度で収束する不動点イテレートの形で分散アルゴリズムをキャスティングするブラックボックスモデルを提案する。 アルゴリズムモデルは、線形収束を保存する量化器設計に関する新しい(ランダムな)バイアス圧縮(BC-)ルールと結合される。 通信効率のよい符号化方式と結合した新しい量子化器も提案され、有限ビットを用いてBCルールを効率的に実装する。 これは、実装が無限のビット数を要求する既存の量子化規則のほとんどとは対照的である。 ブラックボックスモデルに対して、最適化問題の解に到達するために必要な平均ビット数を決定する統一的な通信複雑性解析法を開発した。 その結果,提案する量子化器を用いた分散アルゴリズムは,既存の量子化ルールを用いたアルゴリズムよりも通信複雑性が高いことがわかった。

This paper studies distributed algorithms for (strongly convex) composite optimization problems over mesh networks, subject to quantized communications. Instead of focusing on a specific algorithmic design, we propose a black-box model casting distributed algorithms in the form of fixed-point iterates, converging at linear rate. The algorithmic model is coupled with a novel (random) Biased Compression (BC-)rule on the quantizer design, which preserves linear convergence. A new quantizer coupled with a communication-efficient encoding scheme is also proposed, which efficiently implements the BC-rule using a finite number of bits. This contrasts with most of existing quantization rules, whose implementation calls for an infinite number of bits. A unified communication complexity analysis is developed for the black-box model, determining the average number of bit required to reach a solution of the optimization problem within the required accuracy. Numerical results validate our theoretical findings and show that distributed algorithms equipped with the proposed quantizer have more favorable communication complexity than algorithms using existing quantization rules.
翻訳日:2021-07-26 14:11:57 公開日:2021-07-23
# 最適リスクポートフォリオと固有ポートフォリオ--インド株式市場から選択した株式を用いた比較分析

Optimum Risk Portfolio and Eigen Portfolio: A Comparative Analysis Using Selected Stocks from the Indian Stock Market ( http://arxiv.org/abs/2107.11371v1 )

ライセンス: Link先を確認
Jaydip Sen and Sidra Mehtab(参考訳) リターンとリスクの間の最良のトレードオフを達成する方法で構成株に重みを割り当てる最適なポートフォリオを設計することは、困難な研究課題である。 markowitzが提案したポートフォリオの古典的な平均分散理論は、期待リターンの推定誤差がポートフォリオのパフォーマンスに悪影響を及ぼすため、実世界の株式市場データに対して副最適であることがわかった。 本稿では,インド株式市場の7つの重要な部門を対象としたポートフォリオデザイン,viz,minimum risk portfolio,the optimal risk portfolio,eigen portfolioの3つのアプローチについて述べる。 株価は2016年1月1日から2020年12月31日まで、yahoo financeのウェブサイトから毎日値上げされている。 本研究で選択した7つのセクターそれぞれに3つのポートフォリオを構築し,そのポートフォリオを,年次リターンとリスク,構成銘柄に割り当てられた重み,相関ヒートマップ,Eigenポートフォリオの主成分などの指標に基づいて,トレーニングデータに基づいて分析する。 最後に、すべてのセクターの最適リスクポートフォリオとEigenポートフォリオが6ヶ月の期間のリターンでテストされる。 ポートフォリオのパフォーマンスを比較し、各セクタに対して高いリターンを与えるポートフォリオを特定する。

Designing an optimum portfolio that allocates weights to its constituent stocks in a way that achieves the best trade-off between the return and the risk is a challenging research problem. The classical mean-variance theory of portfolio proposed by Markowitz is found to perform sub-optimally on the real-world stock market data since the error in estimation for the expected returns adversely affects the performance of the portfolio. This paper presents three approaches to portfolio design, viz, the minimum risk portfolio, the optimum risk portfolio, and the Eigen portfolio, for seven important sectors of the Indian stock market. The daily historical prices of the stocks are scraped from Yahoo Finance website from January 1, 2016, to December 31, 2020. Three portfolios are built for each of the seven sectors chosen for this study, and the portfolios are analyzed on the training data based on several metrics such as annualized return and risk, weights assigned to the constituent stocks, the correlation heatmaps, and the principal components of the Eigen portfolios. Finally, the optimum risk portfolios and the Eigen portfolios for all sectors are tested on their return over a period of a six-month period. The performances of the portfolios are compared and the portfolio yielding the higher return for each sector is identified.
翻訳日:2021-07-26 14:11:43 公開日:2021-07-23
# ロバストな視覚言語ナビゲーションのためのadversarial reinforced instruction attack

Adversarial Reinforced Instruction Attacker for Robust Vision-Language Navigation ( http://arxiv.org/abs/2107.11252v1 )

ライセンス: Link先を確認
Bingqian Lin, Yi Zhu, Yanxin Long, Xiaodan Liang, Qixiang Ye, Liang Lin(参考訳) 自然言語グラウンドドナビゲーションタスクでは,言語命令が重要な役割を担っている。 しかし、人間の指示で訓練されたナビゲーターは、異なるタイミングで複雑な命令から重要な情報を正確に取得することが困難になり、ナビゲーション性能が低下する可能性がある。 本稿では,敵の攻撃パラダイムを用いて,長い命令から重要な要素を動的に抽出することのできる,より頑健なナビゲータの訓練を行う。 具体的には,動的強化型インストラクションアタック(DR-Attacker)を提案し,異なるタイミングで命令の最も命令的な情報を破壊することにより,ナビゲータが間違ったターゲットに移動することを誤解させる。 マルコフ決定過程として摂動生成を定式化することにより、DR-Attackerは強化学習アルゴリズムにより最適化され、学習可能な攻撃スコアに従ってナビゲーション中に摂動命令を逐次生成する。 そして、ハードサンプルとして機能する摂動指示を用いて、効果的な対向訓練戦略と補助的な自己監督推論タスクにより、ナビゲータの堅牢性を向上させる。 視覚言語ナビゲーション (vln) と対話履歴 (ndh) タスクからのナビゲーションは, 提案手法が最先端手法よりも優れていることを示す。 さらに,DR-Attackerの有効性を可視化分析により明らかにした。 コードはhttps://github.com/expectorlin/DR-Attacker.comで入手できる。

Language instruction plays an essential role in the natural language grounded navigation tasks. However, navigators trained with limited human-annotated instructions may have difficulties in accurately capturing key information from the complicated instruction at different timesteps, leading to poor navigation performance. In this paper, we exploit to train a more robust navigator which is capable of dynamically extracting crucial factors from the long instruction, by using an adversarial attacking paradigm. Specifically, we propose a Dynamic Reinforced Instruction Attacker (DR-Attacker), which learns to mislead the navigator to move to the wrong target by destroying the most instructive information in instructions at different timesteps. By formulating the perturbation generation as a Markov Decision Process, DR-Attacker is optimized by the reinforcement learning algorithm to generate perturbed instructions sequentially during the navigation, according to a learnable attack score. Then, the perturbed instructions, which serve as hard samples, are used for improving the robustness of the navigator with an effective adversarial training strategy and an auxiliary self-supervised reasoning task. Experimental results on both Vision-and-Language Navigation (VLN) and Navigation from Dialog History (NDH) tasks show the superiority of our proposed method over state-of-the-art methods. Moreover, the visualization analysis shows the effectiveness of the proposed DR-Attacker, which can successfully attack crucial information in the instructions at different timesteps. Code is available at https://github.com/expectorlin/DR-Attacker.
翻訳日:2021-07-26 14:05:03 公開日:2021-07-23
# コンステレーション:構成想像のためのオブジェクト上の関係抽象化の学習

Constellation: Learning relational abstractions over objects for compositional imagination ( http://arxiv.org/abs/2107.11153v1 )

ライセンス: Link先を確認
James C.R. Whittington, Rishabh Kabra, Loic Matthey, Christopher P. Burgess, Alexander Lerchner(参考訳) 視覚シーンの構造化表現を学ぶことは、現在推論によって知覚を橋渡しするための大きなボトルネックである。 シーンをオブジェクトのセットに分割することを学ぶスロットベースのモデルには、エキサイティングな進歩があったが、オブジェクトのグループ全体の構成特性の学習はまだ未検討のままである。 この問題に対処するために,静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを導入し,これらの抽象化を知覚的特異性よりも一般化し,抽象的リレーショナル推論の潜在的基盤を提供する。 さらに,この基礎が言語関連と相まって,感覚コンテンツを新たな方法で想像する手段であることを示す。 この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。

Learning structured representations of visual scenes is currently a major bottleneck to bridging perception with reasoning. While there has been exciting progress with slot-based models, which learn to segment scenes into sets of objects, learning configurational properties of entire groups of objects is still under-explored. To address this problem, we introduce Constellation, a network that learns relational abstractions of static visual scenes, and generalises these abstractions over sensory particularities, thus offering a potential basis for abstract relational reasoning. We further show that this basis, along with language association, provides a means to imagine sensory content in new ways. This work is a first step in the explicit representation of visual relationships and using them for complex cognitive procedures.
翻訳日:2021-07-26 14:04:38 公開日:2021-07-23
# モバイルニューラルネットワークにおけるバイアス損失

Bias Loss for Mobile Neural Networks ( http://arxiv.org/abs/2107.11170v1 )

ライセンス: Link先を確認
Lusine Abrahamyan, Valentin Ziatchin, Yiming Chen and Nikos Deligiannis(参考訳) コンパクト畳み込みニューラルネットワーク(CNN)は、近年、異常なパフォーマンス改善を目撃している。 しかし、多くのパラメータを持つcnnと同じ予測能力を提供していない。 層によって捕獲される多様で豊富な特徴は、これらの成功したcnnの重要な特徴である。 しかし、この特徴の大きいcnnとコンパクトなcnnとの差は、ほとんど調査されていない。 コンパクトCNNでは、パラメータ数が限られているため、豊富な特徴が得られず、特徴の多様性が重要な特徴となる。 モデル推論中にデータポイントから派生したアクティベーションマップに存在する様々な特徴は、異なるクラスのオブジェクトを区別するのに必要なユニークな記述子の存在を示す可能性がある。 対照的に、特徴の多様性の低いデータポイントは、有効な予測を行うのに十分な量のユニークな記述子を提供しないかもしれない。 ランダムな予測は最適化プロセスに悪影響を与え、最終的なパフォーマンスを損なう。 本稿では,ランダム予測によって生じる問題に対して,標準クロスエントロピーを再構成し,特徴量に制限のあるデータポイントに対してバイアスを与える手法を提案する。 新たなバイアス損失は,貴重なデータポイントのセットのトレーニングに焦点をあてることにより,学習機能に乏しい多数のサンプルが最適化プロセスを誤解することを防止する。 さらに、多様性の重要性を示すために、最後のレイヤにおけるユニークな記述子数を増やすためにアーキテクチャが導入されたSkipNetモデルのファミリーを示す。 我々のSkipnet-MはMobileNetV3 Largeよりも1%高い分類精度が得られる。

Compact convolutional neural networks (CNNs) have witnessed exceptional improvements in performance in recent years. However, they still fail to provide the same predictive power as CNNs with a large number of parameters. The diverse and even abundant features captured by the layers is an important characteristic of these successful CNNs. However, differences in this characteristic between large CNNs and their compact counterparts have rarely been investigated. In compact CNNs, due to the limited number of parameters, abundant features are unlikely to be obtained, and feature diversity becomes an essential characteristic. Diverse features present in the activation maps derived from a data point during model inference may indicate the presence of a set of unique descriptors necessary to distinguish between objects of different classes. In contrast, data points with low feature diversity may not provide a sufficient amount of unique descriptors to make a valid prediction; we refer to them as random predictions. Random predictions can negatively impact the optimization process and harm the final performance. This paper proposes addressing the problem raised by random predictions by reshaping the standard cross-entropy to make it biased toward data points with a limited number of unique descriptive features. Our novel Bias Loss focuses the training on a set of valuable data points and prevents the vast number of samples with poor learning features from misleading the optimization process. Furthermore, to show the importance of diversity, we present a family of SkipNet models whose architectures are brought to boost the number of unique descriptors in the last layers. Our Skipnet-M can achieve 1% higher classification accuracy than MobileNetV3 Large.
翻訳日:2021-07-26 14:03:55 公開日:2021-07-23
# LocalGLMnet: 表データの解釈可能なディープラーニング

LocalGLMnet: interpretable deep learning for tabular data ( http://arxiv.org/abs/2107.11059v1 )

ライセンス: Link先を確認
Ronald Richman and Mario V. W\"uthrich(参考訳) 深層学習モデルは、非常に競争力のある回帰モデルにつながり、一般化線形モデルのような古典的な統計モデルよりも優れている。 深層学習モデルの欠点は、それらの解法が解釈や説明が困難であり、深層学習モデルは内部的に不透明な方法で特徴工学と変数選択を解くため、変数選択は容易ではないことである。 一般化線形モデルの魅力的な構造に触発されて,類似した特徴を一般化線形モデルと共有するが,表現学習の技法から得られる優れた予測能力を提供する新しいネットワークアーキテクチャを提案する。 この新たなアーキテクチャは,テーブルデータの可変選択と,校正されたディープラーニングモデルの解釈を可能にする。実際,本手法はシェープリー値と統合勾配の精神における付加分解を提供する。

Deep learning models have gained great popularity in statistical modeling because they lead to very competitive regression models, often outperforming classical statistical models such as generalized linear models. The disadvantage of deep learning models is that their solutions are difficult to interpret and explain, and variable selection is not easily possible because deep learning models solve feature engineering and variable selection internally in a nontransparent way. Inspired by the appealing structure of generalized linear models, we propose a new network architecture that shares similar features as generalized linear models, but provides superior predictive power benefiting from the art of representation learning. This new architecture allows for variable selection of tabular data and for interpretation of the calibrated deep learning model, in fact, our approach provides an additive decomposition in the spirit of Shapley values and integrated gradients.
翻訳日:2021-07-26 14:03:35 公開日:2021-07-23
# プルーニング三元量子化

Pruning Ternary Quantization ( http://arxiv.org/abs/2107.10998v1 )

ライセンス: Link先を確認
Dan Liu, Xi Chen, Jie Fu, Xue Liu(参考訳) 本稿では,単純かつ効率的で対称な三元量子化法であるpruning ternary quantization (ptq)を提案する。 この方法では、ニューラルネットワークの重みを[-1,0,1]の疎三項に著しく圧縮し、計算、記憶、メモリフットプリントを低減する。 PTQはプルーニングとL2プロジェクションを用いることで,正規重みを3次正規正規基底に変換することができることを示す。 さらに、量子化重みを確定・安定化する改良された直線スルー推定器を導入する。 本手法はresnet-18構造の圧縮率を最大46倍とし,65.36%の許容精度で達成できる。 さらに、PTQはResNet-18モデルを46MBから955KB(~48x)に、ResNet-50モデルを99MBから3.3MB(~30x)に、ImageNet上のトップ1の精度は69.7%から65.3%に、それぞれ76.15%から74.47%に下げることができる。 本手法はプルーニングと量子化を統一し,サイズ・精度のトレードオフを実現する。

We propose pruning ternary quantization (PTQ), a simple, yet effective, symmetric ternary quantization method. The method significantly compresses neural network weights to a sparse ternary of [-1,0,1] and thus reduces computational, storage, and memory footprints. We show that PTQ can convert regular weights to ternary orthonormal bases by simply using pruning and L2 projection. In addition, we introduce a refined straight-through estimator to finalize and stabilize the quantized weights. Our method can provide at most 46x compression ratio on the ResNet-18 structure, with an acceptable accuracy of 65.36%, outperforming leading methods. Furthermore, PTQ can compress a ResNet-18 model from 46 MB to 955KB (~48x) and a ResNet-50 model from 99 MB to 3.3MB (~30x), while the top-1 accuracy on ImageNet drops slightly from 69.7% to 65.3% and from 76.15% to 74.47%, respectively. Our method unifies pruning and quantization and thus provides a range of size-accuracy trade-off.
翻訳日:2021-07-26 14:03:22 公開日:2021-07-23
# 不規則サンプリング時間列のための非定常時間変分オートエンコーダ

Heteroscedastic Temporal Variational Autoencoder For Irregularly Sampled Time Series ( http://arxiv.org/abs/2107.11350v1 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則にサンプリングされた時系列は、標準的なディープラーニングモデルに重要な課題をもたらすいくつかの領域で一般的に発生する。 本稿では,不規則なサンプル時系列の確率的補間のための新しいディープラーニングフレームワークを提案し,これをヘテロセダスティック時変自動符号化(HeTVAE)と呼ぶ。 HeTVAEは、入力観察間隔に関する情報を符号化する新しい入力層と、入力間隔による不確実性を伝播する時間的VAEアーキテクチャと、出力補間における可変不確実性を可能にするヘテロセダスティック出力層とを含む。 提案したアーキテクチャは, ベースラインモデルや従来のモデルよりもスパースサンプリングや不規則サンプリングにより, 時間的変動の不確かさを反映しやすく, また最近, ホモスセダスティックな出力層を用いた潜時変動モデルも提案されている。

Irregularly sampled time series commonly occur in several domains where they present a significant challenge to standard deep learning models. In this paper, we propose a new deep learning framework for probabilistic interpolation of irregularly sampled time series that we call the Heteroscedastic Temporal Variational Autoencoder (HeTVAE). HeTVAE includes a novel input layer to encode information about input observation sparsity, a temporal VAE architecture to propagate uncertainty due to input sparsity, and a heteroscedastic output layer to enable variable uncertainty in output interpolations. Our results show that the proposed architecture is better able to reflect variable uncertainty through time due to sparse and irregular sampling than a range of baseline and traditional models, as well as recently proposed deep latent variable models that use homoscedastic output layers.
翻訳日:2021-07-26 14:03:00 公開日:2021-07-23
# 非可逆目的の暗黙的速度制約付き最適化

Implicit Rate-Constrained Optimization of Non-decomposable Objectives ( http://arxiv.org/abs/2107.10960v1 )

ライセンス: Link先を確認
Abhishek Kumar, Harikrishna Narasimhan, Andrew Cotter(参考訳) 機械学習における制約付き最適化問題は、あるしきい値を持つ非分解性評価指標を最適化すると共に、別の関心度を制約する。 そのような問題の例としては、固定された偽陽性率での偽陰性率の最適化、固定リコールでの精度の最適化、精度リコールまたはroc曲線下の領域の最適化などがある。 我々の重要なアイデアは、しきい値パラメータを暗黙関数定理を通じてモデルパラメータの関数として表現するレート制約付き最適化を定式化することである。 標準勾配法を用いて,結果の最適化問題を解く方法を示す。 これらの問題に対する既存の最先端技術に対する提案手法の有効性を示すベンチマークデータセットの実験を行った。

We consider a popular family of constrained optimization problems arising in machine learning that involve optimizing a non-decomposable evaluation metric with a certain thresholded form, while constraining another metric of interest. Examples of such problems include optimizing the false negative rate at a fixed false positive rate, optimizing precision at a fixed recall, optimizing the area under the precision-recall or ROC curves, etc. Our key idea is to formulate a rate-constrained optimization that expresses the threshold parameter as a function of the model parameters via the Implicit Function theorem. We show how the resulting optimization problem can be solved using standard gradient based methods. Experiments on benchmark datasets demonstrate the effectiveness of our proposed method over existing state-of-the art approaches for these problems.
翻訳日:2021-07-26 14:02:42 公開日:2021-07-23
# k$-ラプラシアンから構築された高階ホモロジー埋め込みの分解

The decomposition of the higher-order homology embedding constructed from the $k$-Laplacian ( http://arxiv.org/abs/2107.10970v1 )

ライセンス: Link先を確認
Yu-Chia Chen, Marina Meil\u{a}(参考訳) k 次ラプラシアン $\mathbf{\mathcal l}_k$ のヌル空間は、多様体やネットワークの非自明な位相を符号化する。 ホモロジー埋め込みの構造を理解することは、データから幾何学的あるいは位相的情報を明らかにすることができる。 グラフ Laplacian $\mathbf{\mathcal L}_0$ の null 空間埋め込みの研究は、理論的な保証を持つスペクトルクラスタリングアルゴリズムや確率ブロックモデルの推定器など、新しい研究や応用を刺激している。 本研究では,k$-thホモロジー埋め込みの幾何学について検討し,スペクトルクラスタリングを想起する事例に注目した。 すなわち、多様体の {\em connected sum} をそれらのホモロジー埋め込みの直和に対する摂動として解析する。 多様体の最も単純な位相成分に対応する部分空間へのホモロジー埋め込みを分解するアルゴリズムを提案する。 提案手法はNP-hardとして一般に知られている最も短い相同ループ検出問題に適用される。 スペクトルループ検出アルゴリズムは既存の手法よりもスケールが良く,点雲や画像などの多様なデータに対して有効である。

The null space of the $k$-th order Laplacian $\mathbf{\mathcal L}_k$, known as the {\em $k$-th homology vector space}, encodes the non-trivial topology of a manifold or a network. Understanding the structure of the homology embedding can thus disclose geometric or topological information from the data. The study of the null space embedding of the graph Laplacian $\mathbf{\mathcal L}_0$ has spurred new research and applications, such as spectral clustering algorithms with theoretical guarantees and estimators of the Stochastic Block Model. In this work, we investigate the geometry of the $k$-th homology embedding and focus on cases reminiscent of spectral clustering. Namely, we analyze the {\em connected sum} of manifolds as a perturbation to the direct sum of their homology embeddings. We propose an algorithm to factorize the homology embedding into subspaces corresponding to a manifold's simplest topological components. The proposed framework is applied to the {\em shortest homologous loop detection} problem, a problem known to be NP-hard in general. Our spectral loop detection algorithm scales better than existing methods and is effective on diverse data such as point clouds and images.
翻訳日:2021-07-26 14:02:31 公開日:2021-07-23
# オフラインおよびオンラインモデル誤り訂正のためのデータ同化法と機械学習法の比較

A comparison of combined data assimilation and machine learning methods for offline and online model error correction ( http://arxiv.org/abs/2107.11114v1 )

ライセンス: Link先を確認
Alban Farchi, Marc Bocquet, Patrick Laloyaux, Massimo Bonavita, Quentin Malartic(参考訳) 近年の研究では、機械学習手法とデータ同化を組み合わせることで、そのシステムのスパースでノイズの多い観測のみを用いて動的システムを再構築できることが示されている。 同じアプローチで、知識ベースのモデルのエラーを修正することができる。 結果として得られるサロゲートモデルは、物理的部分を補う統計的な部分を持つハイブリッドである。 実際には、補正は統合項(すなわち)として追加することができる。 モデル分解剤において)または物理的モデルの傾向の内部で直接的に。 解決剤の修正は容易に実装できる。 傾向補正はより技術的であり、特に物理的モデルの随伴を必要とするが、より柔軟である。 2次元ロレンツモデルを用いて2つの手法を比較する。 長距離予測実験の精度は, リゾルベント補正と傾向補正を用いたサロゲートモデルと幾分似ている。 対照的に,傾向補正を用いたサロゲートモデルは,データ同化実験における解法補正を用いたサロゲートモデルを大きく上回っている。 最後に,傾向補正がオンラインモデル誤り訂正の可能性を開放することを示す。 新しい観測が利用可能になると モデルを徐々に改善します 結果として得られるアルゴリズムは、弱い 4d-var の新しい定式化と見なすことができる。 同じフレームワークを使ったオンラインとオフラインの学習を2スケールのlorenzシステムと比較し、オンライン学習では、スパースとノイズの少ない観察からすべての情報を抽出できることを示した。

Recent studies have shown that it is possible to combine machine learning methods with data assimilation to reconstruct a dynamical system using only sparse and noisy observations of that system. The same approach can be used to correct the error of a knowledge-based model. The resulting surrogate model is hybrid, with a statistical part supplementing a physical part. In practice, the correction can be added as an integrated term (i.e. in the model resolvent) or directly inside the tendencies of the physical model. The resolvent correction is easy to implement. The tendency correction is more technical, in particular it requires the adjoint of the physical model, but also more flexible. We use the two-scale Lorenz model to compare the two methods. The accuracy in long-range forecast experiments is somewhat similar between the surrogate models using the resolvent correction and the tendency correction. By contrast, the surrogate models using the tendency correction significantly outperform the surrogate models using the resolvent correction in data assimilation experiments. Finally, we show that the tendency correction opens the possibility to make online model error correction, i.e. improving the model progressively as new observations become available. The resulting algorithm can be seen as a new formulation of weak-constraint 4D-Var. We compare online and offline learning using the same framework with the two-scale Lorenz system, and show that with online learning, it is possible to extract all the information from sparse and noisy observations.
翻訳日:2021-07-26 14:02:11 公開日:2021-07-23
# 逆シフトによる未知領域におけるメタラーニングの一般化の改善

Improving the Generalization of Meta-learning on Unseen Domains via Adversarial Shift ( http://arxiv.org/abs/2107.11056v1 )

ライセンス: Link先を確認
Pinzhuo Tian, Yao Gao(参考訳) メタラーニングは、学習が効率的に学習し、多くのアプリケーションで大きな成功を収める、有望な方法を提供する。 しかし、ほとんどのメタラーニング文献は、同じドメインのタスクを扱うことに焦点を当てており、他の見えないドメインのタスクに一般化するのが脆弱である。 本研究では,他の未認識領域からタスクをシミュレートすることで,メタラーニング手法の一般化と堅牢性を改善することでこの問題に対処した。 具体的には、ドメインシフトをシミュレートし、擬似タスクを生成する方法を学ぶためのモデルに依存しないシフト層を提案し、それをトレーニングするための新しい逆学習学習機構を開発する。 擬似的なタスクに基づいて、メタ学習モデルはクロスドメインメタ知識を学習することができる。 領域一般化設定の下で広範な実験を行う。 実験の結果,提案するシフト層は様々なメタ学習フレームワークに適用できることがわかった。 さらに,本手法は,異なるドメイン間数ショット分類ベンチマークにおける最先端の性能も向上し,ドメイン間数ショット回帰に対して良好な結果が得られた。

Meta-learning provides a promising way for learning to efficiently learn and achieves great success in many applications. However, most meta-learning literature focuses on dealing with tasks from a same domain, making it brittle to generalize to tasks from the other unseen domains. In this work, we address this problem by simulating tasks from the other unseen domains to improve the generalization and robustness of meta-learning method. Specifically, we propose a model-agnostic shift layer to learn how to simulate the domain shift and generate pseudo tasks, and develop a new adversarial learning-to-learn mechanism to train it. Based on the pseudo tasks, the meta-learning model can learn cross-domain meta-knowledge, which can generalize well on unseen domains. We conduct extensive experiments under the domain generalization setting. Experimental results demonstrate that the proposed shift layer is applicable to various meta-learning frameworks. Moreover, our method also leads to state-of-the-art performance on different cross-domain few-shot classification benchmarks and produces good results on cross-domain few-shot regression.
翻訳日:2021-07-26 14:01:52 公開日:2021-07-23
# 残差ログ類似度推定によるポーズ回帰

Human Pose Regression with Residual Log-likelihood Estimation ( http://arxiv.org/abs/2107.11291v1 )

ライセンス: Link先を確認
Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, Cewu Lu(参考訳) ヒートマップに基づく手法は、確率的ヒートマップによる出力分布のモデル化により、人間のポーズ推定の分野を支配している。 対照的に回帰に基づく手法はより効率的であるが、性能が劣る。 本研究では,最大推定値(MLE)を探索し,効率的な回帰に基づく手法を提案する。 MLEの観点からは、異なる回帰損失を採用することは出力密度関数について異なる仮定をしている。 真の分布に近い密度関数は、より良い回帰性能をもたらす。 そこで本稿では,その基礎となる出力分布を捉えるために,残差ログ類似度推定(rle)を用いた新しい回帰パラダイムを提案する。 具体的には、RLEはトレーニングプロセスを容易にするために、未参照の基盤となる分布ではなく、分布の変化を学習する。 提案する再パラメータ化設計では,本手法は既製の流れモデルと互換性がある。 提案手法は効率的,効率的,柔軟である。 包括的実験による様々な人間のポーズ推定タスクにおけるその可能性を示す。 従来の回帰パラダイムと比較して、RLEによる回帰はテスト時間オーバーヘッドを伴わずに、MSCOCOに12.4mAPの改善をもたらす。 また, マルチパーソンポーズ推定において, 初めて, 回帰法がヒートマップ法よりも優れていることがわかった。 私たちのコードはhttps://github.com/Jeff-sjtu/res-loglikelihood-regressionで利用可能です。

Heatmap-based methods dominate in the field of human pose estimation by modelling the output distribution through likelihood heatmaps. In contrast, regression-based methods are more efficient but suffer from inferior performance. In this work, we explore maximum likelihood estimation (MLE) to develop an efficient and effective regression-based methods. From the perspective of MLE, adopting different regression losses is making different assumptions about the output density function. A density function closer to the true distribution leads to a better regression performance. In light of this, we propose a novel regression paradigm with Residual Log-likelihood Estimation (RLE) to capture the underlying output distribution. Concretely, RLE learns the change of the distribution instead of the unreferenced underlying distribution to facilitate the training process. With the proposed reparameterization design, our method is compatible with off-the-shelf flow models. The proposed method is effective, efficient and flexible. We show its potential in various human pose estimation tasks with comprehensive experiments. Compared to the conventional regression paradigm, regression with RLE bring 12.4 mAP improvement on MSCOCO without any test-time overhead. Moreover, for the first time, especially on multi-person pose estimation, our regression method is superior to the heatmap-based methods. Our code is available at https://github.com/Jeff-sjtu/res-loglikelihood-regression
翻訳日:2021-07-26 14:01:36 公開日:2021-07-23
# 深層学習と空中画像による森林炭素の過剰推定

Tackling the Overestimation of Forest Carbon with Deep Learning and Aerial Imagery ( http://arxiv.org/abs/2107.11320v1 )

ライセンス: Link先を確認
Gyri Reiersen, David Dao, Bj\"orn L\"utjens, Konstantin Klemmer, Xiaoxiang Zhu, and Ce Zhang(参考訳) 森林炭素のオフセットはますます人気があり、気候の緩和、森林保護、森林再生に重要な役割を果たす。 しかし、森林にどれだけの炭素が蓄えられているかを測定することは、いまだに高価で時間のかかる測定、時には不正確な測定によって行われている。 これらの制限を克服するために、多くの検証機関は、衛星や空中画像から森林炭素を推定するために機械学習(ML)アルゴリズムを活用している。 航空画像は樹木種や家族分類を可能にし、衛星画像に基づく森林分類を改善している。 しかし、航空画像の収集は著しく高価であり、高解像度の森林炭素推定がどの程度改善するかは定かではない。 本論文は,熱帯再植林計画のための深層学習アルゴリズムによる空中画像,衛星画像,地中地中計測から森林炭素を推定する最初の体系的比較について述べる。 以上の結果から,衛星画像による森林炭素推定は,熱帯再植林計画において10回以上も過大評価可能であることが示された。 航空と衛星による森林炭素測定の大きな違いは、航空画像に基づくmlアルゴリズムの可能性を示し、この研究を炭素測定のオプション間のグローバルなベンチマークに拡張することの重要性を高める。

Forest carbon offsets are increasingly popular and can play a significant role in financing climate mitigation, forest conservation, and reforestation. Measuring how much carbon is stored in forests is, however, still largely done via expensive, time-consuming, and sometimes unaccountable field measurements. To overcome these limitations, many verification bodies are leveraging machine learning (ML) algorithms to estimate forest carbon from satellite or aerial imagery. Aerial imagery allows for tree species or family classification, which improves the satellite imagery-based forest type classification. However, aerial imagery is significantly more expensive to collect and it is unclear by how much the higher resolution improves the forest carbon estimation. This proposal paper describes the first systematic comparison of forest carbon estimation from aerial imagery, satellite imagery, and ground-truth field measurements via deep learning-based algorithms for a tropical reforestation project. Our initial results show that forest carbon estimates from satellite imagery can overestimate above-ground biomass by more than 10-times for tropical reforestation projects. The significant difference between aerial and satellite-derived forest carbon measurements shows the potential for aerial imagery-based ML algorithms and raises the importance to extend this study to a global benchmark between options for carbon measurements.
翻訳日:2021-07-26 14:01:19 公開日:2021-07-23
# 浅層学習を用いた資源効率の良い山岳スカイライン抽出

Resource Efficient Mountainous Skyline Extraction using Shallow Learning ( http://arxiv.org/abs/2107.10997v1 )

ライセンス: Link先を確認
Touqeer Ahmad, Ebrahim Emami, Martin \v{C}ad\'ik, George Bebis(参考訳) スカイラインは、惑星ローバー/UAVと仮想/拡張現実の応用において、山岳の視覚的位置決めと位置決め/ナビゲーションにおいて重要な役割を担っている。 本研究では,山間部と山間部の境界線を区別するために,浅層学習手法を適用してフィルタの集合を学習する,新しい山間部スカイライン検出手法を提案する。 明快な特徴記述子とその分類、あるいはスカイセグメンテーションのためのディープネットワークを微調整する一般的なシーン解析といった従来のアプローチとは異なり、このアプローチは局所構造解析に基づいて線形フィルタを学習する。 テスト時には、各候補のエッジピクセルに対して、ピクセルの構造テンソルに基づいて学習されたフィルタの集合から1つのフィルタを選択し、その周りのパッチに適用する。 次に、動的プログラミングを用いて、結果の多段グラフの最も短い経路問題を解き、空山境界を得る。 提案手法は従来の手法よりも高速で、同等のパフォーマンスを提供し、モバイルデバイス、惑星ローバー、UAVといったリソース制約のあるプラットフォームに適している。 提案手法を,4つの異なるデータセットを用いた事前のスカイライン検出手法と比較した。 我々のコードは \url{https://github.com/TouqeerAhmad/skyline_detection} で利用可能です。

Skyline plays a pivotal role in mountainous visual geo-localization and localization/navigation of planetary rovers/UAVs and virtual/augmented reality applications. We present a novel mountainous skyline detection approach where we adapt a shallow learning approach to learn a set of filters to discriminate between edges belonging to sky-mountain boundary and others coming from different regions. Unlike earlier approaches, which either rely on extraction of explicit feature descriptors and their classification, or fine-tuning general scene parsing deep networks for sky segmentation, our approach learns linear filters based on local structure analysis. At test time, for every candidate edge pixel, a single filter is chosen from the set of learned filters based on pixel's structure tensor, and then applied to the patch around it. We then employ dynamic programming to solve the shortest path problem for the resultant multistage graph to get the sky-mountain boundary. The proposed approach is computationally faster than earlier methods while providing comparable performance and is more suitable for resource constrained platforms e.g., mobile devices, planetary rovers and UAVs. We compare our proposed approach against earlier skyline detection methods using four different data sets. Our code is available at \url{https://github.com/TouqeerAhmad/skyline_detection}.
翻訳日:2021-07-26 14:00:59 公開日:2021-07-23
# OLR 2021チャレンジ:データセット、ルール、ベースライン

OLR 2021 Challenge: Datasets, Rules and Baselines ( http://arxiv.org/abs/2107.11113v1 )

ライセンス: Link先を確認
Binling Wang, Wenxuan Hu, Jing Li, Yiming Zhi, Zheng Li, Qingyang Hong, Lin Li, Dong Wang, Liming Song and Cheng Yang(参考訳) 本稿では,多言語シナリオにおける音声認識システムと音声認識システムの性能向上を目的とした,第6回オリエンタル言語認識(olr)2021チャレンジを提案する。 本稿では,データプロファイル,4つのタスク,2つのベースライン,評価原則について述べる。 言語識別(LID)タスクに加えて、OLR 2021 Challengeに初めて多言語自動音声認識(ASR)タスクが導入された。 この課題は,(1)制約付きLID,(2)制約なしLID,(3)制約付きマルチリンガルASR,(4)制約なしマルチリンガルASRの4つのタスクを含む,より実践的で困難な問題に焦点を当てている。 LIDタスクと多言語ASRタスクのベースラインがそれぞれ提供される。 LIDベースラインシステムは、Pytorchで構築された拡張TDNN x-vectorモデルである。 多言語asrベースラインシステムとしてトランスフォーマティブベースのエンドツーエンドモデルが提供される。 これらのレシピはオンラインで公開され、参加者は自身のLIDまたはASRシステムを構築することができる。 ベースラインの結果は、これらのタスクがかなり困難であり、より良いパフォーマンスを達成するための努力に値することを示している。

This paper introduces the sixth Oriental Language Recognition (OLR) 2021 Challenge, which intends to improve the performance of language recognition systems and speech recognition systems within multilingual scenarios. The data profile, four tasks, two baselines, and the evaluation principles are introduced in this paper. In addition to the Language Identification (LID) tasks, multilingual Automatic Speech Recognition (ASR) tasks are introduced to OLR 2021 Challenge for the first time. The challenge this year focuses on more practical and challenging problems, with four tasks: (1) constrained LID, (2) unconstrained LID, (3) constrained multilingual ASR, (4) unconstrained multilingual ASR. Baselines for LID tasks and multilingual ASR tasks are provided, respectively. The LID baseline system is an extended TDNN x-vector model constructed with Pytorch. A transformer-based end-to-end model is provided as the multilingual ASR baseline system. These recipes will be online published, and available for participants to construct their own LID or ASR systems. The baseline results demonstrate that those tasks are rather challenging and deserve more effort to achieve better performance.
翻訳日:2021-07-26 14:00:38 公開日:2021-07-23
# HURRA! 可読性ルータ異常検出

HURRA! Human readable router anomaly detection ( http://arxiv.org/abs/2107.11078v1 )

ライセンス: Link先を確認
Jose M. Navarro, Dario Rossi(参考訳) 本稿では,ネットワークトラブルシューティングにおける人的操作者の時間削減を目的としたシステムであるHURRAを提案する。 そのため、異常検出アルゴリズムの後に接続される2つのモジュールから構成される: (i) 異常検出アルゴリズムとの関係で現在の特徴をランク付けする第1の注意機構、(ii) 人間のインタラクションや決定を必要とせずに、以前の専門家の知識をシームレスに組み込むことができる第2のモジュール。 トラブルシューティングチケットを解決したオペレータによって手作業でアノテートされたグラウンド真理を収集した,多種多様な異常と非常に異質なkpiの集合を示す数十個のispから得られる実ルータデータセットの集まりにおいて,これらの単純なプロセスの有効性を示す。 実験評価の結果, 提案手法は, (i) 専門家との高いレベルの合意の実現に有効であること, (ii) 単純な統計手法でも, 専門家の知識から有用な情報を抽出し, さらなる性能向上を実現することが可能であること, (iii) 実運用の難しさが, 異常検出アルゴリズムの自動選択とハイパーパラメータのチューニングに関係していることが確認された。

This paper presents HURRA, a system that aims to reduce the time spent by human operators in the process of network troubleshooting. To do so, it comprises two modules that are plugged after any anomaly detection algorithm: (i) a first attention mechanism, that ranks the present features in terms of their relation with the anomaly and (ii) a second module able to incorporates previous expert knowledge seamlessly, without any need of human interaction nor decisions. We show the efficacy of these simple processes on a collection of real router datasets obtained from tens of ISPs which exhibit a rich variety of anomalies and very heterogeneous set of KPIs, on which we gather manually annotated ground truth by the operator solving the troubleshooting ticket. Our experimental evaluation shows that (i) the proposed system is effective in achieving high levels of agreement with the expert, that (ii) even a simple statistical approach is able to extracting useful information from expert knowledge gained in past cases to further improve performance and finally that (iii) the main difficulty in live deployment concerns the automated selection of the anomaly detection algorithm and the tuning of its hyper-parameters.
翻訳日:2021-07-26 14:00:06 公開日:2021-07-23
# AD-GAN: 遠位遠位訓練による終端無監督核偏位

AD-GAN: End-to-end Unsupervised Nuclei Segmentation with Aligned Disentangling Training ( http://arxiv.org/abs/2107.11022v1 )

ライセンス: Link先を確認
Kai Yao and Kaizhu Huang and Jie Sun and Curran Jude(参考訳) 本論文では教師なし細胞核セグメンテーションについて考察する。 最近提案された細胞核画像とランダムに合成されたマスク間の画像と画像の翻訳を爆発させるため、既存のアプローチ、例えばCycleGANは奨励的な結果を得た。 しかしながら、これらの手法は通常2段階のパイプラインを取り、細胞核画像のエンドツーエンドの学習に失敗する。 さらに本気で言えば、元の画像と対応するセグメンテーション出力との間のコンテンツ不整合という、損失のある変換問題につながる可能性がある。 これらの制約に対処するため、我々はAligned Disentangling Generative Adversarial Network (AD-GAN)と呼ばれる新しいエンドツーエンドの非教師付きフレームワークを提案する。 直感的には、AD-GANは、コンテンツ表現(下降空間構造)とスタイル表現(構造の描画)を分離するために、表現のゆがみを導入する。 この枠組みにより空間構造を明示的に保存することができ、マクロレベルの損失変換を著しく低減することができる。 また,マイクロレベルの損失変換を抑えるために,遅延空間におけるコンテンツとの絡み合いを調整できる新しいトレーニングアルゴリズムを提案する。 実世界の2Dおよび3Dデータセットの評価は、AD-GANが他の比較手法とプロのソフトウェアを定量的にも質的にも大幅に上回っていることを示している。 具体的には、提案されたAD-GANは、現在の最高の教師なし手法よりも平均17.8%(w.r.t.)大幅に改善される。 4つの細胞核データセット上のDICE。 教師なしの手法として、AD-GANは最高の教師なしモデルと競合し、エンド・ツー・エンドの教師なし核セグメンテーションに向けてさらに飛躍する。

We consider unsupervised cell nuclei segmentation in this paper. Exploiting the recently-proposed unpaired image-to-image translation between cell nuclei images and randomly synthetic masks, existing approaches, e.g., CycleGAN, have achieved encouraging results. However, these methods usually take a two-stage pipeline and fail to learn end-to-end in cell nuclei images. More seriously, they could lead to the lossy transformation problem, i.e., the content inconsistency between the original images and the corresponding segmentation output. To address these limitations, we propose a novel end-to-end unsupervised framework called Aligned Disentangling Generative Adversarial Network (AD-GAN). Distinctively, AD-GAN introduces representation disentanglement to separate content representation (the underling spatial structure) from style representation (the rendering of the structure). With this framework, spatial structure can be preserved explicitly, enabling a significant reduction of macro-level lossy transformation. We also propose a novel training algorithm able to align the disentangled content in the latent space to reduce micro-level lossy transformation. Evaluations on real-world 2D and 3D datasets show that AD-GAN substantially outperforms the other comparison methods and the professional software both quantitatively and qualitatively. Specifically, the proposed AD-GAN leads to significant improvement over the current best unsupervised methods by an average 17.8% relatively (w.r.t. the metric DICE) on four cell nuclei datasets. As an unsupervised method, AD-GAN even performs competitive with the best supervised models, taking a further leap towards end-to-end unsupervised nuclei segmentation.
翻訳日:2021-07-26 13:59:41 公開日:2021-07-23
# 量子畳み込みアンセッツェを用いたRGB画像分類

RGB Image Classification with Quantum Convolutional Ansaetze ( http://arxiv.org/abs/2107.11099v1 )

ライセンス: Link先を確認
Yu Jing, Yang Yang, Chonghang Wu, Wenbing Fu, Wei Hu, Xiaogang Li and Hua Xu(参考訳) 量子ハードウェア技術における量子ビット数の急激な増加とコヒーレンス時間により、いわゆるNISQ(Noisy Intermediate-Scale Quantum)デバイス上での浅いニューラルネットワークの実装が注目されている。 多くの量子(畳み込み)回路アンセッツェは、実験結果が期待できるグレースケール画像分類タスクに対して提案されている。 しかし、これらをrgb画像に適用する場合、視覚課題に有用なチャネル内情報を効果的に抽出することができない。 本稿では,RGB画像上の畳み込み操作をシミュレートする2種類の量子回路アンセッツェを提案する。 我々の知る限りでは、これはRGB画像を効果的に扱う量子畳み込み回路の最初の作品であり、純粋に古典的なCNNと比較して高いテスト精度である。 また、量子回路アンサッツの大きさとハイブリッド量子古典畳み込みニューラルネットワークの学習性との関係についても検討する。 CIFAR-10とMNISTデータセットに基づく実験により、量子回路アンサッツのより大きなサイズがマルチクラス分類タスクの予測性能を改善し、短期的な量子アルゴリズム開発に有用な洞察を与えることを示した。

With the rapid growth of qubit numbers and coherence times in quantum hardware technology, implementing shallow neural networks on the so-called Noisy Intermediate-Scale Quantum (NISQ) devices has attracted a lot of interest. Many quantum (convolutional) circuit ansaetze are proposed for grayscale images classification tasks with promising empirical results. However, when applying these ansaetze on RGB images, the intra-channel information that is useful for vision tasks is not extracted effectively. In this paper, we propose two types of quantum circuit ansaetze to simulate convolution operations on RGB images, which differ in the way how inter-channel and intra-channel information are extracted. To the best of our knowledge, this is the first work of a quantum convolutional circuit to deal with RGB images effectively, with a higher test accuracy compared to the purely classical CNNs. We also investigate the relationship between the size of quantum circuit ansatz and the learnability of the hybrid quantum-classical convolutional neural network. Through experiments based on CIFAR-10 and MNIST datasets, we demonstrate that a larger size of the quantum circuit ansatz improves predictive performance in multiclass classification tasks, providing useful insights for near term quantum algorithm developments.
翻訳日:2021-07-26 13:59:15 公開日:2021-07-23
# 局所アンサンブルカルマンフィルタを用いた状態,グローバルおよび局所パラメータ推定:カオス力学のオンライン機械学習への応用

State, global and local parameter estimation using local ensemble Kalman filters: applications to online machine learning of chaotic dynamics ( http://arxiv.org/abs/2107.11253v1 )

ライセンス: Link先を確認
Quentin Malartic, Alban Farchi, Marc Bocquet(参考訳) 近年の研究では、機械学習手法とデータ同化を組み合わせることで、そのシステムのスパースでノイズの多い観測のみを用いて動的システムを再構築できることが示されている。 同じアプローチで、知識ベースのモデルのエラーを修正することができる。 結果として得られるサロゲートモデルは、物理的部分を補う統計的な部分を持つハイブリッドである。 実際には、補正は統合項(\textit{i.e})として追加することができる。 モデル分解剤において)または物理的モデルの傾向の内部で直接的に。 解決剤の修正は容易に実装できる。 傾向補正はより技術的であり、特に物理的モデルの随伴を必要とするが、より柔軟である。 2次元ロレンツモデルを用いて2つの手法を比較する。 長距離予測実験の精度は, リゾルベント補正と傾向補正を用いたサロゲートモデルと幾分似ている。 対照的に,傾向補正を用いたサロゲートモデルは,データ同化実験における解法補正を用いたサロゲートモデルを大きく上回っている。 最後に,傾向補正がオンラインモデル誤り訂正の可能性を開くことを示す。 新しい観測が利用可能になると モデルを徐々に改善します 結果として得られるアルゴリズムは、弱い 4d-var の新しい定式化と見なすことができる。 同じフレームワークを使ったオンラインとオフラインの学習を2スケールのlorenzシステムと比較し、オンライン学習では、スパースとノイズの少ない観察からすべての情報を抽出できることを示した。

Recent studies have shown that it is possible to combine machine learning methods with data assimilation to reconstruct a dynamical system using only sparse and noisy observations of that system. The same approach can be used to correct the error of a knowledge-based model. The resulting surrogate model is hybrid, with a statistical part supplementing a physical part. In practice, the correction can be added as an integrated term (\textit{i.e.} in the model resolvent) or directly inside the tendencies of the physical model. The resolvent correction is easy to implement. The tendency correction is more technical, in particular it requires the adjoint of the physical model, but also more flexible. We use the two-scale Lorenz model to compare the two methods. The accuracy in long-range forecast experiments is somewhat similar between the surrogate models using the resolvent correction and the tendency correction. By contrast, the surrogate models using the tendency correction significantly outperform the surrogate models using the resolvent correction in data assimilation experiments. Finally, we show that the tendency correction opens the possibility to make online model error correction, \textit{i.e.} improving the model progressively as new observations become available. The resulting algorithm can be seen as a new formulation of weak-constraint 4D-Var. We compare online and offline learning using the same framework with the two-scale Lorenz system, and show that with online learning, it is possible to extract all the information from sparse and noisy observations.
翻訳日:2021-07-26 13:58:05 公開日:2021-07-23
# ニューラルチャット翻訳のためのバイリンガル会話特性のモデル化

Modeling Bilingual Conversational Characteristics for Neural Chat Translation ( http://arxiv.org/abs/2107.11164v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) ニューラルチャット翻訳は、国際交流や協力に広く応用されているバイリンガル会話テキストの翻訳を目的としている。 文レベルおよび文脈対応ニューラルマシン翻訳(NMT)の顕著な性能にもかかわらず、役割選好、対話コヒーレンス、翻訳一貫性といった固有の特徴から、バイリンガルな会話文の翻訳には依然として課題がある。 本稿では,上記の特性をモデル化し,会話テキストの翻訳品質を高めることを目的とする。 具体的には、3つの潜時変分モジュールを設計し、バイリンガルな会話特性の分布を学習する。 これらの学習分布から抽出することにより、役割選好に適した潜伏変数、対話コヒーレンス、翻訳一貫性をNMTモデルに組み込んで翻訳を改善する。 ベンチマークデータセットbcontrast(英語-ドイツ語)と自己収集したバイリンガル対話コーパスbmeld(英語-中国語)のアプローチを評価した。 広汎な実験により,我々の手法は強いベースラインよりも大きなマージンで性能を向上し,BLEU と TER の点で最先端の文脈認識型 NMT モデルを大幅に上回っていることがわかった。 さらに、bmeldデータセットを研究コミュニティ向けに公開しています。

Neural chat translation aims to translate bilingual conversational text, which has a broad application in international exchanges and cooperation. Despite the impressive performance of sentence-level and context-aware Neural Machine Translation (NMT), there still remain challenges to translate bilingual conversational text due to its inherent characteristics such as role preference, dialogue coherence, and translation consistency. In this paper, we aim to promote the translation quality of conversational text by modeling the above properties. Specifically, we design three latent variational modules to learn the distributions of bilingual conversational characteristics. Through sampling from these learned distributions, the latent variables, tailored for role preference, dialogue coherence, and translation consistency, are incorporated into the NMT model for better translation. We evaluate our approach on the benchmark dataset BConTrasT (English-German) and a self-collected bilingual dialogue corpus, named BMELD (English-Chinese). Extensive experiments show that our approach notably boosts the performance over strong baselines by a large margin and significantly surpasses some state-of-the-art context-aware NMT models in terms of BLEU and TER. Additionally, we make the BMELD dataset publicly available for the research community.
翻訳日:2021-07-26 13:57:23 公開日:2021-07-23
# 言語間伝達のための潜在翻訳のモデル化

Modelling Latent Translations for Cross-Lingual Transfer ( http://arxiv.org/abs/2107.11353v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Julia Kreutzer, Ivan Vuli\'c, and Siva Reddy(参考訳) 最先端の成果が複数のタスクや言語にもたらされる一方で、翻訳ベースの言語間転送はしばしば見過ごされ、多言語で事前学習されたエンコーダが好まれる。 主な制限は、1) 分類段階に該当する翻訳誤り、2) 最大形翻訳の表現力の不足である。 そこで本研究では,従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合し,中間翻訳を潜在確率変数として扱う手法を提案する。 その結果、1)ニューラルネットワーク翻訳システムは、ダウンストリームタスク分類器の精度が報酬となる最小リスクトレーニングの変種で微調整することができる。 さらに、複数のサンプルを描画して、推論中のすべての可能な翻訳における期待損失を近似することができる。 我々は,多言語NLUタスクに対する新しい潜時翻訳モデルの評価を行い,コモンセンス推論,パラフレーズ同定,自然言語推論を行った。 ゼロショット学習と少数ショット学習の両方において,平均で2.7点の精度向上が報告されており,低リソース言語(例えばハイチのクレオール)ではさらに顕著である。 最後に、異なるNMTモデルの比較と、下流の性能に対する代替翻訳の影響を詳細に分析する。

While achieving state-of-the-art results in multiple tasks and languages, translation-based cross-lingual transfer is often overlooked in favour of massively multilingual pre-trained encoders. Arguably, this is due to its main limitations: 1) translation errors percolating to the classification phase and 2) the insufficient expressiveness of the maximum-likelihood translation. To remedy this, we propose a new technique that integrates both steps of the traditional pipeline (translation and classification) into a single model, by treating the intermediate translations as a latent random variable. As a result, 1) the neural machine translation system can be fine-tuned with a variant of Minimum Risk Training where the reward is the accuracy of the downstream task classifier. Moreover, 2) multiple samples can be drawn to approximate the expected loss across all possible translations during inference. We evaluate our novel latent translation-based model on a series of multilingual NLU tasks, including commonsense reasoning, paraphrase identification, and natural language inference. We report gains for both zero-shot and few-shot learning setups, up to 2.7 accuracy points on average, which are even more prominent for low-resource languages (e.g., Haitian Creole). Finally, we carry out in-depth analyses comparing different underlying NMT models and assessing the impact of alternative translations on the downstream performance.
翻訳日:2021-07-26 13:57:00 公開日:2021-07-23
# スコアベースのポイントクラウドDenoising

Score-Based Point Cloud Denoising ( http://arxiv.org/abs/2107.10981v1 )

ライセンス: Link先を確認
Shitong Luo, Wei Hu(参考訳) 走査装置から取得した点雲はノイズによって引き起こされることが多く、表面再構成や解析などの下流タスクに影響する。 ノイズのある点雲の分布は、ノイズのないサンプルの集合の分布と見なすことができる。 $p(x)$ ある種のノイズモデル $n$ と畳み込み、そのモードが基礎となるクリーンサーフェスである $(p * n)(x)$ となる。 ノイズの多い点群を妄想するために、各点の位置を反復的に更新する$p * n$ via gradient ascent から各点の対数類似度を増やすことを提案する。 p * n$ はテスト時に未知であり、勾配上昇を行うにはスコア(すなわち、ログ確率関数の勾配)のみが必要であるので、入力としてノイズのある点雲のみを与えられた$p * n$ のスコアを推定するニューラルネットワークアーキテクチャを提案する。 ネットワークを訓練する目的関数を導出し,推定したスコアを活かした復調アルゴリズムを開発する。 実験により,提案モデルは様々なノイズモデルの下で最先端の手法よりも優れており,点群アップサンプリングなど他のタスクに適用できる可能性を示している。

Point clouds acquired from scanning devices are often perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. The distribution of a noisy point cloud can be viewed as the distribution of a set of noise-free samples $p(x)$ convolved with some noise model $n$, leading to $(p * n)(x)$ whose mode is the underlying clean surface. To denoise a noisy point cloud, we propose to increase the log-likelihood of each point from $p * n$ via gradient ascent -- iteratively updating each point's position. Since $p * n$ is unknown at test-time, and we only need the score (i.e., the gradient of the log-probability function) to perform gradient ascent, we propose a neural network architecture to estimate the score of $p * n$ given only noisy point clouds as input. We derive objective functions for training the network and develop a denoising algorithm leveraging on the estimated scores. Experiments demonstrate that the proposed model outperforms state-of-the-art methods under a variety of noise models, and shows the potential to be applied in other tasks such as point cloud upsampling.
翻訳日:2021-07-26 13:56:21 公開日:2021-07-23
# 対角的特徴整合性を有する人物の姿勢伝達

Human Pose Transfer with Disentangled Feature Consistency ( http://arxiv.org/abs/2107.10984v1 )

ライセンス: Link先を確認
Kun Wu, Chengxiang Yin, Zhengping Che, Bo Jiang, Jian Tang, Zheng Guan and Gangyi Ding(参考訳) 深層生成モデルは、任意の人間のポーズで画像を合成し、ある人のポーズを他の人に転送する上で大きな進歩を遂げている。 しかし、既存の手法のほとんどは、ソース画像から抽出されたポーズ情報を、生成ネットワークの条件入力として明示的に活用している。 一方、彼らは通常、合成画像の視覚的忠実さにフォーカスするが、固有の一貫性を無視し、ポーズ転送の性能をさらに制限する。 本稿では,現状の制約を緩和し,合成画像の品質を向上させるために,DFC-Net(Disentangled Feature Consistency)を用いたポーズ転送ネットワークを提案する。 ソースとターゲット人を含む一対のイメージが与えられた後、DFC-Netはソースからそれぞれポーズと静的情報を抽出し、ターゲット人の画像をソースから所望のポーズで合成する。 さらに、dfc-netは、対向訓練における不連続な特徴一貫性損失を利用して転送コヒーレンスを強化し、キーポイントアンプを統合してポーズ特徴抽出を強化する。 さらに,dfc-netの汎用性とロバスト性を向上させるために,追加的なポーズ情報を提供する非ペアサポートデータセットmixamo-supが,トレーニング中にさらに活用されている。 Mixamo-Pose と EDN-10k の大規模実験により,DFC-Net がポーズ転送における最先端性能を達成することを示した。

Deep generative models have made great progress in synthesizing images with arbitrary human poses and transferring poses of one person to others. However, most existing approaches explicitly leverage the pose information extracted from the source images as a conditional input for the generative networks. Meanwhile, they usually focus on the visual fidelity of the synthesized images but neglect the inherent consistency, which further confines their performance of pose transfer. To alleviate the current limitations and improve the quality of the synthesized images, we propose a pose transfer network with Disentangled Feature Consistency (DFC-Net) to facilitate human pose transfer. Given a pair of images containing the source and target person, DFC-Net extracts pose and static information from the source and target respectively, then synthesizes an image of the target person with the desired pose from the source. Moreover, DFC-Net leverages disentangled feature consistency losses in the adversarial training to strengthen the transfer coherence and integrates the keypoint amplifier to enhance the pose feature extraction. Additionally, an unpaired support dataset Mixamo-Sup providing more extra pose information has been further utilized during the training to improve the generality and robustness of DFC-Net. Extensive experimental results on Mixamo-Pose and EDN-10k have demonstrated DFC-Net achieves state-of-the-art performance on pose transfer.
翻訳日:2021-07-26 13:55:57 公開日:2021-07-23
# 光フロー用残留特徴ピラミッドモジュールの細部保存

Detail Preserving Residual Feature Pyramid Modules for Optical Flow ( http://arxiv.org/abs/2107.10990v1 )

ライセンス: Link先を確認
Libo Long, Jochen Lang(参考訳) 特徴ピラミッドと反復精製は近年,光学的流量推定に大きな進歩をもたらした。 しかし、特徴ピラミッドのダウンサンプリングは、前景のオブジェクトと背景とのブレンドを引き起こす可能性があるため、反復処理におけるその後の決定を誤解させることになる。 結果は特に薄さと小さな構造物の流れについて詳細を欠いている。 我々は,光学フロー推定の全体的な反復的洗練設計を変更することなく,特徴マップに重要な詳細を保持できる新しいResidual Feature Pyramid Module (RFPM)を提案する。 RFPMは、複数の特徴ピラミッド間の残留構造をダウンサンプリングモジュールに組み込んで、境界を越えてオブジェクトのブレンディングを修正する。 モジュールを2つの最先端のイテレーティブリファインメントアーキテクチャに統合する方法をデモします。 その結果, RFPM はSintel のクリーンパスにおける流れの誤差を視覚的に低減し, 最先端の性能向上を図っている。 rfpmの特定のモジュール構造に従って,複数のデータセット上の一般的なフルオプティカルフロートレーニングスケジュールと比較して,トレーニング時間を劇的に短縮できる特別なトランスファー学習手法を導入する。

Feature pyramids and iterative refinement have recently led to great progress in optical flow estimation. However, downsampling in feature pyramids can cause blending of foreground objects with the background, which will mislead subsequent decisions in the iterative processing. The results are missing details especially in the flow of thin and of small structures. We propose a novel Residual Feature Pyramid Module (RFPM) which retains important details in the feature map without changing the overall iterative refinement design of the optical flow estimation. RFPM incorporates a residual structure between multiple feature pyramids into a downsampling module that corrects the blending of objects across boundaries. We demonstrate how to integrate our module with two state-of-the-art iterative refinement architectures. Results show that our RFPM visibly reduces flow errors and improves state-of-art performance in the clean pass of Sintel, and is one of the top-performing methods in KITTI. According to the particular modular structure of RFPM, we introduce a special transfer learning approach that can dramatically decrease the training time compared to a typical full optical flow training schedule on multiple datasets.
翻訳日:2021-07-26 13:55:35 公開日:2021-07-23
# 時間整合規則化によるドメイン適応ビデオセグメンテーション

Domain Adaptive Video Segmentation via Temporal Consistency Regularization ( http://arxiv.org/abs/2107.11004v1 )

ライセンス: Link先を確認
Dayan Guan, Jiaxing Huang, Aoran Xiao, Shijian Lu(参考訳) ビデオセマンティックセグメンテーションは、ビデオの分析と理解に不可欠なタスクである。 最近の取り組みは、完全に注釈付きデータから学習することで、教師付きビデオセグメンテーションに重点を置いているが、学習モデルは、異なるドメインの動画に適用するときに、明らかなパフォーマンス低下を経験することが多い。 本稿では,対象領域ビデオの連続フレームに対する時間整合性規則化(tcr)によるビデオの領域ギャップに対処する,ドメイン適応型ビデオセグメンテーションネットワークであるda-vsnについて述べる。 DA-VSNは2つの新しい設計と補完的な設計で構成されている。 ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。 2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。 提案した領域適応型ビデオセグメンテーションネットワークは,広いマージンで複数のベースラインを一貫して上回る性能を示した。

Video semantic segmentation is an essential task for the analysis and understanding of videos. Recent efforts largely focus on supervised video segmentation by learning from fully annotated data, but the learnt models often experience clear performance drop while applied to videos of a different domain. This paper presents DA-VSN, a domain adaptive video segmentation network that addresses domain gaps in videos by temporal consistency regularization (TCR) for consecutive frames of target-domain videos. DA-VSN consists of two novel and complementary designs. The first is cross-domain TCR that guides the prediction of target frames to have similar temporal consistency as that of source frames (learnt from annotated source data) via adversarial learning. The second is intra-domain TCR that guides unconfident predictions of target frames to have similar temporal consistency as confident predictions of target frames. Extensive experiments demonstrate the superiority of our proposed domain adaptive video segmentation network which outperforms multiple baselines consistently by large margins.
翻訳日:2021-07-26 13:55:19 公開日:2021-07-23
# 物体形状表現のための奥行き符号付き方向距離関数

A Deep Signed Directional Distance Function for Object Shape Representation ( http://arxiv.org/abs/2107.11024v1 )

ライセンス: Link先を確認
Ehsan Zobeidi and Nikolay Atanasov(参考訳) 3d座標を符号付き距離関数(sdf)や占有値にマッピングするニューラルネットワークは、オブジェクト形状の忠実な暗黙表現を可能にした。 本稿では,連続符号方向距離関数(SDDF)を最適化することにより,新規距離ビューの合成を可能にする新しい形状モデルを提案する。 深部SDFモデルと同様に、SDDFの定式化は形状のカテゴリ全体を表現し、部分的な入力データから形状の完全あるいは補間を行う。 任意の方向に最も近い表面までの距離を測定するSDFとは異なり、SDDFは所定の方向に距離を測定する。 これにより、深度カメラやライダーセンサーから容易に利用できる距離測定のみを使用して、3D形状の監視なしにSDDFモデルをトレーニングすることができる。 また,任意の場所や方向の位置を直接予測することで,表面抽出やレンダリングといった処理後のステップも排除する。 高容量ブラックボックスモデルを訓練するニューラルラジアンスフィールドのような深い視線合成技術とは異なり、SDDF値が視方向に沿って直線的に減少する性質を構築により符号化する。 この構造制約は次元の減少をもたらすだけでなく、対象表面までの距離に関わらず、SDDF予測の精度に関する解析的信頼を与える。

Neural networks that map 3D coordinates to signed distance function (SDF) or occupancy values have enabled high-fidelity implicit representations of object shape. This paper develops a new shape model that allows synthesizing novel distance views by optimizing a continuous signed directional distance function (SDDF). Similar to deep SDF models, our SDDF formulation can represent whole categories of shapes and complete or interpolate across shapes from partial input data. Unlike an SDF, which measures distance to the nearest surface in any direction, an SDDF measures distance in a given direction. This allows training an SDDF model without 3D shape supervision, using only distance measurements, readily available from depth camera or Lidar sensors. Our model also removes post-processing steps like surface extraction or rendering by directly predicting distance at arbitrary locations and viewing directions. Unlike deep view-synthesis techniques, such as Neural Radiance Fields, which train high-capacity black-box models, our model encodes by construction the property that SDDF values decrease linearly along the viewing direction. This structure constraint not only results in dimensionality reduction but also provides analytical confidence about the accuracy of SDDF predictions, regardless of the distance to the object surface.
翻訳日:2021-07-26 13:55:04 公開日:2021-07-23
# rewritenet:実世界画像におけるテキスト編集による写実的シーンテキスト生成

RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image ( http://arxiv.org/abs/2107.11041v1 )

ライセンス: Link先を確認
Junyeop Lee, Yoonsik Kim, Seonghyeon Kim, Moonbin Yim, Seung Shin, Gayoung Lee, Sungrae Park(参考訳) シーン画像中のテキストを元のスタイルを維持しながら所望のテキストに変換するシーンテキスト編集(ste)は、テキストとスタイル間の複雑な介入により困難な課題である。 そこで本研究では,視覚情報だけでなくテキスト情報も利用するrewritenetと呼ばれる,新しい表現学習に基づくsteモデルを提案する。 シーンテキスト画像は、前者がテキスト情報を表し、スタイルがフォント、アライメント、背景といったシーンテキストの特徴を表す内容とスタイルの特徴に分解できると仮定する。 そこで本研究では,テキスト情報から学習したシーン認識器を導入することにより,入力画像の内容とスタイルの特徴を分離エンコードする手法を提案する。 そして、原画像からのスタイル特徴と対象テキストからのコンテンツ特徴とを組み合わせることにより、テキスト編集画像を生成する。 トレーニング段階で合成画像のみを使用できる従来の作品とは異なり、合成データと実データの間のドメインギャップを埋める自己教師付きトレーニングスキームを提案することで、実世界のイメージも活用する。 我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。 また,テキスト情報の利用と自己教師付き学習方式がテキストの切り替え性能を向上させることを検証した。 実装とデータセットは公開される予定だ。

Scene text editing (STE), which converts a text in a scene image into the desired text while preserving an original style, is a challenging task due to a complex intervention between text and style. To address this challenge, we propose a novel representational learning-based STE model, referred to as RewriteNet that employs textual information as well as visual information. We assume that the scene text image can be decomposed into content and style features where the former represents the text information and style represents scene text characteristics such as font, alignment, and background. Under this assumption, we propose a method to separately encode content and style features of the input image by introducing the scene text recognizer that is trained by text information. Then, a text-edited image is generated by combining the style feature from the original image and the content feature from the target text. Unlike previous works that are only able to use synthetic images in the training phase, we also exploit real-world images by proposing a self-supervised training scheme, which bridges the domain gap between synthetic and real data. Our experiments demonstrate that RewriteNet achieves better quantitative and qualitative performance than other comparisons. Moreover, we validate that the use of text information and the self-supervised training scheme improves text switching performance. The implementation and dataset will be publicly available.
翻訳日:2021-07-26 13:54:42 公開日:2021-07-23
# 生成型adversarial networkにおける非現実的特徴抑制

Unrealistic Feature Suppression for Generative Adversarial Networks ( http://arxiv.org/abs/2107.11047v1 )

ライセンス: Link先を確認
Sanghun Kim and SeungKyu Lee(参考訳) ジェネレータとディスクリミネータ間のミニマックスゲームが不安定であることから,GANの性能向上は難しい課題である。 近年の研究では、訓練における高品質なサンプルの選択により、GANの性能が向上することが示されている。 しかし、サンプルを廃棄するサンプリング手法は、トレーニングの速度やネットワークの最適性といったいくつかの面で制限を示す。 本稿では,高品質な特徴を保ち,非現実的特徴を抑圧する非現実的特徴抑圧(UFS)モジュールを提案する。 UFSモジュールはネットワークのトレーニング安定性を維持し、生成された画像の品質を向上させる。 WGAN-GP, SNGAN, BigGAN などのモデルにおける UFS モジュールの有効性を示す。 UFSモジュールを用いて,様々なベースラインモデルと比較してFrechet開始距離と開始スコアが向上した。 また、ufsモジュールがクラスアクティベーションマップを通じて非現実的な機能を効果的に抑制する様子を可視化する。

Due to the unstable nature of minimax game between generator and discriminator, improving the performance of GANs is a challenging task. Recent studies have shown that selected high-quality samples in training improve the performance of GANs. However, sampling approaches which discard samples show limitations in some aspects such as the speed of training and optimality of the networks. In this paper we propose unrealistic feature suppression (UFS) module that keeps high-quality features and suppresses unrealistic features. UFS module keeps the training stability of networks and improves the quality of generated images. We demonstrate the effectiveness of UFS module on various models such as WGAN-GP, SNGAN, and BigGAN. By using UFS module, we achieved better Frechet inception distance and inception score compared to various baseline models. We also visualize how effectively our UFS module suppresses unrealistic features through class activation maps.
翻訳日:2021-07-26 13:54:22 公開日:2021-07-23
# 教師なし領域適応のための輸送因果機構

Transporting Causal Mechanisms for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.11055v1 )

ライセンス: Link先を確認
Zhongqi Yue, Hanwang Zhang, Qianru Sun, Xian-Sheng Hua(参考訳) 既存のUnsupervised Domain Adaptation (UDA)の文献では、共変量シフトと条件シフトの仮定が採用されている。 しかし、ターゲットドメインにおける監視の欠如により、それらはセマンティックな損失に悩まされる。この機能は、必然的にソースドメインにおける非差別的なセマンティクスを失う。 因果的視点 -- トランスポータビリティ理論 -- を使って、そのような損失が実際には共起効果であり、因果的介入によってのみ排除できると特定します。 しかし、輸送性によって提供される理論的解決策は、ドメインギャップの原因である観測されていない共同創設者の成層化と表現を必要とするため、UDAにとって実用的ではない。 そこで本研究では,教師なしの方法で発見されたドメイン不変な異種間因果機構を用いて,共起層と表現を識別するために,因果機構(tcm)を輸送する手法を提案する。 TCMは理論上も実証上も根拠がある。 大規模な実験により、TCMはImageCLEF-DA、Office-Home、VisDA-2017の3つの挑戦的なUDAベンチマークで最先端のパフォーマンスを達成した。 コードはAppendixで入手できる。

Existing Unsupervised Domain Adaptation (UDA) literature adopts the covariate shift and conditional shift assumptions, which essentially encourage models to learn common features across domains. However, due to the lack of supervision in the target domain, they suffer from the semantic loss: the feature will inevitably lose non-discriminative semantics in source domain, which is however discriminative in target domain. We use a causal view -- transportability theory -- to identify that such loss is in fact a confounding effect, which can only be removed by causal intervention. However, the theoretical solution provided by transportability is far from practical for UDA, because it requires the stratification and representation of an unobserved confounder that is the cause of the domain gap. To this end, we propose a practical solution: Transporting Causal Mechanisms (TCM), to identify the confounder stratum and representations by using the domain-invariant disentangled causal mechanisms, which are discovered in an unsupervised fashion. Our TCM is both theoretically and empirically grounded. Extensive experiments show that TCM achieves state-of-the-art performance on three challenging UDA benchmarks: ImageCLEF-DA, Office-Home, and VisDA-2017. Codes are available in Appendix.
翻訳日:2021-07-26 13:54:10 公開日:2021-07-23
# 表情認識のための感情意味相関を用いたラベル分布修正

Label Distribution Amendment with Emotional Semantic Correlations for Facial Expression Recognition ( http://arxiv.org/abs/2107.11061v1 )

ライセンス: Link先を確認
Shasha Mao, Guanghui Shi, Licheng Jiao, Shuiping Gou, Yangyang Li, Lin Xiong, Boxin Shi(参考訳) ラベル分布学習を利用することで、顔画像に確率分布を割り当てて複合感情を表現し、一方のホットラベルに発生するラベル不確実性とノイズの問題を効果的に改善する。 実際、驚きと幸福の感情は、驚きと中立よりも同期している可能性があるなど、感情間の相関は本質的に異なることが観察されている。 この相関は,信頼性の高いラベル分布を得る上で重要である可能性がある。 そこで本研究では,意味空間における表現間の相関を利用して顔画像のラベル分布を補正する手法を提案する。 単語2vec間の固有に多様な相関から着想を得た表情間のトポロジ的情報は,まず意味空間において探索され,各画像は意味空間に埋め込まれる。 特に、クラス関係グラフを構築し、表現間の意味的相関関係をタスク空間に転送する。 各画像のセマンティクスとタスククラス関係グラフを比較することにより、そのラベル分布の信頼性を評価する。 信頼度に基づいて、信頼度の高いサンプルと信頼度の低いサンプルを弱めることにより、ラベル分布を補正する。 実験により,提案手法は最先端手法よりも有効であることが示された。

By utilizing label distribution learning, a probability distribution is assigned for a facial image to express a compound emotion, which effectively improves the problem of label uncertainties and noises occurred in one-hot labels. In practice, it is observed that correlations among emotions are inherently different, such as surprised and happy emotions are more possibly synchronized than surprised and neutral. It indicates the correlation may be crucial for obtaining a reliable label distribution. Based on this, we propose a new method that amends the label distribution of each facial image by leveraging correlations among expressions in the semantic space. Inspired by inherently diverse correlations among word2vecs, the topological information among facial expressions is firstly explored in the semantic space, and each image is embedded into the semantic space. Specially, a class-relation graph is constructed to transfer the semantic correlation among expressions into the task space. By comparing semantic and task class-relation graphs of each image, the confidence of its label distribution is evaluated. Based on the confidence, the label distribution is amended by enhancing samples with higher confidence and weakening samples with lower confidence. Experimental results demonstrate the proposed method is more effective than compared state-of-the-art methods.
翻訳日:2021-07-26 13:53:47 公開日:2021-07-23
# Modal-Wise回帰とMulti-Modal IoUに基づく大規模なミスアライメントによるマルチモーダル歩行者検出

Multi-Modal Pedestrian Detection with Large Misalignment Based on Modal-Wise Regression and Multi-Modal IoU ( http://arxiv.org/abs/2107.11196v1 )

ライセンス: Link先を確認
Napat Wanchaitanawong, Masayuki Tanaka, Takashi Shibata, Masatoshi Okutomi(参考訳) 複数のモダリティを組み合わせることで、これらのモダリティから高い視認性領域を組み合わせることで、暗い照明条件下で正確な歩行者検出が可能になる。 組み合わせの使用に必須の仮定は、2つのモダリティの間に弱いミスアライメントが存在しない、あるいは単に存在しないことである。 しかし、一般に、この仮定は実際の状況でしばしば破られる。 この仮定の崩壊により、バウンディングボックスの位置は2つのモード間に一致せず、特に不一致が大きい領域において検出精度が著しく低下する。 本稿では,大規模な不整合に対して頑健なマルチモーダル高速RCNNを提案する。 キーは,1)モーダルワイド回帰,2)ミニバッチサンプリング用マルチモーダルIoUである。 大きなミスアライメントに対処するため、RPNと検出ヘッドの両方に対して、両モードでバウンディングボックスレグレッションを実行する。 両モードでIoUを統合するマルチモーダル・ミニバッチサンプリング(multi-modal mini-batch sample)という新しいサンプリング戦略を提案する。 提案手法の性能は,実画像実験による大規模不一致データに対する最先端手法よりもはるかに優れていることを実証する。

The combined use of multiple modalities enables accurate pedestrian detection under poor lighting conditions by using the high visibility areas from these modalities together. The vital assumption for the combination use is that there is no or only a weak misalignment between the two modalities. In general, however, this assumption often breaks in actual situations. Due to this assumption's breakdown, the position of the bounding boxes does not match between the two modalities, resulting in a significant decrease in detection accuracy, especially in regions where the amount of misalignment is large. In this paper, we propose a multi-modal Faster-RCNN that is robust against large misalignment. The keys are 1) modal-wise regression and 2) multi-modal IoU for mini-batch sampling. To deal with large misalignment, we perform bounding box regression for both the RPN and detection-head with both modalities. We also propose a new sampling strategy called "multi-modal mini-batch sampling" that integrates the IoU for both modalities. We demonstrate that the proposed method's performance is much better than that of the state-of-the-art methods for data with large misalignment through actual image experiments.
翻訳日:2021-07-26 13:53:28 公開日:2021-07-23
# 半教師付き意味セグメンテーションのためのバイアス付き擬似ラベルの再分配:ベースライン調査

Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation ( http://arxiv.org/abs/2107.11279v1 )

ライセンス: Link先を確認
Ruifei He, Jihan Yang, Xiaojuan Qi(参考訳) 自己学習は、半教師付きセマンティクスセグメンテーションが進んだが、実世界のセマンティクスセグメンテーションデータセットの長いクラス分布に苦しめられ、疑似ラベル付きデータの偏りが多数派クラスに向けられている。 本稿では,ラベル付きデータから推定される真のクラス分布と一致する偏りのない擬似ラベルを生成するための,単純かつ効果的な分布アライメントとランダムサンプリング(dars)手法を提案する。 さらに,擬似ラベルデータを用いたモデルトレーニングを容易にするために,プログレッシブデータ拡張とラベル付け戦略も提供する。 Cityscapes と PASCAL VOC 2012 のデータセットによる実験は、我々のアプローチの有効性を実証している。 単純ではあるが,本手法は最先端手法と比較して良好に機能する。 コードはhttps://github.com/CVMI-Lab/DARS.comから入手できる。

While self-training has advanced semi-supervised semantic segmentation, it severely suffers from the long-tailed class distribution on real-world semantic segmentation datasets that make the pseudo-labeled data bias toward majority classes. In this paper, we present a simple and yet effective Distribution Alignment and Random Sampling (DARS) method to produce unbiased pseudo labels that match the true class distribution estimated from the labeled data. Besides, we also contribute a progressive data augmentation and labeling strategy to facilitate model training with pseudo-labeled data. Experiments on both Cityscapes and PASCAL VOC 2012 datasets demonstrate the effectiveness of our approach. Albeit simple, our method performs favorably in comparison with state-of-the-art approaches. Code will be available at https://github.com/CVMI-Lab/DARS.
翻訳日:2021-07-26 13:53:11 公開日:2021-07-23
# Mixed SIGNals: モーションプリミティブの混合による手話生成

Mixed SIGNals: Sign Language Production via a Mixture of Motion Primitives ( http://arxiv.org/abs/2107.11317v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 音声言語を音声レベルで表現することが一般的である。 しかし、手話では、これは運動を構成運動プリミティブに分解することを意味する。 アバターをベースとした手話生成(SLP)は伝統的に、手の動き、形状、表情の連続からアニメーションを構築してきた。 しかし、より最近のSLPに対するディープラーニングベースのソリューションは、完全な骨格構造を推定する単一のネットワークを用いてこの問題に対処している。 我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。 最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。 その後、アニメーションのサブタスクは、学習時空間表現によく似た表現的な手話シーケンスを作ることを目的としている。 翻訳サブタスクにプログレッシブトランスフォーマティブを用いることで,手話アニメーションのための運動プリミティブ(momp)アーキテクチャを新たに混合する手法を提案する。 異なる動きプリミティブのセットはトレーニング中に学習され、推論時に時間的に組み合わせて連続手話列をアニメーション化することができる。 本稿では,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットの評価を行った。 我々は、競合する結果よりも11%改善した最先端のバック翻訳性能を実現する。 重要なことに、私たちは初めて、音声言語からサインへの完全な翻訳パイプラインのパフォーマンスを、光沢からサインへというよりも強く示しています。

It is common practice to represent spoken languages at their phonetic level. However, for sign languages, this implies breaking motion into its constituent motion primitives. Avatar based Sign Language Production (SLP) has traditionally done just this, building up animation from sequences of hand motions, shapes and facial expressions. However, more recent deep learning based solutions to SLP have tackled the problem using a single network that estimates the full skeletal structure. We propose splitting the SLP task into two distinct jointly-trained sub-tasks. The first translation sub-task translates from spoken language to a latent sign language representation, with gloss supervision. Subsequently, the animation sub-task aims to produce expressive sign language sequences that closely resemble the learnt spatio-temporal representation. Using a progressive transformer for the translation sub-task, we propose a novel Mixture of Motion Primitives (MoMP) architecture for sign language animation. A set of distinct motion primitives are learnt during training, that can be temporally combined at inference to animate continuous sign language sequences. We evaluate on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T) dataset, presenting extensive ablation studies and showing that MoMP outperforms baselines in user evaluations. We achieve state-of-the-art back translation performance with an 11% improvement over competing results. Importantly, and for the first time, we showcase stronger performance for a full translation pipeline going from spoken language to sign, than from gloss to sign.
翻訳日:2021-07-26 13:52:56 公開日:2021-07-23
# マルチレベル一貫性を用いた教師なし領域適応3次元検出

Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency ( http://arxiv.org/abs/2107.11355v1 )

ライセンス: Link先を確認
Zhipeng Luo, Zhongang Cai, Changqing Zhou, Gongjie Zhang, Haiyu Zhao, Shuai Yi, Shijian Lu, Hongsheng Li, Shanghang Zhang, Ziwei Liu(参考訳) ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現で前例のない成功を収めた。 しかしながら、クロスドメインデプロイメントでは、大幅なパフォーマンス低下が重要な課題である。 さらに、既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提としています。 この課題に対処するために、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。 1)3次元検出における領域ギャップの主な要因を包括的に検討した。 私たちの重要な洞察は、幾何学的ミスマッチがドメインシフトの鍵となることです。 2) 適応的で信頼性の高い擬似ターゲットを生成するために,教師学生のパラダイムを取り入れた,新しく統一されたマルチレベル一貫性ネットワーク(MLC-Net)を提案する。 MLC-Netは、ポイント、インスタンス、およびニューラル統計レベルの一貫性を利用して、クロスドメイン転送を容易にする。 大規模な実験により、MLC-Netは標準ベンチマークで既存の最先端メソッド(追加のターゲットドメイン情報を使用するものを含む)より優れていることが示された。 特に,本手法は検出器非依存であり,単段および二段の3次元検出器において一貫した利得が得られる。

Deep learning-based 3D object detection has achieved unprecedented success with the advent of large-scale autonomous driving datasets. However, drastic performance degradation remains a critical challenge for cross-domain deployment. In addition, existing 3D domain adaptive detection methods often assume prior access to the target domain annotations, which is rarely feasible in the real world. To address this challenge, we study a more realistic setting, unsupervised 3D domain adaptive detection, which only utilizes source domain annotations. 1) We first comprehensively investigate the major underlying factors of the domain gap in 3D detection. Our key insight is that geometric mismatch is the key factor of domain shift. 2) Then, we propose a novel and unified framework, Multi-Level Consistency Network (MLC-Net), which employs a teacher-student paradigm to generate adaptive and reliable pseudo-targets. MLC-Net exploits point-, instance- and neural statistics-level consistency to facilitate cross-domain transfer. Extensive experiments demonstrate that MLC-Net outperforms existing state-of-the-art methods (including those using additional target domain information) on standard benchmarks. Notably, our approach is detector-agnostic, which achieves consistent gains on both single- and two-stage 3D detectors.
翻訳日:2021-07-26 13:52:32 公開日:2021-07-23
# 物理インフォームドニューラルネットワークのための新しいメタ学習初期化法

A novel meta-learning initialization method for physics-informed neural networks ( http://arxiv.org/abs/2107.10991v1 )

ライセンス: Link先を確認
Xu Liu, Xiaoya Zhang, Wei Peng, Weien Zhou, Wen Yao(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々な科学計算問題を解くために広く用いられている。 しかし、大規模なトレーニングコストは、いくつかのリアルタイムアプリケーションのPINNを制限する。 PINNの訓練効率を改善するためにいくつかの研究が提案されているが、初期化の影響を考慮するものはほとんどない。 そこで本研究では, 物理学的不定形ニューラルネットワーク (nrpinn) を提案する。 original reptileアルゴリズムはラベル付きデータに基づくメタラーニング初期化手法である。 PINNは、損失関数にパーセンテージ項として偏微分方程式(PDE)を追加することで、ラベル付きデータが少ないか、ラベル付きデータなしでトレーニングすることができる。 このアイデアに触発されて、パラメータ化されたPDEからより多くのタスクをサンプリングし、損失のペナルティ項を適応する新しいReptile初期化を提案する。 新しいReptile初期化は、教師付き、教師なし、半教師付き学習によって、関連するタスクから初期化パラメータを取得することができる。 そして、初期化パラメータを持つPINNはPDEを効率的に解くことができる。 さらに、新しいReptile初期化はPINNの変種にも利用できる。 最後に、Poisson, Burgers, Schr\odinger方程式の解法や、PDEの未知のパラメータを推定する逆問題を含む前方問題の双方を考慮したNRPINNの実証および検証を行う。 実験の結果,NRPINNトレーニングは,他の初期化手法を用いたPINNよりもはるかに高速で精度が高いことがわかった。

Physics-informed neural networks (PINNs) have been widely used to solve various scientific computing problems. However, large training costs limit PINNs for some real-time applications. Although some works have been proposed to improve the training efficiency of PINNs, few consider the influence of initialization. To this end, we propose a New Reptile initialization based Physics-Informed Neural Network (NRPINN). The original Reptile algorithm is a meta-learning initialization method based on labeled data. PINNs can be trained with less labeled data or even without any labeled data by adding partial differential equations (PDEs) as a penalty term into the loss function. Inspired by this idea, we propose the new Reptile initialization to sample more tasks from the parameterized PDEs and adapt the penalty term of the loss. The new Reptile initialization can acquire initialization parameters from related tasks by supervised, unsupervised, and semi-supervised learning. Then, PINNs with initialization parameters can efficiently solve PDEs. Besides, the new Reptile initialization can also be used for the variants of PINNs. Finally, we demonstrate and verify the NRPINN considering both forward problems, including solving Poisson, Burgers, and Schr\"odinger equations, as well as inverse problems, where unknown parameters in the PDEs are estimated. Experimental results show that the NRPINN training is much faster and achieves higher accuracy than PINNs with other initialization methods.
翻訳日:2021-07-26 13:51:24 公開日:2021-07-23
# フェデレーションラーニングにおけるコミュニケーション効率:達成と課題

Communication Efficiency in Federated Learning: Achievements and Challenges ( http://arxiv.org/abs/2107.10996v1 )

ライセンス: Link先を確認
Osama Shahid, Seyedamin Pouriyeh, Reza M. Parizi, Quan Z. Sheng, Gautam Srivastava, Liang Zhao(参考訳) フェデレートラーニング(FL)は、機械学習タスクを分散的に実行することで知られている。 特にさまざまなデータ保護とプライバシーポリシーが課されているFLは、これらの課題に固執しながら、機械学習タスクの実行を可能にしている。 新しいテクノロジーが出現するのと同じように、課題とメリットがあるでしょう。 FLに存在する課題は通信コストである。FLは、ネットワークに接続されたデバイスが常にアップデートを共有する必要がある分散環境で発生するため、通信ボトルネックが発生する。 本稿では,fl設定における通信制約を克服する目的で実施する調査について述べる。

Federated Learning (FL) is known to perform Machine Learning tasks in a distributed manner. Over the years, this has become an emerging technology especially with various data protection and privacy policies being imposed FL allows performing machine learning tasks whilst adhering to these challenges. As with the emerging of any new technology, there are going to be challenges and benefits. A challenge that exists in FL is the communication costs, as FL takes place in a distributed environment where devices connected over the network have to constantly share their updates this can create a communication bottleneck. In this paper, we present a survey of the research that is performed to overcome the communication constraints in an FL setting.
翻訳日:2021-07-26 13:51:03 公開日:2021-07-23
# オフライン強化学習のためのモデル選択:医療設定の実践的考察

Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings ( http://arxiv.org/abs/2107.11003v1 )

ライセンス: Link先を確認
Shengpu Tang, Jenna Wiens(参考訳) 強化学習(RL)は治療方針を学習し、医療における意思決定を支援するために用いられる。 しかし、複雑な状態/動作空間上の一般化の必要性を考えると、関数近似器(例えばディープニューラルネットワーク)の組み込みは、過剰フィッティングを減らし、配置時のポリシーパフォーマンスを改善するためにモデル選択を必要とする。 しかし、モデル選択のための標準的な検証パイプラインでは、実際の環境で学習したポリシーを実行する必要があります。 本研究では,検証性能の指標としてオフポリシー評価(ope)に依存するオフラインrlのモデル選択パイプラインについて検討する。 本稿では,一般的な ope 手法の詳細な分析を行い,候補ポリシーのランク付けに使用する場合のハイパーパラメータと計算要件(補助モデルのフィッティング/インリファレンス)について述べる。 敗血症患者に対する学習において, モデル選択パイプラインの一部として, 異なる OPE 手法の有用性を比較検討した。 検討したすべてのOPE手法の中で、適合Q評価(FQE)は、高い計算コストで、常に最高の検証ランキングに導かれる。 ランキングの精度と計算効率のトレードオフを両立させるため,不必要な計算を回避し,モデル選択を高速化する簡易な二段階法を提案する。 我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。 再現性と将来の拡張を容易にするため、この論文に付随するコードはhttps://github.com/MLD3/OfflineRL_ModelSelection.comで公開されている。

Reinforcement learning (RL) can be used to learn treatment policies and aid decision making in healthcare. However, given the need for generalization over complex state/action spaces, the incorporation of function approximators (e.g., deep neural networks) requires model selection to reduce overfitting and improve policy performance at deployment. Yet a standard validation pipeline for model selection requires running a learned policy in the actual environment, which is often infeasible in a healthcare setting. In this work, we investigate a model selection pipeline for offline RL that relies on off-policy evaluation (OPE) as a proxy for validation performance. We present an in-depth analysis of popular OPE methods, highlighting the additional hyperparameters and computational requirements (fitting/inference of auxiliary models) when used to rank a set of candidate policies. We compare the utility of different OPE methods as part of the model selection pipeline in the context of learning to treat patients with sepsis. Among all the OPE methods we considered, fitted Q evaluation (FQE) consistently leads to the best validation ranking, but at a high computational cost. To balance this trade-off between accuracy of ranking and computational efficiency, we propose a simple two-stage approach to accelerate model selection by avoiding potentially unnecessary computation. Our work serves as a practical guide for offline RL model selection and can help RL practitioners select policies using real-world datasets. To facilitate reproducibility and future extensions, the code accompanying this paper is available online at https://github.com/MLD3/OfflineRL_ModelSelection.
翻訳日:2021-07-26 13:50:52 公開日:2021-07-23
# VisDA-2021 Universal Domain Adaptation for Improving Performance on Out-of-Distribution Data

VisDA-2021 Competition Universal Domain Adaptation to Improve Performance on Out-of-Distribution Data ( http://arxiv.org/abs/2107.11011v1 )

ライセンス: Link先を確認
Dina Bashkirova, Dan Hendrycks, Donghyun Kim, Samarth Mishra, Kate Saenko, Kuniaki Saito, Piotr Teterwak, Ben Usman(参考訳) 機械学習の進歩は、典型的には同じデータ、すなわち同じドメイン上のモデルのトレーニングとテストによって測定される。 これにより、アウトオブディストリビューションデータの将来の正確性が過大評価される。 Visual Domain Adaptation (VisDA) 2021コンペティションは、新しいテストディストリビューションに適応し、分散シフトを処理するモデルの能力をテストする。 画像分類器のための教師なし領域適応課題を設定し,新しい視点,背景,モダリティ,品質劣化に対する適応性を評価する。 当社の課題は、大規模な公開データセットに基づいていますが、従来のドメイン内のベンチマーキングよりも、ドメイン間での評価を構築します。 さらに,入力分布ドリフトに加えて,目的とするデータセットにおけるメソッドの欠落や新規クラスに遭遇する可能性のある,"ユニバーサル"設定にも注目する。 厳密なプロトコルを使用してパフォーマンスを計測し、確立されたメトリクスの助けを借りて最先端のドメイン適応手法と比較する。 この競争によって、多くのデプロイメントシナリオにおいて、現実的なデータを扱う機械学習メソッドの能力がさらに向上するだろうと考えています。

Progress in machine learning is typically measured by training and testing a model on the same distribution of data, i.e., the same domain. This over-estimates future accuracy on out-of-distribution data. The Visual Domain Adaptation (VisDA) 2021 competition tests models' ability to adapt to novel test distributions and handle distributional shift. We set up unsupervised domain adaptation challenges for image classifiers and will evaluate adaptation to novel viewpoints, backgrounds, modalities and degradation in quality. Our challenge draws on large-scale publicly available datasets but constructs the evaluation across domains, rather that the traditional in-domain bench-marking. Furthermore, we focus on the difficult "universal" setting where, in addition to input distribution drift, methods may encounter missing and/or novel classes in the target dataset. Performance will be measured using a rigorous protocol, comparing to state-of-the-art domain adaptation methods with the help of established metrics. We believe that the competition will encourage further improvement in machine learning methods' ability to handle realistic data in many deployment scenarios.
翻訳日:2021-07-26 13:50:24 公開日:2021-07-23
# 学習フレームワークにおけるウェーブレット設計

Wavelet Design in a Learning Framework ( http://arxiv.org/abs/2107.11225v1 )

ライセンス: Link先を確認
Dhruv Jawali, Abhishek Kumar and Chandra Sekhar Seelamantula(参考訳) ウェーブレットはいくつかの信号および画像処理アプリケーションで高い成功を収めている。 ウェーブレットの設計は20年以上にわたって活発な研究分野であり、その問題は分析的な観点からしばしばアプローチされてきた。 本稿では,ウェーブレット設計の学習に基づくアプローチを提案する。 本稿では,畳み込みオートエンコーダとウェーブレット多重解像度近似の並列性を示し,学習角度が設計問題に対するコヒーレントな計算フレームワークをどのように提供するかを示す。 我々は、カスタマイズされたデータセットを必要としないフィルタバンクオートエンコーダをトレーニングすることで、データ非依存のウェーブレットを設計することを目指している。 実際、我々はフィルタバンクオートエンコーダのトレーニングに高次元ガウスベクトルを用い、ほぼゼロのトレーニング損失は学習フィルタが非常に高い確率で完全な再構成特性を満たすことを示している。 自動エンコーダアーキテクチャを適切に設計し、学習プロセスで使用される平均二乗誤差コストに適切な正規化項を付加することにより、直交性、コンパクトサポート、滑らか性、対称性、消滅モーメントなどのウェーブレットの特性を組み込むことができる。 このアプローチは,よく知られた直交ウェーブレットのダウベキエス族と対称なバイオrthogonalウェーブレットのcohen-daubechies-feauveau族を回復するだけでなく,これらのファミリーの外でウェーブレットを学ぶ。

Wavelets have proven to be highly successful in several signal and image processing applications. Wavelet design has been an active field of research for over two decades, with the problem often being approached from an analytical perspective. In this paper, we introduce a learning based approach to wavelet design. We draw a parallel between convolutional autoencoders and wavelet multiresolution approximation, and show how the learning angle provides a coherent computational framework for addressing the design problem. We aim at designing data-independent wavelets by training filterbank autoencoders, which precludes the need for customized datasets. In fact, we use high-dimensional Gaussian vectors for training filterbank autoencoders, and show that a near-zero training loss implies that the learnt filters satisfy the perfect reconstruction property with very high probability. Properties of a wavelet such as orthogonality, compact support, smoothness, symmetry, and vanishing moments can be incorporated by designing the autoencoder architecture appropriately and with a suitable regularization term added to the mean-squared error cost used in the learning process. Our approach not only recovers the well known Daubechies family of orthogonal wavelets and the Cohen-Daubechies-Feauveau family of symmetric biorthogonal wavelets, but also learns wavelets outside these families.
翻訳日:2021-07-26 13:50:04 公開日:2021-07-23
# ニューラルネットワーク損失景観における局所構造とグローバル構造の分類

Taxonomizing local versus global structure in neural network loss landscapes ( http://arxiv.org/abs/2107.11228v1 )

ライセンス: Link先を確認
Yaoqing Yang, Liam Hodgkinson, Ryan Theisen, Joe Zou, Joseph E. Gonzalez, Kannan Ramchandran, Michael W. Mahoney(参考訳) 損失ランドスケープの観点からニューラルネットワークモデルを見ることは、学習に対する統計力学アプローチにおいて長い歴史を持ち、近年は機械学習の適切な範囲で注目を集めている。 その中で、(損失景観の滑らかさのような)局所的な測度は、モデルのグローバルな性質(良い一般化など)と相関することが示されている。 ここでは、何千ものニューラルネットワークモデル、体系的に異なる学習タスク、モデルアーキテクチャ、および/またはデータの量/品質の損失ランドスケープ構造を詳細に分析する。 ロスランドスケープの異なる側面を捉えようとするさまざまな指標を考慮することで、ロスランドスケープがグローバルに接続されている場合、トレーニングされたモデルのアンサンブルが互いに似ており、モデルが局所的に滑らかな領域に収束している場合、最良のテスト精度が得られることを示す。 また, モデルが小さかったり, 品質の低いデータにトレーニングされたりした場合に, グローバルに接続が不十分なランドスケープが発生すること, また, 損失のランドスケープが世界的に低かった場合, ゼロロスへのトレーニングは, テスト精度を低下させる可能性があることを示した。 これらの結果をもとに, 負荷様および温度様パラメータを持つ簡易な1次元モデルを構築し, これらのパラメータに依拠して \emph{ effective loss landscape} の概念を導入し, 損失景観の \emph{rugged convexity} という観点から解析する。 このレンズを通して観察すると、詳細な実験結果から、学習のフェーズ(および関連する2次降下行動)、良い一般化の基本的な決定要因と付随的な決定要因、学習プロセスにおける負荷様および温度様パラメータの役割、モデルとデータによるロスランドスケープの異なる影響、そしてローカルとグローバルメトリクスの関係が明らかになった。

Viewing neural network models in terms of their loss landscapes has a long history in the statistical mechanics approach to learning, and in recent years it has received attention within machine learning proper. Among other things, local metrics (such as the smoothness of the loss landscape) have been shown to correlate with global properties of the model (such as good generalization). Here, we perform a detailed empirical analysis of the loss landscape structure of thousands of neural network models, systematically varying learning tasks, model architectures, and/or quantity/quality of data. By considering a range of metrics that attempt to capture different aspects of the loss landscape, we demonstrate that the best test accuracy is obtained when: the loss landscape is globally well-connected; ensembles of trained models are more similar to each other; and models converge to locally smooth regions. We also show that globally poorly-connected landscapes can arise when models are small or when they are trained to lower quality data; and that, if the loss landscape is globally poorly-connected, then training to zero loss can actually lead to worse test accuracy. Based on these results, we develop a simple one-dimensional model with load-like and temperature-like parameters, we introduce the notion of an \emph{effective loss landscape} depending on these parameters, and we interpret our results in terms of a \emph{rugged convexity} of the loss landscape. When viewed through this lens, our detailed empirical results shed light on phases of learning (and consequent double descent behavior), fundamental versus incidental determinants of good generalization, the role of load-like and temperature-like parameters in the learning process, different influences on the loss landscape from model and data, and the relationships between local and global metrics, all topics of recent interest.
翻訳日:2021-07-26 13:49:40 公開日:2021-07-23
# 機能的脳ネットワーク生成による効果的かつ解釈可能なfmri解析

Effective and Interpretable fMRI Analysis via Functional Brain Network Generation ( http://arxiv.org/abs/2107.11247v1 )

ライセンス: Link先を確認
Xuan Kan, Hejie Cui, Ying Guo, Carl Yang(参考訳) 神経科学における最近の研究は、fMRIデータから構築された機能的脳ネットワークの大きな可能性を示し、人気モデリングと臨床予測を行っている。 しかし、既存の機能的脳ネットワークは下流予測タスクにうるさいし、GNNの最近の強力な機械学習モデルと互換性がない。 本研究では,FMRIの特徴を抽出し,脳ネットワークを生成し,GNNを用いて予測を行う,エンドツーエンドのトレーニング可能なパイプラインを開発した。 PNC fMRIデータに対する予備実験は、我々のフレームワークの優れた有効性とユニークな解釈可能性を示している。

Recent studies in neuroscience show great potential of functional brain networks constructed from fMRI data for popularity modeling and clinical predictions. However, existing functional brain networks are noisy and unaware of downstream prediction tasks, while also incompatible with recent powerful machine learning models of GNNs. In this work, we develop an end-to-end trainable pipeline to extract prominent fMRI features, generate brain networks, and make predictions with GNNs, all under the guidance of downstream prediction tasks. Preliminary experiments on the PNC fMRI data show the superior effectiveness and unique interpretability of our framework.
翻訳日:2021-07-26 13:49:01 公開日:2021-07-23
# マルチタスク学習におけるハードパラメータ共有の再考

Rethinking Hard-Parameter Sharing in Multi-Task Learning ( http://arxiv.org/abs/2107.11359v1 )

ライセンス: Link先を確認
Lijun Zhang, Qizheng Yang, Xiao Liu, Hui Guan(参考訳) マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。 共通の共有プラクティスは、各タスクに別々のトップレイヤを使用して、ディープニューラルネットワークのボトム層をタスク間で共有することです。 本研究は, 微細な画像分類作業に関する実証的研究を通じて, この実践を再考し, 2つの驚くべき観察を行った。 1) 分離したボトム層パラメータを用いることで, 従来よりも性能が著しく向上し, この現象は, 異なるタスク固有パラメータの異なるバックボーンアーキテクチャ上で協調的に訓練されたタスク数をそれぞれ保持する。 2) 下位層からのタスク固有パラメータの割合が少ないマルチタスクモデルは,各タスクで個別に訓練された独立モデルと競合し,最先端のMTLフレームワークより優れている。 我々は,現在の共有パラダイムを再考し,mtlにおけるモデル設計のベースラインとしてボトム層パラメータを分離する新たな戦略を採用することを示唆する。

Hard parameter sharing in multi-task learning (MTL) allows tasks to share some of model parameters, reducing storage cost and improving prediction accuracy. The common sharing practice is to share bottom layers of a deep neural network among tasks while using separate top layers for each task. In this work, we revisit this common practice via an empirical study on fine-grained image classification tasks and make two surprising observations. (1) Using separate bottom-layer parameters could achieve significantly better performance than the common practice and this phenomenon holds for different number of tasks jointly trained on different backbone architectures with different quantity of task-specific parameters. (2) A multi-task model with a small proportion of task-specific parameters from bottom layers can achieve competitive performance with independent models trained on each task separately and outperform a state-of-the-art MTL framework. Our observations suggest that people rethink the current sharing paradigm and adopt the new strategy of using separate bottom-layer parameters as a stronger baseline for model design in MTL.
翻訳日:2021-07-26 13:48:52 公開日:2021-07-23
# 人工知能を用いたマルウェア解析と結果解釈可能性に関する研究

Malware Analysis with Artificial Intelligence and a Particular Attention on Results Interpretability ( http://arxiv.org/abs/2107.11100v1 )

ライセンス: Link先を確認
Benjamin Marais, Tony Quertier, Christophe Chesneau(参考訳) マルウェアの検出と分析は、サイバーセキュリティにおける過去数年間の活発な研究課題である。 実際、例えばパッケージングのような難読化技術の開発には、最近のマルウェアの変種を検出するために特別な注意が必要である。 通常の検出方法は必ずしも結果を解釈するためのツールを提供していない。 そこで本研究では,バイナリファイルのグレースケール画像への変換に基づくモデルを提案する。 さらに,提案モデルでは,サンプルが85%の精度で満たされているか,あるいは暗号化されているかを判定できる。 結果を分析し、適切に振る舞うことができます。 また,検出モデルに注意機構を適用することで,ファイルのどの部分が疑わしいかを特定することができる。 この種のツールはデータアナリストにとって非常に有用であり、一般的な検出モデルの解釈可能性の欠如を補い、悪意のあるファイルが検出されていない理由を理解するのに役立つ。

Malware detection and analysis are active research subjects in cybersecurity over the last years. Indeed, the development of obfuscation techniques, as packing, for example, requires special attention to detect recent variants of malware. The usual detection methods do not necessarily provide tools to interpret the results. Therefore, we propose a model based on the transformation of binary files into grayscale image, which achieves an accuracy rate of 88%. Furthermore, the proposed model can determine if a sample is packed or encrypted with a precision of 85%. It allows us to analyze results and act appropriately. Also, by applying attention mechanisms on detection models, we have the possibility to identify which part of the files looks suspicious. This kind of tool should be very useful for data analysts, it compensates for the lack of interpretability of the common detection models, and it can help to understand why some malicious files are undetected.
翻訳日:2021-07-26 13:48:34 公開日:2021-07-23
# 二重dqnに基づく複雑な環境におけるロボット経路計画の改善アルゴリズム

An Improved Algorithm of Robot Path Planning in Complex Environment Based on Double DQN ( http://arxiv.org/abs/2107.11245v1 )

ライセンス: Link先を確認
Fei Zhang, Chaochen Gu, and Feng Yang(参考訳) 実験によると,DQN(Deep Q Network)は,多数のジレンマのある環境での経路計画に適用する場合,いくつかの制限がある。 報酬関数はモデル化が難しく、経験の遷移の成功は経験の再生で見つけるのが難しい。 本稿では, a* と高速探索確率木 (rrt) を参照して解くために, 改良された二重dqn (ddqn) を提案する。 経験リプレイにおける豊富な実験を実現するため、各トレーニングラウンドにおけるロボットの初期化はRTR戦略に基づいて再定義される。 また、自由位置に対する報酬は、a*の位置コストの定義に従って学習プロセスを加速するように特別に設計されている。 シミュレーション実験により,改良されたDDQNの有効性を検証し,DQNやDDQNに効果のない障害物回避能力と最適経路計画の学習に成功した。

Deep Q Network (DQN) has several limitations when applied in planning a path in environment with a number of dilemmas according to our experiment. The reward function may be hard to model, and successful experience transitions are difficult to find in experience replay. In this context, this paper proposes an improved Double DQN (DDQN) to solve the problem by reference to A* and Rapidly-Exploring Random Tree (RRT). In order to achieve the rich experiments in experience replay, the initialization of robot in each training round is redefined based on RRT strategy. In addition, reward for the free positions is specially designed to accelerate the learning process according to the definition of position cost in A*. The simulation experimental results validate the efficiency of the improved DDQN, and robot could successfully learn the ability of obstacle avoidance and optimal path planning in which DQN or DDQN has no effect.
翻訳日:2021-07-26 13:48:21 公開日:2021-07-23
# 圧縮センシングイメージングのための動的近位アンロールネットワーク

Dynamic Proximal Unrolling Network for Compressive Sensing Imaging ( http://arxiv.org/abs/2107.11007v1 )

ライセンス: Link先を確認
Yixiao Yang, Ran Tao, Kaixuan Wei, Ying Fu(参考訳) 圧縮センシングイメージング(Compressive Sensing Imaging, CSI)は、アンダーサンプル計測から基盤となる画像の復元が困難な問題であり、多くの実用的応用がある。 近年,csiの不適切さを緩和するために暗黙的に学習されたニューラルネットワークが,有望な結果とともにこの問題に適用されている。 しかし、既存のニューラルネットワークアプローチでは、サンプリング比率などの画像パラメータ毎に別々のモデルが必要であり、トレーニングの困難と特定の設定に過度に適合する。 本稿では,単一のモデルを用いて,リトレーニングすることなく様々な計測行列を処理できる動的近位アンロールネットワーク(dpunet)を提案する。 具体的には、DPUNetは、勾配降下による埋め込み物理モデルと、学習された動的近位写像によって関節再建に先立つ画像の両方を活用できる。 dpunetの重要なコンポーネントは動的近位マッピングモジュールであり、そのパラメータは推論段階で動的に調整でき、任意の撮像設定に適応させることができる。 実験の結果, dpunetは, サンプリング率やノイズレベルが異なる場合に, 1つのモデルで効率的に複数のcsiモダリティを処理でき, 最先端のアプローチよりも優れることがわかった。

Recovering an underlying image from under-sampled measurements, Compressive Sensing Imaging (CSI) is a challenging problem and has many practical applications. Recently, deep neural networks have been applied to this problem with promising results, owing to its implicitly learned prior to alleviate the ill-poseness of CSI. However, existing neural network approaches require separate models for each imaging parameter like sampling ratios, leading to training difficulties and overfitting to specific settings. In this paper, we present a dynamic proximal unrolling network (dubbed DPUNet), which can handle a variety of measurement matrices via one single model without retraining. Specifically, DPUNet can exploit both embedded physical model via gradient descent and imposing image prior with learned dynamic proximal mapping leading to joint reconstruction. A key component of DPUNet is a dynamic proximal mapping module, whose parameters can be dynamically adjusted at inference stage and make it adapt to any given imaging setting. Experimental results demonstrate that the proposed DPUNet can effectively handle multiple CSI modalities under varying sampling ratios and noise levels with only one model, and outperform the state-of-the-art approaches.
翻訳日:2021-07-26 13:47:30 公開日:2021-07-23
# 不完全画像からの階層的形状知覚ネットワークによる3次元脳再構成

3D Brain Reconstruction by Hierarchical Shape-Perception Network from a Single Incomplete Image ( http://arxiv.org/abs/2107.11010v1 )

ライセンス: Link先を確認
Bowen Hu, Baiying Lei, Yong Liu, Min Gan, Bingchuan Wang, Shuqiang Wang(参考訳) 3次元形状復元は,手術環境が間接的かつ狭く,手術臓器の3次元形状を限られた2次元情報で再構築することに焦点を当てた,最小侵襲かつ自己誘導型手術のナビゲーションに不可欠である。 しかし, 術中の緊急時(出血など)やリスク管理条件による情報の欠如や不完全性は考慮されていない。 本稿では,新しい階層型形状知覚ネットワーク(HSPN)を提案し,低レイテンシで1つの不完全な画像から特定の脳の3次元点雲(PC)を再構成する。 木構造予測器と複数の階層的な注目パイプラインを構築し、不完全な画像を正確に記述した点雲を生成し、高品質な点雲を完成させる。 一方、アテンションゲートブロック(agbs)は階層的アテンションパイプラインによって伝達される不完全なpcの幾何学的局所的特徴と再構成点雲の内部的特徴を効率的に集約するように設計されている。 提案したHSPNでは、3次元形状知覚と完成が自然に達成される。 Chamfer 距離と PC-to-PC 誤差によって測定された総合的な結果から,提案した HSPN の性能は,定性的表示,定量的実験,分類評価の点で,他の競合手法よりも優れていることが示された。

3D shape reconstruction is essential in the navigation of minimally-invasive and auto robot-guided surgeries whose operating environments are indirect and narrow, and there have been some works that focused on reconstructing the 3D shape of the surgical organ through limited 2D information available. However, the lack and incompleteness of such information caused by intraoperative emergencies (such as bleeding) and risk control conditions have not been considered. In this paper, a novel hierarchical shape-perception network (HSPN) is proposed to reconstruct the 3D point clouds (PCs) of specific brains from one single incomplete image with low latency. A tree-structured predictor and several hierarchical attention pipelines are constructed to generate point clouds that accurately describe the incomplete images and then complete these point clouds with high quality. Meanwhile, attention gate blocks (AGBs) are designed to efficiently aggregate geometric local features of incomplete PCs transmitted by hierarchical attention pipelines and internal features of reconstructing point clouds. With the proposed HSPN, 3D shape perception and completion can be achieved spontaneously. Comprehensive results measured by Chamfer distance and PC-to-PC error demonstrate that the performance of the proposed HSPN outperforms other competitive methods in terms of qualitative displays, quantitative experiment, and classification evaluation.
翻訳日:2021-07-26 13:47:09 公開日:2021-07-23
# WaveFill: 画像描画のためのウェーブレットベースの生成ネットワーク

WaveFill: A Wavelet-based Generation Network for Image Inpainting ( http://arxiv.org/abs/2107.11027v1 )

ライセンス: Link先を確認
Yingchen Yu, Fangneng Zhan, Shijian Lu, Jianxiong Pan, Feiying Ma, Xuansong Xie, Chunyan Miao(参考訳) image inpaintingは、画像の欠落または破損した領域をリアルなコンテンツで完成することを目的としている。 一般的なアプローチは、生成的逆ネットワークを用いて、再構成と知覚的品質のハイブリッドな目標を採用する。 しかし、レコンストラクションの損失と敵対的損失は、異なる周波数のコンテンツを合成し、単純にそれらを組み合わせることで、しばしば周波数間の衝突と、妥協されたインペインティングを引き起こす。 本稿では,複数の周波数帯域に分割し,各周波数帯域の欠落領域を別々かつ明示的に埋めるウェーブレットベースのインパインティングネットワークであるWaveFillを提案する。 WaveFillは空間情報を自然に保存する離散ウェーブレット変換(DWT)を用いて画像を分解する。 分解された低周波帯域に対するl1再構成損失と高周波帯域への逆損失を応用し、空間領域での画像を完了しながら、効果的に周波数間衝突を緩和する。 異なる周波数帯域における不整合と異なる統計量を持つヒューズ特徴に対処するため、マルチ周波数特徴を効果的に調整・融合する新しい正規化スキームを設計する。 複数のデータセットに対する大規模な実験により、WaveFillは質的かつ定量的に優れた画像インライン化を実現している。

Image inpainting aims to complete the missing or corrupted regions of images with realistic contents. The prevalent approaches adopt a hybrid objective of reconstruction and perceptual quality by using generative adversarial networks. However, the reconstruction loss and adversarial loss focus on synthesizing contents of different frequencies and simply applying them together often leads to inter-frequency conflicts and compromised inpainting. This paper presents WaveFill, a wavelet-based inpainting network that decomposes images into multiple frequency bands and fills the missing regions in each frequency band separately and explicitly. WaveFill decomposes images by using discrete wavelet transform (DWT) that preserves spatial information naturally. It applies L1 reconstruction loss to the decomposed low-frequency bands and adversarial loss to high-frequency bands, hence effectively mitigate inter-frequency conflicts while completing images in spatial domain. To address the inpainting inconsistency in different frequency bands and fuse features with distinct statistics, we design a novel normalization scheme that aligns and fuses the multi-frequency features effectively. Extensive experiments over multiple datasets show that WaveFill achieves superior image inpainting qualitatively and quantitatively.
翻訳日:2021-07-26 13:46:48 公開日:2021-07-23
# (参考訳) HARP-Net: スケーラブルなニューラルオーディオ符号化のための超自動再構成プロパゲーション

HARP-Net: Hyper-Autoencoded Reconstruction Propagation for Scalable Neural Audio Coding ( http://arxiv.org/abs/2107.10843v2 )

ライセンス: CC BY 4.0
Darius Petermann, Seungkwon Beack, Minje Kim(参考訳) オートエンコーダベースのコーデックは、そのボトルネック層の活性化をビットストリングに変換するために量子化を利用する。 この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。 ミラー化された自己エンコーダトポロジーでは、デコーダ層はその対応するエンコーダ層の中間特徴表現を再構成する。 これにより、対応するエンコーダ層から直接伝播する付加情報が復元に役立つ。 我々はこのようなスキップ接続を追加のオートエンコーダで実装し、それぞれがペアのエンコーダ-デコーダ層間の大量のデータ転送を圧縮する小さなコーデックである。 提案するハイパーオートコーディングアーキテクチャは,通常のオートエンコーダベースラインに比べて知覚音質の向上を実証的に検証する。

An autoencoder-based codec employs quantization to turn its bottleneck layer activation into bitstrings, a process that hinders information flow between the encoder and decoder parts. To circumvent this issue, we employ additional skip connections between the corresponding pair of encoder-decoder layers. The assumption is that, in a mirrored autoencoder topology, a decoder layer reconstructs the intermediate feature representation of its corresponding encoder layer. Hence, any additional information directly propagated from the corresponding encoder layer helps the reconstruction. We implement this kind of skip connections in the form of additional autoencoders, each of which is a small codec that compresses the massive data transfer between the paired encoder-decoder layers. We empirically verify that the proposed hyper-autoencoded architecture improves perceptual audio quality compared to an ordinary autoencoder baseline.
翻訳日:2021-07-26 11:07:46 公開日:2021-07-23
# 内蔵モーションセンサを用いたカメラプロトコルによる認証の改善:深層学習ソリューション

Improving the Authentication with Built-in Camera Protocol Using Built-in Motion Sensors: A Deep Learning Solution ( http://arxiv.org/abs/2107.10536v2 )

ライセンス: Link先を確認
Cezara Benegui, Radu Tudor Ionescu(参考訳) 組込みカメラ(ABC)プロトコルの強化版として,組込みモーションセンサを用いた深層学習ソリューションを提案する。 標準ABCプロトコルは、QRコードに基づくメタ情報も考慮しながら、カメラセンサの光応答非均一性(PRNU)に基づいてモバイルデバイスを識別する。 認証の間、ユーザーは画面に2つのQRコードを含む2つの写真を撮る必要がある。 提示されたqrコード画像は、プロトコルによって生成されたカメラ指紋に似たユニークなプローブ信号も含む。 検証中、サーバは受信した写真の指紋を算出し、(i)プローブ信号が存在する場合、(ii)QRコードに埋め込まれたメタデータが正しく、(iii)カメラ指紋が正しく識別されている場合、ユーザを認証する。 しかし、このプロトコルは、攻撃者が外部写真からカメラの指紋を計算できる場合の偽造攻撃に対して脆弱である。 本稿では,動きセンサデータに基づくabcプロトコルの付加的および受動的認証層としての拡張を提案する。 スマートフォンは、写真とは異なり、ソーシャルメディアプラットフォーム上ではユーザーによって投稿されないモーションセンサーデータによって識別できるため、写真のみを使用するよりも安全である。 この目的のために、我々は動き信号をディープニューラルネットワークが生成する埋め込みベクトルに変換し、スマートフォン識別タスクにサポートベクターマシンを適用する。 abcプロトコルの変更により、前回の作業で提案された攻撃に対する偽の受け入れ率を0.07%まで低下させるマルチモーダルプロトコルが実現しました。

We propose an enhanced version of the Authentication with Built-in Camera (ABC) protocol by employing a deep learning solution based on built-in motion sensors. The standard ABC protocol identifies mobile devices based on the photo-response non-uniformity (PRNU) of the camera sensor, while also considering QR-code-based meta-information. During authentication, the user is required to take two photos that contain two QR codes presented on a screen. The presented QR code images also contain a unique probe signal, similar to a camera fingerprint, generated by the protocol. During verification, the server computes the fingerprint of the received photos and authenticates the user if (i) the probe signal is present, (ii) the metadata embedded in the QR codes is correct and (iii) the camera fingerprint is identified correctly. However, the protocol is vulnerable to forgery attacks when the attacker can compute the camera fingerprint from external photos, as shown in our preliminary work. In this context, we propose an enhancement for the ABC protocol based on motion sensor data, as an additional and passive authentication layer. Smartphones can be identified through their motion sensor data, which, unlike photos, is never posted by users on social media platforms, thus being more secure than using photographs alone. To this end, we transform motion signals into embedding vectors produced by deep neural networks, applying Support Vector Machines for the smartphone identification task. Our change to the ABC protocol results in a multi-modal protocol that lowers the false acceptance rate for the attack proposed in our previous work to a percentage as low as 0.07%.
翻訳日:2021-07-26 11:02:17 公開日:2021-07-23
# MobileCharger:ロバストで安全な充電のための逆デルタアクチュエータを備えた自律移動ロボット

MobileCharger: an Autonomous Mobile Robot with Inverted Delta Actuator for Robust and Safe Robot Charging ( http://arxiv.org/abs/2107.10585v2 )

ライセンス: Link先を確認
Iaroslav Okunevich, Daria Trinitatova, Pavel Kopanev, and Dzmitry Tsetserukou(参考訳) MobileChargerは、2つの移動ロボット間の安全で堅牢なエネルギー伝達のための逆デルタアクチュエータを備えた、新しいモバイル充電ロボットである。 rgb-dカメラベースのコンピュータビジョンシステムは、畳み込みニューラルネットワーク(cnn)を使用してターゲット移動ロボットの電極を検出することができる。 埋込高密度触覚センサを適用して、接触面の圧力データに基づいて、充電器機構上の電極とCNNを用いたメインロボット上の電極とのずれを推定する。 これにより、アクチュエータの終端エフェクタの正確な位置決めが可能となり、2つのロボットの電極間の信頼性の高い接続が保証される。 実験の結果,CNNを用いた電極検出では,高い平均精度 (84.2%) を示した。 cnnベースの電極探索アルゴリズムの試験成功率は83%に達し、平均実行時間は60秒であった。

MobileCharger is a novel mobile charging robot with an Inverted Delta actuator for safe and robust energy transfer between two mobile robots. The RGB-D camera-based computer vision system allows to detect the electrodes on the target mobile robot using a convolutional neural network (CNN). The embedded high-fidelity tactile sensors are applied to estimate the misalignment between the electrodes on the charger mechanism and the electrodes on the main robot using CNN based on pressure data on the contact surfaces. Thus, the developed vision-tactile perception system allows precise positioning of the end effector of the actuator and ensures a reliable connection between the electrodes of the two robots. The experimental results showed high average precision (84.2%) for electrode detection using CNN. The percentage of successful trials of the CNN-based electrode search algorithm reached 83% and the average execution time accounted for 60 s. MobileCharger could introduce a new level of charging systems and increase the prevalence of autonomous mobile robots.
翻訳日:2021-07-26 11:01:51 公開日:2021-07-23
# starganv2-vc:自然音声変換のための多様な教師なし非並列フレームワーク

StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion ( http://arxiv.org/abs/2107.10394v2 )

ライセンス: Link先を確認
Yinghao Aaron Li, Ali Zare, Nima Mesgarani(参考訳) 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた非並列多人数音声変換手法を提案する。 逆方向のソース分類器の損失と知覚的損失の組み合わせにより、我々のモデルは従来のVCモデルよりも大幅に優れていた。 我々のモデルは、20人の英語話者でしか訓練されていないが、任意の対多、多言語、歌唱変換など、様々な音声変換タスクに一般化されている。 また, スタイルエンコーダを用いて, 平易な読み上げ音声を, 情緒的, 虚偽的音声などのスタイリスティックな音声に変換する。 非並列多言語音声変換タスクの主観的および客観的評価実験により,テキストラベルを必要とせずに,TTSに基づく音声変換手法の音質に近い自然な音声を生成できることが明らかになった。 さらに,本モデルは完全に畳み込み型であり,Parallel WaveGANのような高速なボコーダでリアルタイム音声変換を行うことができる。

We present an unsupervised non-parallel many-to-many voice conversion (VC) method using a generative adversarial network (GAN) called StarGAN v2. Using a combination of adversarial source classifier loss and perceptual loss, our model significantly outperforms previous VC models. Although our model is trained only with 20 English speakers, it generalizes to a variety of voice conversion tasks, such as any-to-many, cross-lingual, and singing conversion. Using a style encoder, our framework can also convert plain reading speech into stylistic speech, such as emotional and falsetto speech. Subjective and objective evaluation experiments on a non-parallel many-to-many voice conversion task revealed that our model produces natural sounding voices, close to the sound quality of state-of-the-art text-to-speech (TTS) based voice conversion methods without the need for text labels. Moreover, our model is completely convolutional and with a faster-than-real-time vocoder such as Parallel WaveGAN can perform real-time voice conversion.
翻訳日:2021-07-26 11:01:38 公開日:2021-07-23
# 再同定のためのポーズに基づくコピー・ペースト法

Copy and Paste method based on Pose for Re-identification ( http://arxiv.org/abs/2107.10479v2 )

ライセンス: Link先を確認
Cheng Yang(参考訳) ReID(Re-identification)は、異なる視点で監視カメラ内のオブジェクトをマッチングすることを目的としている。 非常に高速に開発されていますが、この段階では複数のシナリオでReIDタスクの処理方法はありません。 しかし、この用量は、セキュリティシナリオなど、実生活において常に発生する。 本稿では,視点,背景,ポーズ(歩行やサイクリング)が異なる再同定の新しいシナリオについて検討する。 もちろん、通常のReID処理方法は、このシナリオをうまく扱えない。 誰もが知っているように、このスキャナリオに画像データセットを導入することが最善の方法ですが、これは非常に高価です。 そこで本稿では,新たなシナリオにおいて,ポーズ(cpp)に基づくコピー&ペースト法という,簡易かつ効果的な画像生成手法を提案する。 CPPは、2つの異なるセマンティックイメージデータセットに新しいセマンティックイメージデータセットを合成するために、コピーとペーストを使用したキーポイント検出に基づく手法である。 例えば、歩行者や自転車を使って、同じ人が異なる自転車に乗っていることを示す画像を生成することができます。 cppは新しいシナリオでのreidタスクに適しており、オリジナルのreidタスクのオリジナルのデータセットの最先端を上回っている。 具体的には、サードパーティの公開データセットの一般化パフォーマンスも向上する。 CPPで合成されたコードとデータセットは将来的に利用可能になる。

Re-identification (ReID) aims at matching objects in surveillance cameras with different viewpoints. It's developing very fast, but there is no processing method for the ReID task in multiple scenarios at this stage. However, this dose happen all the time in real life, such as the security scenarios. This paper explores a new scenario of Re-identification, which differs in perspective, background, and pose(walking or cycling). Obviously, ordinary ReID processing methods cannot handle this scenario well. As we all know, the best way to deal with that it is to introduce image datasets in this scanario, But this one is very expensive. To solve this problem, this paper proposes a simple and effective way to generate images in some new scenario, which is named Copy and Paste method based on Pose(CPP). The CPP is a method based on key point detection, using copy and paste, to composite a new semantic image dataset in two different semantic image datasets. Such as, we can use pedestrians and bicycles to generate some images that shows the same person rides on different bicycles. The CPP is suitable for ReID tasks in new scenarios and it outperforms state-of-the-art on the original datasets in original ReID tasks. Specifically, it can also have better generalization performance for third-party public datasets. Code and Datasets which composited by the CPP will be available in the future.
翻訳日:2021-07-26 11:01:18 公開日:2021-07-23
# 凸最適化のためのニューラル固定点加速

Neural Fixed-Point Acceleration for Convex Optimization ( http://arxiv.org/abs/2107.10254v2 )

ライセンス: Link先を確認
Shobha Venkataraman, Brandon Amos(参考訳) 固定点反復は数値計算の中心であり、適度な精度の高速解を必要とするリアルタイムアプリケーションでは、しばしば計算ボトルネックとなる。 本研究では,メタ学習法と古典的加速度法を組み合わせたニューラル不動点加速度法を提案し,分布から引き出される不動点問題を自動学習する。 我々は,convex coneプログラミングの最先端解法であるscsと設計モデルと損失関数に適用し,未熟な最適化と高速化の不安定性よりも学習の課題を克服した。 我々の研究は、CVXPYで表現可能な最適化問題に神経加速度をもたらす。 この論文のソースコードはhttps://github.com/facebookresearch/neural-scsで入手できる。

Fixed-point iterations are at the heart of numerical computing and are often a computational bottleneck in real-time applications that typically need a fast solution of moderate accuracy. We present neural fixed-point acceleration which combines ideas from meta-learning and classical acceleration methods to automatically learn to accelerate fixed-point problems that are drawn from a distribution. We apply our framework to SCS, the state-of-the-art solver for convex cone programming, and design models and loss functions to overcome the challenges of learning over unrolled optimization and acceleration instabilities. Our work brings neural acceleration into any optimization problem expressible with CVXPY. The source code behind this paper is available at https://github.com/facebookresearch/neural-scs
翻訳日:2021-07-26 11:00:57 公開日:2021-07-23
# AnonySIGN:手話ビデオ匿名化のための新しい人間の外観合成

AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video Anonymisation ( http://arxiv.org/abs/2107.10685v2 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 手話データの視覚的匿名化は、大規模なデータセット収集によって引き起こされるプライバシー問題に対処するための重要なタスクである。 従来の匿名化技術は、手話理解に大きく影響したか、あるいは手作業、労働集約的な作業を必要とした。 本稿では,手話映像の視覚的外観を匿名化するための自動的手法として手話映像匿名化(slva)の課題を,手話映像の本来の意味を保ちながら正式に紹介する。 SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。 まず、元のシグナの外観を除去するために、ソースビデオからポーズ情報を抽出する。 次に、条件付き可変オートエンコーダフレームワークにおける画像から画像への変換手法を用いて、ポーズシーケンスから新しい外観の写実的な手話ビデオを生成する。 近い後部スタイルの分布を学習し、新しい人間の外観を合成するためにサンプリングすることができる。 さらに,匿名化した手話ビデオにおけるスタイル一貫性を保証する,新しい \textit{style loss}を提案する。 SLVAタスクにおける AnonySign を定量的および定性的な実験により評価し,新しい人間の外見合成の現実性と匿名性を強調した。 さらに、SLVAタスクの評価基準として匿名知覚研究を定式化し、AnonySignを用いたビデオ匿名化が元の手話の内容を保持することを示す。

The visual anonymisation of sign language data is an essential task to address privacy concerns raised by large-scale dataset collection. Previous anonymisation techniques have either significantly affected sign comprehension or required manual, labour-intensive work. In this paper, we formally introduce the task of Sign Language Video Anonymisation (SLVA) as an automatic method to anonymise the visual appearance of a sign language video whilst retaining the meaning of the original sign language sequence. To tackle SLVA, we propose AnonySign, a novel automatic approach for visual anonymisation of sign language data. We first extract pose information from the source video to remove the original signer appearance. We next generate a photo-realistic sign language video of a novel appearance from the pose sequence, using image-to-image translation methods in a conditional variational autoencoder framework. An approximate posterior style distribution is learnt, which can be sampled from to synthesise novel human appearances. In addition, we propose a novel \textit{style loss} that ensures style consistency in the anonymised sign language videos. We evaluate AnonySign for the SLVA task with extensive quantitative and qualitative experiments highlighting both realism and anonymity of our novel human appearance synthesis. In addition, we formalise an anonymity perceptual study as an evaluation criteria for the SLVA task and showcase that video anonymisation using AnonySign retains the original sign language content.
翻訳日:2021-07-26 11:00:45 公開日:2021-07-23