このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201110となっている論文です。

PDF登録状況(公開日: 20201110)

TitleAuthorsAbstract論文公表日・翻訳日
# サブセットサムのための古典的および量子的アルゴリズムの改良

Improved Classical and Quantum Algorithms for Subset-Sum ( http://arxiv.org/abs/2002.05276v4 )

ライセンス: Link先を確認
Xavier Bonnetain, R\'emi Bricout, Andr\'e Schrottenloher, Yixin Shen(参考訳) ランダムなサブセットサムを解くための古典的および量子的アルゴリズムを提案する。 まず、becker-coron-jouxアルゴリズム(eurocrypt 2011)を$\tilde{\mathcal{o}}(2^{0.291n})$から$\tilde{\mathcal{o}}(2^{0.283n})$に改善し、$\{-1,0,1,2\}$の値を持つより一般的な表現を用いる。 次に,この問題に対する量子アルゴリズム技術の現状を,いくつかの方向に改善する。 Howgrave-Graham-Jouxアルゴリズム(EUROCRYPT 2010)と量子探索を組み合わせることで、Bernstein, Jeffery, Lange and Meurer (PQCRYPTO 2013) が提案したのと同じ古典的アルゴリズムに基づいて、量子ウォークのコストよりも低い、漸近コスト$\tilde{\mathcal{O}}(2^{0.236 n})$のアルゴリズムを考案する。 このアルゴリズムは量子ランダムアクセスで \emph{classical} メモリを使用する利点があり、以前に知られていたアルゴリズムは量子ウォークフレームワークを使用しており、量子ランダムアクセスで \emph{quantum} メモリを必要とする。 また, helm と may (tqc 2018) によって与えられた $\tilde{\mathcal{o}}(2^{0.226n})$ の以前の最高時間複雑性よりも優れた量子ウォークを提案する。 新しいテクニックを組み合わせて、$\tilde{\mathcal{O}}(2^{0.216 n})$に到達します。 この時間は、ヘルムとメイによって定式化された量子ウォーク更新のヒューリスティックに依存する。 このヒューリスティックを部分的に克服する方法を示し、標準の古典的な部分和ヒューリスティックのみを必要とする量子時間$\tilde{\mathcal{o}}(2^{0.218n})のアルゴリズムを得る。

We present new classical and quantum algorithms for solving random subset-sum instances. First, we improve over the Becker-Coron-Joux algorithm (EUROCRYPT 2011) from $\tilde{\mathcal{O}}(2^{0.291 n})$ downto $\tilde{\mathcal{O}}(2^{0.283 n})$, using more general representations with values in $\{-1,0,1,2\}$. Next, we improve the state of the art of quantum algorithms for this problem in several directions. By combining the Howgrave-Graham-Joux algorithm (EUROCRYPT 2010) and quantum search, we devise an algorithm with asymptotic cost $\tilde{\mathcal{O}}(2^{0.236 n})$, lower than the cost of the quantum walk based on the same classical algorithm proposed by Bernstein, Jeffery, Lange and Meurer (PQCRYPTO 2013). This algorithm has the advantage of using \emph{classical} memory with quantum random access, while the previously known algorithms used the quantum walk framework, and required \emph{quantum} memory with quantum random access. We also propose new quantum walks for subset-sum, performing better than the previous best time complexity of $\tilde{\mathcal{O}}(2^{0.226 n})$ given by Helm and May (TQC 2018). We combine our new techniques to reach a time $\tilde{\mathcal{O}}(2^{0.216 n})$. This time is dependent on a heuristic on quantum walk updates, formalized by Helm and May, that is also required by the previous algorithms. We show how to partially overcome this heuristic, and we obtain an algorithm with quantum time $\tilde{\mathcal{O}}(2^{0.218 n})$ requiring only the standard classical subset-sum heuristics.
翻訳日:2023-06-03 21:17:42 公開日:2020-11-10
# 一般化Rabiモデルにおける多光子共鳴とキラル輸送

Multiphoton resonance and chiral transport in the generalized Rabi model ( http://arxiv.org/abs/2004.02283v2 )

ライセンス: Link先を確認
Ken K. W. Ma(参考訳) 1光子結合項と2光子結合項の両方を持つ一般化rabiモデル(grm)は、回路量子電磁力学系でうまく実装されている。 本稿では,GRMにおける理論的多光子共鳴を考察し,その有効ハミルトニアンを導出する。 システム内の異なるデチューニングにより、3〜6光子共鳴は全て、2つの中間状態を含むことにより達成できることを示す。 さらに、時間反転対称性を破った共振器接合における光子フォック状態の多重光子共鳴とキラル輸送の相互作用について検討した。 量子-光子相互作用と光子ホッピング振幅によって、システムは異なる短時間ダイナミクスを示すことができる。

The generalized Rabi model (gRM) with both one- and two-photon coupling terms has been successfully implemented in circuit quantum electrodynamics systems. In this paper, we examine theoretically multiphoton resonances in the gRM and derive their effective Hamiltonians. With different detunings in the system, we show that all three- to six-photon resonances can be achieved by involving two intermediate states. Furthermore, we study the interplay between multiphoton resonance and chiral transport of photon Fock states in a resonator junction with broken time-reversal symmetry. Depending on the qubit-photon interaction and photon-hopping amplitude, we find that the system can demonstrate different short-time dynamics.
翻訳日:2023-05-26 08:26:07 公開日:2020-11-10
# パラメトリファイド量子光回路の高速最適化

Fast optimization of parametrized quantum optical circuits ( http://arxiv.org/abs/2004.11002v5 )

ライセンス: Link先を確認
Filippo M. Miatto and Nicol\'as Quesada(参考訳) パラメタライズド量子光学回路は、量子情報のキャリアが光子であり、ゲートが光変換される量子回路の一種である。 これらの回路を古典的に最適化することは、各光モードに付随する光子数ベクトル空間の無限次元性のため困難である。 空間次元の切断は避けられず、ゲートがカットオフを超える光子数状態を持つ場合、誤った結果をもたらす可能性がある。 この問題に対処するために,ガウス作用素の正確な行列要素とその勾配をパラメータ化に関して再帰的に計算するアルゴリズムを提案する。 これらの作用素は、ケーラーゲートのような非ガウス変換で拡張されると、普遍的な量子計算を達成する。 第一に、ガウス作用素の行列要素を直接計算することで、他の複数の演算子を組み合わせることでそれらを構築する必要はなく、第二に、勾配をtensorflowやpytorchのような自動微分フレームワークにプラグインすることで、勾配降下アルゴリズムの任意の変種を使うことができる。 結果は、量子光学ハードウェア研究、量子機械学習、光データ処理、デバイス発見、デバイス設計に応用される。

Parametrized quantum optical circuits are a class of quantum circuits in which the carriers of quantum information are photons and the gates are optical transformations. Classically optimizing these circuits is challenging due to the infinite dimensionality of the photon number vector space that is associated to each optical mode. Truncating the space dimension is unavoidable, and it can lead to incorrect results if the gates populate photon number states beyond the cutoff. To tackle this issue, we present an algorithm that is orders of magnitude faster than the current state of the art, to recursively compute the exact matrix elements of Gaussian operators and their gradient with respect to a parametrization. These operators, when augmented with a non-Gaussian transformation such as the Kerr gate, achieve universal quantum computation. Our approach brings two advantages: first, by computing the matrix elements of Gaussian operators directly, we don't need to construct them by combining several other operators; second, we can use any variant of the gradient descent algorithm by plugging our gradients into an automatic differentiation framework such as TensorFlow or PyTorch. Our results will find applications in quantum optical hardware research, quantum machine learning, optical data processing, device discovery and device design.
翻訳日:2023-05-22 08:33:35 公開日:2020-11-10
# 初期収縮状態との物質-波二重スリット干渉における外界視界からの非現実性

Irrealism from fringe visibility in matter-wave double-slit interference with initial contractive states ( http://arxiv.org/abs/2004.13773v2 )

ライセンス: Link先を確認
F. R. Lustosa, P. R. Dieguez, I. G. da Paz(参考訳) アインシュタイン、ポドスカルキー、ローゼンによって作られた現実の要素は、量子相関の概念と物理リアリズムに関する一連の基本的な議論を推進した。 物質波による二重スリット実験に適用される重ね合わせ原理は、量子領域における物理実在論の採用に関する批判的レビューの必要性を浮き彫りにしている。 本研究では, 粒子の位置と運動量変数が最初に相関する二重スリット構成において, 物理的不連続性の尺度を用いて初期収縮状態を考える。 非現実主義の挙動は,物質波を伴う二重スリット系における干渉パターン,波状および粒子状特性に関する情報を得るのにどのように役立つかを検討する。 非現実主義を最小化する伝播時間が存在することが判明し、この時点では標準ガウスの重ね合わせと比較して検出画面の状態は位置と運動量で圧迫される。 興味深いことに、最大視認性と干渉フリンジの数は、非現実主義の最小と関係している。 さらに,同義語と最小時間付近の可視性との間には,単調な関係を示す。 次に,これらの結果を用いて位置変数の非現実性をフリンジ可視性から間接的に測定する方法について議論する。

The elements of reality coined by Einstein, Podoslky, and Rosen promoted a series of fundamental discussions involving the notion of quantum correlations and physical realism. The superposition principle applied in the double-slit experiment with matter waves highlights the need for a critical review of the adoption of physical realism in the quantum realm. In this work, we employ a measure of physical irrealism and consider an initial contractive state in the double-slit setup for which position and momentum variables of a single particle are initially correlated. We investigate how the behavior of the irrealism can help us to obtain information about the interference pattern, wavelike, and particle-like properties in the double-slit setup with matter waves. We find that there is a time of propagation that minimizes the irrealism, and around this point the state at the detection screen is squeezed in position and momentum in comparison with the standard Gaussian superposition. Interestingly, we show that the maximum visibility and the number of interference fringes are related to the minimum of the irrealism. Moreover, we demonstrate a monotonic relation between the irrealism and visibility around the time of minimum. Then, we argue how to use these results to indirectly measure the irrealism for position variable from the fringe visibility.
翻訳日:2023-05-21 21:32:01 公開日:2020-11-10
# 超流動薄膜表面波の極端量子非線形性

Extreme quantum nonlinearity in superfluid thin-film surface waves ( http://arxiv.org/abs/2005.13919v2 )

ライセンス: Link先を確認
Yasmine L. Sfendla, Christopher G. Baker, Glen I. Harris, Lin Tian, Raymond A. Harrison and Warwick P. Bowen(参考訳) 超流動超流動膜は極めて非線形な機械共振器であり,機械的量子ビットの実現の可能性を示している。 具体的には,ファンデルワールスと基板との相互作用により非線形性が導入された3重音表面波について考察する。 これらの波をディスクに閉じ込めることにより、立方体および四次非線形性の解析式を導出し、それらが導入する共鳴周波数シフトを決定する。 我々は、現在最先端の非線形共振器より3桁大きい単フォノンシフトを予測する。 超流動ヘリウムの極低発散と高音速結晶空洞の音響放射損失の強い抑制と組み合わせることで、フォノン間の遮断相互作用と2レベル系のような挙動が可能であることを予測した。 本研究は、機械共振器を量子ビットとして使用する量子デバイスに対して、極端に機械的非線形性へ向けた新しい経路を提供する。

We show that highly confined superfluid films are extremely nonlinear mechanical resonators, offering the prospect to realize a mechanical qubit. Specifically, we consider third-sound surface waves, with nonlinearities introduced by the van der Waals interaction with the substrate. Confining these waves to a disk, we derive analytic expressions for the cubic and quartic nonlinearities and determine the resonance frequency shifts they introduce. We predict single-phonon shifts that are three orders of magnitude larger than in current state-of-the-art nonlinear resonators. Combined with the exquisitely low intrinsic dissipation of superfluid helium and the strongly suppressed acoustic radiation loss in phononic crystal cavities, we predict that this could allow blockade interactions between phonons as well as two-level-system-like behavior. Our work provides a new pathway towards extreme mechanical nonlinearities, and towards quantum devices that use mechanical resonators as qubits.
翻訳日:2023-05-18 02:59:29 公開日:2020-11-10
# 弱コヒーレントパルスを用いたマルチパーティ量子フィンガープリント:回路設計とプロトコル解析

Multi-party quantum fingerprinting with weak coherent pulses: circuit design and protocol analysis ( http://arxiv.org/abs/2006.00708v2 )

ライセンス: Link先を確認
Hip\'olito G\'omez-Sousa(参考訳) 量子通信は多くの顕著な理論結果と物理実験の道のりを導いてきた。 この文脈において、量子通信複雑性(QCC)は、分散計算タスクを実装するのに必要な送信量子ビットとエネルギーの量を最適化するツールとして、最近真剣に研究されている。 本稿では,既存の技術で実装可能な新しいマルチユーザ量子フィンガープリントプロトコルを提案する。 特に,よく知られた2ユーザコヒーレント状態フィンガープリントスキームをマルチユーザフレームワークに拡張する。 この一般化は、2つの理由により非常に非自明であり、プロトコル規則のセットを拡張するだけでなく、一般化プロトコルを意図した光デバイスを設計する手順を指定する必要がある。 我々の研究の重要性の多くは、得られたQCCの数字が、コンピュータ技術やネットワークの分野において、最もよく知られている古典的マルチユーザーフィンガープリントプロトコルと直接比較できるという事実から生じる。 さらに,本原稿の主な貢献の1つとして,2ユーザプロトコルで有効な送信量子情報量に関する革新的な解析上の上限を,特定のケースとして推定する。 最終的に、異なるプロトコル実装戦略を対比するために比較結果が提供され、重要なことは、現実的な状況下では、マルチユーザプロトコルは古典的な通信だけでは不可能なタスクを達成可能であることを示すことである。 我々の研究は、量子フィンガープリントの性質と限界を理解するための関連する貢献と、より広い範囲において、同時に複数のユーザがアクセスするノードを受け入れる量子通信ネットワークの限界と可能性も提供する。

Quantum communication has been leading the way of many remarkable theoretical results and experimental tests in physics. In this context, quantum communication complexity (QCC) has recently drawn earnest research attention as a tool to optimize the amounts of transmitted qubits and energy that are required to implement distributed computational tasks. On this matter, we introduce a novel multi-user quantum fingerprinting protocol that is ready to be implemented with existing technology. Particularly, we extend to the multi-user framework a well-known two-user coherent-state fingerprinting scheme. This generalization is highly non-trivial for a twofold reason, as it requires not only to extend the set of protocol rules but also to specify a procedure for designing the optical devices intended for the generalized protocol. Much of the importance of our work arises from the fact that the obtained QCC figures of merit allow direct comparison with the best-known classical multi-user fingerprinting protocol, of significance in the field of computer technologies and networking. Furthermore, as one of the main contributions of the manuscript, we deduce innovative analytical upper bounds on the amount of transmitted quantum information that are even valid in the two-user protocol as a particular case. Ultimately, comparative results are provided to contrast different protocol implementation strategies and, importantly, to show that, under realistic circumstances, the multi-user protocol can achieve tasks that are impossible by using classical communication alone. Our work provides relevant contributions towards understanding the nature and the limitations of quantum fingerprinting and, on a broader scope, also the limitations and possibilities of quantum-communication networks embracing a node that is accessed by multiple users at the same time.
翻訳日:2023-05-17 11:37:35 公開日:2020-11-10
# 巨大原子間のデコヒーレンスフリーカップリング機構

Mechanism of decoherence-free coupling between giant atoms ( http://arxiv.org/abs/2006.13940v2 )

ライセンス: Link先を確認
Angelo Carollo, Dario Cilluffo, Francesco Ciccarello(参考訳) 巨大原子は、通常の局所結合を超える量子光学の新しいパラダイムである。 これに基づいて、新しいタイプの非コヒーレンスフリー(DF)多体ハミルトンがブロードバンド導波路で示された。 ここでは、これらのスキームは(マスター方程式に依存しない)一般的な枠組みに組み込まれ、通常の原子を持つ分散DFハミルトニアンとは対照的である:この2つのスキームは、デコヒーレンスを抑制するために同じ一般的な条件に一致する定性的に異なる方法に対応することが示される。 次に、巨大原子のダイナミクスをカスケード衝突モデル(cm)にマッピングし、非自明なdfハミルトニアンとカップリングポイントトポロジーの間の接続を直感的に解釈する。 周期的な位相を受けるシャットリング系が原子間のDF結合を媒介するスキームを実装したブレイド構成を示す。 CMs理論の観点からは、アンシラがシステム上に最大に密接な2量子ゲートを効果的に配置する衝突モデルを示す。

Giant atoms are a new paradigm of quantum optics going beyond the usual local coupling. Building on this, a new type of decoherence-free (DF) many-body Hamiltonians was shown in a broadband waveguide. Here, these are incorporated in a general framework (not relying on master equations) and contrasted to dispersive DF Hamiltonians with normal atoms: the two schemes are shown to correspond to qualitatively different ways to match the same general condition for suppressing decoherence. Next, we map the giant atoms dynamics into a cascaded collision model (CM), providing an intuitive interpretation of the connection between non-trivial DF Hamiltonians and coupling points topology. The braided configuration is shown to implement a scheme where a shuttling system subject to periodic phase kicks mediates a DF coupling between the atoms. From the viewpoint of CMs theory, this shows a collision model where ancillas effectively implement a dissipationless, maximally-entangling two-qubit gate on the system.
翻訳日:2023-05-12 22:16:50 公開日:2020-11-10
# 低温高Q共振器におけるエルビウムドーパタンのコヒーレントとパーセルによる放出

Coherent and Purcell-enhanced emission from erbium dopants in a cryogenic high-Q resonator ( http://arxiv.org/abs/2006.14229v2 )

ライセンス: Link先を確認
Benjamin Merkel, Alexander Ulanowski, Andreas Reiserer(参考訳) 配向されたホスト結晶におけるドーパントやその他の原子様欠陥の安定性と卓越したコヒーレンスにより、量子ネットワークにおける分散量子情報処理およびセンシングの実装において主要なプラットフォームとなる。 ナノスケール共振器と一体化することで、必要な効率の良い光-マターカップリングを実現することができるが、この方法では、最も感度の低いエミッタのコヒーレンスに界面の近接性は有害である。 Here, we establish an alternative: By integrating a 19 micrometer thin erbium-doped crystal into a cryogenic Fabry-Perot resonator with a quality factor of nine million, we can demonstrate 59(6)-fold enhancement of the emission rate, corresponding to a two-level Purcell factor of 530(50), while preserving lifetime-limited optical coherence up to 0.54(1) ms. With its emission at the minimal-loss wavelength of optical fibers and its outcoupling efficiency of 46(8) %, our system enables coherent and efficient nodes for long-distance quantum networks.

The stability and outstanding coherence of dopants and other atom-like defects in tailored host crystals make them a leading platform for the implementation of distributed quantum information processing and sensing in quantum networks. Albeit the required efficient light-matter coupling can be achieved via the integration into nanoscale resonators, in this approach the proximity of interfaces is detrimental to the coherence of even the least-sensitive emitters. Here, we establish an alternative: By integrating a 19 micrometer thin erbium-doped crystal into a cryogenic Fabry-Perot resonator with a quality factor of nine million, we can demonstrate 59(6)-fold enhancement of the emission rate, corresponding to a two-level Purcell factor of 530(50), while preserving lifetime-limited optical coherence up to 0.54(1) ms. With its emission at the minimal-loss wavelength of optical fibers and its outcoupling efficiency of 46(8) %, our system enables coherent and efficient nodes for long-distance quantum networks.
翻訳日:2023-05-12 20:15:43 公開日:2020-11-10
# 一次元ワイヤネットワーク上のエノンブレイディングの普遍的性質

Universal properties of anyon braiding on one-dimensional wire networks ( http://arxiv.org/abs/2007.01207v2 )

ライセンス: Link先を確認
Tomasz Maci\k{a}\.zek and Byung Hee An(参考訳) ワイヤネットワーク上のanyonが2dのanyonsと基本的に異なるブレイディング特性を持つことを実証する。 本分析では,ネットワーク上での非アーベルブレイディング動作について,予想外の多様性を示す。 ブレイディングの性格は、ネットワークの連結性と呼ばれる位相不変量に依存する。 最も顕著な結果の1つとして、モジュールネットワーク上の粒子は、異なるモジュール間を移動する際の統計特性を変化させることができる。 しかし、十分に接続されたネットワークはすでに2Dシステムのブレイディング特性を再現している。 私たちの分析は完全にトポロジカルで、任意のオンの物理的モデルに依存しません。

We demonstrate that anyons on wire networks have fundamentally different braiding properties than anyons in 2D. Our analysis reveals an unexpectedly wide variety of possible non-abelian braiding behaviours on networks. The character of braiding depends on the topological invariant called the connectedness of the network. As one of our most striking consequences, particles on modular networks can change their statistical properties when moving between different modules. However, sufficiently highly connected networks already reproduce braiding properties of 2D systems. Our analysis is fully topological and independent on the physical model of anyons.
翻訳日:2023-05-11 20:47:08 公開日:2020-11-10
# トポロジー効果を含む固体中のインセンスレーザー駆動電子動力学と高調波発生

Intense-laser driven electron dynamics and high-harmonic generation in solids including topological effects ( http://arxiv.org/abs/2007.13434v2 )

ライセンス: Link先を確認
Daniel Moos, Christoph J\"ur{\ss}, Dieter Bauer(参考訳) 任意の次元の単位セル当たり2つの格子点を有するバルク固体におけるレーザー駆動電子動力学と高調波発生の理論を定式化する。 強結合近似では、そのような固体は2\times 2$ Bloch-Hamiltoniansによって記述できる。 この理論は, 強結合, 双極子近似, 無視可能な原子価バンドの劣化以外の単純化は行わないため, 高調波発生におけるトポロジカル効果を完全に捉えることができる。 電子速度の明示的で解析的な式が与えられる。 例えば、この理論は強いレーザー場におけるsu-schrieffer-heeger chainとhaldaneモデルに適用される。

A theory for laser-driven electron dynamics and high-harmonic generation in bulk solids with two lattice sites per unit cell of arbitrary dimension is formulated. In tight-binding approximation, such solids can be described by $2\times 2$ Bloch-Hamiltonians. Our theory is able to fully capture topological effects in high-harmonic generation by such systems because no simplifications beyond tight-binding, dipole approximation, and negligible depletion of the valence band are made. An explicit, analytical expression for the electron velocity is given. Exemplarily, the theory is applied to the Su-Schrieffer-Heeger chain and the Haldane model in strong laser fields.
翻訳日:2023-05-08 02:48:33 公開日:2020-11-10
# トンネルから塔:Lie Algebrasとq変形Lie Algebrasの量子傷

From tunnels to towers: quantum scars from Lie Algebras and q-deformed Lie Algebras ( http://arxiv.org/abs/2007.16207v2 )

ライセンス: Link先を確認
Nicholas O'Dea, Fiona Burnell, Anushya Chandran, Vedika Khemani(参考訳) 固有状態熱化仮説に従わない不足した固有状態を持つ多体ハミルトニアンを得るための一般的な対称性に基づく枠組みを提案する。 我々のモデルは、非アベル的(あるいはq-変形された)対称性を持つ親ハミルトニアンから派生しており、固有スペクトルは、対称性の既約表現(`tunnels')として変換される退化多重体として構成される。 摂動の大きなクラスは対称性を損なうが、特定の低エンタングルメント状態の多重状態を保存し、傷跡の形で破れた対称性の「影」を持つ一般的な熱スペクトルを与える。 リー代数の生成元は、スカー状態の縮退性を持ち上げ、それらを等間隔の 'towers' へと促進するのに使用できる「スペクトル生成代数」を持つ。 我々のフレームワークは、傷跡を持ついくつかの既知のモデルに適用されるが、SU(3) や$q$-deformed SU(2) のような対称性の既約表現として変換される傷痕を持つ新しいモデルを導入し、この現象を裏付けるシステムの種類を著しく一般化する。 さらに、関連する対称性の既約表現では変換されないスカー状態を持つ一般化されたAKLTモデルの新しい例を示す。 これらは拡張対称性を持つ親ハミルトニアンから派生したもので、我々のフレームワークにAKLTのようなモデルをもたらす。

We present a general symmetry-based framework for obtaining many-body Hamiltonians with scarred eigenstates that do not obey the eigenstate thermalization hypothesis. Our models are derived from parent Hamiltonians with a non-Abelian (or q-deformed) symmetry, whose eigenspectra are organized as degenerate multiplets that transform as irreducible representations of the symmetry (`tunnels'). We show that large classes of perturbations break the symmetry, but in a manner that preserves a particular low-entanglement multiplet of states -- thereby giving generic, thermal spectra with a `shadow' of the broken symmetry in the form of scars. The generators of the Lie algebra furnish operators with `spectrum generating algebras' that can be used to lift the degeneracy of the scar states and promote them to equally spaced `towers'. Our framework applies to several known models with scars, but we also introduce new models with scars that transform as irreducible representations of symmetries such as SU(3) and $q$-deformed SU(2), significantly generalizing the types of systems known to harbor this phenomenon. Additionally, we present new examples of generalized AKLT models with scar states that do not transform in an irreducible representation of the relevant symmetry. These are derived from parent Hamiltonians with enhanced symmetries, and bring AKLT-like models into our framework.
翻訳日:2023-05-07 12:34:07 公開日:2020-11-10
# 量子論における時間発展と確率--ボルンの法則の中心的な役割

Time Evolution and Probability in Quantum Theory: The Central Role of Born's Rule ( http://arxiv.org/abs/2009.03435v3 )

ライセンス: Link先を確認
Stephen Bruce Sontz(参考訳) この論文では、条件付きおよび連続的な確率を含む量子事象の確率に対する時間依存一般化ボルンの規則を量子論の唯一の基本的な時間発展方程式として紹介する。 次に、これらの確率は状態や事象から計算され、相対的な観測周波数と比較される。 シュロディンガーの方程式は、私がシュロディンガーモデルと呼ぶ量子論の公理の1つのモデルにおいて依然として有効である。 しかし、シュロディンガーの方程式の役割は、一般化ボルンの規則によって与えられる確率の連続的時間的進化を計算するのに役立つため補助的である。 ハイゼンベルクモデルのような他のモデルでは補助方程式は全く異なるが、一般化されたボルンの規則は同一の式(共分散)であり、同じ結果(不変性)を与える。 また、シュロディンガー模型のいくつかの側面は同型ハイゼンベルクモデルには見出されておらず、したがって物理的な意味を持たない。 この例の1つは、量子状態の悪名高い崩壊である。 絡み合いのような他の量子現象は、不要な崩壊の概念に言及することなく、一般化されたボルンの規則の観点から容易に分析できる。 最後に、これはシュロディンガーの方程式の代わりに他の種類の補助方程式を持つ量子論の可能性をもたらし、その例が与えられる。 この論文を通して、リートモチーフは量子確率の中心的重要性であり、特に量子論における時間依存一般化ボルンの法則の単純化の役割が特に重要である。

In this treatise I introduce the time dependent Generalized Born's Rule for the probabilities of quantum events, including conditional and consecutive probabilities, as the unique fundamental time evolution equation of quantum theory. Then these probabilities, computed from states and events, are to be compared with relative frequencies of observations. Schrodinger's equation still is valid in one model of the axioms of quantum theory, which I call the Schrodinger model. However, the role of Schrodinger's equation is auxiliary, since it serves to help compute the continuous temporal evolution of the probabilities given by the Generalized Born's Rule. In other models, such as the Heisenberg model, the auxiliary equations are quite different, but the Generalized Born's Rule is the same formula (covariance) and gives the same results (invariance). Also some aspects of the Schrodinger model are not found in the isomorphic Heisenberg model, and they therefore do not have any physical significance. One example of this is the infamous collapse of the quantum state. Other quantum phenomena, such as entanglement, are easy to analyze in terms of the Generalized Born's Rule without any reference to the unnecessary concept of collapse. Finally, this leads to the possibility of quantum theory with other sorts of auxiliary equations instead of Schrodinger's equation, and examples of this are given. Throughout this treatise the leit motif is the central importance of quantum probability and most especially of the simplifying role of the time dependent Generalized Born's Rule in quantum theory.
翻訳日:2023-05-03 07:05:34 公開日:2020-11-10
# 接続モーメント展開を用いた量子シミュレーション

Quantum simulations employing connected moments expansions ( http://arxiv.org/abs/2009.05709v3 )

ライセンス: Link先を確認
Karol Kowalski, Bo Peng(参考訳) 量子コンピューティング(QC)のさらなる進歩は、ディープ回路やCNOTゲートの過剰使用を避ける多体モデルの実現に向けられている。 そこで我々は,有限次連結モーメント展開(CMX)と手頃な初期状態作成手順を用いたQC手法を開発した。 我々は、H2分子ポテンシャルエネルギー表面上の古典的なエミュレーションと、幅広い相関強度を持つアンダーソンモデルを通して、CMXの量子変種を用いるアプローチの性能を実証する。 その結果、我々のアプローチは堅牢で柔軟であることがわかった。 正確な解との良好な合意は、解離と強い相関限界でも維持できる。

Further advancement of quantum computing (QC) is contingent on enabling many-body models that avoid deep circuits and excessive use of CNOT gates. To this end, we develop a QC approach employing finite-order connected moment expansions (CMX) and affordable procedures for initial state preparation. We demonstrate the performance of our approach employing several quantum variants of CMX through the classical emulations on the H2 molecule potential energy surface and the Anderson model with a broad range of correlation strength. The results show that our approach is robust and flexible. Good agreements with exact solutions can be maintained even at the dissociation and strong correlation limits.
翻訳日:2023-05-02 10:49:37 公開日:2020-11-10
# 量子力学における変形形不変超ポテンシャルと$\hbar$のパワーの拡張

Deformed Shape Invariant Superpotentials in Quantum Mechanics and Expansions in Powers of $\hbar$ ( http://arxiv.org/abs/2009.14541v2 )

ライセンス: Link先を確認
C. Quesne(参考訳) 超対称量子力学において、ガンゴパダヤヤヤ(gangopadhyayaya)、マロ(mallow)およびそれらの同僚によって開発された、微分微分方程式である形状不変条件(shape invariance condition)を、変形した超対称量子力学において変形した形状不変ポテンシャルへと一般化することができる。 拡張法はいくつかの例によって説明され、$\hbar$-独立超ポテンシャルと$\hbar$-独立超ポテンシャルの両方に対応する。

We show that the method developed by Gangopadhyaya, Mallow, and their coworkers to deal with (translationally) shape invariant potentials in supersymmetric quantum mechanics and consisting in replacing the shape invariance condition, which is a difference-differential equation, by an infinite set of partial differential equations can be generalized to deformed shape invariant potentials in deformed supersymmetric quantum mechanics. The extended method is illustrated by several examples, corresponding both to $\hbar$-independent superpotentials and to a superpotential explicitly depending on $\hbar$.
翻訳日:2023-04-30 14:18:08 公開日:2020-11-10
# 定値因果順序をもつ一般測定における条件確率と干渉

Conditional probability and interferences in generalized measurements with or without definite causal order ( http://arxiv.org/abs/2010.00216v2 )

ライセンス: Link先を確認
Martino Trassinelli (INSP, INSP-E10)(参考訳) 一般化された測定理論の文脈では、グリーソン・ブッシュの定理は関連する確率関数の一意な形を保証する。 最近 フラットとアルで Phys A 96, 062125 (2017) では、L\ "uders" 則の導出と一般化(クラウス更新規則)により、その後の測定例が扱われている。 本稿では, 中間測定が2つの測定値(a or)の合成である場合の特別な場合について検討する。 b)因果順が定義されていない場合(a,b,b,及び a)。 いずれの場合も干渉効果が生じることがある。 我々は、関連する確率を一意に書くことはできず、その議論における分配的性質を当然とすることはできないことを示す。 2つの確率式はボルン則と古典確率に対応しており、それらは中間測定の確定結果を得る本質的可能性と関係している。 不定因果順の場合、因果不等式も導出される。 両症例のフロンティアは, おもちゃモデル, 移動ビームスプリッタ付きマッハツェンダー干渉計を用いた一般化計測の枠組みで検討した。

In the context of generalized measurement theory, the Gleason-Busch theorem assures the unique form of the associated probability function. Recently, in Flatt et al. Phys. Rev. A 96, 062125 (2017), the case of subsequent measurements has been treated, with the derivation of the L\"uders rule and its generalization (Kraus update rule). Here we investigate the special case of subsequent measurements where an intermediate measurement is a composition of two measurements (a or b) and the case where the causal order is not defined (a and b or b and a). In both cases interference effects can arise. We show that the associated probability cannot be written univocally, and the distributive property on its arguments cannot be taken for granted. The two probability expressions correspond to the Born rule and the classical probability; they are related to the intrinsic possibility of obtaining definite results for the intermediate measurement. For indefinite causal order, a causal inequality is also deduced. The frontier between the two cases is investigated in the framework of generalized measurements with a toy model, a Mach-Zehnder interferometer with a movable beam splitter.
翻訳日:2023-04-30 12:06:21 公開日:2020-11-10
# 絡み合いは監禁のプローブか?

Is entanglement a probe of confinement? ( http://arxiv.org/abs/2010.09392v2 )

ライセンス: Link先を確認
Niko Jokela, Javier G. Subils(参考訳) 3次元強結合ヤン・ミルズ・チャーン・シモンズ場理論の一パラメータ族における様々な絡み合い対策を,その双対超重力記述を用いて検討した。 この族における一般的な場の理論は質量ギャップを持つが、線形クォーク反クォークポテンシャルを持たない。 パラメータの2つの制限値に対して、理論は赤外における固定点か閉じた真空に流れる。 エンタングルメント対策は, 質量ギャップを持つ非畳み込み理論と, 結束理論を区別できないことを示す。 これは、大nでの絡み合いエントロピーの位相遷移は、理論における大きなスケールの存在によって引き起こされ、それ自体は閉じ込めの信号として捉えるべきではないという考えを支持する。 また,中間エネルギースケールにおける不定点付近を流れる流れを調べ,ホログラフィックの絡み合いエントロピー,相互情報,ストリップやディスクのf関数が様々なエネルギーの共形値に定量的に一致することを発見した。

We study various entanglement measures in a one-parameter family of three-dimensional, strongly coupled Yang-Mills-Chern-Simons field theories by means of their dual supergravity descriptions. A generic field theory in this family possesses a mass gap but does not have a linear quark-antiquark potential. For the two limiting values of the parameter, the theories flow either to a fixed point or to a confining vacuum in the infrared. We show that entanglement measures are unable to discriminate confining theories from non-confining ones with a mass gap. This lends support on the idea that the phase transition of entanglement entropy at large-N can be caused just by the presence of a sizable scale in a theory and just by itself should not be taken as a signal of confinement. We also examine flows passing close to a fixed point at intermediate energy scales and find that the holographic entanglement entropy, the mutual information, and the F-functions for strips and disks quantitatively match the conformal values for a range of energies.
翻訳日:2023-04-28 08:10:38 公開日:2020-11-10
# 自由電子による光コヒーレンス移動

Optical coherence transfer mediated by free electrons ( http://arxiv.org/abs/2010.14948v2 )

ライセンス: Link先を確認
Ofer Kfir, Valerio Di Giulio, F. Javier Garc\'ia de Abajo and Claus Ropers(参考訳) 時間変調電子ビームで生成したカソードルミネッセンス(CL)発光の量子コヒーレンス特性を理論的に検討した。 具体的には、以前にレーザー場によって形成された電子からのclの量子光学相関を考える。 ここでの主な予測は、放出されたCL磁場と電子変調レーザーの位相相関の存在であり、発光強度とスペクトルプロファイルは電子状態とは独立である。 さらに、CL磁場のコヒーレンスは、レーザー周波数の高調波にまで拡張される。 電子ビームは1アングストローム以下に集中することができるため、光コヒーレンスを伝達する能力はナノスケール量子システムの超精密励起、操作、分光を可能にする。

We investigate theoretically the quantum-coherence properties of the cathodoluminescence (CL) emission produced by a temporally modulated electron beam. Specifically, we consider the quantum-optical correlations of CL from electrons that are previously shaped by a laser field. The main prediction here is the presence of phase correlations between the emitted CL field and the electron-modulating laser, even though the emission intensity and spectral profile are independent of the electron state. In addition, the coherence of the CL field extends to harmonics of the laser frequency. Since electron beams can be focused to below one Angstrom, their ability to transfer optical coherence could enable ultra precise excitation, manipulation, and spectroscopy of nanoscale quantum systems.
翻訳日:2023-04-27 11:01:26 公開日:2020-11-10
# 量子状態のコヒーレントプレオーダー

Coherent preorder of quantum states ( http://arxiv.org/abs/2010.15321v2 )

ライセンス: Link先を確認
Zhaofang Bai, Shuanping Du(参考訳) 重要な量子資源として、量子コヒーレンスは量子情報処理において重要な役割を果たす。 個々の状態ではなく、量子状態の族を単独で操作することに関心があることが多い。 2組のコヒーレント状態 $(\rho_1,\rho_2)$ と $(\sigma_1,\sigma_2)$ が与えられると、$\phi(\rho_i) =\sigma_i,i = 1,2$ となるような厳密な非コヒーレント操作 $\phi$ が存在するかどうかをどうやって決定できるかを調べる。 これは量子仮説検定の古典的な問題でもある。 本稿では,強非一貫性操作下でのコヒーレント前順序の構造的キャラクタリゼーションについて述べる。 この性質に基づいて, ランク2の混合コヒーレント状態から$q$の最大コヒーレント状態へのコヒーレンス蒸留を実現する手法を提案する。 さらに、ランク2混合状態間のコヒーレンス操作の1つのスキームも提示する。

As an important quantum resource, quantum coherence play key role in quantum information processing. It is often concerned with manipulation of families of quantum states rather than individual states in isolation. Given two pairs of coherent states $(\rho_1,\rho_2)$ and $(\sigma_1,\sigma_2)$, we are aimed to study how can we determine if there exists a strictly incoherent operation $\Phi$ such that $\Phi(\rho_i) =\sigma_i,i = 1,2$. This is also a classic question in quantum hypothesis testing. In this note, structural characterization of coherent preorder under strongly incoherent operations is provided. Basing on the characterization, we propose an approach to realize coherence distillation from rank-two mixed coherent states to $q$-level maximally coherent states. In addition, one scheme of coherence manipulation between rank-two mixed states is also presented.
翻訳日:2023-04-27 01:06:36 公開日:2020-11-10
# 相関系に対する非エルミート皮膚効果のR-DMFT法による研究:擬似スペクトルによる解析

R-DMFT study of a non-Hermitian skin effect for correlated systems: analysis based on a pseudo-spectrum ( http://arxiv.org/abs/2011.04379v2 )

ライセンス: Link先を確認
Tsuneya Yoshida(参考訳) 皮膚効果を誘発する非エルミート位相に着目した平衡系の解析を行った。 実空間力学平均場理論によって計算された擬似スペクトルは、境界条件における状態密度の依存とは対照的に、開境界条件に対して追加の擬固有状態が現れることを解明する。 さらに、ラインギャップトポロジー(非エルミート位相の一種)が擬似スペクトルにどのように影響するかについても論じる。 数値シミュレーションにより,準粒子の減衰は非自明な点ギャップトポロジーを誘導するが,非自明な線ギャップトポロジーを破壊する。 上記の2つの効果は、局所擬スペクトル重みの温度依存性にも反映される。

We analyze a correlated system in equilibrium with special emphasis on non-Hermitian topology inducing a skin effect. The pseudo-spectrum, computed by the real-space dynamical mean-field theory, elucidates that additional pseudo-eigenstates emerge for the open boundary condition in contrast to the dependence of the density of states on the boundary condition. We further discuss how the line-gap topology, another type of non-Hermitian topology, affects the pseudo-spectrum. Our numerical simulation clarifies that while the damping of the quasi-particles induces the non-trivial point-gap topology, it destroys the non-trivial line-gap topology. The above two effects are also reflected in the temperature dependence of the local pseudo-spectral weight.
翻訳日:2023-04-24 21:27:29 公開日:2020-11-10
# 量子ドットスピン量子ビットの確率的テレポーテーション

Probabilistic teleportation of a quantum dot spin qubit ( http://arxiv.org/abs/2011.04881v1 )

ライセンス: Link先を確認
Y. Kojima, T. Nakajima, A. Noiri, J. Yoneda, T. Otsuka, K. Takeda, S. Li, S. D. Bartlett, A. Ludwig, A. D. Wieck, and S. Tarucha(参考訳) 半導体量子ドットにおける電子スピンは量子計算の実装のために集中的に研究され、最近2つの量子ビット演算が達成されている。 量子テレポーテーション(quantum teleportation)は、量子エンタングルメントを利用する3量子ビットプロトコルであり、esをより洗練された量子アルゴリズムsのためのn本質的なプリミティブとして扱う。ここでは、ポーリの排他原理を利用した三重量子ドットにおける単一電子スピン量子ビットの直接ベル測定に基づく量子テレポーテーションのスキームを示し、最大エンタングル状態sを作成し検出する。 t he single spin polarization is teleported from the input qubit to the output qubit with a fidelity of 0.9 1 この忠実度は、主にデバイスパラメータを最適化することで改善できるsinglet triplet mixによって制限される。

Electron spin s in semiconductor quantum dot s have been intensively studied for implementing quantum computation and high fidelity single and two qubit operation s have recently been achieved . Quantum teleportation is a three qubit protocol exploiting quantum entanglement and it serv es as a n essential primitive for more sophisticated quantum algorithm s Here, we demonstrate a scheme for quantum teleportation based on direct Bell measurement for a single electron spin qubit in a triple quantum dot utilizing the Pauli exclusion principle to create and detect maximally entangled state s . T he single spin polarization is teleported from the input qubit to the output qubit with a fidelity of 0.9 1 We find this fidelity is primarily limited by singlet triplet mixing which can be improved by optimizing the device parameters Our results may be extended to quantum algorithms with a larger number of se miconductor spin qubit s
翻訳日:2023-04-24 19:24:34 公開日:2020-11-10
# シングルおよび2量子ビット系におけるボルン・マルコフマスター方程式の妥当性

Validity of Born-Markov master equations for single and two-qubit systems ( http://arxiv.org/abs/2011.05046v1 )

ライセンス: Link先を確認
Vasilii Vadimov, Jani Tuorila, Tuure Orell, J\"urgen Stockburger, Tapio Ala-Nissila, Joachim Ankerhold, and Mikko M\"ott\"onen(参考訳) カスタマイズされた量子デバイスを制御するのに必要な極端な精度に適合する信頼性の高いシミュレーションツールの必要性は、オープン量子システムとそのモデリングを理解することの重要性を浮き彫りにしている。 この目的のために、1点と2つの共振量子ビットが1点で横に結合された場合の数値的正確な結果に対して、よく用いられるレッドフィールドとリンドブラッドのマスター方程式を比較する。 すべての関連するパラメータは広い範囲にわたって異なり、弱い結合アプローチの有効性と物理的に有意義な適用性に関する詳細な予測が得られます。 システム進化スーパーオペレーターの最大差と数値的に正確な結果を比較することで近似アプローチの精度を特徴付ける。 差分を最小化するために近似モデルのパラメータを最適化した後、少なくとも現象モデルとして弱結合方程式がどの程度適用できるかを探索する。 最適化は実験データの正確な再現につながる可能性があるが,浴室温度などの抽出パラメータ値の信頼性を推定することが重要である。 本研究は,通常のボルンマルコフ方程式の有効範囲に関する一般的なガイドラインを設定し,特に低温において,驚くほど幅広いパラメータで物理を正確に記述できないことを示す。 量子技術デバイスが動作するため、正確なモデリングはメソッドの選択を慎重に行う必要がある。

The urgent need for reliable simulation tools to match the extreme accuracy needed to control tailored quantum devices highlights the importance of understanding open quantum systems and their modeling. To this end, we compare here the commonly used Redfield and Lindblad master equations against numerically exact results in the case of one and two resonant qubits transversely coupled at a single point to a Drude-cut ohmic bath. All the relevant parameters are varied over a broad range which allows us to give detailed predictions about the validity and physically meaningful applicability of the weak-coupling approaches. We characterize the accuracy of the approximate approaches by comparing the maximum difference of their system evolution superoperators with numerically exact results. After optimizing the parameters of the approximate models to minimize the difference, we also explore if and to what extent the weak-coupling equations can be applied at least as phenomenological models. Optimization may lead to an accurate reproduction of experimental data, but yet our results are important to estimate the reliability of the extracted parameter values such as the bath temperature. Our findings set general guidelines for the range of validity of the usual Born-Markov master equations and indicate that they fail to accurately describe the physics in surprisingly broad range of parameters, in particular at low temperatures. Since quantum-technological devices operate there their accurate modeling calls for a careful choice of methods.
翻訳日:2023-04-24 19:16:25 公開日:2020-11-10
# 軍用量子通信

Quantum Communication for Military Applications ( http://arxiv.org/abs/2011.04989v1 )

ライセンス: Link先を確認
Niels M. P. Neumann, Maran P. P. van Heesch, Patrick de Graaf(参考訳) コミュニケーションは日常生活において不可欠であり、現在および将来の軍事活動に不可欠である。 しかし、我々が知っている従来のコミュニケーションにも限界がある。 量子通信はこれらの課題のいくつかを克服し、その結果、軍事領域でも新しいアプリケーション領域が開放される。 本稿では、軍事目的のための量子通信について考察する。 異なるアプリケーションが提示され、最先端の技術が与えられる。 また、軍事用途に特化した量子通信利用事例についても述べる。

Communication is vital in everyday life and critical for current and future military operations. However, conventional communication as we know it also has its limitations. Quantum communication allows some of these challenges to be overcome and, thereby, new application areas open up, also in the military domain. In this work quantum communication for military purposes is considered. Different applications are presented and the state-of-the-art of the technology is given. Also, quantum communication use cases specific for military applications are described.
翻訳日:2023-04-24 19:15:39 公開日:2020-11-10
# 傾斜磁場中における液体ヘリウム上の表面電子の運動量子状態

Motional Quantum States of Surface Electrons on Liquid Helium in a Tilted Magnetic Field ( http://arxiv.org/abs/2011.04968v1 )

ライセンス: Link先を確認
A. A. Zadorozhko, J. Chen, A. D. Chepelianskii, and D. Konstantinov(参考訳) 量子電磁力学のパラダイムの一つであるJaynes-Cummingsモデル(JCM)は、光と架空の2レベル原子との相互作用を記述するために導入された。 近年、jcmハミルトニアンは液体ヘリウムの表面に閉じ込められ、表面に対して傾いた一定の均一な磁場を受ける電子の運動状態を記述するために用いられることが示唆された [yunusova et al. phys. rev. lett. 122, 176802 (2019)]。 この場合、電子の表面結合状態(リドバーグ状態)は、傾いた場の面内成分によって電子サイクロトロン運動に結合される。 本研究では, 傾斜磁場中における表面電子の分光学的性質を理論的および実験的に検討し, 原子・分子系の薄型状態と共通する様々な現象を示すことを証明した。 このことは、ヘリウム上の電子が、コンポーネント間の相互作用を単純な方法で設計し、高精度に制御し、量子実験のための新しいフレキシブルなプラットフォームとして使用できる原型原子システムを実現することを示している。 本研究は、原子、分子、および光学物理学の文脈において、ヘリウム上の電子の純粋な凝縮マター系を導入する。

The Jaynes-Cummings model (JCM), one of the paradigms of quantum electrodynamics, was introduced to describe interaction between light and a fictitious two-level atom. Recently it was suggested that the JCM Hamiltonian can be invoked to describe the motional states of electrons trapped on the surface of liquid helium and subjected to a constant uniform magnetic field tilted with respect to the surface [Yunusova et al. Phys. Rev. Lett. 122, 176802 (2019)]. In this case, the surface-bound (Rydberg) states of an electron are coupled to the electron cyclotron motion by the in-plane component of tilted field. Here we investigate, both theoretically and experimentally, the spectroscopic properties of surface electrons in a tilted magnetic field and demonstrate that such a system exhibits a variety of phenomena common to the light dressed states of atomic and molecular systems. This shows that electrons on helium realize a prototypical atomic system where interaction between components can be engineered and controlled by simple means and with high accuracy, and which therefore can be potentially used as a new flexible platform for quantum experiments. Our work introduces a pure condensed-matter system of electrons on helium into the context of atomic, molecular and optical physics.
翻訳日:2023-04-24 19:15:35 公開日:2020-11-10
# 量子コンパイラにおける動作スケジューリング

Scheduling of Operations in Quantum Compiler ( http://arxiv.org/abs/2011.04936v1 )

ライセンス: Link先を確認
Toshinari Itoko and Takashi Imamichi(参考訳) 量子演算をスケジューリングする場合、結果のスケジュール全体の実行時間が短くなり、スループットが向上し、忠実度が向上する。 本稿では,量子演算スケジューリングがジョブショップ問題の一種として解釈可能であることを示す。 本稿では,量子演算間の可換性を考慮しつつ,制約プログラミングとして定式化する。 この定式化は、実際の量子コンパイラと2つの共通ベンチマークセットの量子回路を用いた実験により、実際のスケジュール全体の実行時間を改善する。

When scheduling quantum operations, a shorter overall execution time of the resulting schedule yields a better throughput and higher fidelity output. In this paper, we demonstrate that quantum operation scheduling can be interpreted as a special type of job-shop problem. On this basis, we provide its formulation as Constraint Programming while taking into account commutation between quantum operations. We show that this formulation improves the overall execution time of the resulting schedules in practice through experiments with a real quantum compiler and quantum circuits from two common benchmark sets.
翻訳日:2023-04-24 19:14:42 公開日:2020-11-10
# 絶対に絡み合った純状態の集合

Absolutely entangled set of pure states ( http://arxiv.org/abs/2011.04903v1 )

ライセンス: Link先を確認
Mao-Sheng Li, and Man-Hong Yung(参考訳) ごく最近、caiとal。 [arXiv:2006.07165v1] は二部量子系に対して「絶対的に絡み合った集合」という新しい概念を提案した。 そこで彼らは、2つの量子ビット系における4つの状態からなる最小の例を示し、絶対集合の絡み合いの定量的測度を提案した。 本研究では、一連の状態が絶対絡み合う集合となるための2つの必要条件を導出する。 さらに、任意の非素次元$d=d_1\times d_2$に対して$\mathbb{C}^{d_1}\otimes \mathbb{C}^{d_2}$に絶対絡み合う基底の直列構成を与える。 さらに、$\mathbb{C}^2\otimes \mathbb{C}^n$ の直交積基底の構造に基づいて、$\mathbb{C}^2\otimes \mathbb{C}^n$ の 2n+1$ の元を持つ絶対交叉集合の別の構成を得る。

Quite recently, Cai et al. [arXiv:2006.07165v1] proposed a new concept "absolutely entangled set" for bipartite quantum systems: for any possible choice of global basis, at least one state of the set is entangled. There they presented a minimum example with a set of four states in two qubit systems and they proposed a quantitative measure for the absolute set entanglement. In this work, we derive two necessity conditions for a set of states to be an absolutely entangled set. In addition, we give a series constructions of absolutely entangled bases on $\mathbb{C}^{d_1}\otimes \mathbb{C}^{d_2}$ for any nonprime dimension $d=d_1\times d_2$. Moreover, based on the structure of the orthogonal product basis in $\mathbb{C}^2\otimes \mathbb{C}^n$, we obtain another construction of absolutely entangled set with $2n+1$ elements in $\mathbb{C}^2\otimes \mathbb{C}^n$.
翻訳日:2023-04-24 19:14:13 公開日:2020-11-10
# 量子貯水池コンピューティング--短期量子デバイスにおける量子機械学習への貯水池アプローチ

Quantum reservoir computing: a reservoir approach toward quantum machine learning on near-term quantum devices ( http://arxiv.org/abs/2011.04890v1 )

ライセンス: Link先を確認
Keisuke Fujii and Kohei Nakajima(参考訳) 量子系は粒子数において指数関数的に大きな自由度を持ち、そのため従来のコンピュータではシミュレートできないリッチなダイナミクスを提供する。 量子貯水池コンピューティング(Quantum reservoir computing)は、時間的機械学習のように、量子システム上で複雑でリッチなダイナミクスを使用するアプローチである。 本章では,量子リザーバコンピューティングと関連する手法,量子エクストリーム・ラーニング・マシンと量子回路学習について,量子力学と機械学習の教育的紹介から述べる。 これらの量子機械学習アプローチはすべて、実験的に実現可能であり、最先端の量子デバイスに有効である。

Quantum systems have an exponentially large degree of freedom in the number of particles and hence provide a rich dynamics that could not be simulated on conventional computers. Quantum reservoir computing is an approach to use such a complex and rich dynamics on the quantum systems as it is for temporal machine learning. In this chapter, we explain quantum reservoir computing and related approaches, quantum extreme learning machine and quantum circuit learning, starting from a pedagogical introduction to quantum mechanics and machine learning. All these quantum machine learning approaches are experimentally feasible and effective on the state-of-the-art quantum devices.
翻訳日:2023-04-24 19:13:48 公開日:2020-11-10
# 量子多体問題に対するランダムサンプリングニューラルネットワーク

Random Sampling Neural Network for Quantum Many-Body Problems ( http://arxiv.org/abs/2011.05199v1 )

ライセンス: Link先を確認
Chen-Yu Liu, Daw-Wei Wang(参考訳) 量子多体系の固有値問題は、ヒルベルト空間の次元(したがって必要となる計算メモリと時間)が系のサイズが大きくなるにつれて指数関数的に増加するため、凝縮物質物理学の基本的な課題である。 いくつかの特定のシステム向けにいくつかの数値法が開発されているが、他のシステムでは適用できない可能性がある。 本稿では,対話型多体システムのランダムサンプリング行列要素に対して,自己教師型学習手法を用いてパターン認識手法を応用するために,ランダムサンプリングニューラルネットワーク(RSNN)を提案する。 ising model with transverse field, fermi-hubbard model, spin-$1/2$$$xxz$ modelなど、完全可解な1dモデルはrsnnの適用性をテストするために用いられる。 エネルギースペクトル、磁化および臨界指数のかなり高い精度は、強い相関状態または量子相転移点付近で得ることができ、対応するRSNNモデルでさえ弱い相互作用状態において訓練される。 必要な計算時間はシステムサイズに線形にスケールする。 以上の結果から,トレーニングプロセスとRSNNの既存の数値手法を組み合わせることで,より広いパラメータ条件下での量子多体問題の探索が可能であることが示唆された。

The eigenvalue problem of quantum many-body systems is a fundamental and challenging subject in condensed matter physics, since the dimension of the Hilbert space (and hence the required computational memory and time) grows exponentially as the system size increases. A few numerical methods have been developed for some specific systems, but may not be applicable in others. Here we propose a general numerical method, Random Sampling Neural Networks (RSNN), to utilize the pattern recognition technique for the random sampling matrix elements of an interacting many-body system via a self-supervised learning approach. Several exactly solvable 1D models, including Ising model with transverse field, Fermi-Hubbard model, and spin-$1/2$ $XXZ$ model, are used to test the applicability of RSNN. Pretty high accuracy of energy spectrum, magnetization and critical exponents etc. can be obtained within the strongly correlated regime or near the quantum phase transition point, even the corresponding RSNN models are trained in the weakly interacting regime. The required computation time scales linearly to the system size. Our results demonstrate that it is possible to combine the existing numerical methods for the training process and RSNN to explore quantum many-body problems in a much wider parameter regime, even for strongly correlated systems.
翻訳日:2023-04-24 19:06:39 公開日:2020-11-10
# 変分回路を持つラプラシアン固有写像:グラフデータの量子埋め込み

Laplacian Eigenmaps with variational circuits: a quantum embedding of graph data ( http://arxiv.org/abs/2011.05128v1 )

ライセンス: Link先を確認
Slimane Thabet, Jean-Francois Hullo(参考訳) 量子アルゴリズムの開発により、高コスト計算は量子優位性を期待して精査されている。 グラフは複数の実世界の問題に便利なフレームワークを提供するが、その分析には高い計算量と空間が伴う。 グラフデータをグラフ構造情報が保存される低次元空間にマッピングすることにより、ラプラシア行列の固有ベクトルはラプラシア固有写像と呼ばれる強力なノード埋め込みを構成する。 これらの埋め込みを計算することは、特定のスパース法を用いて、ラプラシアン行列の固有分解が非零要素の比である o($rn^2$) のコストを持つことを知って、それ自体は高価なタスクである。 量子変分回路を用いたラプラシアン固有写像の計算法を提案する。 このアルゴリズムの考え方は、変動量子固有解法アルゴリズムを適用することにより、ハミルトン作用素とみなすことができるラプラシアン行列の固有状態に到達することである。 同時にラプラシアンの第一固有ベクトルを$d$と推定することにより、我々のアルゴリズムはグラフの$d$次元量子埋め込みを直接生成する。 本稿では,その上に量子分類器を実装することにより,グラフ機械学習タスクに埋め込みを適用できることを実証する。 回路全体は完全な量子ノード分類アルゴリズムで構成されている。 量子シミュレータを用いた32ノードグラフによるテストでは,従来のラプラシアン固有マップ法と同様の性能が得られる。 この近似アプローチの数学的性質は十分には理解されていないが、このアルゴリズムは雑音量子コンピュータを用いたグラフ前処理の展望を開く。

With the development of quantum algorithms, high-cost computations are being scrutinized in the hope of a quantum advantage. While graphs offer a convenient framework for multiple real-world problems, their analytics still comes with high computation and space. By mapping the graph data into a low dimensional space, in which graph structural information is preserved, the eigenvectors of the Laplacian matrix constitute a powerful node embedding, called Laplacian Eigenmaps. Computing these embeddings is on its own an expensive task knowing that using specific sparse methods, the eigendecomposition of a Laplacian matrix has a cost of O($rn^2$), $r$ being the ratio of nonzero elements. We propose a method to compute a Laplacian Eigenmap using a quantum variational circuit. The idea of our algorithm is to reach the eigenstates of the laplacian matrix, which can be considered as a hamiltonian operator, by adapting the variational quantum eigensolver algorithm. By estimating the $d$ first eigenvectors of the Laplacian at the same time, our algorithm directly generates a $d$ dimension quantum embedding of the graph. We demonstrate that it is possible to use the embedding for graph machine learning tasks by implementing a quantum classifier on the top of it. The overall circuit consists in a full quantum node classification algorithm. Tests on 32 nodes graph with a quantum simulator shows that we can achieve similar performances as the classical laplacian eigenmap algorithm. Although mathematical properties of this approximate approach are not fully understood, this algorithm opens perspectives for graph pre-processing using noisy quantum computers.
翻訳日:2023-04-24 19:05:44 公開日:2020-11-10
# 力学平均場理論を持つWeyl-Hubbardモデルにおける位相モット転移

Topological Mott transition in a Weyl-Hubbard model with dynamical mean-field theory ( http://arxiv.org/abs/2011.05100v1 )

ライセンス: Link先を確認
Bernhard Irsigler and Tobias Grass and Jun-Hui Zheng and Mathieu Barbier and Walter Hofstetter(参考訳) ワイル半金属は、フェルミアークの表面状態や負磁気抵抗のようなエキゾチックな現象を示す3次元、位相的に保護され、隙間のない相である。 粒子間相互作用がトポロジカル半金属をトポロジカルに非自明なモット絶縁相に変えることができるかどうかは、明らかな問題である。 光学格子中の寒冷原子のワイル物理に対する実験的動機付けモデルについて検討し,動的平均場理論(DMFT)による相互作用効果と位相特性に着目した。 相互作用相に対するイシュシカワ-松山公式を用いてチャーン数を数値的に評価することで位相相を特徴づける。 我々の研究では、相互作用が絶縁行動につながるとチャーン数は自明になることがわかった。 Weyl-semimetal-to-Mott-insulator位相遷移のより深い理解のために、準粒子バンドといわゆるブラインドバンドの位相特性を評価する。 DMFTを用いたワイル半金属の最近の研究を補完する。

Weyl semimetals are three-dimensional, topologically protected, gapless phases which show exotic phenomena such as Fermi arc surface states or negative magnetoresistance. It is an open question whether interparticle interactions can turn the topological semimetal into a topologically nontrivial Mott insulating phase. We investigate an experimentally motivated model for Weyl physics of cold atoms in optical lattices, with the main focus on interaction effects and topological properties by means of dynamical mean-field theory (DMFT). We characterize topological phases by numerically evaluating the Chern number via the Ishsikawa-Matsuyama formula for interacting phases. Within our studies, we find that the Chern numbers become trivial when interactions lead to insulating behavior. For a deeper understanding of the Weyl-semimetal-to-Mott-insulator topological phase transition, we evaluate the topological properties of quasiparticle bands as well as so-called blind bands. Our study is complementary to recent studies of Weyl semimetals with DMFT.
翻訳日:2023-04-24 19:05:04 公開日:2020-11-10
# 自動モビリティ・オン・デマンドのネットワーク影響:マクロ基礎図による考察

Network Impacts of Automated Mobility-on-Demand: A Macroscopic Fundamental Diagram Perspective ( http://arxiv.org/abs/2011.05092v1 )

ライセンス: Link先を確認
Simon Oh, Antonis F. Lentzakis, Ravi Seshadri, Moshe Ben-Akiva(参考訳) 技術進歩は、将来の都市モビリティを改善するための有望なソリューションとして、自動モビリティ・オン・デマンド(AMOD)に注目を向けている。 過去10年間でシミュレーションモデルを用いたAMODシステムの設計と評価について広範な研究がなされている。 本稿は, AMOD 艦隊運用の詳細なモデルを含む高忠実度およびエージェントベース交通シミュレーションを通じて, AMOD のネットワークへの影響を調査することによって, この成長する文献に付加する。 シンガポール島全体のシナリオシミュレーションを通じて,MFD(Macroscopic Fundamental Diagram)の概念を用いてネットワークトラフィックのダイナミクスを探索する。 密度の空間的変動を考慮すると、この大きさのネットワークで必然的に形成されるヒステリシスループを捉えることができる。 車両と乗客の流量レベルでのモデル推定結果を文書化する。 エネルギーや排出などの環境影響についても論じる。 シンガポールのケーススタディから得られた知見は、amodの導入がvktの増加、旅行遅延の増加、エネルギー消費量の増大といった面でネットワーク性能に大きな影響を与える可能性があることを示唆している。 ネットワークの混雑の増大にもかかわらず、旅客流の生産は比較的変化していない。

Technological advancements have brought increasing attention to Automated Mobility on Demand (AMOD) as a promising solution that may improve future urban mobility. During the last decade, extensive research has been conducted on the design and evaluation of AMOD systems using simulation models. This paper adds to this growing body of literature by investigating the network impacts of AMOD through high-fidelity activity- and agent-based traffic simulation, including detailed models of AMOD fleet operations. Through scenario simulations of the entire island of Singapore, we explore network traffic dynamics by employing the concept of the Macroscopic Fundamental Diagram (MFD). Taking into account the spatial variability of density, we are able to capture the hysteresis loops, which inevitably form in a network of this size. Model estimation results at both the vehicle and passenger flow level are documented. Environmental impacts including energy and emissions are also discussed. Findings from the case study of Singapore suggest that the introduction of AMOD may bring about significant impacts on network performance in terms of increased VKT, additional travel delay and energy consumption, while reducing vehicle emissions, with respect to the baseline. Despite the increase in network congestion, production of passenger flows remains relatively unchanged.
翻訳日:2023-04-24 19:04:45 公開日:2020-11-10
# 自発的対称性の破れという概念に基づくオンラインソーシャルネットワークの分極モデル

Polarization Model of Online Social Networks Based on the Concept of Spontaneous Symmetry Breaking ( http://arxiv.org/abs/2011.05393v1 )

ライセンス: Link先を確認
Masaki Aida, Ayako Hashizume, Chisa Takano, Masayuki Murata(参考訳) 情報ネットワークの普及により、様々な情報ソースへのアクセスが容易になっただけでなく、個人が情報を広める能力も大幅に向上した。 しかし、残念ながら、オンラインソーシャルネットワークにおけるスランダーの問題は、進化する情報ネットワーク環境が社会における相互理解を必ずしも支えていないことを示している。 特定のバイアスのある情報は、それを好むコミュニティにのみ配布されるため、社会の様々な対立するグループへの分割が強化される。 この現象は偏光と呼ばれる。 分極に対抗できる技術を確立するためには、分極のメカニズムを理解する必要がある。 本稿では,自発的対称性の破れという概念に基づく偏光を理解するための基礎モデルを提案する。

The spread of information networks has not only made it easier for people to access a variety of information sources but also greatly enhanced the ability of individuals to disseminate information. Unfortunately, however, the problem of slander in online social networks shows that the evolving information network environment does not necessarily support mutual understanding in society. Since information with particular bias is distributed only to those communities that prefer it, the division of society into various opposing groups is strengthened. This phenomenon is called polarization. It is necessary to understand the mechanism of polarization to establish technologies that can counter polarization. This paper introduces a fundamental model for understanding polarization that is based on the concept of spontaneous symmetry breaking; our starting point is the oscillation model that describes user dynamics in online social networks.
翻訳日:2023-04-24 18:57:10 公開日:2020-11-10
# オンラインソーシャルネットワークにおけるユーザダイナミクスを記述する基本方程式のクローズドフォーム解

Closed-Form Solutions of the Fundamental Equation That Describes User Dynamics in Online Social Networks ( http://arxiv.org/abs/2011.05391v1 )

ライセンス: Link先を確認
T. Ikeya, Masaki Aida(参考訳) ネットワーク上の波動方程式に基づく発振モデルは、オンラインソーシャルネットワークにおけるユーザダイナミクスを記述することができる。 ユーザダイナミクスの基本方程式を振動モデルに導入して、特定のネットワーク構造によって得られるユーザダイナミクスの因果関係を明確に記述することができる。 さらに,オンライン・ソーシャル・ネットワークの疎結合性を考慮し,異なる形態の新たな基本方程式を考案した。 本稿では,新しい基本方程式の閉形式解を導出する。 また、新しい基本方程式の閉形式解は、元の波動方程式の一般解を生成することができる。

The oscillation model, based on the wave equation on networks, can describe user dynamics in online social networks. The fundamental equation of user dynamics can be introduced into the oscillation model to explicitly describe the causal relation of user dynamics yielded by certain specific network structures. Moreover, by considering the sparseness of online social networks, a novel fundamental equation of different form has been devised. In this paper, we derive a closed-form solution of the new fundamental equation. Also, we find the closed-form solution of the new fundamental equation can generate the general solution of the original wave equation.
翻訳日:2023-04-24 18:56:59 公開日:2020-11-10
# ショアのアルゴリズムが特定の場合であるポラードのRhoの量子バージョン

A quantum version of Pollard's Rho of which Shor's Algorithm is a particular case ( http://arxiv.org/abs/2011.05355v1 )

ライセンス: Link先を確認
Daniel Chicayban Bastos and Luis Antonio Kowada(参考訳) ポラードのRhoは整数分解問題の解法である。 この戦略は、与えられた適切な条件が非自明な因子をもたらす自然数の列に属する適切な一対の要素を探索する。 計算の量子モデルにアルゴリズムを翻訳すると、その実行時間は、シーケンスを生成する関数セットを用いて多項式時間に短縮されることがわかった。 また、配列内の非自明な因子の可用性を特徴付ける新しい結果にも到達した。 その結果、ポラードのRhoはショアのアルゴリズムの一般化であり、これは新しい結果の光で容易に見られるという認識に至った。

Pollard's Rho is a method for solving the integer factorization problem. The strategy searches for a suitable pair of elements belonging to a sequence of natural numbers that given suitable conditions yields a nontrivial factor. In translating the algorithm to a quantum model of computation, we found its running time reduces to polynomial-time using a certain set of functions for generating the sequence. We also arrived at a new result that characterizes the availability of nontrivial factors in the sequence. The result has led us to the realization that Pollard's Rho is a generalization of Shor's algorithm, a fact easily seen in the light of the new result.
翻訳日:2023-04-24 18:56:51 公開日:2020-11-10
# ヘリウムの多電子系と色中心分光

Many-electron system on helium and the color center spectroscopy ( http://arxiv.org/abs/2011.05282v1 )

ライセンス: Link先を確認
A. D. Chepelianskii, D. Konstantinov, and M. I. Dykman(参考訳) ヘリウム表面の電子は、量子化運動のサブバンド間の表面への遷移に関連する鋭い共鳴吸収線を示す。 表面に平行な磁場は吸収スペクトルに強く影響する。 この効果は、強相関電子液体またはウィグナー結晶の面外運動と面内量子力学を混合することに由来する。 これは、色中心からフォノンへの付加電子遷移と似ている。 このスペクトルは多電子力学の直接的特徴付けを可能にし、制御可能なカップリングを持つ系における色中心の理論をテストできる。

Electrons on the helium surface display sharp resonant absorption lines related to the transitions between the subbands of quantized motion transverse to the surface. A magnetic field parallel to the surface strongly affects the absorption spectrum. We show that the effect comes from admixing the out-of-plane motion to the in-plane quantum dynamics of the strongly correlated electron liquid or a Wigner crystal. This is similar to the admixing electron transitions in color centers to phonons. The spectrum permits a direct characterization of the many-electron dynamics and also enables testing the theory of color centers in a system with a controllable coupling.
翻訳日:2023-04-24 18:55:44 公開日:2020-11-10
# 再現可能な超伝導量子ビットの簡易ジョセフソン接合法

Simplified Josephson-junction fabrication process for reproducibly high-performance superconducting qubits ( http://arxiv.org/abs/2011.05230v1 )

ライセンス: Link先を確認
A. Osman, J. Simon, A. Bengtsson, S. Kosen, P. Krantz, D. Perez, M. Scigliuzzo, Jonas Bylander, and A. Fadavi Roudsari(参考訳) ジョゼフソン接合の簡易化手法を導入し、50$~\mu$s (q>$1.5$\times$10$^6$) を超える平均緩和時間t_1$の超伝導xmon量子ビットを実演する。 現在のアルミニウム系ジョセフソン接合のシャドーエバーポレーション技術は、接合電極と回路配線層との間の電気的超伝導接続を成すパッチを堆積するために別のリソグラフィステップを必要とする。 パッチ接続は寄生接合を除去し、それ以外は誘電損失に大きく寄与する。 パッチ集積型クロスタイプ接合法では, 接合電極とパッチの双方を蒸発させるために, リソグラフィステップと真空サイクルを1つ使用した。 3600以上の接合の研究において、平均抵抗変動は、0.5$\times$0.5-cm$^2$チップを含むウェハーにおいて3.7$\%$であり、接合面積は0.01から0.06$m$^2$である。 抵抗で拡散する平均的なオンチップは2.7$\%$で、20チップは1.4から2$\%$の間で変化する。 トランスモン量子ビットに使用されるジャンクションサイズについて、ウェーハレベルの遷移周波数変化は1.7-2.5$\%$である。 この変動の60-70$\%は接合面積変動に起因するが,残りはトンネル接合の不均一性に起因する。 このような高周波予測性は量子コンピュータ内の量子ビット数をスケールアップするための要件である。

We introduce a simplified fabrication technique for Josephson junctions and demonstrate superconducting Xmon qubits with $T_1$ relaxation times averaging above 50$~\mu$s ($Q>$1.5$\times$ 10$^6$). Current shadow-evaporation techniques for aluminum-based Josephson junctions require a separate lithography step to deposit a patch that makes a galvanic, superconducting connection between the junction electrodes and the circuit wiring layer. The patch connection eliminates parasitic junctions, which otherwise contribute significantly to dielectric loss. In our patch-integrated cross-type (PICT) junction technique, we use one lithography step and one vacuum cycle to evaporate both the junction electrodes and the patch. In a study of more than 3600 junctions, we show an average resistance variation of 3.7$\%$ on a wafer that contains forty 0.5$\times$0.5-cm$^2$ chips, with junction areas ranging between 0.01 and 0.16 $\mu$m$^2$. The average on-chip spread in resistance is 2.7$\%$, with 20 chips varying between 1.4 and 2$\%$. For the junction sizes used for transmon qubits, we deduce a wafer-level transition-frequency variation of 1.7-2.5$\%$. We show that 60-70$\%$ of this variation is attributed to junction-area fluctuations, while the rest is caused by tunnel-junction inhomogeneity. Such high frequency predictability is a requirement for scaling-up the number of qubits in a quantum computer.
翻訳日:2023-04-24 18:55:24 公開日:2020-11-10
# 強磁場中における水素原子のエネルギーレベルの飽和

Saturation of Energy Levels of the Hydrogen Atom in Strong Magnetic Field ( http://arxiv.org/abs/2011.12422v1 )

ライセンス: Link先を確認
T. C. Adorno, D. M. Gitman, A. E. Shabad(参考訳) 我々は,この原子が埋め込まれた磁場の非制限成長下での水素原子の低エネルギーレベルの制限値の有限性が,オイラー-ハイゼンベルクの局所作用の近似内の磁場中で真空偏極(VP)が計算されたときに既に達成されていることを示した。 この飽和のメカニズムは、vpcがファーリー・ピクチャーのファインマン・ダイアグラムによって計算されるとき、作用するものと異なることが分かる。 原子の最低ランダウ準位における電子の長手自由度に対するシュル・"{o}ディンガー方程式を解くために、アディバティック(対角)近似を利用したときに現れる有効ポテンシャルについて検討する。 ポイントライクな電荷の(有効)ポテンシャルは、VPによって提供されるスクリーニングの増大により、非特異なままである。 正規化長さは$\sqrt{\alpha /3\pi }\lambdabar_{\mathrm{c}}$であり、ここで$\lambdabar_{\mathrm{c}}$は電子コンプトン長である。 磁場の値の増大によって表される有効ポテンシャルの族は、ある制限された磁場に依存しない電位距離曲線に向かって凝縮する。 カルナコフ-ポポフ法による4つの磁性量子数に対して、基底状態エネルギーの-極限値を決定する。

We demonstrate that the finiteness of the limiting values of the lower energy levels of a hydrogen atom under an unrestricted growth of the magnetic field, into which this atom is embedded, is achieved already when the vacuum polarization (VP) is calculated in the magnetic field within the approximation of the local action of Euler--Heisenberg. We find that the mechanism for this saturation is different from the one acting, when VP is calculated via the Feynman diagram in the Furry picture. We study the effective potential that appears when the adiabatic (diagonal) approximation is exploited for solving the Schr\"{o}dinger equation for the longitudinal degree of freedom of the electron on the lowest Landau level in the atom. We find that the (effective) potential of a point-like charge remains nonsingular thanks to the growing screening provided by VP. The regularizing length turns out to be $\sqrt{\alpha /3\pi }\lambdabar_{\mathrm{C}}$, where $\lambdabar_{\mathrm{C}}$ is the electron Compton length. The family of effective potentials, labeled by growing values of the magnetic field condenses towards a certain limiting, magnetic-field-independent potential-distance curve. The~limiting values of even ground-state energies are determined for four magnetic quantum numbers using the Karnakov--Popov method.
翻訳日:2023-04-24 18:46:35 公開日:2020-11-10
# パッシブRFIDタグとブロックチェーンを用いたロジスティックス情報の正当性証明

Proof of Authenticity of Logistics Information with Passive RFID Tags and Blockchain ( http://arxiv.org/abs/2011.05442v1 )

ライセンス: Link先を確認
Hiroshi Watanabe, Kenji Saito, Satoshi Miyazaki, Toshiharu Okada, Hiroyuki Fukuyama, Tsuneo Kato, Katsuo Taniguchi(参考訳) 大量の商品の(ロボット的に自動化された)ロジスティクスをトレースする際には、安価なパッシブRFIDタグがコストのために好まれる。 そのため、RFIDの多くの課題において、このようなタグと読者間のセキュリティが研究されている。 しかし、ロジスティクスサービスが誤った情報を提供できなければ、データの信頼性は保証できない。 ブロックチェーンの使用については議論されることが多いが、単に記録システムであるため、偽記録が書き込まれるリスクがある。 そこで本研究では,デジタル署名,ロケーション制約,改ざん防止のリーダが,タグの読み書きとともにブロックチェーンにエビデンスをアトミックに書き込む設計を提案する。 半形式的モデリングにより,個人情報の秘密性と完全性はシステム全体で維持可能であること,秘密鍵や署名アルゴリズムの妥協や公開鍵証明書の有効期限にもかかわらず,デジタル署名されたデータを後で検証できることを確認した。 また,提案が実現可能であることを示すためのプロトタイプ設計も導入する。 これにより、安価なパッシブRFIDタグを使用して、本物の物流情報をトレースすることができる。 さらに、リーダ/ライタをセンサ/アクチュエータとして抽象化することにより、このモデルを一般的にIoTに拡張することができる。

In tracing the (robotically automated) logistics of large quantities of goods, inexpensive passive RFID tags are preferred for cost reasons. Accordingly, security between such tags and readers have primarily been studied among many issues of RFID. However, the authenticity of data cannot be guaranteed if logistics services can give false information. Although the use of blockchain is often discussed, it is simply a recording system, so there is a risk that false records may be written to it. As a solution, we propose a design in which a digitally signing, location-constrained and tamper-evident reader atomically writes an evidence to blockchain along with its reading and writing a tag. By semi-formal modeling, we confirmed that the confidentiality and integrity of the information can be maintained throughout the system, and digitally signed data can be verified later despite possible compromise of private keys or signature algorithms, or expiration of public key certificates. We also introduce a prototype design to show that our proposal is viable. This makes it possible to trace authentic logistics information using inexpensive passive RFID tags. Furthermore, by abstracting the reader/writer as a sensor/actuator, this model can be extended to IoT in general.
翻訳日:2023-04-24 18:45:55 公開日:2020-11-10
# ポストセレクションによる量子近似最適化アルゴリズムの改良

Improving the Quantum Approximate Optimization Algorithm with postselection ( http://arxiv.org/abs/2011.05425v1 )

ライセンス: Link先を確認
Sami Boulebnane(参考訳) 組合せ最適化は、短期的およびフォールトトレラントな量子コンピュータに想定される主な応用の1つである。 本研究では,3次元正則グラフ上のマックスカット問題に適用する量子近似最適化アルゴリズム (qaoa) について,組合せ最適化のためのよく研究された量子アルゴリズムを考える。 我々は,最も単純なアルゴリズム (depth-1 qaoa) によって返される解を,状態準備によって効率的にシミュレートできるポストセレクションの形式を用いて改善するアイデアを検討する。 理論上界と下界を導いており、満たされた辺の分数の一定(小さい)増加が実際に達成可能であることを示す。 大規模問題インスタンスの数値実験(古典的同化可能性を超える)は、我々の境界を補完し支持する。 ローカルアップデートはqaoaだけでなく、あらゆる最適化アルゴリズムにも適用できます。 QAOAの場合、結果として得られる改善は、大きな問題の場合とポストセレクションがない場合の理論的に急激な定量化が可能である。 ポストセレクションとローカルアップデートを組み合わせることで、理論はもはや理解できないが、数値的な証拠から両方の方法による改善が組み合わさることが示唆される。

Combinatorial optimization is among the main applications envisioned for near-term and fault-tolerant quantum computers. In this work, we consider a well-studied quantum algorithm for combinatorial optimization: the Quantum Approximate Optimization Algorithm (QAOA) applied to the MaxCut problem on 3-regular graphs. We explore the idea of improving the solutions returned by the simplest version of the algorithm (depth-1 QAOA) using a form of postselection that can be efficiently simulated by state preparation. We derive theoretical upper and lower bounds showing that a constant (though small) increase of the fraction of satisfied edges is indeed achievable. Numerical experiments on large problem instances (beyond classical simulatability) complement and support our bounds. We also consider a distinct technique: local updates, which can be applied not only to QAOA but any optimization algorithm. In the case of QAOA, the resulting improvement can be sharply quantified theoretically for large problem instances and in absence of postselection. Combining postselection and local updates, the theory is no longer tractable but numerical evidence suggests that improvements from both methods can be combined.
翻訳日:2023-04-24 18:45:38 公開日:2020-11-10
# 物理層認証のための統計的・機械学習手法の比較

Comparison of Statistical and Machine Learning Techniques for Physical Layer Authentication ( http://arxiv.org/abs/2001.06238v2 )

ライセンス: Link先を確認
Linda Senigagliesi, Marco Baldi, and Ennio Gambi(参考訳) 本稿では,時間変化に影響を受ける一連の並列無線チャネルの特性に基づいて,認証者が攻撃者から正当なサプリカントを識別することを目的とした物理層での認証について考察する。 さらに、攻撃者のチャネルは、サプリカントのチャネルと空間的相関を持つ。 本研究では,異なるチャネル条件下での異なるアプローチによる性能評価と比較を行う。 まず,2つの異なる統計的決定手法について検討し,異なるレベルの時間変化に影響を受ける多数の参照(チャネル推定の形で)を使用することは,セキュリティの観点からは有益ではないことを証明した。 次に,機械学習に基づく分類手法を検討する。 訓練中に偽造メッセージがない認証装置の最悪のケースシナリオに直面するため,一級分類器を検討する。 代わりに、トレーニングセットにフォージされたメッセージが含まれている場合、そのようなメッセージがラベル付けされたりラベル付けされたりしない場合を考慮して、より伝統的なバイナリ分類器を利用する。 後者の場合、トレーニングセットにラベルをつけるためにクラスタリングアルゴリズムを使用します。 近辺(NN)と支援ベクトルマシン(SVM)の両方の分類手法の性能を評価する。 数値的な例を通して,1クラス分類(OCC)アルゴリズムでは,主チャネルと逆チャネルの間に小さな空間的相関が存在する場合の誤り検出の確率が低く,一方,2つのチャネル間の空間的相関が大きい場合には統計的手法が有利であることを示す。

In this paper we consider authentication at the physical layer, in which the authenticator aims at distinguishing a legitimate supplicant from an attacker on the basis of the characteristics of a set of parallel wireless channels, which are affected by time-varying fading. Moreover, the attacker's channel has a spatial correlation with the supplicant's one. In this setting, we assess and compare the performance achieved by different approaches under different channel conditions. We first consider the use of two different statistical decision methods, and we prove that using a large number of references (in the form of channel estimates) affected by different levels of time-varying fading is not beneficial from a security point of view. We then consider classification methods based on machine learning. In order to face the worst case scenario of an authenticator provided with no forged messages during training, we consider one-class classifiers. When instead the training set includes some forged messages, we resort to more conventional binary classifiers, considering the cases in which such messages are either labelled or not. For the latter case, we exploit clustering algorithms to label the training set. The performance of both nearest neighbor (NN) and support vector machine (SVM) classification techniques is evaluated. Through numerical examples, we show that under the same probability of false alarm, one-class classification (OCC) algorithms achieve the lowest probability of missed detection when a small spatial correlation exists between the main channel and the adversary one, while statistical methods are advantageous when the spatial correlation between the two channels is large.
翻訳日:2023-01-10 13:12:13 公開日:2020-11-10
# 超解像のための深層分析辞書の学習

Learning Deep Analysis Dictionaries for Image Super-Resolution ( http://arxiv.org/abs/2001.12010v2 )

ライセンス: Link先を確認
Jun-Jie Huang and Pier Luigi Dragotti(参考訳) 近年のディープニューラルネットワークの成功と近年の多層辞書モデル開発に触発されて,単一画像超解像と呼ばれる特定の回帰課題に対処するために最適化されたディープ分析辞書モデル(DeepAM)を提案する。 他の多層辞書モデルとは対照的に,我々のアーキテクチャでは,解析辞書のL層とソフトスレッディング演算子を用いて,段階的に高次特徴を抽出し,手作業の回帰処理を最適化する合成辞書の層を含む。 本手法では,各分析辞書を,情報保存分析辞書(IPAD)とクラスタリング解析辞書(CAD)の2つのサブ辞書に分割する。 対応するソフトスレッショルドと共にIPADは、キー情報を前層から次の層に渡すように設計され、CADと対応するソフトスレッショルド演算子は、キー特徴の識別を容易にする入力データのスパース特徴表現を生成するように設計されている。 DeepAMは、教師なしと教師なしの両方のセットアップを使用する。 シミュレーションの結果,同じ構造を持ち,トレーニングデータセットが小さい場合にはバックプロパゲーションを用いて最適化したディープニューラルネットワークと比較して,深層解析辞書モデルの性能が向上することが示された。

Inspired by the recent success of deep neural networks and the recent efforts to develop multi-layer dictionary models, we propose a Deep Analysis dictionary Model (DeepAM) which is optimized to address a specific regression task known as single image super-resolution. Contrary to other multi-layer dictionary models, our architecture contains L layers of analysis dictionary and soft-thresholding operators to gradually extract high-level features and a layer of synthesis dictionary which is designed to optimize the regression task at hand. In our approach, each analysis dictionary is partitioned into two sub-dictionaries: an Information Preserving Analysis Dictionary (IPAD) and a Clustering Analysis Dictionary (CAD). The IPAD together with the corresponding soft-thresholds is designed to pass the key information from the previous layer to the next layer, while the CAD together with the corresponding soft-thresholding operator is designed to produce a sparse feature representation of its input data that facilitates discrimination of key features. DeepAM uses both supervised and unsupervised setup. Simulation results show that the proposed deep analysis dictionary model achieves better performance compared to a deep neural network that has the same structure and is optimized using back-propagation when training datasets are small.
翻訳日:2023-01-05 05:45:26 公開日:2020-11-10
# 学習カーネル埋め込みとしての統計的最適輸送

Statistical Optimal Transport posed as Learning Kernel Embedding ( http://arxiv.org/abs/2002.03179v6 )

ライセンス: Link先を確認
J. Saketha Nath (IIT Hyderabad, INDIA) and Pratik Jawanpuria (Microsoft IDC, INDIA)(参考訳) 統計最適輸送(OT)の目的は、与えられたソースとターゲットの限界分布からのサンプルのみを用いて、最適な輸送計画/マップを一貫して推定することである。 この研究は、輸送計画のカーネルを学習する際の統計OTを、サンプルベースによる限界埋め込みの推定から推定する新しいアプローチを取る。 提案手法は,既存の推定器で広く用いられている$\phi$-divergence (entropy) ベースの正則化を補完する最大平均偏差に基づく正則化を用いてオーバーフィッティングを制御する。 重要な結果として、非常に穏やかな条件下では、$\epsilon$-optimal recovery of the transport plan と Barycentric-projection based transport map は、完全に次元のないサンプル複雑性で可能である。 さらに、カーネルの平均埋め込みを暗黙的に滑らかにすることで、サンプル外推定が可能になる。 適切な表現子定理は、推定子の核化された凸定式化へと導かれることが証明され、それが標準でない領域でもotを実行するために潜在的に使用できる。 その結果,提案手法の有効性が示唆された。

The objective in statistical Optimal Transport (OT) is to consistently estimate the optimal transport plan/map solely using samples from the given source and target marginal distributions. This work takes the novel approach of posing statistical OT as that of learning the transport plan's kernel mean embedding from sample based estimates of marginal embeddings. The proposed estimator controls overfitting by employing maximum mean discrepancy based regularization, which is complementary to $\phi$-divergence (entropy) based regularization popularly employed in existing estimators. A key result is that, under very mild conditions, $\epsilon$-optimal recovery of the transport plan as well as the Barycentric-projection based transport map is possible with a sample complexity that is completely dimension-free. Moreover, the implicit smoothing in the kernel mean embeddings enables out-of-sample estimation. An appropriate representer theorem is proved leading to a kernelized convex formulation for the estimator, which can then be potentially used to perform OT even in non-standard domains. Empirical results illustrate the efficacy of the proposed approach.
翻訳日:2023-01-02 22:31:18 公開日:2020-11-10
# 深層学習による大腿骨頭壊死症診断システム

Deep Learning-based End-to-end Diagnosis System for Avascular Necrosis of Femoral Head ( http://arxiv.org/abs/2002.05536v2 )

ライセンス: Link先を確認
Yang Li, Yan Li, Hua Tian(参考訳) 大腿骨頭壊死症 (AVNFH) の初診例として, 単純X線撮影で正確にAVNFHを進行させることは, 整形外科医にとって極めて困難である。 そこで我々は,深層学習に基づくAVNFH診断システム(AVN-net)を提案する。 提案したAVN-netは、骨盤の平らなX線写真を読み出し、診断を行い、結果を自動視覚化する。 深層畳み込みニューラルネットワークは、大腿骨頭の検出、検査視認、側面分類、AVNFH診断、および重要な臨床ノート生成のタスクをカバーするエンドツーエンドの診断ソリューションを提供するために訓練されている。 AVN-net は AVNFH 検出において 0.97 (95% CI: 0.97-0.98) の最先端テスト AUC を得ることができ、全ての診断試験において経験の少ない整形外科医よりもF1スコアが有意に大きい (p<0.01)。 さらに, AVN-netの有用性を評価するために, 診断支援と教育支援の2つの実世界のパイロット実験を行った。 実験結果は有望だ。 AVN-net診断を基準として, 整形外科の診断精度と整合性は, 1/4時間で有意に改善した。 AVN-net を用いて AVNFH 診断を自己学習する学生は,制御群よりも,より速く学習することができる。 本研究は,実世界の応用シナリオを表現した2つのパイロット実験を行い,avnfhのための深層学習に基づく診断システムの将来的利用に関する最初の研究である。 提案したAVN-netは,専門家レベルのAVNFH診断性能を達成し,臨床意思決定を効果的に支援し,臨床経験を学生に効果的に伝えることを実証した。

As the first diagnostic imaging modality of avascular necrosis of the femoral head (AVNFH), accurately staging AVNFH from a plain radiograph is critical yet challenging for orthopedists. Thus, we propose a deep learning-based AVNFH diagnosis system (AVN-net). The proposed AVN-net reads plain radiographs of the pelvis, conducts diagnosis, and visualizes results automatically. Deep convolutional neural networks are trained to provide an end-to-end diagnosis solution, covering tasks of femoral head detection, exam-view identification, side classification, AVNFH diagnosis, and key clinical notes generation. AVN-net is able to obtain state-of-the-art testing AUC of 0.97 (95% CI: 0.97-0.98) in AVNFH detection and significantly greater F1 scores than less-to-moderately experienced orthopedists in all diagnostic tests (p<0.01). Furthermore, two real-world pilot studies were conducted for diagnosis support and education assistance, respectively, to assess the utility of AVN-net. The experimental results are promising. With the AVN-net diagnosis as a reference, the diagnostic accuracy and consistency of all orthopedists considerably improved while requiring only 1/4 of the time. Students self-studying the AVNFH diagnosis using AVN-net can learn better and faster than the control group. To the best of our knowledge, this study is the first research on the prospective use of a deep learning-based diagnosis system for AVNFH by conducting two pilot studies representing real-world application scenarios. We have demonstrated that the proposed AVN-net achieves expert-level AVNFH diagnosis performance, provides efficient support in clinical decision-making, and effectively passes clinical experience to students.
翻訳日:2023-01-01 18:52:26 公開日:2020-11-10
# 雑音保護群をもつフェアネスに対するロバスト最適化

Robust Optimization for Fairness with Noisy Protected Groups ( http://arxiv.org/abs/2002.09343v3 )

ライセンス: Link先を確認
Serena Wang, Wenshuo Guo, Harikrishna Narasimhan, Andrew Cotter, Maya Gupta, Michael I. Jordan(参考訳) 機械学習の多くの既存の公正基準は、人種や性別などの保護されたグループ間での指標の等化を含む。 しかしながら、そのようなグループベースの基準を監査または強制しようとする実践者は、ノイズや偏りのある保護されたグループ情報の問題に容易に直面することができる。 まず、ノイズ保護されたグループラベルを無言で頼りにした結果について検討する。 真のグループ g の公正性違反に対して、公正性基準がうるさいグループに対して$\hat{g}$ を満たす場合に上限を与える。 第2に,ロバスト最適化を用いた2つの新しいアプローチを導入する。$\hat{g}$のみに依存するナイーブなアプローチとは異なり,トレーニング対象を最小化しつつ,真の保護グループgの公平性基準を満たすことが保証される。 このようなアプローチが最適実現可能な解に収束することを理論的に保証する。 2つのケーススタディを用いて、ロバストなアプローチが、ナイーブなアプローチよりも優れた真の集団公平性を保証することを実証的に示す。

Many existing fairness criteria for machine learning involve equalizing some metric across protected groups such as race or gender. However, practitioners trying to audit or enforce such group-based criteria can easily face the problem of noisy or biased protected group information. First, we study the consequences of naively relying on noisy protected group labels: we provide an upper bound on the fairness violations on the true groups G when the fairness criteria are satisfied on noisy groups $\hat{G}$. Second, we introduce two new approaches using robust optimization that, unlike the naive approach of only relying on $\hat{G}$, are guaranteed to satisfy fairness criteria on the true protected groups G while minimizing a training objective. We provide theoretical guarantees that one such approach converges to an optimal feasible solution. Using two case studies, we show empirically that the robust approaches achieve better true group fairness guarantees than the naive approach.
翻訳日:2022-12-30 00:44:14 公開日:2020-11-10
# HYDRA: 逆ロバストニューラルネットワーク

HYDRA: Pruning Adversarially Robust Neural Networks ( http://arxiv.org/abs/2002.10509v3 )

ライセンス: Link先を確認
Vikash Sehwag, Shiqi Wang, Prateek Mittal, Suman Jana(参考訳) 安全性に批判的だが計算量に制約のあるアプリケーションでは、ディープラーニングは2つの重要な課題に直面している。 研究コミュニティは、これらの課題の1つに対処するために、ロバストなトレーニングとネットワークプルーニングの使用を独立に調査してきたが、それらを共同研究した最近の研究はごくわずかである。 しかし、これらの著作は良性訓練のために開発されたヒューリスティックな刈り取り戦略を継承しており、敵対的な訓練や検証可能な堅牢な訓練など、堅牢な訓練技術と統合した場合の成績が劣る。 この課題を克服するため,我々はプルーニング技術にロバストなトレーニング目標を認識させ,訓練対象にプルーンへの接続の探索を誘導させる。 我々は,この知見を,SGDを用いて効率的に解決した経験的リスク最小化問題として定式化した。 HYDRAと題する我々の手法は、最先端の良さと堅牢な精度で同時に圧縮されたネットワークを実現する。 CIFAR-10,SVHN,ImageNetの4つの頑健なトレーニング手法を用いて,CIFAR-10,SVHN,ImageNetデータセットに対するアプローチの成功を実証した。 また,非ロバストネットワークにおける高ロバストなサブネットワークの存在を実証する。 私たちのコードと圧縮されたネットワークは \url{https://github.com/inspire-group/compactness-robustness} で公開されている。

In safety-critical but computationally resource-constrained applications, deep learning faces two key challenges: lack of robustness against adversarial attacks and large neural network size (often millions of parameters). While the research community has extensively explored the use of robust training and network pruning independently to address one of these challenges, only a few recent works have studied them jointly. However, these works inherit a heuristic pruning strategy that was developed for benign training, which performs poorly when integrated with robust training techniques, including adversarial training and verifiable robust training. To overcome this challenge, we propose to make pruning techniques aware of the robust training objective and let the training objective guide the search for which connections to prune. We realize this insight by formulating the pruning objective as an empirical risk minimization problem which is solved efficiently using SGD. We demonstrate that our approach, titled HYDRA, achieves compressed networks with state-of-the-art benign and robust accuracy, simultaneously. We demonstrate the success of our approach across CIFAR-10, SVHN, and ImageNet dataset with four robust training techniques: iterative adversarial training, randomized smoothing, MixTrain, and CROWN-IBP. We also demonstrate the existence of highly robust sub-networks within non-robust networks. Our code and compressed networks are publicly available at \url{https://github.com/inspire-group/compactness-robustness}.
翻訳日:2022-12-29 02:43:17 公開日:2020-11-10
# 運動プリミティブを用いた視覚計画の近似的近似化

Probably Approximately Correct Vision-Based Planning using Motion Primitives ( http://arxiv.org/abs/2002.12852v2 )

ライセンス: Link先を確認
Sushant Veer and Anirudha Majumdar(参考訳) 本稿では、新しい環境(トレーニング中に見つからない環境)に確実に一般化するビジョンベースプランナーの学習手法を提案する。 私たちは、おそらくほぼ正しい(pac)-bayesフレームワークを利用して、すべての環境にまたがるポリシーの期待されるコストの上限を取得します。 PAC-Bayes上限の最小化は、新しい環境におけるパフォーマンスの証明書を伴うポリシーを訓練する。 私たちが提案するトレーニングパイプラインは、ディープニューラルネットワークポリシの強力な一般化保証を提供する。 (a)進化戦略(es)を用いた政策空間上の良好な事前分布を得る b) PAC-Bayes最適化を効率よく解けるパラメトリック凸最適化問題として定式化する。 提案手法は,(1)視覚センサ搭載の障害物場を飛行する無人航空機 (uav) と,(2)摂動・受動センサによる荒地を走行する動的四足歩行ロボットの2つのシミュレーション例を通して,学習した視覚ベースの運動計画者に対して,強汎化保証を作成するための手法の有効性を示す。

This paper presents an approach for learning vision-based planners that provably generalize to novel environments (i.e., environments unseen during training). We leverage the Probably Approximately Correct (PAC)-Bayes framework to obtain an upper bound on the expected cost of policies across all environments. Minimizing the PAC-Bayes upper bound thus trains policies that are accompanied by a certificate of performance on novel environments. The training pipeline we propose provides strong generalization guarantees for deep neural network policies by (a) obtaining a good prior distribution on the space of policies using Evolutionary Strategies (ES) followed by (b) formulating the PAC-Bayes optimization as an efficiently-solvable parametric convex optimization problem. We demonstrate the efficacy of our approach for producing strong generalization guarantees for learned vision-based motion planners through two simulated examples: (1) an Unmanned Aerial Vehicle (UAV) navigating obstacle fields with an onboard vision sensor, and (2) a dynamic quadrupedal robot traversing rough terrains with proprioceptive and exteroceptive sensors.
翻訳日:2022-12-28 02:55:09 公開日:2020-11-10
# 正当性検証を用いた三角形自由線形動的ネットワークの再構成アルゴリズム

An algorithm for reconstruction of triangle-free linear dynamic networks with verification of correctness ( http://arxiv.org/abs/2003.02870v2 )

ライセンス: Link先を確認
Mihaela Dimovska, Donatello Materassi(参考訳) 観測データから動的システムのネットワークを再構築することは研究の活発な領域である。 多くのアプローチは、ネットワーク力学が厳密に因果転移関数によって支配されるという比較的強い仮定の下で一貫した再構成を保証する。 しかし、多くの実践シナリオでは、システムを記述するのに厳密な因果モデルでは不十分であり、直接フィードスルー項を含む動的モデルを考える必要がある。 直接フィードスルーが存在する場合、一貫性のある再構築の保証は、より困難なタスクである。 実際、ネットワーク上の追加の仮定の下では、無限データの限界でも、真のネットワークに存在しないエッジ(偽陽性)を推測したり、ネットワークに存在するエッジを検知しない(偽陰性)ような、いかなる再構成方法も影響を受けやすいことが証明される。 しかし、本稿で紹介された三角形フリーネットワークのクラスでは、いくつかの一貫性を保証することができる。 本稿では,その正しさを証明した三角形のないネットワークのトポロジを正確に復元するか,あるいは実際のネットワークのトポロジよりも小さいグラフを出力する手法を提案する。

Reconstructing a network of dynamic systems from observational data is an active area of research. Many approaches guarantee a consistent reconstruction under the relatively strong assumption that the network dynamics is governed by strictly causal transfer functions. However, in many practical scenarios, strictly causal models are not adequate to describe the system and it is necessary to consider models with dynamics that include direct feedthrough terms. In presence of direct feedthroughs, guaranteeing a consistent reconstruction is a more challenging task. Indeed, under no additional assumptions on the network, we prove that, even in the limit of infinite data, any reconstruction method is susceptible to inferring edges that do not exist in the true network (false positives) or not detecting edges that are present in the network (false negative). However, for a class of triangle-free networks introduced in this article, some consistency guarantees can be provided. We present a method that either exactly recovers the topology of a triangle-free network certifying its correctness or outputs a graph that is sparser than the topology of the actual network, specifying that such a graph has no false positives, but there are false negatives.
翻訳日:2022-12-26 07:35:47 公開日:2020-11-10
# 学習チームメイトモデルによる分散MCTS

Decentralized MCTS via Learned Teammate Models ( http://arxiv.org/abs/2003.08727v3 )

ライセンス: Link先を確認
Aleksander Czechowski, Frans A. Oliehoek(参考訳) 分散オンラインプランニングは、スケーラビリティと堅牢性の改善により、協調型マルチエージェントシステムにとって魅力的なパラダイムになり得る。 このアプローチの重要な難しさは、他のエージェントの判断を正確に予測することにある。 本稿では,分散モンテカルロ木探索に基づく学習可能なオンライン分散計画アルゴリズムを提案する。 1つのエージェントが一度にモデルに適応できるようにすることで、理想的なポリシー近似の仮定の下で、この手法の連続的な反復はジョイントポリシーを改善することが保証され、最終的にはnash平衡に収束する。 我々は,[claes et al., 2015]で導入された空間的タスク割り当て環境のいくつかのシナリオで実験を行い,アルゴリズムの効率性をテストする。 深層学習と畳み込みニューラルネットワークを用いて、問題の空間的特徴を利用する正確なポリシー近似器を作成できることを示し、提案アルゴリズムは、特に困難なドメイン構成において、ベースライン計画性能よりも改善されていることを示す。

Decentralized online planning can be an attractive paradigm for cooperative multi-agent systems, due to improved scalability and robustness. A key difficulty of such approach lies in making accurate predictions about the decisions of other agents. In this paper, we present a trainable online decentralized planning algorithm based on decentralized Monte Carlo Tree Search, combined with models of teammates learned from previous episodic runs. By only allowing one agent to adapt its models at a time, under the assumption of ideal policy approximation, successive iterations of our method are guaranteed to improve joint policies, and eventually lead to convergence to a Nash equilibrium. We test the efficiency of the algorithm by performing experiments in several scenarios of the spatial task allocation environment introduced in [Claes et al., 2015]. We show that deep learning and convolutional neural networks can be employed to produce accurate policy approximators which exploit the spatial features of the problem, and that the proposed algorithm improves over the baseline planning performance for particularly challenging domain configurations.
翻訳日:2022-12-22 04:14:41 公開日:2020-11-10
# 最先端の顔認証には奥行きが必要ですか?

Do We Need Depth in State-Of-The-Art Face Authentication? ( http://arxiv.org/abs/2003.10895v2 )

ライセンス: Link先を確認
Amir Livne, Alex Bronstein, Ron Kimmel, Ziv Aviv, Shahaf Grofit(参考訳) いくつかの顔認識法は、深度センサから抽出した幾何情報を利用して、単一画像に基づく認識技術の弱点を克服するように設計されている。 しかし、深度プロファイルの正確な取得は高価で困難なプロセスである。 本稿では,ステレオカメラシステムから顔の認識を,顔表面や深度マップを明示的に計算することなく学習する新しい手法を提案する。 顔が抽出された画像の位置とともに生の顔ステレオ画像は、顔の幾何学的構造を明示的に扱う必要を回避しつつ、提案するcnnが認識タスクを改善することができる。 このようにして、1つの画像から識別認証の簡易性とコスト効率を保ちつつ、幾何データの利点を明示的に再構成することなく享受する。 提案手法は,既存の単一画像と明示的な奥行きに基づく手法を,大規模ベンチマークで上回り,スプーフィング攻撃を認識できることを示す。 また,提案手法が左右画像中の顔位置を用いて,全体的な性能を向上させる情報的特徴を符号化することを示すアブレーション研究も行った。

Some face recognition methods are designed to utilize geometric information extracted from depth sensors to overcome the weaknesses of single-image based recognition technologies. However, the accurate acquisition of the depth profile is an expensive and challenging process. Here, we introduce a novel method that learns to recognize faces from stereo camera systems without the need to explicitly compute the facial surface or depth map. The raw face stereo images along with the location in the image from which the face is extracted allow the proposed CNN to improve the recognition task while avoiding the need to explicitly handle the geometric structure of the face. This way, we keep the simplicity and cost efficiency of identity authentication from a single image, while enjoying the benefits of geometric data without explicitly reconstructing it. We demonstrate that the suggested method outperforms both existing single-image and explicit depth based methods on large-scale benchmarks, and even capable of recognize spoofing attacks. We also provide an ablation study that shows that the suggested method uses the face locations in the left and right images to encode informative features that improve the overall performance.
翻訳日:2022-12-20 09:17:44 公開日:2020-11-10
# 繰り返し精細化を伴う係り受け解析のための再帰的非自己回帰グラフトグラフトランスフォーマ

Recursive Non-Autoregressive Graph-to-Graph Transformer for Dependency Parsing with Iterative Refinement ( http://arxiv.org/abs/2003.13118v2 )

ライセンス: Link先を確認
Alireza Mohammadshahi, James Henderson(参考訳) 本稿では、非自己回帰グラフ-グラフ変換器の再帰的適用による任意のグラフの反復的洗練のための再帰的非自己回帰グラフ-グラフ変換器アーキテクチャ(RNGTr)を提案する。 BERTで事前学習した改良モデルを用いて,RNGTrの複数の依存コーパスに対する有効性と有効性を示す。 また,リファインメントモデルに類似した非再帰型パーサであるSynTr(SynTr)も導入した。 RNGTrは、Universal Dependencies Treebanks, English and Chinese Penn Treebanks, and the German CoNLL2009 corpusから13の言語に対する様々な初期パーサーの精度を改善し、またSynTrによって達成された新しい最先端の結果をさらに改善し、テストされたすべてのコーパスの最先端性を大幅に改善することができる。

We propose the Recursive Non-autoregressive Graph-to-Graph Transformer architecture (RNGTr) for the iterative refinement of arbitrary graphs through the recursive application of a non-autoregressive Graph-to-Graph Transformer and apply it to syntactic dependency parsing. We demonstrate the power and effectiveness of RNGTr on several dependency corpora, using a refinement model pre-trained with BERT. We also introduce Syntactic Transformer (SynTr), a non-recursive parser similar to our refinement model. RNGTr can improve the accuracy of a variety of initial parsers on 13 languages from the Universal Dependencies Treebanks, English and Chinese Penn Treebanks, and the German CoNLL2009 corpus, even improving over the new state-of-the-art results achieved by SynTr, significantly improving the state-of-the-art for all corpora tested.
翻訳日:2022-12-18 13:03:48 公開日:2020-11-10
# 大規模ビデオ生成のための時間シフトGAN

Temporal Shift GAN for Large Scale Video Generation ( http://arxiv.org/abs/2004.01823v2 )

ライセンス: Link先を確認
Andres Munoz, Mohammadreza Zolfaghari, Max Argus and Thomas Brox(参考訳) ビデオ生成モデルはここ数年で人気が高まっているが、現在の標準的な2Dアーキテクチャでは時空間の自然なモデリング機能が欠如している。 本稿では,コストのかかる3Dアーキテクチャを使わずに時空間一貫性をモデル化したビデオ生成のためのネットワークアーキテクチャを提案する。 このアーキテクチャは、隣接する時点間の情報交換を容易にし、高レベルの構造と生成されたフレームの低レベルの詳細の両方の時間的一貫性を向上させる。 このアプローチは、UCF-101データセットの開始スコアによって測定された、最先端の定量的パフォーマンスと質的な結果を達成する。 また,評価に下流タスクを使用する新しい量的尺度(s3)を提案する。 さらに、モデルの一般化を評価するために、新しいマルチラベルデータセットMaisToyを提案する。

Video generation models have become increasingly popular in the last few years, however the standard 2D architectures used today lack natural spatio-temporal modelling capabilities. In this paper, we present a network architecture for video generation that models spatio-temporal consistency without resorting to costly 3D architectures. The architecture facilitates information exchange between neighboring time points, which improves the temporal consistency of both the high level structure as well as the low-level details of the generated frames. The approach achieves state-of-the-art quantitative performance, as measured by the inception score on the UCF-101 dataset as well as better qualitative results. We also introduce a new quantitative measure (S3) that uses downstream tasks for evaluation. Moreover, we present a new multi-label dataset MaisToy, which enables us to evaluate the generalization of the model.
翻訳日:2022-12-16 22:51:46 公開日:2020-11-10
# MetaSleepLearner:Meta-Learningを用いた生体信号に基づく睡眠段階分類器の新規被験者への適応に関する研究

MetaSleepLearner: A Pilot Study on Fast Adaptation of Bio-signals-Based Sleep Stage Classifier to New Individual Subject Using Meta-Learning ( http://arxiv.org/abs/2004.04157v4 )

ライセンス: Link先を確認
Nannapas Banluesombatkul, Pichayoot Ouppaphan, Pitshaporn Leelaarporn, Payongkit Lakhan, Busarakum Chaitusaney, Nattapong Jaimchariyatam, Ekapol Chuangsuwanich, Wei Chen, Huy Phan, Nat Dilokthanakul and Theerawit Wilaiprasitporn(参考訳) 生体信号に基づく睡眠ステージの同定には、熟練臨床医の時間と手間がかかる。 自動睡眠ステージ分類に挑戦するために,ディープラーニングアプローチが導入された。 しかし, 個々の生体信号の相違により, 臨床医を自動システムに置き換えることは困難であり, 来院者ごとのモデル性能に矛盾が生じている。 そこで我々は, 臨床医を補助し, 作業負荷を軽減できる新しいアプローチの実現可能性を探ることを目的とした。 そこで我々は,獲得した睡眠ステージングの知識を大規模データセットから新たな個人に伝達するために,モデル非依存メタラーニング(MAML)に基づく移動学習フレームワークMetaSleepLearnerを提案する。 このフレームワークは、臨床医による少数の睡眠のエポックのラベル付けを要求され、残りはシステムによって処理される。 また,LRP(Layer-wise Relevance Propagation)も提案手法の学習過程の理解に役立てた。 全ての取得したデータセットにおいて、MetaSleepLearnerは従来のアプローチと比較して、両方のアプローチの平均の統計的な差で5.4\%から17.7\%の改善を達成した。 また,各科目への適応後のモデル解釈の図面からも,演奏が合理的な学習に向けられていることを確認した。 metasleeplearnerは、健常者と患者の双方の録音を用いた微調整の結果、従来のアプローチを上回った。 これは、非伝統的な事前学習方法であるMAMLを調査した最初の研究であり、その結果、睡眠段階分類における人間と機械の協調の可能性と、睡眠段階のラベル付けにおける臨床医の負担を、録音全体ではなく、何回かのエポックで緩和した。

Identifying bio-signals based-sleep stages requires time-consuming and tedious labor of skilled clinicians. Deep learning approaches have been introduced in order to challenge the automatic sleep stage classification conundrum. However, the difficulties can be posed in replacing the clinicians with the automatic system due to the differences in many aspects found in individual bio-signals, causing the inconsistency in the performance of the model on every incoming individual. Thus, we aim to explore the feasibility of using a novel approach, capable of assisting the clinicians and lessening the workload. We propose the transfer learning framework, entitled MetaSleepLearner, based on Model Agnostic Meta-Learning (MAML), in order to transfer the acquired sleep staging knowledge from a large dataset to new individual subjects. The framework was demonstrated to require the labelling of only a few sleep epochs by the clinicians and allow the remainder to be handled by the system. Layer-wise Relevance Propagation (LRP) was also applied to understand the learning course of our approach. In all acquired datasets, in comparison to the conventional approach, MetaSleepLearner achieved a range of 5.4\% to 17.7\% improvement with statistical difference in the mean of both approaches. The illustration of the model interpretation after the adaptation to each subject also confirmed that the performance was directed towards reasonable learning. MetaSleepLearner outperformed the conventional approaches as a result from the fine-tuning using the recordings of both healthy subjects and patients. This is the first work that investigated a non-conventional pre-training method, MAML, resulting in a possibility for human-machine collaboration in sleep stage classification and easing the burden of the clinicians in labelling the sleep stages through only several epochs rather than an entire recording.
翻訳日:2022-12-15 09:48:09 公開日:2020-11-10
# テキストを持って 使ってください! 意味的忠実度を用いたエンドツーエンドニューラルデータ-テキスト生成

Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation with Semantic Fidelity ( http://arxiv.org/abs/2004.06577v2 )

ライセンス: Link先を確認
Hamza Harkous, Isabel Groves, Amir Saffari(参考訳) エンドツーエンドのニューラルネットワークデータツーテキスト(d2t)生成は、パイプラインベースのアーキテクチャに代わるものとして最近登場した。 しかし、新しいドメインに一般化し、意味的に一貫性のあるテキストを生成するという課題に直面している。 本研究では,データ表現と対象ドメインについて最小限の仮定を行うニューラルでエンドツーエンドなデータ-テキスト生成システムであるDataTunerを提案する。 2段階の世代交代アプローチを採用し、微調整された言語モデルと意味的忠実度分類器を組み合わせる。 それぞれのコンポーネントは、データセット固有のヒューリスティック、エンティティの語彙化、後処理を必要とせずに、エンドツーエンドで学習できます。 我々は,D2Tデータセット4つ(LDC2017T10,WebNLG,ViGGO,クリーンE2E)にまたがる自動計測結果について,人間が記述した参照テキストに近づいたり超えたりすることで,DataTunerが技術結果の状態を達成していることを示す。 さらに、モデルに基づくDataTunerのセマンティックフィデリティスコアラが、従来のヒューリスティックな測定よりも優れた評価ツールであることを実証した。 生成したテキストのセマンティックな忠実さは,4つのデータセットすべてにまたがる最先端技術よりもはるかに優れています。

End-to-end neural data-to-text (D2T) generation has recently emerged as an alternative to pipeline-based architectures. However, it has faced challenges in generalizing to new domains and generating semantically consistent text. In this work, we present DataTuner, a neural, end-to-end data-to-text generation system that makes minimal assumptions about the data representation and the target domain. We take a two-stage generation-reranking approach, combining a fine-tuned language model with a semantic fidelity classifier. Each of our components is learnt end-to-end without the need for dataset-specific heuristics, entity delexicalization, or post-processing. We show that DataTuner achieves state of the art results on the automated metrics across four major D2T datasets (LDC2017T10, WebNLG, ViGGO, and Cleaned E2E), with a fluency assessed by human annotators nearing or exceeding the human-written reference texts. We further demonstrate that the model-based semantic fidelity scorer in DataTuner is a better assessment tool compared to traditional, heuristic-based measures. Our generated text has a significantly better semantic fidelity than the state of the art across all four datasets
翻訳日:2022-12-15 09:04:48 公開日:2020-11-10
# コンテンツに基づくスパム検出におけるビジュアルスプーフィング

Visual Spoofing in content based spam detection ( http://arxiv.org/abs/2004.05265v2 )

ライセンス: Link先を確認
Mark Sokolov, Kehinde Olufowobi and Nic Herndon(参考訳) スパム分類の問題は解決されているように見えるが、現在のスパムフィルタには、容易に悪用できる脆弱性がある。 そのような脆弱性の一つとして、ある文字を別のアルファベットの対応する文字に置き換えることができる。 これらの文字は視覚的に類似しているが、Unicodeエンコーディングが異なる。 このアプローチにより、スパマーは既存のスパムフィルターをバイパスするメッセージを作成できる。 また,本手法は,テキスト文書の自動解析に自然言語処理を応用した他のアプリケーションにおいても,盗作検出を回避できることを示す。

Although the problem of spam classification seems to be solved, there are still vulnerabilities in the current spam filters that could be easily exploited. We present one such vulnerability, in which one could replace some characters with corresponding characters from a different alphabet. These characters are visually similar, yet have a different Unicode encoding. With this approach spammers can create messages that bypass existing spam filters. Moreover, we show that this approach can be used to avoid plagiarism detection, and in other applications that use natural language processing for automatic analysis of text documents.
翻訳日:2022-12-14 10:16:44 公開日:2020-11-10
# 自動アニメーションカラー化のための線画相関マッチング特徴転送ネットワーク

Line Art Correlation Matching Feature Transfer Network for Automatic Animation Colorization ( http://arxiv.org/abs/2004.06718v3 )

ライセンス: Link先を確認
Zhang Qian, Wang Bo, Wen Wei, Li Hai, Liu Jun Hui(参考訳) 自動アニメーションラインアートのカラー化は、ラインアートの情報は多様で抽象化されており、フレーム間の色とスタイル一貫性の厳格な要件が存在するため、コンピュータビジョンの問題である。 近年,GAN(Generative Adversarial Network)を用いた一線アートカラー化のための画像と画像の変換手法が数多く登場している。 ラインアート画像に条件づけられた知覚的に魅力的な結果を生成することができる。 しかし,これらの手法はフレーム間の整合性を考慮していないため,アニメーションのカラー化のためには適用できない。 既存の方法では、従来のカラーフレームを次のラインアートへの参照として入力するだけで、特に明らかな変化が生じる位置において、前のカラーフレームと次のラインアートの空間的ずれによる着色を誤解させる。 これらの課題に対処するために,色付き参照特徴を学習可能な方法で整列させるための相関マッチング特徴伝達モデル(cmft)を設計し,このモデルをu-netベースの生成器に統合する。 これにより、ジェネレータはディープセマンティックコードから徐々にコンテンツにレイヤーワイドの同期機能を転送できる。 拡張評価の結果,CMFTモデルでは,特に動きが強く多様である場合に,フレーム間の一貫性と品質を効果的に向上できることがわかった。

Automatic animation line art colorization is a challenging computer vision problem, since the information of the line art is highly sparse and abstracted and there exists a strict requirement for the color and style consistency between frames. Recently, a lot of Generative Adversarial Network (GAN) based image-to-image translation methods for single line art colorization have emerged. They can generate perceptually appealing results conditioned on line art images. However, these methods can not be adopted for the purpose of animation colorization because there is a lack of consideration of the in-between frame consistency. Existing methods simply input the previous colored frame as a reference to color the next line art, which will mislead the colorization due to the spatial misalignment of the previous colored frame and the next line art especially at positions where apparent changes happen. To address these challenges, we design a kind of correlation matching feature transfer model (called CMFT) to align the colored reference feature in a learnable way and integrate the model into an U-Net based generator in a coarse-to-fine manner. This enables the generator to transfer the layer-wise synchronized features from the deep semantic code to the content progressively. Extension evaluation shows that CMFT model can effectively improve the in-between consistency and the quality of colored frames especially when the motion is intense and diverse.
翻訳日:2022-12-13 10:16:14 公開日:2020-11-10
# ActionSpotter:ビデオにおける時間的アクションスポッティングのための深層強化学習フレームワーク

ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos ( http://arxiv.org/abs/2004.06971v2 )

ライセンス: Link先を確認
Guillaume Vaudaux-Ruth, Adrien Chan-Hon-Tong, Catherine Achard (ISIR, PIROS, SU)(参考訳) ビデオコンテンツの要約は多くのアプリケーションにおいて重要なタスクである。 このタスクは、ビデオに存在するアクションの順序付きリストの計算として定義することができる。 このようなリストは、アクション検出アルゴリズムを用いて抽出できる。 しかし、その存在を知るために行動の時間的境界を決定する必要はない。 さらに、正確な境界の局所化は、通常、密集したビデオ分析を効果的に必要とする。 そこで本研究では,映像をスムースに閲覧し,アクション・スポッティングとして知られるタスクであるアクション・インスタンスごとに1つのフレームを選択することで,この順序付きリストを直接計算することを提案する。 そこで本研究では,深層強化学習を活用し,映像閲覧速度に適応しつつ,追加の監督を必要とせず,効率的な動作検出を行うためのスポッティングアルゴリズムであるactionspotterを提案する。 THUMOS14とActivityNetで行った実験は、我々のフレームワークがアート検出方法の状態を上回ります。 特にthums14のスポッティング平均精度は59.7%から65.6%に大幅に向上し、ビデオの23%をスキップした。

Summarizing video content is an important task in many applications. This task can be defined as the computation of the ordered list of actions present in a video. Such a list could be extracted using action detection algorithms. However, it is not necessary to determine the temporal boundaries of actions to know their existence. Moreover, localizing precise boundaries usually requires dense video analysis to be effective. In this work, we propose to directly compute this ordered list by sparsely browsing the video and selecting one frame per action instance, task known as action spotting in literature. To do this, we propose ActionSpotter, a spotting algorithm that takes advantage of Deep Reinforcement Learning to efficiently spot actions while adapting its video browsing speed, without additional supervision. Experiments performed on datasets THUMOS14 and ActivityNet show that our framework outperforms state of the art detection methods. In particular, the spotting mean Average Precision on THUMOS14 is significantly improved from 59.7% to 65.6% while skipping 23% of video.
翻訳日:2022-12-13 02:36:53 公開日:2020-11-10
# 周波数重み付きロバストテンソル主成分分析

Frequency-Weighted Robust Tensor Principal Component Analysis ( http://arxiv.org/abs/2004.10068v2 )

ライセンス: Link先を確認
Shenghan Wang, Yipeng Liu, Lanlan Feng, Ce Zhu(参考訳) ロバストテンソル主成分分析(RTPCA)は、低ランク成分とスパース成分を多次元データから分離することができる。 その性能はテンソル分解の種類によって異なり、テンソル特異値分解(t-SVD)は一般に選択される。 標準の t-SVD は離散フーリエ変換を用いて、分解における第3モードの残差を利用する。 t-SVDに関連するテンソル核ノルムを最小化する際、周波数領域の全ての前部スライスを等しく最適化する。 本稿では,周波数成分分析をt-SVDに組み込んでRTPCA性能を向上させる。 特に、異なる周波数帯域を対応する物理的意味に対して不等に重み付けし、周波数重み付きテンソル核ノルムを得ることができる。 したがって、周波数重み付きテンソル特異値閾値演算子を厳格に推定し、RTPCAの低階近似サブプロブレムに適用する。 新たに得られた周波数重み付きRTPCAは乗算器の交互方向法により解くことができ、テンソル主成分分析において周波数解析を行うのはこれが初めてである。 合成3Dデータ,色画像の復調,背景モデリングの数値実験により,提案手法が精度と計算複雑性の両方において最先端のアルゴリズムより優れていることを確認した。

Robust tensor principal component analysis (RTPCA) can separate the low-rank component and sparse component from multidimensional data, which has been used successfully in several image applications. Its performance varies with different kinds of tensor decompositions, and the tensor singular value decomposition (t-SVD) is a popularly selected one. The standard t-SVD takes the discrete Fourier transform to exploit the residual in the 3rd mode in the decomposition. When minimizing the tensor nuclear norm related to t-SVD, all the frontal slices in frequency domain are optimized equally. In this paper, we incorporate frequency component analysis into t-SVD to enhance the RTPCA performance. Specially, different frequency bands are unequally weighted with respect to the corresponding physical meanings, and the frequency-weighted tensor nuclear norm can be obtained. Accordingly we rigorously deduce the frequency-weighted tensor singular value threshold operator, and apply it for low rank approximation subproblem in RTPCA. The newly obtained frequency-weighted RTPCA can be solved by alternating direction method of multipliers, and it is the first time that frequency analysis is taken in tensor principal component analysis. Numerical experiments on synthetic 3D data, color image denoising and background modeling verify that the proposed method outperforms the state-of-the-art algorithms both in accuracy and computational complexity.
翻訳日:2022-12-11 07:16:17 公開日:2020-11-10
# 対話用KNN合成メモリを用いた変換器の拡張

Augmenting Transformers with KNN-Based Composite Memory for Dialogue ( http://arxiv.org/abs/2004.12744v2 )

ライセンス: Link先を確認
Angela Fan, Claire Gardent, Chloe Braud, Antoine Bordes(参考訳) さまざまな機械学習タスクは、テキストや画像など、さまざまなモダリティの外部情報へのアクセスによるメリットがある。 最近の研究は、この知識を保存できる大きな記憶を持つ学習アーキテクチャに焦点を当てている。 我々は、KNNベースの情報フェッチング(KIF)モジュールを用いた生成トランスフォーマーニューラルネットワークの拡張を提案する。 各KIFモジュールは、固定された外部知識にアクセスするための読み取り操作を学習する。 これらのモジュールを生成的ダイアログモデリングに適用し,話題や会話の流れを維持するために,情報を柔軟に検索し,組み込む必要がある課題である。 本稿では,ウィキペディアや画像,人文音声からの対話に必要な関連知識を識別し,本手法の有効性を実証し,この情報を活用することにより,自動評価と人文評価によるモデル性能の向上が図られることを示す。

Various machine learning tasks can benefit from access to external information of different modalities, such as text and images. Recent work has focused on learning architectures with large memories capable of storing this knowledge. We propose augmenting generative Transformer neural networks with KNN-based Information Fetching (KIF) modules. Each KIF module learns a read operation to access fixed external knowledge. We apply these modules to generative dialog modeling, a challenging task where information must be flexibly retrieved and incorporated to maintain the topic and flow of conversation. We demonstrate the effectiveness of our approach by identifying relevant knowledge required for knowledgeable but engaging dialog from Wikipedia, images, and human-written dialog utterances, and show that leveraging this retrieved information improves model performance, measured by automatic and human evaluation.
翻訳日:2022-12-09 05:21:43 公開日:2020-11-10
# 事前学習言語モデルにおける伝達可能性の検討

Investigating Transferability in Pretrained Language Models ( http://arxiv.org/abs/2004.14975v2 )

ライセンス: Link先を確認
Alex Tamkin, Trisha Singh, Davide Giovanardi, Noah Goodman(参考訳) 言語モデルの事前学習はトランスファー学習にどのように役立つか? 本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。 この方法、部分再活性化は、事前訓練されたモデルの異なる層をランダムな重みで置き換え、転送タスクでモデル全体を微調整し、パフォーマンスの変化を観察する。 この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。 さらに、事前訓練されたパラメータを層に使用する利点は、データセットのサイズを微調整することで劇的に変化する。 これらの結果は転送学習プロセスの複雑さを明らかにし、凍結モデルや単一データサンプルで動作するメソッドの制限を強調している。

How does language model pretraining help transfer learning? We consider a simple ablation technique for determining the impact of each pretrained layer on transfer task performance. This method, partial reinitialization, involves replacing different layers of a pretrained model with random weights, then finetuning the entire model on the transfer task and observing the change in performance. This technique reveals that in BERT, layers with high probing performance on downstream GLUE tasks are neither necessary nor sufficient for high accuracy on those tasks. Furthermore, the benefit of using pretrained parameters for a layer varies dramatically with finetuning dataset size: parameters that provide tremendous performance improvement when data is plentiful may provide negligible benefits in data-scarce settings. These results reveal the complexity of the transfer learning process, highlighting the limitations of methods that operate on frozen models or single data samples.
翻訳日:2022-12-08 02:46:23 公開日:2020-11-10
# 学習精神における情報探索 : 会話の好奇心のためのデータセット

Information Seeking in the Spirit of Learning: a Dataset for Conversational Curiosity ( http://arxiv.org/abs/2005.00172v2 )

ライセンス: Link先を確認
Pedro Rodriguez, Paul Crook, Seungwhan Moon, Zhiguang Wang(参考訳) オープンエンドの人間学習と情報検索は、デジタルアシスタントによって媒介されるようになっている。 しかし、そのようなシステムはユーザの既存の知識を無視することが多い。 メッセージの“ライキング”やフォローアップ質問といったユーザ応答とエンゲージメントの相関を仮定し,ユーザが知っている事実を提示すると,エンゲージメントが増加するという仮説を検証したWizard-of-Ozダイアログタスクを設計する。 この実験のクラウドソーシングを通じて、ユーザとアシスタントが地理的実体や場所といった地理的トピックについて会話する14Kダイアログ(181K発声)を収集し、リリースする。 このデータセットには、既存のユーザ知識、メッセージレベルのダイアログ、wikipediaへの接地、メッセージに対するユーザの反応が注釈されている。 ユーザの事前知識を使用した応答は、エンゲージメントを高める。 この知識をマルチタスクモデルに組み込んで,人間のアシスタントポリシを再現し,13個の相互ランクポイントでbertコンテンツモデルに対して改善する。

Open-ended human learning and information-seeking are increasingly mediated by digital assistants. However, such systems often ignore the user's pre-existing knowledge. Assuming a correlation between engagement and user responses such as "liking" messages or asking followup questions, we design a Wizard-of-Oz dialog task that tests the hypothesis that engagement increases when users are presented with facts related to what they know. Through crowd-sourcing of this experiment, we collect and release 14K dialogs (181K utterances) where users and assistants converse about geographic topics like geopolitical entities and locations. This dataset is annotated with pre-existing user knowledge, message-level dialog acts, grounding to Wikipedia, and user reactions to messages. Responses using a user's prior knowledge increase engagement. We incorporate this knowledge into a multi-task model that reproduces human assistant policies and improves over a BERT content model by 13 mean reciprocal rank points.
翻訳日:2022-12-07 23:37:55 公開日:2020-11-10
# MEG脳ネットワークを用いたアルツハイマー病進展予測のためのグラフガウス埋め込み法

A Graph Gaussian Embedding Method for Predicting Alzheimer's Disease Progression with MEG Brain Networks ( http://arxiv.org/abs/2005.05784v2 )

ライセンス: Link先を確認
Mengjia Xu, David Lopez Sanz, Pilar Garces, Fernando Maestu, Quanzheng Li, Dimitrios Pantazis(参考訳) アルツハイマー病(AD)の病態カスケードに関連する機能的脳ネットワークの微妙な変化を特徴付けることは,臨床症状に先行する疾患の早期診断と予測に重要である。 我々は,高次元の静止状態脳ネットワークを低次元の潜在空間にマッピングすることで,高情報的なネットワーク特徴を学習できる多グラフガウス埋め込みモデル(MG2G)を開発した。 これらの潜在分布に基づく埋め込みは、異なる領域における微妙で不均質な脳接続パターンの定量的な特徴付けを可能にし、ad早期予測や脳領域間の有意な変化の統計的評価など、ダウンストリームグラフ分析タスクの伝統的な分類器への入力として使用できる。 mg2gを用いてmeg脳ネットワークの固有潜伏次元の検出、軽度認知障害(mci)患者のadへの進展の予測、mciに関連するネットワーク変化を伴う脳領域の同定を行った。

Characterizing the subtle changes of functional brain networks associated with the pathological cascade of Alzheimer's disease (AD) is important for early diagnosis and prediction of disease progression prior to clinical symptoms. We developed a new deep learning method, termed multiple graph Gaussian embedding model (MG2G), which can learn highly informative network features by mapping high-dimensional resting-state brain networks into a low-dimensional latent space. These latent distribution-based embeddings enable a quantitative characterization of subtle and heterogeneous brain connectivity patterns at different regions and can be used as input to traditional classifiers for various downstream graph analytic tasks, such as AD early stage prediction, and statistical evaluation of between-group significant alterations across brain regions. We used MG2G to detect the intrinsic latent dimensionality of MEG brain networks, predict the progression of patients with mild cognitive impairment (MCI) to AD, and identify brain regions with network alterations related to MCI.
翻訳日:2022-12-05 12:26:25 公開日:2020-11-10
# Spanning攻撃: ラベルのないデータでブラックボックス攻撃を強化

Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data ( http://arxiv.org/abs/2005.04871v2 )

ライセンス: Link先を確認
Lu Wang, Huan Zhang, Jinfeng Yi, Cho-Jui Hsieh, Yuan Jiang(参考訳) 敵対的ブラックボックス攻撃は、機械学習モデルの入出力ペアをクエリすることで、敵の摂動を発生させることを目的としている。 これらは、事前訓練されたモデルの堅牢性を評価するために広く利用されている。 しかし、ブラックボックス攻撃は入力空間の高次元性によってクエリ非効率の問題に陥り、モデルロバスト性の誤った感覚を生じさせることが多い。 本稿では,ブラックボックス脅威モデルの条件を緩和し,スパンディング攻撃と呼ばれる新しい手法を提案する。 補助的なラベル付きデータセットを分散することで、低次元のサブ空間における敵の摂動を制限することにより、分散攻撃は、様々なブラックボックス攻撃のクエリ効率を大幅に改善する。 広汎な実験により,提案手法はソフトラベルとハードラベルのブラックボックス攻撃の両方で有効であることがわかった。 私たちのコードはhttps://github.com/wangwllu/spanning_attackで利用可能です。

Adversarial black-box attacks aim to craft adversarial perturbations by querying input-output pairs of machine learning models. They are widely used to evaluate the robustness of pre-trained models. However, black-box attacks often suffer from the issue of query inefficiency due to the high dimensionality of the input space, and therefore incur a false sense of model robustness. In this paper, we relax the conditions of the black-box threat model, and propose a novel technique called the spanning attack. By constraining adversarial perturbations in a low-dimensional subspace via spanning an auxiliary unlabeled dataset, the spanning attack significantly improves the query efficiency of a wide variety of existing black-box attacks. Extensive experiments show that the proposed method works favorably in both soft-label and hard-label black-box attacks. Our code is available at https://github.com/wangwllu/spanning_attack.
翻訳日:2022-12-04 19:35:24 公開日:2020-11-10
# 広告レコメンデーションシステムに関する調査研究--攻撃・防衛戦略から生成的広告ネットワークへ-

A survey on Adversarial Recommender Systems: from Attack/Defense strategies to Generative Adversarial Networks ( http://arxiv.org/abs/2005.10322v2 )

ライセンス: Link先を確認
Yashar Deldjoo and Tommaso Di Noia and Felice Antonio Merra(参考訳) 行列分解法 (MF) やディープCF法のような協調フィルタリング (CF) に基づく潜在因子モデル (LFM) は, 優れた性能と推奨精度のため, 現代のレコメンデータシステム (RS) において広く用いられている。 しかし、成功には新たな課題が伴っている。機械学習(ml)の多くの応用は、本質的に敵対的である。 近年、これらの手法は敵対的な例、すなわち、推奨モデルに誤った出力を強制するために設計された微妙だが非ランダムな摂動に対して脆弱であることが示されている。 この調査の目標は2つあります。 (i)rsのセキュリティ(攻撃・防衛勧告モデル)のためのadversarial machine learning(aml)の最近の進歩について紹介する。 (ii)(高次元)データ分布の学習能力により、生成的逆ネットワーク(gans)におけるamlのもう1つの成功例を示す。 本調査では,主要な学術雑誌や学会に掲載された74の論文の総括的な文献レビューを行う。 このレビューは、RSコミュニティのリファレンスとして機能し、RSのセキュリティや、GANを用いた生成モデルを使って品質を改善する。

Latent-factor models (LFM) based on collaborative filtering (CF), such as matrix factorization (MF) and deep CF methods, are widely used in modern recommender systems (RS) due to their excellent performance and recommendation accuracy. However, success has been accompanied with a major new arising challenge: many applications of machine learning (ML) are adversarial in nature. In recent years, it has been shown that these methods are vulnerable to adversarial examples, i.e., subtle but non-random perturbations designed to force recommendation models to produce erroneous outputs. The goal of this survey is two-fold: (i) to present recent advances on adversarial machine learning (AML) for the security of RS (i.e., attacking and defense recommendation models), (ii) to show another successful application of AML in generative adversarial networks (GANs) for generative applications, thanks to their ability for learning (high-dimensional) data distributions. In this survey, we provide an exhaustive literature review of 74 articles published in major RS and ML journals and conferences. This review serves as a reference for the RS community, working on the security of RS or on generative models using GANs to improve their quality.
翻訳日:2022-12-01 06:20:36 公開日:2020-11-10
# ハイパースフィア上のアライメントと一様性によるコントラスト表現学習の理解

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere ( http://arxiv.org/abs/2005.10242v10 )

ライセンス: Link先を確認
Tongzhou Wang, Phillip Isola(参考訳) 対照的な表現学習は実践において著しく成功した。 本研究では,(1)正対からの特徴のアライメント(近接性)と(2)超球面上の(正規化)特徴の誘導分布の均一性という,対照的な損失に関連する2つの重要な性質を同定する。 漸近的に、対照的な損失はこれらの特性を最適化し、下流タスクに対する正の効果を分析する。 経験的に、各特性を定量化する最適化可能な計量を導入する。 標準ビジョンと言語データセットに関する大規模な実験は、メトリクスと下流タスクのパフォーマンスの双方の強い一致を確認します。 驚くべきことに、これらの2つのメトリクスを直接最適化することは、コントラスト学習よりも下流タスクで同等あるいは優れたパフォーマンスを持つ表現につながる。 プロジェクトページ: https://tongzhouwang.info/hypersphere code: https://github.com/ssnl/align_uniform , https://github.com/ssnl/moco_align_uniform

Contrastive representation learning has been outstandingly successful in practice. In this work, we identify two key properties related to the contrastive loss: (1) alignment (closeness) of features from positive pairs, and (2) uniformity of the induced distribution of the (normalized) features on the hypersphere. We prove that, asymptotically, the contrastive loss optimizes these properties, and analyze their positive effects on downstream tasks. Empirically, we introduce an optimizable metric to quantify each property. Extensive experiments on standard vision and language datasets confirm the strong agreement between both metrics and downstream task performance. Remarkably, directly optimizing for these two metrics leads to representations with comparable or better performance at downstream tasks than contrastive learning. Project Page: https://tongzhouwang.info/hypersphere Code: https://github.com/SsnL/align_uniform , https://github.com/SsnL/moco_align_uniform
翻訳日:2022-12-01 04:28:48 公開日:2020-11-10
# DeepMark++: エッジでのリアルタイムクローン検出

DeepMark++: Real-time Clothing Detection at the Edge ( http://arxiv.org/abs/2006.00710v3 )

ライセンス: Link先を確認
Alexey Sidnev, Alexander Krapivin, Alexey Trushkov, Ekaterina Krasikova, Maxim Kazakov, Mikhail Viryasov(参考訳) 衣服認識は、ファッション領域における最も基本的なAIアプリケーションチャレンジである。 既存のソリューションは適切な認識精度を提供するが、一般的には遅く、かなりの計算資源を必要とする。 本稿では,この障害を克服し,迅速な衣服検出とキーポイント推定を実現するための単段アプローチを提案する。 提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。 私たちの最も正確なモデルは、deepfashion2データセットの最先端ソリューションに匹敵する結果を達成し、軽量で高速なモデルはhuawei p40 proの17fpsで動作します。 さらに、テストデータセットの0.582 mAPでDeepFashion2 Landmark Estimation Challenge 2020で2位を獲得しました。

Clothing recognition is the most fundamental AI application challenge within the fashion domain. While existing solutions offer decent recognition accuracy, they are generally slow and require significant computational resources. In this paper we propose a single-stage approach to overcome this obstacle and deliver rapid clothing detection and keypoint estimation. Our solution is based on a multi-target network CenterNet, and we introduce several powerful post-processing techniques to enhance performance. Our most accurate model achieves results comparable to state-of-the-art solutions on the DeepFashion2 dataset, and our light and fast model runs at 17 FPS on the Huawei P40 Pro smartphone. In addition, we achieved second place in the DeepFashion2 Landmark Estimation Challenge 2020 with 0.582 mAP on the test dataset.
翻訳日:2022-11-26 07:16:19 公開日:2020-11-10
# 位置と対話的なマルチモーダル会話

Situated and Interactive Multimodal Conversations ( http://arxiv.org/abs/2006.01460v2 )

ライセンス: Link先を確認
Seungwhan Moon, Satwik Kottur, Paul A. Crook, Ankita De, Shivani Poddar, Theodore Levin, David Whitney, Daniel Difranco, Ahmad Beirami, Eunjoon Cho, Rajen Subba, Alborz Geramifard(参考訳) 次世代の仮想アシスタントは、マルチモーダル入力(例えば、ユーザの発話に加えて、以前のインタラクションの視覚、記憶)を処理し、マルチモーダルアクション(例えば、システムの発話生成に加えて経路を表示する)を行うように想定されている。 我々は,対話履歴に加えて,マルチモーダルな入力コンテキストを基盤としたマルチモーダルな動作を行う訓練エージェントを指向した,Situated Interactive MultiModal Conversations (SIMMC) を新たに導入する。 マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,2つのショッピングドメインに合計13K人の対話(~169K発話)を集計したSIMMCデータセットを提供する。 (a)家具(共有仮想環境内にあるもの)及び (b)ファッション(進化した画像のセットでグラウンド化)。 また,各場面に出現する項目のログと文脈的NLUおよびコア参照アノテーションを,ユーザおよびアシスタント発話のSIMMC会話行動の新しい統一フレームワークを用いて提供する。 最後に、構造化API予測や応答生成などの客観的評価プロトコルとして、SIMMC内のいくつかのタスクを提示する。 SIMMCタスク上の既存のモデルの集合を強力なベースラインとしてベンチマークし、リッチなマルチモーダル対話相互作用を示す。 私たちのデータ、アノテーション、コード、モデルは公開されています。

Next generation virtual assistants are envisioned to handle multimodal inputs (e.g., vision, memories of previous interactions, in addition to the user's utterances), and perform multimodal actions (e.g., displaying a route in addition to generating the system's utterance). We introduce Situated Interactive MultiModal Conversations (SIMMC) as a new direction aimed at training agents that take multimodal actions grounded in a co-evolving multimodal input context in addition to the dialog history. We provide two SIMMC datasets totalling ~13K human-human dialogs (~169K utterances) using a multimodal Wizard-of-Oz (WoZ) setup, on two shopping domains: (a) furniture (grounded in a shared virtual environment) and, (b) fashion (grounded in an evolving set of images). We also provide logs of the items appearing in each scene, and contextual NLU and coreference annotations, using a novel and unified framework of SIMMC conversational acts for both user and assistant utterances. Finally, we present several tasks within SIMMC as objective evaluation protocols, such as Structural API Prediction and Response Generation. We benchmark a collection of existing models on these SIMMC tasks as strong baselines, and demonstrate rich multimodal conversational interactions. Our data, annotations, code, and models are publicly available.
翻訳日:2022-11-25 23:09:19 公開日:2020-11-10
# RarePlanes: 合成データが飛行する

RarePlanes: Synthetic Data Takes Flight ( http://arxiv.org/abs/2006.02963v2 )

ライセンス: Link先を確認
Jacob Shermeyer, Thomas Hossler, Adam Van Etten, Daniel Hogan, Ryan Lewis, Daeil Kim(参考訳) RarePlanesは、実画像と合成画像の両方を組み込んだ、ユニークなオープンソースの機械学習データセットである。 RarePlanesデータセットは、コンピュータビジョンアルゴリズムが衛星画像中の航空機とその属性を自動的に検出する能力を支援するために、合成データの価値を特に重視している。 他の合成と実の組み合わせデータセットは存在するが、RarePlanesは、オーバーヘッドの観点から合成データの価値をテストするために構築された、オープンソースで利用可能な超高解像度データセットである。 これまでの研究では、合成データは必要な実際のトレーニングデータ量を減らし、コンピュータビジョン領域の多くのタスクのパフォーマンスを向上させる可能性があることが示されている。 データセットの実際の部分は、112箇所に2,142 km^2と14,700機の手書きの航空機を含む253 Maxar WorldView-3衛星シーンで構成されている。 付随する合成データセットはAI.Reverieのシミュレーションプラットフォームで生成され、合計面積9331.2 km^2の合成衛星画像5万枚と航空機のアノテーション630,000枚をシミュレートする。 実機と合成型の両方の航空機は、翼長、翼幅、翼配置、翼幅クラス、推進力、エンジン数、垂直安定剤の数、カナードの存在、航空機の役割を含む10の細かい粒度特性を備えている。 最後に,実データと合成データを比較実験し,実データと合成データを比較した。 そこで,本研究では,航空機の検出・分類作業における合成データの価値を頭上から示す。

RarePlanes is a unique open-source machine learning dataset that incorporates both real and synthetically generated satellite imagery. The RarePlanes dataset specifically focuses on the value of synthetic data to aid computer vision algorithms in their ability to automatically detect aircraft and their attributes in satellite imagery. Although other synthetic/real combination datasets exist, RarePlanes is the largest openly-available very-high resolution dataset built to test the value of synthetic data from an overhead perspective. Previous research has shown that synthetic data can reduce the amount of real training data needed and potentially improve performance for many tasks in the computer vision domain. The real portion of the dataset consists of 253 Maxar WorldView-3 satellite scenes spanning 112 locations and 2,142 km^2 with 14,700 hand-annotated aircraft. The accompanying synthetic dataset is generated via AI.Reverie's simulation platform and features 50,000 synthetic satellite images simulating a total area of 9331.2 km^2 with ~630,000 aircraft annotations. Both the real and synthetically generated aircraft feature 10 fine grain attributes including: aircraft length, wingspan, wing-shape, wing-position, wingspan class, propulsion, number of engines, number of vertical-stabilizers, presence of canards, and aircraft role. Finally, we conduct extensive experiments to evaluate the real and synthetic datasets and compare performances. By doing so, we show the value of synthetic data for the task of detecting and classifying aircraft from an overhead perspective.
翻訳日:2022-11-25 12:39:04 公開日:2020-11-10
# 二重発振リスクと容積飽和効果:幾何学的視点

Double Descent Risk and Volume Saturation Effects: A Geometric Perspective ( http://arxiv.org/abs/2006.04366v2 )

ライセンス: Link先を確認
Prasad Cheema, Mahito Sugiyama(参考訳) 複発リスク現象の出現は、U字型の列車試験曲線の背後にあるよく理解された概念に挑戦するため、機械学習と統計学コミュニティへの関心が高まっている。 リッサネンの最小記述長(MDL)、バラスラマニアのOccam's Razor、アマリの情報幾何を通して、モデル体積の対数:$\log V$は、AICとBICモデル選択基準の背景にある直観を拡張するためにどのように機能するかを考察する。 等方的線形回帰と統計格子の特定のモデルクラスに対して、$\log V$ 項は異なる成分の和に分解され、それぞれがこの現象の出現を説明するのに役立つ。 特に、一般化誤差がモデル次元の増加とともに必ずしも増大しない理由を示唆している。

The appearance of the double-descent risk phenomenon has received growing interest in the machine learning and statistics community, as it challenges well-understood notions behind the U-shaped train-test curves. Motivated through Rissanen's minimum description length (MDL), Balasubramanian's Occam's Razor, and Amari's information geometry, we investigate how the logarithm of the model volume: $\log V$, works to extend intuition behind the AIC and BIC model selection criteria. We find that for the particular model classes of isotropic linear regression and statistical lattices, the $\log V$ term may be decomposed into a sum of distinct components, each of which assist in their explanations of the appearance of this phenomenon. In particular they suggest why generalization error does not necessarily continue to grow with increasing model dimensionality.
翻訳日:2022-11-24 00:33:59 公開日:2020-11-10
# 後方対称性の破れによるベイズ行列因子の効率的なMCMCサンプリング

Efficient MCMC Sampling for Bayesian Matrix Factorization by Breaking Posterior Symmetries ( http://arxiv.org/abs/2006.04295v3 )

ライセンス: Link先を確認
Saibal De, Hadi Salehi, Alex Gorodetsky(参考訳) ベイズ低ランク行列分解技術は関係データ解析と行列補完に必須のツールとなっている。 標準的アプローチは、係数行列の列または列にゼロ平均ガウス前駆体を割り当てて共役系を作成することである。 この事前選択は単純な実装につながるが、マルコフ連鎖モンテカルロ(MCMC)サンプリング手法の効率を著しく低下させる後続分布の対称性を引き起こす。 本稿では,これらの対称性を解消し,精度を維持・改善する事前選択の簡単な修正を提案する。 具体的には、ガウス平均と共分散が満たさなければならない条件を提供するので、後部はサンプリング困難をもたらす不変性は示さない。 例えば,非ゼロ線形独立な先行手段を用いることでMCMCサンプルの自己相関が著しく低下し,再建誤差の低減につながることを示す。

Bayesian low-rank matrix factorization techniques have become an essential tool for relational data analysis and matrix completion. A standard approach is to assign zero-mean Gaussian priors on the columns or rows of factor matrices to create a conjugate system. This choice of prior leads to simple implementations; however it also causes symmetries in the posterior distribution that can severely reduce the efficiency of Markov-chain Monte-Carlo (MCMC) sampling approaches. In this paper, we propose a simple modification to the prior choice that provably breaks these symmetries and maintains/improves accuracy. Specifically, we provide conditions that the Gaussian prior mean and covariance must satisfy so the posterior does not exhibit invariances that yield sampling difficulties. For example, we show that using non-zero linearly independent prior means significantly lowers the autocorrelation of MCMC samples, and can also lead to lower reconstruction errors.
翻訳日:2022-11-24 00:24:37 公開日:2020-11-10
# 波動画像の幾何学的学習

Learning the geometry of wave-based imaging ( http://arxiv.org/abs/2006.05854v3 )

ライセンス: Link先を確認
Konik Kothari, Maarten de Hoop, Ivan Dokmani\'c(参考訳) 本稿では,波動画像問題に対する一般物理に基づくディープラーニングアーキテクチャを提案する。 背景波速度の異なる撮像問題の鍵となる問題は、媒質がその位置や方向によって異なる波を「束ねる」ことである。 この空間分割幾何により、畳み込みネットワークの変換に対する同値性は望ましくない帰納的バイアスとなる。 我々は、フーリエ積分作用素(fios)に触発された解釈可能なニューラルネットワークを構築し、波動物理学を近似する。 FIOは地震学やレーダーからドップラーや超音波まで幅広い画像モダリティをモデル化している。 我々は,データに暗黙的なfiosが捉えた波動伝搬の幾何構造を,最適輸送に基づく損失を通して学習することに焦点を当てる。 提案するフィオネットは,多くの画像逆問題,特に分布外テストにおいて,通常のベースラインよりも著しく優れた性能を示す。

We propose a general physics-based deep learning architecture for wave-based imaging problems. A key difficulty in imaging problems with a varying background wave speed is that the medium "bends" the waves differently depending on their position and direction. This space-bending geometry makes the equivariance to translations of convolutional networks an undesired inductive bias. We build an interpretable neural architecture inspired by Fourier integral operators (FIOs) which approximate the wave physics. FIOs model a wide range of imaging modalities, from seismology and radar to Doppler and ultrasound. We focus on learning the geometry of wave propagation captured by FIOs, which is implicit in the data, via a loss based on optimal transport. The proposed FIONet performs significantly better than the usual baselines on a number of imaging inverse problems, especially in out-of-distribution tests.
翻訳日:2022-11-23 06:27:00 公開日:2020-11-10
# 表現学習のための自己教師付き関係推論

Self-Supervised Relational Reasoning for Representation Learning ( http://arxiv.org/abs/2006.05849v3 )

ライセンス: Link先を確認
Massimiliano Patacchiola and Amos Storkey(参考訳) 自己教師あり学習において、システムはラベルなしデータの集合上の代替目標を定義することによって、代理目的を達成することを任務とする。 その目的は、コストのかかる手動アノテーションなしで、ダウンストリームタスクで使用できる便利な表現を構築することである。 本研究では,学習者がラベルなしデータに暗黙の情報から信号をブートストラップできる関係推論の自己教師あり定式化を提案する。 リレーションヘッドをトレーニングして、エンティティが自分自身(イントラ推論)や他のエンティティ(イントラ推論)とどのように関連しているかを識別し、基盤となるニューラルネットワークのバックボーンにリッチで記述的な表現をもたらし、分類や画像検索などの下流タスクで使用することができる。 標準データセット,プロトコル,バックボーンを用いて,厳密な実験手順に従って提案手法を評価する。 自己教師付きリレーショナル推論は、すべての条件において、平均14%の精度でベストコンペティタを上回り、最新の最新モデルでは3%も上回っている。 本手法の有効性をベルヌーイログ類似度(bernolli log-likelihood)の最大化と結びつけ,相互情報の最大化の指標として考察した。

In self-supervised learning, a system is tasked with achieving a surrogate objective by defining alternative targets on a set of unlabeled data. The aim is to build useful representations that can be used in downstream tasks, without costly manual annotation. In this work, we propose a novel self-supervised formulation of relational reasoning that allows a learner to bootstrap a signal from information implicit in unlabeled data. Training a relation head to discriminate how entities relate to themselves (intra-reasoning) and other entities (inter-reasoning), results in rich and descriptive representations in the underlying neural network backbone, which can be used in downstream tasks such as classification and image retrieval. We evaluate the proposed method following a rigorous experimental procedure, using standard datasets, protocols, and backbones. Self-supervised relational reasoning outperforms the best competitor in all conditions by an average 14% in accuracy, and the most recent state-of-the-art model by 3%. We link the effectiveness of the method to the maximization of a Bernoulli log-likelihood, which can be considered as a proxy for maximizing the mutual information, resulting in a more efficient objective with respect to the commonly used contrastive losses.
翻訳日:2022-11-23 04:41:04 公開日:2020-11-10
# ベイジアンアクティブラーニングによるオンザフライクローズドループ自律材料発見

On-the-fly Closed-loop Autonomous Materials Discovery via Bayesian Active Learning ( http://arxiv.org/abs/2006.06141v2 )

ライセンス: Link先を確認
A. Gilad Kusne, Heshan Yu, Changming Wu, Huairuo Zhang, Jason Hattrick-Simpers, Brian DeCost, Suchismita Sarker, Corey Oses, Cormac Toher, Stefano Curtarolo, Albert V. Davydov, Ritesh Agarwal, Leonid A. Bendersky, Mo Li, Apurva Mehta, Ichiro Takeuchi(参考訳) 最適な実験設計に特化した機械学習(ML)の分野であるアクティブ・ラーニング(Active Learning)は、ラプラスが天体力学の発見を導くのに使用した18世紀まで科学において重要な役割を果たしてきた。 この研究では、クローズドループでアクティブな学習駆動の自律システムに注目し、さらに大きな課題である、非常に複雑な合成プロセス-構造-プロパティのランドスケープに対する高度な素材の発見に焦点をあてています。 我々は、複雑で高度な材料を到達可能な自律的な研究方法論(すなわち自律的な仮説定義と評価)を示し、科学者がより賢く失敗し、より速く学習し、研究にリソースを消費し、同時に科学的結果と機械学習ツールへの信頼を向上させる。 さらに、このロボット科学は、ネットワーク上の科学を可能にし、科学者の経済的影響を研究室から物理的に分離する。 放射光線における材料探索・最適化(CAMEO)のためのリアルタイム閉ループ自律システムを用いて,高速位相マッピングと特性最適化の基本的な相互接続タスクを高速化し,各サイクルに数秒から数分を要し,新しいエピタキシャルナノコンポジット相変化メモリ材料が発見された。

Active learning - the field of machine learning (ML) dedicated to optimal experiment design, has played a part in science as far back as the 18th century when Laplace used it to guide his discovery of celestial mechanics [1]. In this work we focus a closed-loop, active learning-driven autonomous system on another major challenge, the discovery of advanced materials against the exceedingly complex synthesis-processes-structure-property landscape. We demonstrate autonomous research methodology (i.e. autonomous hypothesis definition and evaluation) that can place complex, advanced materials in reach, allowing scientists to fail smarter, learn faster, and spend less resources in their studies, while simultaneously improving trust in scientific results and machine learning tools. Additionally, this robot science enables science-over-the-network, reducing the economic impact of scientists being physically separated from their labs. We used the real-time closed-loop, autonomous system for materials exploration and optimization (CAMEO) at the synchrotron beamline to accelerate the fundamentally interconnected tasks of rapid phase mapping and property optimization, with each cycle taking seconds to minutes, resulting in the discovery of a novel epitaxial nanocomposite phase-change memory material.
翻訳日:2022-11-22 14:26:57 公開日:2020-11-10
# 分類器非依存な逆ロバスト性下限

Classifier-independent Lower-Bounds for Adversarial Robustness ( http://arxiv.org/abs/2006.09989v6 )

ライセンス: Link先を確認
Elvis Dohmatob(参考訳) 理論的には、テストタイムの逆数と雑音の分類例に対する堅牢性の限界を分析する。 我々の研究は、与えられた問題に対してすべての分類器(すなわち、特徴からラベルへの可測関数)に一様に適用される境界の導出に焦点を当てている。 私たちの貢献は2倍です。 1) 最適輸送理論を用いて, 分類器が与えられた分類問題に対して, 逆攻撃の対象となるベイズ最適誤差の変分公式を導出する。 最適対向攻撃は、特定の攻撃モデルによって誘導される特定のバイナリコスト関数に対する最適な輸送計画であり、二部グラフ上の最大マッチングに基づく単純なアルゴリズムで計算できる。 (2)一般的な距離ベース攻撃の場合,ベイズ最適誤差の明示的な下限を導出する。 これらの境界は、データのクラス条件分布の幾何学に依存するという意味で普遍的であるが、特定の分類器には依存しない。 本研究の結果は,非ゼロな通常のテストエラーの結果,分類器の逆の脆弱性が引き起こされる,既存の文献と対照的である。

We theoretically analyse the limits of robustness to test-time adversarial and noisy examples in classification. Our work focuses on deriving bounds which uniformly apply to all classifiers (i.e all measurable functions from features to labels) for a given problem. Our contributions are two-fold. (1) We use optimal transport theory to derive variational formulae for the Bayes-optimal error a classifier can make on a given classification problem, subject to adversarial attacks. The optimal adversarial attack is then an optimal transport plan for a certain binary cost-function induced by the specific attack model, and can be computed via a simple algorithm based on maximal matching on bipartite graphs. (2) We derive explicit lower-bounds on the Bayes-optimal error in the case of the popular distance-based attacks. These bounds are universal in the sense that they depend on the geometry of the class-conditional distributions of the data, but not on a particular classifier. Our results are in sharp contrast with the existing literature, wherein adversarial vulnerability of classifiers is derived as a consequence of nonzero ordinary test error.
翻訳日:2022-11-19 18:59:29 公開日:2020-11-10
# 非パラメトリック因果グラフ学習のための多項式時間アルゴリズム

A polynomial-time algorithm for learning nonparametric causal graphs ( http://arxiv.org/abs/2006.11970v2 )

ライセンス: Link先を確認
Ming Gao, Yi Ding, Bryon Aragam(参考訳) データから非線形非パラメトリック有向非巡回グラフ(DAG)モデルを学習するための多項式時間アルゴリズムの有限サンプル保証を確立する。 解析はモデルフリーであり、線形性、付加性、独立ノイズ、忠実性を仮定しない。 代わりに、同じ分散を持つ線形モデルにおける以前の仕事と密接に関連した残差分散に条件を課す。 可変順序付けに関するoracleの知識を持つ最適なアルゴリズムと比較すると、アルゴリズムの追加コストは次元$d$とサンプル数$n$で線形である。 最後に,提案手法と既存手法との比較を行った。

We establish finite-sample guarantees for a polynomial-time algorithm for learning a nonlinear, nonparametric directed acyclic graphical (DAG) model from data. The analysis is model-free and does not assume linearity, additivity, independent noise, or faithfulness. Instead, we impose a condition on the residual variances that is closely related to previous work on linear models with equal variances. Compared to an optimal algorithm with oracle knowledge of the variable ordering, the additional cost of the algorithm is linear in the dimension $d$ and the number of samples $n$. Finally, we compare the proposed algorithm to existing approaches in a simulation study.
翻訳日:2022-11-18 05:29:11 公開日:2020-11-10
# 三角形写像を用いた高速かつフレキシブルな時間点過程

Fast and Flexible Temporal Point Processes with Triangular Maps ( http://arxiv.org/abs/2006.12631v2 )

ライセンス: Link先を確認
Oleksandr Shchur, Nicholas Gao, Marin Bilo\v{s}, Stephan G\"unnemann(参考訳) 時間的ポイントプロセス(tpp)モデルとリカレントニューラルネットワークの組み合わせは、連続時間イベントデータをモデリングするための強力なフレームワークを提供する。 このようなモデルは柔軟であるが、本質的にシーケンシャルであるため、現代のハードウェアの並列性から恩恵を受けることはできない。 流れの正規化の分野における最近の発展を生かして、サンプリングと確率計算の両方を並列に行う、TriTPP -- 新たな非リカレントTPPモデルのクラスを設計する。 TriTPPはRNNベースのメソッドの柔軟性にマッチするが、より高速なサンプリングが可能である。 これにより、連続時間離散状態系の変分推論に新しいモデルを使用することができる。 合成および実世界のデータセットにおける提案フレームワークの利点を実証する。

Temporal point process (TPP) models combined with recurrent neural networks provide a powerful framework for modeling continuous-time event data. While such models are flexible, they are inherently sequential and therefore cannot benefit from the parallelism of modern hardware. By exploiting the recent developments in the field of normalizing flows, we design TriTPP -- a new class of non-recurrent TPP models, where both sampling and likelihood computation can be done in parallel. TriTPP matches the flexibility of RNN-based methods but permits orders of magnitude faster sampling. This enables us to use the new model for variational inference in continuous-time discrete-state systems. We demonstrate the advantages of the proposed framework on synthetic and real-world datasets.
翻訳日:2022-11-18 05:10:41 公開日:2020-11-10
# 画像分類のためのオンラインバイレベル最適化による学習データ強化

Learning Data Augmentation with Online Bilevel Optimization for Image Classification ( http://arxiv.org/abs/2006.14699v2 )

ライセンス: Link先を確認
Saypraseuth Mounsaveng, Issam Laradji, Ismail Ben Ayed, David Vazquez, Marco Pedersoli(参考訳) データ拡張は、一般化性能を改善するための機械学習の重要なプラクティスである。 しかし、最高のデータ拡張ハイパーパラメータを見つけるには、ドメイン知識や計算上要求される検索が必要である。 本稿では,変換の効果的な分布を学習し,その一般化を改善するためのネットワークの自動学習手法を提案する。 バイレベル最適化を用いて,検証セットを用いてデータ拡張パラメータを直接最適化する。 このフレームワークは、分類器のようなエンドタスクモデルと共同で最適なデータ拡張を学ぶための一般的なソリューションとして使用できる。 以上の結果から,共同学習法では,手作りデータ拡張法に比べて画像分類精度が向上し,精度も向上した。 しかし、データ拡張ハイパーパラメータに関する高価な外部検証ループは必要ない。

Data augmentation is a key practice in machine learning for improving generalization performance. However, finding the best data augmentation hyperparameters requires domain knowledge or a computationally demanding search. We address this issue by proposing an efficient approach to automatically train a network that learns an effective distribution of transformations to improve its generalization. Using bilevel optimization, we directly optimize the data augmentation parameters using a validation set. This framework can be used as a general solution to learn the optimal data augmentation jointly with an end task model like a classifier. Results show that our joint training method produces an image classification accuracy that is comparable to or better than carefully hand-crafted data augmentation. Yet, it does not need an expensive external validation loop on the data augmentation hyperparameters.
翻訳日:2022-11-17 02:55:08 公開日:2020-11-10
# 質問応答における潜在構成表現による体系的一般化の改善

Latent Compositional Representations Improve Systematic Generalization in Grounded Question Answering ( http://arxiv.org/abs/2007.00266v3 )

ライセンス: Link先を確認
Ben Bogin, Sanjay Subramanian, Matt Gardner, Jonathan Berant(参考訳) 複数段階の推論を含む質問に答えるには、それらを分解し、中間ステップの回答を使用して最終回答に到達する必要がある。 しかしながら、接地質問応答における最先端のモデルは、しばしば分解を明示的に行わないため、分散例への一般化が困難になる。 そこで本研究では,CKY型構文解析器を用いたボトムアップ・コンポジション方式で,全ての質問に対する表現と記述を計算したモデルを提案する。 私たちのモデルは、エンドツーエンド(回答)の監視のみによって駆動される潜木を誘導します。 本稿では,木構造に対する帰納的バイアスが,算術式ベンチマークの強いベースラインや,接地質問応答の体系的一般化に焦点を当てたデータセットであるクロージャと比較して,分布外例への系統的一般化を劇的に改善することを示す。 この困難なデータセットでは、このモデルは96.1%の精度に達し、ランダムな分散分割でタスクをほぼ完全に解決する以前のモデルよりもかなり高い。

Answering questions that involve multi-step reasoning requires decomposing them and using the answers of intermediate steps to reach the final answer. However, state-of-the-art models in grounded question answering often do not explicitly perform decomposition, leading to difficulties in generalization to out-of-distribution examples. In this work, we propose a model that computes a representation and denotation for all question spans in a bottom-up, compositional manner using a CKY-style parser. Our model induces latent trees, driven by end-to-end (the answer) supervision only. We show that this inductive bias towards tree structures dramatically improves systematic generalization to out-of-distribution examples, compared to strong baselines on an arithmetic expressions benchmark as well as on CLOSURE, a dataset that focuses on systematic generalization for grounded question answering. On this challenging dataset, our model reaches an accuracy of 96.1%, significantly higher than prior models that almost perfectly solve the task on a random, in-distribution split.
翻訳日:2022-11-14 21:42:47 公開日:2020-11-10
# 繰り返し生成フィードバックを持つニューラルネットワーク

Neural Networks with Recurrent Generative Feedback ( http://arxiv.org/abs/2007.09200v2 )

ライセンス: Link先を確認
Yujia Huang, James Gornet, Sihui Dai, Zhiding Yu, Tan Nguyen, Doris Y. Tsao, Anima Anandkumar(参考訳) ニューラルネットワークは、付加ノイズや逆攻撃などの入力摂動に対して脆弱である。 対照的に、人間の知覚はそのような摂動に対してより頑丈である。 ベイズ脳仮説では、人間の脳は感覚入力の後の信念を更新するために内部生成モデルを使用する。 このメカニズムは、内部生成モデルにおけるMAP推定の最大値と外部環境との間の自己整合性の形式として解釈することができる。 このような仮説に触発されて,生成的反復フィードバックを取り入れ,ニューラルネットワークの自己一貫性を強制する。 畳み込みニューラルネットワーク(CNN)でこの設計をインスタンス化する。 The proposed framework, called Convolutional Neural Networks with Feedback (CNN-F)は、既存のCNNアーキテクチャに潜伏変数による生成フィードバックを導入し、ベイズフレームワークの下でMAP推論を交互に行う。 実験では、cnn-fは標準ベンチマークで従来のfeedforward cnnよりもかなり頑健であることを示した。

Neural networks are vulnerable to input perturbations such as additive noise and adversarial attacks. In contrast, human perception is much more robust to such perturbations. The Bayesian brain hypothesis states that human brains use an internal generative model to update the posterior beliefs of the sensory input. This mechanism can be interpreted as a form of self-consistency between the maximum a posteriori (MAP) estimation of an internal generative model and the external environment. Inspired by such hypothesis, we enforce self-consistency in neural networks by incorporating generative recurrent feedback. We instantiate this design on convolutional neural networks (CNNs). The proposed framework, termed Convolutional Neural Networks with Feedback (CNN-F), introduces a generative feedback with latent variables to existing CNN architectures, where consistent predictions are made through alternating MAP inference under a Bayesian framework. In the experiments, CNN-F shows considerably improved adversarial robustness over conventional feedforward CNNs on standard benchmarks.
翻訳日:2022-11-09 12:47:04 公開日:2020-11-10
# 時間周波数散乱による楽器演奏の音響的類似性

Time-Frequency Scattering Accurately Models Auditory Similarities Between Instrumental Playing Techniques ( http://arxiv.org/abs/2007.10926v2 )

ライセンス: Link先を確認
Vincent Lostanlen, Christian El-Hajj, Mathias Rossignol, Gr\'egoire Lafay, Joakim And\'en and Mathieu Lagrange(参考訳) ヴィブラート、グリッサンドス、トリルといった楽器演奏技法は、古典的・民謡的な文脈において、しばしば音楽の表現力を表す。 しかし、既存の音楽類似性検索のアプローチのほとんどは、いわゆる「順序」技法を超えて音色を記述できず、音色品質の代理として楽器のアイデンティティを使用し、新しい主題の知覚的慣用性へのカスタマイズを許さない。 本稿では,31名の被験者に対して,78個の孤立音符を音色クラスタに整理するように依頼する。 彼らの反応を分析すると、音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類の範囲内で動作することが示唆される。 また, 楽器, ミュート, 技法間の聴覚類似度のクラスターグラフを復元する機械聴力モデルを提案する。 我々のモデルは、音響特性として分光時間変調を抽出するために、結合時間周波数散乱特性に依存している。 さらに, クラスタグラフの3重項損失を, 隣り合う大行列(LMNN)距離学習アルゴリズムを用いて最小化する。 9346の孤立したノートのデータセット上で、最先端の平均精度をランク5(AP@5)99.0\%\pm1$で報告する。 アブレーション研究では、結合時間周波数散乱変換またはメートル法学習アルゴリズムが顕著に性能を劣化させることを示した。

Instrumental playing techniques such as vibratos, glissandos, and trills often denote musical expressivity, both in classical and folk contexts. However, most existing approaches to music similarity retrieval fail to describe timbre beyond the so-called "ordinary" technique, use instrument identity as a proxy for timbre quality, and do not allow for customization to the perceptual idiosyncrasies of a new subject. In this article, we ask 31 human subjects to organize 78 isolated notes into a set of timbre clusters. Analyzing their responses suggests that timbre perception operates within a more flexible taxonomy than those provided by instruments or playing techniques alone. In addition, we propose a machine listening model to recover the cluster graph of auditory similarities across instruments, mutes, and techniques. Our model relies on joint time--frequency scattering features to extract spectrotemporal modulations as acoustic features. Furthermore, it minimizes triplet loss in the cluster graph by means of the large-margin nearest neighbor (LMNN) metric learning algorithm. Over a dataset of 9346 isolated notes, we report a state-of-the-art average precision at rank five (AP@5) of $99.0\%\pm1$. An ablation study demonstrates that removing either the joint time--frequency scattering transform or the metric learning algorithm noticeably degrades performance.
翻訳日:2022-11-08 05:55:52 公開日:2020-11-10
# ユーザレビューのためのアプリアウェア応答合成

App-Aware Response Synthesis for User Reviews ( http://arxiv.org/abs/2007.15793v3 )

ライセンス: Link先を確認
Umar Farooq, A.B. Siddique, Fuad Jamour, Zhijia Zhao, Vagelis Hristidis(参考訳) ユーザレビューに対する反応は、アプリケーションの人気と成功の鍵となるアプリケーションレーティングを、迅速かつ良好に改善します。 このようなレビューの拡散は、開発者が手動で対応し続けることを事実上不可能にする。 この課題に対処するため、最近の研究は自動応答生成の可能性を示している。 しかし、トレーニングレビューとレスポンスのペアは多くの異なるアプリから集約されているため、これらのモデルがアプリ固有の応答を生成することは依然として困難であり、一方、アプリが異なる機能と関心を持っているため、しばしば望ましい。 個々のアプリにはレビューとレスポンスのペアが限られており、そのようなペアは一般的に、新しいレビューに対応するために必要な関連情報が欠けているため、アプリごとにモデルを構築するだけでは解決できない。 アプリ固有の応答生成を可能にするために,アプリケーション対応応答合成システムであるAARSynthを提案する。 AARSynthの背景にある重要なアイデアは、特定のアプリ固有の情報でSeq2seqモデルを拡張することだ。 新しいユーザーレビューをすると、最初に最も関連するアプリレビューのトップkと最も関連するスニペットをアプリ説明から取り出す。 得られた情報と新しいユーザーレビューは、seq2seqモデルと機械学習理解モデルを統合する融合機械学習モデルに送られます。 後者は、検索したレビューとアプリ記述の消化に役立つ。 最後に、融合モデルは、所定のアプリにカスタマイズされたレスポンスを生成する。 AARSynthをGoogle Playから大量のレビューとレスポンスを用いて評価した。 その結果,aarsynth は bleu-4 スコアで 22.2% の差を示した。 さらに,AARSynthは,最先端システムと比較して,応答品質が統計的に有意に向上していることを示す。

Responding to user reviews promptly and satisfactorily improves application ratings, which is key to application popularity and success. The proliferation of such reviews makes it virtually impossible for developers to keep up with responding manually. To address this challenge, recent work has shown the possibility of automatic response generation. However, because the training review-response pairs are aggregated from many different apps, it remains challenging for such models to generate app-specific responses, which, on the other hand, are often desirable as apps have different features and concerns. Solving the challenge by simply building a model per app (i.e., training with review-response pairs of a single app) may be insufficient because individual apps have limited review-response pairs, and such pairs typically lack the relevant information needed to respond to a new review. To enable app-specific response generation, this work proposes AARSynth: an app-aware response synthesis system. The key idea behind AARSynth is to augment the seq2seq model with information specific to a given app. Given a new user review, it first retrieves the top-K most relevant app reviews and the most relevant snippet from the app description. The retrieved information and the new user review are then fed into a fused machine learning model that integrates the seq2seq model with a machine reading comprehension model. The latter helps digest the retrieved reviews and app description. Finally, the fused model generates a response that is customized to the given app. We evaluated AARSynth using a large corpus of reviews and responses from Google Play. The results show that AARSynth outperforms the state-of-the-art system by 22.2% on BLEU-4 score. Furthermore, our human study shows that AARSynth produces a statistically significant improvement in response quality compared to the state-of-the-art system.
翻訳日:2022-11-04 07:15:17 公開日:2020-11-10
# 経路依存構造方程式モデル

Path Dependent Structural Equation Models ( http://arxiv.org/abs/2008.10706v2 )

ライセンス: Link先を確認
Ranjani Srinivasan, Jaron Lee, Rohit Bhattacharya, Narges Ahmidi, Ilya Shpitser(参考訳) 縦断データの因果分析は一般に、変数に関連する定性的因果構造が時間とともに不変であると仮定する。 離散時間ステップで定性的に異なる状態間を遷移する構造化システムでは、そのようなアプローチは2つのフロントで不十分である。 まず、時間変化変数は、キャプチャが必要な状態固有の因果関係を持つ。 第二に、介入は、データで実際に観察されたものと異なる介入の下流の状態遷移をもたらす。 言い換えれば、介入はその後のシステムの時間的進化を事実上変える可能性がある。 このようなシステムを記述するための因果的グラフィカルモデルであるパス依存構造方程式モデル(pdsems)の一般化を提案する。 このようなモデルでどのように因果推論を行うかを示し, 外科手術で得られたシミュレーションやデータについて述べる。

Causal analyses of longitudinal data generally assume that the qualitative causal structure relating variables remains invariant over time. In structured systems that transition between qualitatively different states in discrete time steps, such an approach is deficient on two fronts. First, time-varying variables may have state-specific causal relationships that need to be captured. Second, an intervention can result in state transitions downstream of the intervention different from those actually observed in the data. In other words, interventions may counterfactually alter the subsequent temporal evolution of the system. We introduce a generalization of causal graphical models, Path Dependent Structural Equation Models (PDSEMs), that can describe such systems. We show how causal inference may be performed in such models and illustrate its use in simulations and data obtained from a septoplasty surgical procedure.
翻訳日:2022-10-25 12:44:43 公開日:2020-11-10
# 拡張分類器スター生成型adversarial networkを用いた非並列音声変換

Nonparallel Voice Conversion with Augmented Classifier Star Generative Adversarial Networks ( http://arxiv.org/abs/2008.12604v7 )

ライセンス: Link先を確認
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo(参考訳) 我々は以前に、StarGANと呼ばれるGAN(Generative Adversarial Network)の変種を用いて、非並列音声変換(VC)を可能にする方法を提案した。 stargan-vc法の主な特徴は以下のとおりである。 まず、音声生成訓練のために並列発話、転写、時間アライメントの手順を必要としない。 第二に、単一のジェネレータネットワークを使用して複数のドメイン間のマッピングを同時に学習し、複数のドメインから収集されたトレーニングデータをフル活用して、すべてのドメインに共通する潜伏した特徴をキャプチャする。 第3に、リアルタイム実装を可能にするのに十分な速さで変換された音声信号を生成でき、合理的に現実的な音声を生成するためのトレーニング例をほんの数分しか必要としない。 本稿では,新たに導入されたstargan変種である"augmented classifier stargan (a-stargan)"を含むstarganの3つの定式化を,非並列vcタスクで比較する。 また,いくつかのベースライン手法と比較した。

We previously proposed a method that allows for nonparallel voice conversion (VC) by using a variant of generative adversarial networks (GANs) called StarGAN. The main features of our method, called StarGAN-VC, are as follows: First, it requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training. Second, it can simultaneously learn mappings across multiple domains using a single generator network and thus fully exploit available training data collected from multiple domains to capture latent features that are common to all the domains. Third, it can generate converted speech signals quickly enough to allow real-time implementations and requires only several minutes of training examples to generate reasonably realistic-sounding speech. In this paper, we describe three formulations of StarGAN, including a newly introduced novel StarGAN variant called "Augmented classifier StarGAN (A-StarGAN)", and compare them in a nonparallel VC task. We also compare them with several baseline methods.
翻訳日:2022-10-24 08:20:26 公開日:2020-11-10
# ピッチと音声品質を考慮した畳み込み音声認識

Convolutional Speech Recognition with Pitch and Voice Quality Features ( http://arxiv.org/abs/2009.01309v2 )

ライセンス: Link先を確認
Guillermo C\'ambara, Jordi Luque and Mireia Farr\'us(参考訳) 本研究は、自動音声認識のための最先端cnnモデルに、ピッチやjitterやshimmerなどの音声品質特性を加えることによる効果について検討した。 ピッチ機能は従来、古典的なhmmやdnnベースラインの改善に用いられてきたが、jitterやshimmerパラメータは話者や感情認識といったタスクに有用であることが証明されている。 私たちの知る限り、このようなピッチと音声品質の機能を現代的な畳み込みアーキテクチャと組み合わせた最初の作品であり、それぞれ公開のスペイン語共通音声データセットとLibriSpeech 100hデータセットに対して、7%と3%の相対的なWERポイントが改善されている。 特に,これらの特徴をメル周波数スペクトル係数(MFSC)と組み合わせて,Gated Linear Units(Conv GLUs)を用いた畳み込み構造を学習する。 このようなモデルは少ない単語誤り率を示し、オンラインストリーミング認識のユースケースでは並列処理に非常に適している。 我々は、facebookのwav2letter音声認識フレームワークにピッチと音声品質機能を追加し、さらに実験を続けるために、そのようなコードとレシピをコミュニティに提供する。 さらに、私たちの知る限りでは、スペイン語の共通音声レシピはwav2letterの最初の公開スペイン語レシピです。

The effects of adding pitch and voice quality features such as jitter and shimmer to a state-of-the-art CNN model for Automatic Speech Recognition are studied in this work. Pitch features have been previously used for improving classical HMM and DNN baselines, while jitter and shimmer parameters have proven to be useful for tasks like speaker or emotion recognition. Up to our knowledge, this is the first work combining such pitch and voice quality features with modern convolutional architectures, showing improvements up to 7% and 3% relative WER points, for the publicly available Spanish Common Voice and LibriSpeech 100h datasets, respectively. Particularly, our work combines these features with mel-frequency spectral coefficients (MFSCs) to train a convolutional architecture with Gated Linear Units (Conv GLUs). Such models have shown to yield small word error rates, while being very suitable for parallel processing for online streaming recognition use cases. We have added pitch and voice quality functionality to Facebook's wav2letter speech recognition framework, and we provide with such code and recipes to the community, to carry on with further experiments. Besides, to the best of our knowledge, our Spanish Common Voice recipe is the first public Spanish recipe for wav2letter.
翻訳日:2022-10-22 19:02:06 公開日:2020-11-10
# 変動係数を有するマルチロス重み付け

Multi-Loss Weighting with Coefficient of Variations ( http://arxiv.org/abs/2009.01717v2 )

ライセンス: Link先を確認
Rick Groenendijk, Sezer Karaoglu, Theo Gevers, Thomas Mensink(参考訳) 機械学習とコンピュータビジョンにおける多くの興味深いタスクは、複数の損失の重み付き線形結合として定義される目的関数を最適化することで学習される。 最終的なパフォーマンスは、これらの損失に対して正しい(相対的な)重みを選択することに敏感である。 良い重みの集合を見つけることは、しばしば、広範グリッドサーチを用いて設定されるハイパーパラメータの集合にそれらを取り入れることによって行われる。 これは計算コストが高い。 本稿では,変形係数に基づく重み付けスキームを提案し,モデルの学習中に観測された特性に基づいて重み付けをセットする。 提案手法では,損失のバランスをとるための不確実性尺度が組み込まれており,その結果,他の(学習に基づく)最適化を必要とせず,トレーニング中に損失重みが進化する。 文献における多くの損失重み付け手法とは対照的に,単眼深度推定やセマンティクスセグメンテーションといったシングルタスクのマルチロス問題に着目し,損失重み付けのマルチタスクアプローチがそれらのシングルタスクでは機能しないことを示す。 提案手法の有効性は,複数のデータセット上での深度推定とセマンティックセグメンテーションに実証的に示される。

Many interesting tasks in machine learning and computer vision are learned by optimising an objective function defined as a weighted linear combination of multiple losses. The final performance is sensitive to choosing the correct (relative) weights for these losses. Finding a good set of weights is often done by adopting them into the set of hyper-parameters, which are set using an extensive grid search. This is computationally expensive. In this paper, we propose a weighting scheme based on the coefficient of variations and set the weights based on properties observed while training the model. The proposed method incorporates a measure of uncertainty to balance the losses, and as a result the loss weights evolve during training without requiring another (learning based) optimisation. In contrast to many loss weighting methods in literature, we focus on single-task multi-loss problems, such as monocular depth estimation and semantic segmentation, and show that multi-task approaches for loss weighting do not work on those single-tasks. The validity of the approach is shown empirically for depth estimation and semantic segmentation on multiple datasets.
翻訳日:2022-10-22 07:00:28 公開日:2020-11-10
# upb at semeval-2020 task 8: joint textual and visual modeling in a multi-task learning architecture for memotion analysis

UPB at SemEval-2020 Task 8: Joint Textual and Visual Modeling in a Multi-Task Learning Architecture for Memotion Analysis ( http://arxiv.org/abs/2009.02779v2 )

ライセンス: Link先を確認
George-Alexandru Vlad, George-Eduard Zaharia, Dumitru-Clementin Cercel, Costin-Gabriel Chiru, Stefan Trausan-Matu(参考訳) オンライン環境のユーザーは、自分の考え、意見、あるいは娯楽の概念を表現する異なる方法を作ることができる。 これらの状況に特化してインターネットミームが作られた。 彼らの主な目的は、イメージとテキストの組み合わせを使ってアイデアを伝達することであり、ミームが送信しなければならないメッセージに応じて、受信者の特定の状態を生成する。 これらの投稿は、様々な状況や出来事と関連づけられるので、私たちの世界のあらゆる状況に面白い側面を加えることができる。 本稿では,semeval-2020タスク8用に開発したシステムであるmemotion analysisについて述べる。 具体的には、テキストエンコーディングのalbertと画像表現のvgg-16を組み合わせたマルチモーダルマルチタスク学習アーキテクチャである、これらの投稿を分析する新しいシステムを提案する。 このようにして、その背後にある情報が適切に明らかにできることを示す。 提案手法は,現在大会の3つのサブタスクにおいて,第11位がSubtask A(0.3453マクロF1スコア),第1位がSubtask B(0.5183マクロF1スコア),第3位がSubtask C(0.3171マクロF1スコア),第3位がオフィシャルベースラインを上回り,それぞれにおいて良好な性能を発揮する。

Users from the online environment can create different ways of expressing their thoughts, opinions, or conception of amusement. Internet memes were created specifically for these situations. Their main purpose is to transmit ideas by using combinations of images and texts such that they will create a certain state for the receptor, depending on the message the meme has to send. These posts can be related to various situations or events, thus adding a funny side to any circumstance our world is situated in. In this paper, we describe the system developed by our team for SemEval-2020 Task 8: Memotion Analysis. More specifically, we introduce a novel system to analyze these posts, a multimodal multi-task learning architecture that combines ALBERT for text encoding with VGG-16 for image representation. In this manner, we show that the information behind them can be properly revealed. Our approach achieves good performance on each of the three subtasks of the current competition, ranking 11th for Subtask A (0.3453 macro F1-score), 1st for Subtask B (0.5183 macro F1-score), and 3rd for Subtask C (0.3171 macro F1-score) while exceeding the official baseline results by high margins.
翻訳日:2022-10-21 08:21:50 公開日:2020-11-10
# 長距離ステレオマッチングにおけるバイアス調整:意味論的アプローチ

Adjusting Bias in Long Range Stereo Matching: A semantics guided approach ( http://arxiv.org/abs/2009.04629v2 )

ライセンス: Link先を確認
WeiQin Chuah, Ruwan Tennakoon, Reza Hoseinnezhad, Alireza Bab-Hadiashar, David Suter(参考訳) ステレオビジョンは一般にピクセル対応の計算と、直交した画像ペア間の差の推定を含む。 同時測位・マッピング(slam)や3次元物体検出を含む多くの応用において、深度値を計算するためには主に差が必要であり、深さ推定の精度はずれ推定よりも魅力的であることが多い。 しかし,不均一度推定の精度は,特に遠距離物体の深度推定の精度に直接は変換されない。 学習に基づくステレオシステムの文脈では、これは主に、格差に基づく損失関数とトレーニングデータの選択によって課されるバイアスによるものである。 その結果、学習アルゴリズムは、特に大きな距離〜($>50$m)で、フォアグラウンドオブジェクトの信頼できない深さ推定を生成する。 この問題を解決するために,まずこれらのバイアスの影響を分析し,前景と背景の深さに基づく新しい損失関数を別々に提案する。 これらの損失関数はチューナブルであり、ステレオ学習アルゴリズム固有のバイアスのバランスをとることができる。 提案手法の有効性は,最先端技術に対してベンチマークした広範な実験によって実証された。 我々は,KITTI~2015ベンチマークにおいて,50mを超える距離の物体に対して,提案手法により差分と深さの推定が大幅に向上し,従来よりも10\%の値が得られたことを示す。

Stereo vision generally involves the computation of pixel correspondences and estimation of disparities between rectified image pairs. In many applications, including simultaneous localization and mapping (SLAM) and 3D object detection, the disparities are primarily needed to calculate depth values and the accuracy of depth estimation is often more compelling than disparity estimation. The accuracy of disparity estimation, however, does not directly translate to the accuracy of depth estimation, especially for faraway objects. In the context of learning-based stereo systems, this is largely due to biases imposed by the choices of the disparity-based loss function and the training data. Consequently, the learning algorithms often produce unreliable depth estimates of foreground objects, particularly at large distances~($>50$m). To resolve this issue, we first analyze the effect of those biases and then propose a pair of novel depth-based loss functions for foreground and background, separately. These loss functions are tunable and can balance the inherent bias of the stereo learning algorithms. The efficacy of our solution is demonstrated by an extensive set of experiments, which are benchmarked against state of the art. We show on KITTI~2015 benchmark that our proposed solution yields substantial improvements in disparity and depth estimation, particularly for objects located at distances beyond 50 meters, outperforming the previous state of the art by $10\%$.
翻訳日:2022-10-20 03:36:51 公開日:2020-11-10
# ダイアログ蒸留:未ペアデータを用いたオープンドメインダイアログ拡張

Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired Data ( http://arxiv.org/abs/2009.09427v2 )

ライセンス: Link先を確認
Rongsheng Zhang, Yinhe Zheng, Jianzhi Shao, Xiaoxi Mao, Yadong Xi, Minlie Huang(参考訳) オープンドメイン対話システムの最近の進歩は、大規模データに基づいて訓練されたニューラルモデルの成功に依存している。 しかし、大規模な対話データの収集は通常、時間と労力がかかる。 このデータジレンマに対処するために、未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。 具体的には,非ペアデータからポストと応答の両方を検索する付加対話を構築するために,まずデータレベルの蒸留プロセスを提案する。 低品質の対話をフィルタリングするためにランキングモジュールが使用される。 さらに、高品質なペアデータに訓練された教師モデルを拡張対話ペアに蒸留するモデルレベル蒸留処理を施し、拡張データ内のノイズによる対話モデルへの影響を防止する。 自動的および手作業による評価は,多種多様な内容を持つ高品質な対話ペアを作成できることを示すとともに,提案するデータレベルおよびモデルレベルの対話蒸留は,競合ベースラインの性能を向上させることができる。

Recent advances in open-domain dialogue systems rely on the success of neural models that are trained on large-scale data. However, collecting large-scale dialogue data is usually time-consuming and labor-intensive. To address this data dilemma, we propose a novel data augmentation method for training open-domain dialogue models by utilizing unpaired data. Specifically, a data-level distillation process is first proposed to construct augmented dialogues where both post and response are retrieved from the unpaired data. A ranking module is employed to filter out low-quality dialogues. Further, a model-level distillation process is employed to distill a teacher model trained on high-quality paired data to augmented dialogue pairs, thereby preventing dialogue models from being affected by the noise in the augmented data. Automatic and manual evaluation indicates that our method can produce high-quality dialogue pairs with diverse contents, and the proposed data-level and model-level dialogue distillation can improve the performance of competitive baselines.
翻訳日:2022-10-16 12:52:19 公開日:2020-11-10
# tic tac toeを人間のようにプレイするランダム化高速no-lossエキスパートシステム

Randomized fast no-loss expert system to play tic tac toe like a human ( http://arxiv.org/abs/2009.11225v2 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 本稿では,T3DTと呼ばれる決定木を用いたTic Tac Toeの高速・無損失エキスパートシステムについて紹介する。 ブルートフォースやミニマックス、進化的テクニックは使用しないが、それでも常に無敵である。 ゲームプレイをより人間らしくするために、ランダム化を優先し、T3DTは各ステップにおける複数の最適な動きの1つをランダムに選択する。 いずれの時点でも完全なゲームツリーを解析する必要はないので、t3dtはどのブルート力やミニマックスアルゴリズムよりも非常に高速である。 t3dtは、進化モデルのトレーニングにデータセットや時間も必要とせず、tic tac toeをプレイするための実用的なno-lossアプローチとなっている。

This paper introduces a blazingly fast, no-loss expert system for Tic Tac Toe using Decision Trees called T3DT, that tries to emulate human gameplay as closely as possible. It does not make use of any brute force, minimax or evolutionary techniques, but is still always unbeatable. In order to make the gameplay more human-like, randomization is prioritized and T3DT randomly chooses one of the multiple optimal moves at each step. Since it does not need to analyse the complete game tree at any point, T3DT is exceptionally faster than any brute force or minimax algorithm, this has been shown theoretically as well as empirically from clock-time analyses in this paper. T3DT also doesn't need the data sets or the time to train an evolutionary model, making it a practical no-loss approach to play Tic Tac Toe.
翻訳日:2022-10-15 16:46:58 公開日:2020-11-10
# 機械学習における非平滑性:具体的構造、近位識別および応用

Nonsmoothness in Machine Learning: specific structure, proximal identification, and applications ( http://arxiv.org/abs/2010.00848v2 )

ライセンス: Link先を確認
Franck Iutzeler (DAO), J\'er\^ome Malick (DAO)(参考訳) 非滑らかさは、しばしば最適化の呪いであるが、機械学習の応用において、時には祝福である。 本稿では,機械学習に現れる非滑らかな最適化問題の具体的構造について述べるとともに,この構造を実際に活用する方法を,圧縮,加速,次元縮小のために説明する。 簡単な例と一般的な結果の両方で、簡潔で容易にアクセスできるようにするため、プレゼンテーションに特別な注意を払っています。

Nonsmoothness is often a curse for optimization; but it is sometimes a blessing, in particular for applications in machine learning. In this paper, we present the specific structure of nonsmooth optimization problems appearing in machine learning and illustrate how to leverage this structure in practice, for compression, acceleration, or dimension reduction. We pay a special attention to the presentation to make it concise and easily accessible, with both simple examples and general results.
翻訳日:2022-10-12 02:25:50 公開日:2020-11-10
# Mixup-Transformer: NLPタスクのための動的データ拡張

Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks ( http://arxiv.org/abs/2010.02394v2 )

ライセンス: Link先を確認
Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S. Yu, Lifang He(参考訳) Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。 画素レベルで画像を補間することで画像分類に強い効果を示した。 この研究に触発されて、本稿では、我々は、 一 自然言語処理タスクにミックスアップを施す方法は、テキストデータが生のフォーマットで混ざり合うことがほとんどないので、どのようにして行うか。 ii)mixupが変圧器ベースの学習モデル、例えばbertにおいてなお有効である場合。 この目的を達成するために,我々は,エンドツーエンドのトレーニングシステム全体を維持しつつ,幅広いnlpタスクに"mixup-transformer"と呼ばれるトランスフォーマベースの事前学習アーキテクチャにmixupを組み込む。 提案手法をGLUEベンチマークで広範な実験により評価する。 さらに,低リソースシナリオにおけるmixup-transformerの性能を,トレーニングデータを一定割合で削減することで検証する。 本研究では、mixupは事前学習された言語モデルに対するドメインに依存しないデータ拡張技術であることを示す。

Mixup is the latest data augmentation technique that linearly interpolates input examples and the corresponding labels. It has shown strong effectiveness in image classification by interpolating images at the pixel level. Inspired by this line of research, in this paper, we explore i) how to apply mixup to natural language processing tasks since text data can hardly be mixed in the raw format; ii) if mixup is still effective in transformer-based learning models, e.g., BERT. To achieve the goal, we incorporate mixup to transformer-based pre-trained architecture, named "mixup-transformer", for a wide range of NLP tasks while keeping the whole end-to-end training system. We evaluate the proposed framework by running extensive experiments on the GLUE benchmark. Furthermore, we also examine the performance of mixup-transformer in low-resource scenarios by reducing the training data with a certain ratio. Our studies show that mixup is a domain-independent data augmentation technique to pre-trained language models, resulting in significant performance improvement for transformer-based models.
翻訳日:2022-10-10 20:20:25 公開日:2020-11-10
# 円筒状パノラマ映像からの奥行き・自我運動の教師なし学習と仮想現実への応用

Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic Video with Applications for Virtual Reality ( http://arxiv.org/abs/2010.07704v2 )

ライセンス: Link先を確認
Alisha Sharma, Ryan Nett, and Jonathan Ventura(参考訳) 円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。 パノラマ深度推定は、仮想現実、3dモデリング、自律ロボットナビゲーションなどのアプリケーションにとって重要な技術である。 パノラマ画像に畳み込みニューラルネットワークを適用する従来のアプローチとは対照的に,我々は,畳み込みフィルタや最大プールなどの従来のCNNレイヤを変更せずに使用できる円筒型パノラマ投影を用いている。 合成および実データを用いた評価では, 円筒型パノラマ画像の深度とエゴモーションの教師なし学習が高品質な深度マップを作成でき, 視野の増大によりエゴモーション推定精度が向上することが示された。 CARLAシミュレータを使って作成した合成データセットと、ヘルメットを装着したカメラから収集したパノラマビデオの新たなデータセットであるHeadcamの2つの新しいデータセットを作成し、都市環境でサイクリングを行った。 また,このネットワークを,単眼パノラマをステレオパノラマに変換する問題に適用する。

We introduce a convolutional neural network model for unsupervised learning of depth and ego-motion from cylindrical panoramic video. Panoramic depth estimation is an important technology for applications such as virtual reality, 3D modeling, and autonomous robotic navigation. In contrast to previous approaches for applying convolutional neural networks to panoramic imagery, we use the cylindrical panoramic projection which allows for the use of the traditional CNN layers such as convolutional filters and max pooling without modification. Our evaluation of synthetic and real data shows that unsupervised learning of depth and ego-motion on cylindrical panoramic images can produce high-quality depth maps and that an increased field-of-view improves ego-motion estimation accuracy. We create two new datasets to evaluate our approach: a synthetic dataset created using the CARLA simulator, and Headcam, a novel dataset of panoramic video collected from a helmet-mounted camera while biking in an urban setting. We also apply our network to the problem of converting monocular panoramas to stereo panoramas.
翻訳日:2022-10-07 13:10:08 公開日:2020-11-10
# 質問記述関連規則化によるコード検索の敵意学習

Adversarial Training for Code Retrieval with Question-Description Relevance Regularization ( http://arxiv.org/abs/2010.09803v2 )

ライセンス: Link先を確認
Jie Zhao, Huan Sun(参考訳) コード検索は自然言語とプログラミング言語のマッチングを目的とした重要なタスクである。 本研究では,質問記述関連性によって正規化されるコード検索のための逆学習を提案する。 まず,入力質問から難解なコードスニペットを生成するために,単純な逆学習手法を適用することで,バイモーダル・データ・スカルス課題に直面するコード検索の学習を支援する。 第2に,生成したコードスニペットがコード検索トレーニングの損失により多くの貢献をするべきであるが,そのペアリングされた自然言語記述がユーザの質問にはあまり関係がないと予測された場合に限り,質問記述との関連性を活用することを提案する。 2つのプログラミング言語の大規模コード検索データセットに関する実験により,本手法は最先端モデルの性能を向上させることができることが示された。 さらに、対向学習を規則化する追加の重複質問予測モデルを用いることで、パフォーマンスがさらに向上し、強力なマルチタスク学習ベースラインで重複質問を使用するよりも効果的である。

Code retrieval is a key task aiming to match natural and programming languages. In this work, we propose adversarial learning for code retrieval, that is regularized by question-description relevance. First, we adapt a simple adversarial learning technique to generate difficult code snippets given the input question, which can help the learning of code retrieval that faces bi-modal and data-scarce challenges. Second, we propose to leverage question-description relevance to regularize adversarial learning, such that a generated code snippet should contribute more to the code retrieval training loss, only if its paired natural language description is predicted to be less relevant to the user given question. Experiments on large-scale code retrieval datasets of two programming languages show that our adversarial learning method is able to improve the performance of state-of-the-art models. Moreover, using an additional duplicate question prediction model to regularize adversarial learning further improves the performance, and this is more effective than using the duplicated questions in strong multi-task learning baselines
翻訳日:2022-10-05 20:36:26 公開日:2020-11-10
# 一度の対人訓練:自由のためのロバストさと正確さのトレードオフ

Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness and Accuracy for Free ( http://arxiv.org/abs/2010.11828v2 )

ライセンス: Link先を確認
Haotao Wang, Tianlong Chen, Shupeng Gui, Ting-Kuei Hu, Ji Liu and Zhangyang Wang(参考訳) adversarial trainingとその多くの変種はディープネットワークの堅牢性を大幅に改善したが、標準精度を妥協するコストがかかる。 さらに、トレーニングプロセスは重く、正確性と堅牢性の間のトレードオフを徹底的に検討することは非現実的になる。 この論文は、トレーニングされたモデルをその場で迅速に校正し、その標準と堅牢なアキュラシーの間の達成可能なトレードオフを、何回も(再)訓練することなく調査する方法を問う。 提案手法は,超パラメータ制御を入力として,革新的なモデル条件トレーニングフレームワークを基盤として構築した。 トレーニングされたモデルは、テスト時にさまざまな標準と堅牢なアキュラシを“無償”で調整することができる。 重要なノブとして,2重バッチ正規化を標準特徴統計と逆特徴統計の分離に活用し,性能を低下させることなく1つのモデルで学習できるようにする。 さらに私たちは,OATを,正確性,堅牢性,実行効率の両面において共同でトレードオフを可能にする,OATS(One-for-all Adversarial Training and Slimming)フレームワークに拡張しています。 実験によれば、oat/oatは再トレーニングもセンシングも行わず、様々な構成で専用に訓練されたモデルと同等またはそれ以上の性能を達成している。 私たちのコードと事前訓練済みモデルは、https://github.com/VITA-Group/Once-for-All-Adversarial-Training.comで利用可能です。

Adversarial training and its many variants substantially improve deep network robustness, yet at the cost of compromising standard accuracy. Moreover, the training process is heavy and hence it becomes impractical to thoroughly explore the trade-off between accuracy and robustness. This paper asks this new question: how to quickly calibrate a trained model in-situ, to examine the achievable trade-offs between its standard and robust accuracies, without (re-)training it many times? Our proposed framework, Once-for-all Adversarial Training (OAT), is built on an innovative model-conditional training framework, with a controlling hyper-parameter as the input. The trained model could be adjusted among different standard and robust accuracies "for free" at testing time. As an important knob, we exploit dual batch normalization to separate standard and adversarial feature statistics, so that they can be learned in one model without degrading performance. We further extend OAT to a Once-for-all Adversarial Training and Slimming (OATS) framework, that allows for the joint trade-off among accuracy, robustness and runtime efficiency. Experiments show that, without any re-training nor ensembling, OAT/OATS achieve similar or even superior performance compared to dedicatedly trained models at various configurations. Our codes and pretrained models are available at: https://github.com/VITA-Group/Once-for-All-Adversarial-Training.
翻訳日:2022-10-04 05:47:53 公開日:2020-11-10
# ディープRLを実践するための方法

How to Make Deep RL Work in Practice ( http://arxiv.org/abs/2010.13083v2 )

ライセンス: Link先を確認
Nirnai Rao, Elie Aljalbout, Axel Sauer, Sami Haddadin(参考訳) 近年,深層強化学習(rl)により,難解な制御課題が解決可能となった。 大規模な実世界のアプリケーションにRLを使用できるためには、その性能のある程度の信頼性が必要である。 最新のアルゴリズムの報告結果は、しばしば再現が困難である。 この理由の1つは、特定の実装の詳細がパフォーマンスに大きな影響を及ぼすからである。 一般的に、これらの詳細は最先端のパフォーマンスを達成する重要な技術として強調されていない。 さらに、教師付き学習のテクニックは、しばしばデフォルトで使用されるが、強化学習環境でのアルゴリズムによく影響し、よく理解されていない。 本稿では, ある初期化, 入力正規化, 適応学習技術が, 最先端RLアルゴリズムの性能に与える影響について検討する。 デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。

In recent years, challenging control problems became solvable with deep reinforcement learning (RL). To be able to use RL for large-scale real-world applications, a certain degree of reliability in their performance is necessary. Reported results of state-of-the-art algorithms are often difficult to reproduce. One reason for this is that certain implementation details influence the performance significantly. Commonly, these details are not highlighted as important techniques to achieve state-of-the-art performance. Additionally, techniques from supervised learning are often used by default but influence the algorithms in a reinforcement learning setting in different and not well-understood ways. In this paper, we investigate the influence of certain initialization, input normalization, and adaptive learning techniques on the performance of state-of-the-art RL algorithms. We make suggestions which of those techniques to use by default and highlight areas that could benefit from a solution specifically tailored to RL.
翻訳日:2022-10-03 05:16:57 公開日:2020-11-10
# 世界的なcovid-19ツイートの感情分析

Global Sentiment Analysis Of COVID-19 Tweets Over Time ( http://arxiv.org/abs/2010.14234v2 )

ライセンス: Link先を確認
Muvazima Mansoor, Kirthika Gurumurthy, Anantharam R U, V R Badri Prasad(参考訳) コロナウイルスのパンデミックは、通常の生活に影響を与えている。 世界中の人々がソーシャルメディアで、嵐によって世界を支配したこの現象に関する意見や一般的な感情を表明している。 TwitterのソーシャルネットワーキングサイトであるTwitterは、小説『コロナウイルス』に関するツイートがごく短期間で前例のない増加を見せた。 本稿では、新型コロナウイルスに関連するツイートのグローバル感情分析と、各国の人々の感情の変化について述べる。 さらに, 日常生活におけるコロナウイルスの影響を明らかにするために, ワーク・フロイト・ホーム(WFH)とオンライン・ラーニングに関連するツイートを抽出し, 時間とともに感情の変化を観察した。 さらに、感情分類のためのLong Short Term Memory(LSTM)やArtificial Neural Networks(ANN)などの機械学習モデルを実装し、その精度を決定した。 また、このパンデミックの開始から2020年6月までのケースの変化に対する感情の変化を比較するために、いくつかの最悪の国において、日毎の感染者数に関する情報を提供するデータセットについても探索データ分析を行った。

The Coronavirus pandemic has affected the normal course of life. People around the world have taken to social media to express their opinions and general emotions regarding this phenomenon that has taken over the world by storm. The social networking site, Twitter showed an unprecedented increase in tweets related to the novel Coronavirus in a very short span of time. This paper presents the global sentiment analysis of tweets related to Coronavirus and how the sentiment of people in different countries has changed over time. Furthermore, to determine the impact of Coronavirus on daily aspects of life, tweets related to Work From Home (WFH) and Online Learning were scraped and the change in sentiment over time was observed. In addition, various Machine Learning models such as Long Short Term Memory (LSTM) and Artificial Neural Networks (ANN) were implemented for sentiment classification and their accuracies were determined. Exploratory data analysis was also performed for a dataset providing information about the number of confirmed cases on a per-day basis in a few of the worst-hit countries to provide a comparison between the change in sentiment with the change in cases since the start of this pandemic till June 2020.
翻訳日:2022-10-02 11:40:37 公開日:2020-11-10
# 新型コロナウイルスのケアイメージ分析のポイント

Point of Care Image Analysis for COVID-19 ( http://arxiv.org/abs/2011.01789v2 )

ライセンス: Link先を確認
Daniel Yaron, Daphna Keidar, Elisha Goldstein, Yair Shachar, Ayelet Blass, Oz Frank, Nir Schipper, Nogah Shabshin, Ahuva Grubstein, Dror Suhami, Naama R. Bogot, Eyal Sela, Amiel A. Dror, Mordehay Vaturi, Federico Mento, Elena Torri, Riccardo Inchingolo, Andrea Smargiassi, Gino Soldati, Tiziano Perrone, Libertario Demi, Meirav Galun, Shai Bagon, Yishai M. Elyada and Yonina C. Eldar(参考訳) 新型コロナウイルスの早期発見は、パンデミックを含む上で鍵となる。 画像に基づく疾患の検出と評価は迅速かつ安価であり、ウイルス処理において重要な役割を果たしている。 新型コロナウイルスは胸部CTでは検出が容易だが、高価で非可搬性で消毒が難しいため、POC(point-of-care)モダリティには適さない。 一方、胸部X線(CXR)と肺超音波(LUS)は広く用いられているが、これらのモダリティにおけるCOVID-19の発見は必ずしも明確ではない。 ここでは,深層ニューラルネットワークを訓練し,cxrとlusを用いたcovid-19患者の検出,評価,監視能力を大幅に向上させる。 イスラエルのいくつかの病院とコラボレーションすることで、cxrの大規模なデータセットを収集し、このデータセットを使用して、covid-19検出率90%を超えるニューラルネットワークをトレーニングします。 さらに, イタリアのULTRa(Ultrasound Laboratory Trento, イタリア)と病院の協力を得て, 重症度のアノテーションを用いたPOC超音波データを取得し, 重症度自動評価のためのディープネットワークを訓練した。

Early detection of COVID-19 is key in containing the pandemic. Disease detection and evaluation based on imaging is fast and cheap and therefore plays an important role in COVID-19 handling. COVID-19 is easier to detect in chest CT, however, it is expensive, non-portable, and difficult to disinfect, making it unfit as a point-of-care (POC) modality. On the other hand, chest X-ray (CXR) and lung ultrasound (LUS) are widely used, yet, COVID-19 findings in these modalities are not always very clear. Here we train deep neural networks to significantly enhance the capability to detect, grade and monitor COVID-19 patients using CXRs and LUS. Collaborating with several hospitals in Israel we collect a large dataset of CXRs and use this dataset to train a neural network obtaining above 90% detection rate for COVID-19. In addition, in collaboration with ULTRa (Ultrasound Laboratory Trento, Italy) and hospitals in Italy we obtained POC ultrasound data with annotations of the severity of disease and trained a deep network for automatic severity grading.
翻訳日:2022-10-02 06:14:59 公開日:2020-11-10
# HHAR-net:ニューラルネットワークを用いた階層的人間活動認識

HHAR-net: Hierarchical Human Activity Recognition using Neural Networks ( http://arxiv.org/abs/2010.16052v2 )

ライセンス: Link先を確認
Mehrdad Fazli, Kamran Kowsari, Erfaneh Gharavi, Laura Barnes, Afsaneh Doryab(参考訳) スマートデバイスやウェアラブルデバイスに内蔵されたセンサーを用いたアクティビティ認識は、野生の人間の行動を理解し、検出する絶好の機会となり、個人の健康と健康をより包括的に見ることができます。 センサストリームに多くの計算手法を適用し、異なる日常活動を認識する。 しかし、ほとんどの方法は人間の行動に隠された様々な活動の層を捉えることができない。 また,活動数の増加に伴い,モデルの性能が低下し始める。 本研究では,ニューラルネットワークを用いた階層型分類の構築を目標とし,さまざまな抽象化レベルに基づいて人間の活動を認識する。 スマートフォンやスマートウォッチから収集したデータを含むデータセットであるextrasensory datasetでモデルを評価した。 私たちは、合計で6つの排他的ラベルを持つ2階層階層、すなわち、"lying down"、"sitting"、"standing in place"、"walking"、"running"、"bicycling"を、"stationary"と"non-stationary"に分割して使用しています。 その結果,6ラベルに対して95.8%の精度,92.8%の精度で低レベル活動(静止・非定常)を認識できることがわかった。 これは私たちの最高のパフォーマンスベースラインの3%以上です。

Activity recognition using built-in sensors in smart and wearable devices provides great opportunities to understand and detect human behavior in the wild and gives a more holistic view of individuals' health and well being. Numerous computational methods have been applied to sensor streams to recognize different daily activities. However, most methods are unable to capture different layers of activities concealed in human behavior. Also, the performance of the models starts to decrease with increasing the number of activities. This research aims at building a hierarchical classification with Neural Networks to recognize human activities based on different levels of abstraction. We evaluate our model on the Extrasensory dataset; a dataset collected in the wild and containing data from smartphones and smartwatches. We use a two-level hierarchy with a total of six mutually exclusive labels namely, "lying down", "sitting", "standing in place", "walking", "running", and "bicycling" divided into "stationary" and "non-stationary". The results show that our model can recognize low-level activities (stationary/non-stationary) with 95.8% accuracy and overall accuracy of 92.8% over six labels. This is 3% above our best performing baseline.
翻訳日:2022-10-02 04:37:32 公開日:2020-11-10
# 傾斜地におけるロバスト四足歩行 : 線形政策アプローチ

Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy Approach ( http://arxiv.org/abs/2010.16342v2 )

ライセンス: Link先を確認
Kartik Paigwar, Lokesh Krishna, Sashank Tirumala, Naman Khetan, Aditya Sagi, Ashish Joglekar, Shalabh Bhatnagar, Ashitava Ghosal, Bharadwaj Amrutur, Shishir Kolathaya(参考訳) 本稿では,ローコストハードウェアにおける移動歩行の迅速な展開をめざして,四足歩行ロボットStochを2ドル(約2,200円)で実現するための線形ポリシーを提案する。 特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシによって形成される。 対応する所望の関節角は、逆キネマティクスソルバを介して得られ、PID制御法により追跡される。 拡張ランダム探索、モデルフリーで勾配フリーな学習アルゴリズムは、この線形ポリシーのトレーニングに使用される。 シミュレーションの結果,地すべりの変動や外圧に強い歩行が認められた。 この手法は計算量的に軽量であるだけでなく、ロボットの最小限の感知とアクティベーション能力を利用して、アプローチを正当化する。

In this paper, with a view toward fast deployment of locomotion gaits in low-cost hardware, we use a linear policy for realizing end-foot trajectories in the quadruped robot, Stoch $2$. In particular, the parameters of the end-foot trajectories are shaped via a linear feedback policy that takes the torso orientation and the terrain slope as inputs. The corresponding desired joint angles are obtained via an inverse kinematics solver and tracked via a PID control law. Augmented Random Search, a model-free and a gradient-free learning algorithm is used to train this linear policy. Simulation results show that the resulting walking is robust to terrain slope variations and external pushes. This methodology is not only computationally light-weight but also uses minimal sensing and actuation capabilities in the robot, thereby justifying the approach.
翻訳日:2022-10-01 16:46:27 公開日:2020-11-10
# 深層強化学習によるオプティカルツイーザーの演奏--仮想・物理的・拡張環境において

Playing optical tweezers with deep reinforcement learning: in virtual, physical and augmented environments ( http://arxiv.org/abs/2011.04424v2 )

ライセンス: Link先を確認
Matthew Praeger, Yunhui Xie, James A. Grant-Jacob, Robert W. Eason and Ben Mills(参考訳) 複数のモータ軸上の連続速度制御を学ぶために,シミュレーション環境で強化学習を行った。 これは、レーザートレーディングされたマイクロスフィアをターゲットの場所に移動させ、他の自由移動型マイクロスフィアとの衝突を避けることを目的として、実世界の光トウィーザー実験に適用された。 仮想環境におけるニューラルネットワークのトレーニングという概念は、実験的な最適化と制御のための機械学習の適用において大きな可能性を秘めている。 ニューラルネットワークは仮想環境と物理環境の両方を同等に扱うので、仮想環境と物理環境が結合された拡張環境にもネットワークを適用することができる。 このテクニックは、機械の動きの安全限界を強制したり、追加のセンサーから観察を入力したりするなど、混合および拡張現実に関連する機能をアンロックする可能性がある。

Reinforcement learning was carried out in a simulated environment to learn continuous velocity control over multiple motor axes. This was then applied to a real-world optical tweezers experiment with the objective of moving a laser-trapped microsphere to a target location whilst avoiding collisions with other free-moving microspheres. The concept of training a neural network in a virtual environment has significant potential in the application of machine learning for experimental optimization and control, as the neural network can discover optimal methods for problem solving without the risk of damage to equipment, and at a speed not limited by movement in the physical environment. As the neural network treats both virtual and physical environments equivalently, we show that the network can also be applied to an augmented environment, where a virtual environment is combined with the physical environment. This technique may have the potential to unlock capabilities associated with mixed and augmented reality, such as enforcing safety limits for machine motion or as a method of inputting observations from additional sensors.
翻訳日:2022-09-29 11:49:15 公開日:2020-11-10
# グラフ上のマルチエージェント分散信念伝播

Multi-Agent Decentralized Belief Propagation on Graphs ( http://arxiv.org/abs/2011.04501v2 )

ライセンス: Link先を確認
Yitao Chen and Deepanshu Vasal(参考訳) 本稿では,通信ネットワークのノードにエージェントを配置する対話的部分観測可能なマルコフ決定プロセス(I-POMDP)について考察する。 具体的には、すべてのメッセージに対して特定のメッセージタイプを仮定する。 さらに、各エージェントは、ネットワーク上の対話的信念状態、ローカルに観測された情報、および隣人から受信されたメッセージに基づいて、個別の決定を行う。 この設定の中で、エージェントの集団的目標は、隣人との情報交換を通じて、ネットワーク全体の平均的なリターンを最大化することである。 本稿では,この問題に対する分散的信念伝播アルゴリズムを提案し,アルゴリズムの収束性を証明する。 最後に、フレームワークの複数のアプリケーションを示します。 我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散信念伝播アルゴリズムの最初の研究である。

We consider the problem of interactive partially observable Markov decision processes (I-POMDPs), where the agents are located at the nodes of a communication network. Specifically, we assume a certain message type for all messages. Moreover, each agent makes individual decisions based on the interactive belief states, the information observed locally and the messages received from its neighbors over the network. Within this setting, the collective goal of the agents is to maximize the globally averaged return over the network through exchanging information with their neighbors. We propose a decentralized belief propagation algorithm for the problem, and prove the convergence of our algorithm. Finally we show multiple applications of our framework. Our work appears to be the first study of decentralized belief propagation algorithm for networked multi-agent I-POMDPs.
翻訳日:2022-09-29 04:23:39 公開日:2020-11-10
# 光フローとevmを用いたマイクロ表現認識のためのマルチストリーム畳み込みニューラルネットワーク

A Multi-stream Convolutional Neural Network for Micro-expression Recognition Using Optical Flow and EVM ( http://arxiv.org/abs/2011.03756v2 )

ライセンス: Link先を確認
Jinming Liu, Ke Li, Baolin Song, Li Zhao(参考訳) マイクロ・エクスプレッション(ME)の認識は、特に公共の安全や心理療法において、幅広い応用において重要な役割を果たす。 近年,従来の手法は機械学習設計を過度に頼りすぎており,認識速度が短かったり強度が低かったりするため,実用化には不十分である。 一方,深層学習に基づく手法では,データベースの不均衡などの問題により高い精度が得られない場合もある。 これらの問題に対処するため,本稿では,ME認識のためのマルチストリーム畳み込みニューラルネットワーク(MSCNN)を設計する。 具体的には,esmとオプティカルフローを用いて,mesの微妙な動き変化を拡大可視化し,光フロー画像からマスクを抽出する。 そして、マスク、光学フロー画像、グレースケール画像をMSCNNに追加します。 その後、データベースの不均衡を克服するために、ニューラルネットワークのDense Layerの後、ランダムなオーバーサンプルを追加しました。 最後に、CASME IIとSAMMの2つのパブリックMEデータベース上で広範な実験を行う。 近年の最先端手法と比較すると,より有望な認識結果が得られる。

Micro-expression (ME) recognition plays a crucial role in a wide range of applications, particularly in public security and psychotherapy. Recently, traditional methods rely excessively on machine learning design and the recognition rate is not high enough for its practical application because of its short duration and low intensity. On the other hand, some methods based on deep learning also cannot get high accuracy due to problems such as the imbalance of databases. To address these problems, we design a multi-stream convolutional neural network (MSCNN) for ME recognition in this paper. Specifically, we employ EVM and optical flow to magnify and visualize subtle movement changes in MEs and extract the masks from the optical flow images. And then, we add the masks, optical flow images, and grayscale images into the MSCNN. After that, in order to overcome the imbalance of databases, we added a random over-sampler after the Dense Layer of the neural network. Finally, extensive experiments are conducted on two public ME databases: CASME II and SAMM. Compared with many recent state-of-the-art approaches, our method achieves more promising recognition results.
翻訳日:2022-09-28 22:53:39 公開日:2020-11-10
# 顕微鏡画像における細胞自動計数のための高精度密度回帰法

Deeply-Supervised Density Regression for Automatic Cell Counting in Microscopy Images ( http://arxiv.org/abs/2011.03683v2 )

ライセンス: Link先を確認
Shenghua He, Kyaw Thu Minn, Lilianna Solnica-Krezel, Mark A. Anastasio and Hua Li(参考訳) 多くの医学的診断や生物学的研究において、顕微鏡画像中の細胞数を正確にカウントする必要がある。 このタスクは退屈で時間がかかり、主観的なエラーを起こしやすい。 しかし, 画像コントラストの低下, 背景の複雑化, 細胞形状とカウントのばらつき, および二次元顕微鏡画像における有意な細胞閉塞などにより, 自動計測手法の設計は依然として困難である。 本研究では,顕微鏡画像中の細胞を自動的に計数する新しい密度回帰法を提案する。 提案手法は他の最先端の密度回帰法と比較して2つの革新を処理している。 まず, 密度回帰モデル (DRM) をC-FCRN (concatenated fully convolutional regression network) として設計し, 与えられた画像からセル密度マップを推定するためのマルチスケール画像特徴を用いた。 第二に、補助畳み込みニューラルネットワーク(AuxCNN)を使用して、設計したC-FCRNの中間層をトレーニングし、目に見えないデータセットのDRM性能を改善する。 4つのデータセットで評価した実験は,提案手法の優れた性能を示す。

Accurately counting the number of cells in microscopy images is required in many medical diagnosis and biological studies. This task is tedious, time-consuming, and prone to subjective errors. However, designing automatic counting methods remains challenging due to low image contrast, complex background, large variance in cell shapes and counts, and significant cell occlusions in two-dimensional microscopy images. In this study, we proposed a new density regression-based method for automatically counting cells in microscopy images. The proposed method processes two innovations compared to other state-of-the-art density regression-based methods. First, the density regression model (DRM) is designed as a concatenated fully convolutional regression network (C-FCRN) to employ multi-scale image features for the estimation of cell density maps from given images. Second, auxiliary convolutional neural networks (AuxCNNs) are employed to assist in the training of intermediate layers of the designed C-FCRN to improve the DRM performance on unseen datasets. Experimental studies evaluated on four datasets demonstrate the superior performance of the proposed method.
翻訳日:2022-09-28 22:25:36 公開日:2020-11-10
# グラフカーネル:最新技術と今後の課題

Graph Kernels: State-of-the-Art and Future Challenges ( http://arxiv.org/abs/2011.03854v2 )

ライセンス: Link先を確認
Karsten Borgwardt, Elisabetta Ghisu, Felipe Llinares-L\'opez, Leslie O'Bray, Bastian Rieck(参考訳) グラフ構造化データは、化学情報学、計算生物学、ニューロイメージング、ソーシャルネットワーク分析など、多くのアプリケーション領域の不可欠な部分である。 過去20年間で、グラフ間のカーネル関数である多数のグラフカーネルが、グラフ間の類似性を評価する問題を解決するために提案され、分類と回帰設定の両方で予測が行えるようになった。 この原稿は、既存のグラフカーネル、それらのアプリケーション、ソフトウェアとデータリソースのレビューと最先端のグラフカーネルの実証的な比較を提供する。

Graph-structured data are an integral part of many application domains, including chemoinformatics, computational biology, neuroimaging, and social network analysis. Over the last two decades, numerous graph kernels, i.e. kernel functions between graphs, have been proposed to solve the problem of assessing the similarity between graphs, thereby making it possible to perform predictions in both classification and regression settings. This manuscript provides a review of existing graph kernels, their applications, software plus data resources, and an empirical comparison of state-of-the-art graph kernels.
翻訳日:2022-09-28 22:15:18 公開日:2020-11-10
# ディープネットワークによる多目的遺伝的最適化によるテキスト分類器の逆ブラックボックス攻撃

Adversarial Black-Box Attacks On Text Classifiers Using Multi-Objective Genetic Optimization Guided By Deep Networks ( http://arxiv.org/abs/2011.03901v2 )

ライセンス: Link先を確認
Alex Mathai, Shreya Khare, Srikanth Tamilselvam, Senthil Mani(参考訳) ニューラルネットワークベースのテキスト分類器をうまく騙すブラックボックスの逆転例を生成する新しい遺伝的アルゴリズムを提案する。 深層学習に基づく推論とseq2seq変異によって誘導される多目的最適化による遺伝的探索を行い,意味的に類似するが不可避な敵を生成する。 SSTとIMDBの感情データセットに対するDeepWordBug(DWB)のアプローチを, char-LSTM, word-LSTM, elmo-LSTMの3つのトレーニングモデルを攻撃することで比較した。 平均して、sstでは65.67%、imdbでは36.45%のアタック成功率を達成し、それぞれ49.48%と101%の改善を示した。 さらに, 定性的な調査により, 94%のユーザがオリジナル標本と敵試料を区別できなかったことが判明した。

We propose a novel genetic-algorithm technique that generates black-box adversarial examples which successfully fool neural network based text classifiers. We perform a genetic search with multi-objective optimization guided by deep learning based inferences and Seq2Seq mutation to generate semantically similar but imperceptible adversaries. We compare our approach with DeepWordBug (DWB) on SST and IMDB sentiment datasets by attacking three trained models viz. char-LSTM, word-LSTM and elmo-LSTM. On an average, we achieve an attack success rate of 65.67% for SST and 36.45% for IMDB across the three models showing an improvement of 49.48% and 101% respectively. Furthermore, our qualitative study indicates that 94% of the time, the users were not able to distinguish between an original and adversarial sample.
翻訳日:2022-09-28 08:28:44 公開日:2020-11-10
# EDEN: 閉ざされたガーデンシーンのマルチモーダル合成データセット

EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes ( http://arxiv.org/abs/2011.04389v2 )

ライセンス: Link先を確認
Hoang-An Le, Thomas Mensink, Partha Das, Sezer Karaoglu, Theo Gevers(参考訳) 屋外シーン向けのマルチモーダル大規模データセットは、主に都市運転問題のために設計されている。 シーンは、庭園や公園のような自然中心のシーンに見られるシナリオと非常に構造的で意味的に異なる。 農業やガーデニングといった自然指向の応用のための機械学習手法を促進するために,エンクローズドガーデンシーン(eden)のためのマルチモーダル合成データセットを提案する。 データセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。 各画像には、セマンティクスセグメンテーション、深さ、表面の正常性、内在色、光学フローなど、様々な低レベル・高レベルの視覚モダリティがアノテートされる。 コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果は, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果を示す。 データセットと関連資料はhttps://lhoangan.github.io/eden.com/で入手できる。

Multimodal large-scale datasets for outdoor scenes are mostly designed for urban driving problems. The scenes are highly structured and semantically different from scenarios seen in nature-centered scenes such as gardens or parks. To promote machine learning methods for nature-oriented applications, such as agriculture and gardening, we propose the multimodal synthetic dataset for Enclosed garDEN scenes (EDEN). The dataset features more than 300K images captured from more than 100 garden models. Each image is annotated with various low/high-level vision modalities, including semantic segmentation, depth, surface normals, intrinsic colors, and optical flow. Experimental results on the state-of-the-art methods for semantic segmentation and monocular depth prediction, two important tasks in computer vision, show positive impact of pre-training deep networks on our dataset for unstructured natural scenes. The dataset and related materials will be available at https://lhoangan.github.io/eden.
翻訳日:2022-09-28 01:27:36 公開日:2020-11-10
# 対話管理への行動状態更新アプローチ

Action State Update Approach to Dialogue Management ( http://arxiv.org/abs/2011.04637v2 )

ライセンス: Link先を確認
Svetlana Stoyanchev, Simon Keizer and Rama Doddipatla(参考訳) 発話解釈は対話管理システムの重要な構成要素である対話マネージャの主要な機能の一つである。 ユーザ発話のテキスト中の対話状態更新動作を検出するために,統計的に訓練されたバイナリ分類器を特徴とする発話解釈のための動作状態更新アプローチ(ASU)を提案する。 私たちの目標は、ドメイン固有の自然言語理解コンポーネントを使わずに、ユーザ入力中の参照表現を解釈することです。 モデルのトレーニングにはアクティブラーニングを使用して,シミュレーショントレーニングの例を自動的に選択する。 ユーザシミュレーションと対話的評価の両面から,ASUアプローチは,参照表現を含む対話システムにおいて,ユーザ発話の解釈に成功していることを示す。

Utterance interpretation is one of the main functions of a dialogue manager, which is the key component of a dialogue system. We propose the action state update approach (ASU) for utterance interpretation, featuring a statistically trained binary classifier used to detect dialogue state update actions in the text of a user utterance. Our goal is to interpret referring expressions in user input without a domain-specific natural language understanding component. For training the model, we use active learning to automatically select simulated training examples. With both user-simulated and interactive human evaluations, we show that the ASU approach successfully interprets user utterances in a dialogue system, including those with referring expressions.
翻訳日:2022-09-28 01:09:37 公開日:2020-11-10
# 命題論理に基づく決定図と都市システムにおける意思決定の組み合わせ

Combining Propositional Logic Based Decision Diagrams with Decision Making in Urban Systems ( http://arxiv.org/abs/2011.04405v2 )

ライセンス: Link先を確認
Jiajing Ling, Kushagra Chandak, Akshat Kumar(参考訳) マルチエージェント問題の解決は, 環境の不確実性, 部分観測可能性, 今後の課題のスケーラビリティなどにより, 困難な課題となる。 特に都市部では,エージェントの混雑と移動時間を最小限に抑えながら,すべてのユーザに対する安全性を維持する必要があるため,より多くの課題がある。 本研究では,不確実性と部分的可観測性の下でのマルチエージェントパスフィンディングの問題に対処し,エージェントが出発点から終了点へ移動すると同時に,混雑度が低いなどの制約を満たし,マルチエージェント強化学習問題としてモデル化する。 我々は命題論理を用いてドメイン制約をコンパイルし、RLアルゴリズムと統合し、RLの高速なシミュレーションを可能にする。

Solving multiagent problems can be an uphill task due to uncertainty in the environment, partial observability, and scalability of the problem at hand. Especially in an urban setting, there are more challenges since we also need to maintain safety for all users while minimizing congestion of the agents as well as their travel times. To this end, we tackle the problem of multiagent pathfinding under uncertainty and partial observability where the agents are tasked to move from their starting points to ending points while also satisfying some constraints, e.g., low congestion, and model it as a multiagent reinforcement learning problem. We compile the domain constraints using propositional logic and integrate them with the RL algorithms to enable fast simulation for RL.
翻訳日:2022-09-28 01:08:15 公開日:2020-11-10
# 主成分クラスタリング法によるコミュニティ検出

Community Detection by Principal Components Clustering Methods ( http://arxiv.org/abs/2011.04377v2 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) ネットワークコミュニティ検出問題に対する古典的Degree Corrected Stochastic Blockmodel (DCSBM)モデルに基づいて、主成分クラスタリング(PCC)と正規化主成分クラスタリング(NPCC)の2つの新しいアプローチを提案する。 パラメータを見積もる必要がないため、PCC法は実装が簡単である。 軽度の条件下では,PCCが一貫したコミュニティ検出をもたらすことを示す。 NPCCはPCCとRCC法の組み合わせに基づいて設計されている(Qin & Rohe 2013)。 NPCCの個体群解析は、NPCCがDCSBMの下での理想的な場合の完全なクラスタリングを返すことを示している。 PCCとNPCCは、合成および実世界のデータセットを通して説明される。 NPCCはPCCおよびRCCと比較して有意に改善した。 さらに、NPCCはPCCとRCCの優れた性質を継承し、NPCCはクラスタ化される固有ベクトルの数やチューニングパラメータの選択に敏感である。 シモンズとカルテックの2つの弱い信号ネットワークを扱う場合、クラスタリングのための1つの固有ベクトルを考慮し、PCC+とNPCC+の2つの改良PCC+とNPCC+を提供する。 2つの改良アルゴリズムは、元のアルゴリズムと比較して改善された性能を提供する。 特にNPCC+は、SimmonsとCaltechでそれぞれ121/1137と96/590のエラー率で満足なパフォーマンスを提供する。

Based on the classical Degree Corrected Stochastic Blockmodel (DCSBM) model for network community detection problem, we propose two novel approaches: principal component clustering (PCC) and normalized principal component clustering (NPCC). Without any parameters to be estimated, the PCC method is simple to be implemented. Under mild conditions, we show that PCC yields consistent community detection. NPCC is designed based on the combination of the PCC and the RSC method (Qin & Rohe 2013). Population analysis for NPCC shows that NPCC returns perfect clustering for the ideal case under DCSBM. PCC and NPCC is illustrated through synthetic and real-world datasets. Numerical results show that NPCC provides a significant improvement compare with PCC and RSC. Moreover, NPCC inherits nice properties of PCC and RSC such that NPCC is insensitive to the number of eigenvectors to be clustered and the choosing of the tuning parameter. When dealing with two weak signal networks Simmons and Caltech, by considering one more eigenvectors for clustering, we provide two refinements PCC+ and NPCC+ of PCC and NPCC, respectively. Both two refinements algorithms provide improvement performances compared with their original algorithms. Especially, NPCC+ provides satisfactory performances on Simmons and Caltech, with error rates of 121/1137 and 96/590, respectively.
翻訳日:2022-09-28 00:43:50 公開日:2020-11-10
# トリプレットネットワークを用いた産業用表面の距離ベース異常検出

Distance-Based Anomaly Detection for Industrial Surfaces Using Triplet Networks ( http://arxiv.org/abs/2011.04121v2 )

ライセンス: Link先を確認
Tareq Tayeh, Sulaiman Aburakhia, Ryan Myers, and Abdallah Shami(参考訳) 表面異常検出はスクラップ生産を減らすために多くの製造業において重要な品質管理の役割を担っている。 近年,人間ではなく機械による視覚検査が採用されている。 特に、ディープラーニング畳み込みニューラルネットワーク(cnns)は、その予測精度と効率性から、これらの画像処理ベースのソリューションの最前線にある。 分類対象のCNNをトレーニングするには十分な量の欠陥データが必要であるが、しばしば利用できない。 本稿では,cnnを距離に基づく異常検出目標を用いて表面テクスチャパッチでトレーニングすることで,その課題を解決する。 深部残留型三重項ネットワークモデルを用いて、非欠陥サンプルからランダム消去技術を用いて欠陥学習サンプルのみを合成し、同一クラスサンプルと外部サンプルとの類似度メトリックを直接学習する。 実験結果から, トレーニングデータの一部であり, 未知表面である既知の表面に対して, 曲げ, 破壊面, ひび割れ面などの異なる種類の異常を検出する際のアプローチの強さが示された。

Surface anomaly detection plays an important quality control role in many manufacturing industries to reduce scrap production. Machine-based visual inspections have been utilized in recent years to conduct this task instead of human experts. In particular, deep learning Convolutional Neural Networks (CNNs) have been at the forefront of these image processing-based solutions due to their predictive accuracy and efficiency. Training a CNN on a classification objective requires a sufficiently large amount of defective data, which is often not available. In this paper, we address that challenge by training the CNN on surface texture patches with a distance-based anomaly detection objective instead. A deep residual-based triplet network model is utilized, and defective training samples are synthesized exclusively from non-defective samples via random erasing techniques to directly learn a similarity metric between the same-class samples and out-of-class samples. Evaluation results demonstrate the approach's strength in detecting different types of anomalies, such as bent, broken, or cracked surfaces, for known surfaces that are part of the training data and unseen novel surfaces.
翻訳日:2022-09-27 23:57:00 公開日:2020-11-10
# 活動情報によるモードハンティング

Mode hunting through active information ( http://arxiv.org/abs/2011.05794v1 )

ライセンス: Link先を確認
Daniel Andr\'es D\'iaz-Pach\'on and Juan Pablo S\'aenz and J. Sunil Rao and Jean-Eudes Dazard(参考訳) 本稿では,アクティブな情報に基づく新しいモード探索手法を提案する。 このアルゴリズムは主成分に頼らずに次元を減少させ、さらに人口的にもモードが存在しない場合はモードを検知しない。

We propose a new method to find modes based on active information. We develop an algorithm that, when applied to the whole space, will say whether there are any modes present \textit{and} where they are; this algorithm will reduce the dimensionality without resorting to Principal Components; and more importantly, population-wise, will not detect modes when they are not present.
翻訳日:2022-09-27 08:40:56 公開日:2020-11-10
# 制限付きニューラルネットワークによる整数制約最適化の学習

Learning for Integer-Constrained Optimization through Neural Networks with Limited Training ( http://arxiv.org/abs/2011.05399v1 )

ライセンス: Link先を確認
Zhou Zhou, Shashank Jere, Lizhong Zheng, Lingjia Liu(参考訳) 本稿では,整数制約付きプログラミング問題に対するニューラルネットワークに基づく学習手法について,非常に限定的な学習法を用いて検討する。 具体的には、その構成成分の機能の観点から完全に解釈可能な、対称的で分解されたニューラルネットワーク構造を導入する。 整数制約の基本的なパターンと目的関数のアフィンの性質を生かして、導入されたニューラルネットワークは、整数制約の固有の構造を利用しない他の一般的なニューラルネットワーク構造と比較して、限られたトレーニングで優れた一般化性能を提供する。 さらに,導入された分解アプローチを半分解フレームワークにも拡張できることを示す。 一般に利用可能なトレーニングセットが制限された無線通信システムのコンテキストにおいて、導入した学習アプローチは分類/記号検出タスクによって評価される。 評価の結果,導入した学習戦略は,3gppコミュニティが指定する幅広い無線チャネル環境において,分類・記号検出タスクを効果的に実行できることがわかった。

In this paper, we investigate a neural network-based learning approach towards solving an integer-constrained programming problem using very limited training. To be specific, we introduce a symmetric and decomposed neural network structure, which is fully interpretable in terms of the functionality of its constituent components. By taking advantage of the underlying pattern of the integer constraint, as well as of the affine nature of the objective function, the introduced neural network offers superior generalization performance with limited training, as compared to other generic neural network structures that do not exploit the inherent structure of the integer constraint. In addition, we show that the introduced decomposed approach can be further extended to semi-decomposed frameworks. The introduced learning approach is evaluated via the classification/symbol detection task in the context of wireless communication systems where available training sets are usually limited. Evaluation results demonstrate that the introduced learning strategy is able to effectively perform the classification/symbol detection task in a wide variety of wireless channel environments specified by the 3GPP community.
翻訳日:2022-09-27 08:35:17 公開日:2020-11-10
# Compressionは個人レベルのフェデレーション学習を促進する

Compression Boosts Differentially Private Federated Learning ( http://arxiv.org/abs/2011.05578v1 )

ライセンス: Link先を確認
Raouf Kerkouche, Gergely \'Acs, Claude Castelluccia and Pierre Genev\`es(参考訳) フェデレートラーニング(Federated Learning)により、分散エンティティは、独自のデータを共有することなく、コモンモデルを協調的にトレーニングできる。 パラメータ更新のみを交換することでデータの収集と集約を防止するが、悪意のあるエンティティが取得した勾配から参加者のトレーニングデータに関するプライベート情報を学習できるさまざまな推論や再構成攻撃に対して脆弱である。 差分プライバシーは、交換された更新ベクタをノイズ付けすることで、そのような推論攻撃に対して理論的に健全なプライバシー保証を得るために使用される。 しかし、追加されたノイズはモデルサイズに比例し、現代のニューラルネットワークでは非常に大きい可能性がある。 これにより、モデル品質が低下する可能性がある。 本稿では,圧縮センシングを用いてモデルサイズを小さくし,プライバシーを犠牲にすることなくモデル品質を向上させる。 2つのデータセットを使用することで,従来の非プライベートフェデレーション学習方式に比べて,通信コストを最大95%削減できることを示す。

Federated Learning allows distributed entities to train a common model collaboratively without sharing their own data. Although it prevents data collection and aggregation by exchanging only parameter updates, it remains vulnerable to various inference and reconstruction attacks where a malicious entity can learn private information about the participants' training data from the captured gradients. Differential Privacy is used to obtain theoretically sound privacy guarantees against such inference attacks by noising the exchanged update vectors. However, the added noise is proportional to the model size which can be very large with modern neural networks. This can result in poor model quality. In this paper, compressive sensing is used to reduce the model size and hence increase model quality without sacrificing privacy. We show experimentally, using 2 datasets, that our privacy-preserving proposal can reduce the communication costs by up to 95% with only a negligible performance penalty compared to traditional non-private federated learning schemes.
翻訳日:2022-09-27 08:34:43 公開日:2020-11-10
# 機械学習技術に基づく病理画像の客観的診断:古典的アプローチと新しい動向

Objective Diagnosis for Histopathological Images Based on Machine Learning Techniques: Classical Approaches and New Trends ( http://arxiv.org/abs/2011.05790v1 )

ライセンス: Link先を確認
Naira Elazab, Hassan Soliman, Shaker El-Sappagh, S. M. Riazul Islam, and Mohammed Elmogy(参考訳) 病理組織学は、生検標本の病理学者による検査を指す。 病理像は顕微鏡で撮影され、がんの種類など多くの疾患を特定し、調査し、分類する。 様々な種類の病気とその組織状態の詳細な観察を提供する。 これらの画像は、生物学的組成を定義したり、細胞や組織構造を解析するための必須資源である。 このイメージングモダリティは診断応用において非常に重要である。 病理組織像の解析は、疾患診断を支える多種多様な研究領域である。 本稿では,病理組織像解析の課題を評価する。 組織像解析に応用された従来型および深層学習技術の広範なレビューを行った。 このレビューは、現在の多くのデータセットを要約し、将来の研究方法とともに、最近のディープラーニング技術で重要な課題と制約を強調する。 これまでの研究分野の進歩にもかかわらず、画像技術や疾患特有の特徴が多種多様であることから、まだオープン研究の重要領域である。

Histopathology refers to the examination by a pathologist of biopsy samples. Histopathology images are captured by a microscope to locate, examine, and classify many diseases, such as different cancer types. They provide a detailed view of different types of diseases and their tissue status. These images are an essential resource with which to define biological compositions or analyze cell and tissue structures. This imaging modality is very important for diagnostic applications. The analysis of histopathology images is a prolific and relevant research area supporting disease diagnosis. In this paper, the challenges of histopathology image analysis are evaluated. An extensive review of conventional and deep learning techniques which have been applied in histological image analyses is presented. This review summarizes many current datasets and highlights important challenges and constraints with recent deep learning techniques, alongside possible future research avenues. Despite the progress made in this research area so far, it is still a significant area of open research because of the variety of imaging techniques and disease-specific characteristics.
翻訳日:2022-09-27 08:34:26 公開日:2020-11-10
# グラフにおける変化点と異常検出の統計的学習

Statistical learning for change point and anomaly detection in graphs ( http://arxiv.org/abs/2011.06080v1 )

ライセンス: Link先を確認
Anna Malinovskaya, Philipp Otto and Torben Peters(参考訳) 静的グラフや動的グラフの形で表現できる複雑なシステムは、コミュニケーション、エンジニアリング、産業など、さまざまな分野において発生する。 動的ネットワーク構造を分析する際の興味深い問題のひとつは、その開発の変化を監視することである。 人工知能と従来の統計に基づく方法の両方を包含する統計的学習は、この研究分野の進歩に利用できる。 しかし、ほとんどのアプローチは1つまたは他のフレームワークだけを適用します。 本稿では,統計的プロセス制御と深層学習アルゴリズムを組み合わせた事例に着目したネットワーク監視手法を構築するために,両分野の連携の可能性について論じる。 本稿では,ネットワークデータにおける変化点と異常検出の提示とともに,救急車の応答時間を監視し,定位関数値の制御チャートとグラフ畳み込みネットワークを共同で適用することを提案する。

Complex systems which can be represented in the form of static and dynamic graphs arise in different fields, e.g. communication, engineering and industry. One of the interesting problems in analysing dynamic network structures is to monitor changes in their development. Statistical learning, which encompasses both methods based on artificial intelligence and traditional statistics, can be used to progress in this research area. However, the majority of approaches apply only one or the other framework. In this paper, we discuss the possibility of bringing together both disciplines in order to create enhanced network monitoring procedures focussing on the example of combining statistical process control and deep learning algorithms. Together with the presentation of change point and anomaly detection in network data, we propose to monitor the response times of ambulance services, applying jointly the control chart for quantile function values and a graph convolutional network.
翻訳日:2022-09-27 08:34:12 公開日:2020-11-10
# 深層学習支援多光子顕微鏡による露光低減と迅速イメージング

Deep machine learning-assisted multiphoton microscopy to reduce light exposure and expedite imaging ( http://arxiv.org/abs/2011.06408v1 )

ライセンス: Link先を確認
Stephen McAleer, Alex Fast, Yuntian Xue, Magdalene Seiler, William Tang, Mihaela Balu, Pierre Baldi, Andrew W. Browne(参考訳) 2光子励起蛍光(2PEF)は、組織を厚さ約1mmまでイメージングする。 通常、蛍光励起露光の低減は画像の品質を低下させる。 しかし、ディープラーニングのスーパーレゾリューション技術を使って、これらの低解像度画像を高解像度画像に変換することができる。 本研究は, 蛍光励起露光を低減しつつ, 画像品質を最大化するために深層学習を適用したヒト組織イメージングの改善について検討する。 U-Netに基づく手法とパッチベースの回帰手法の2つの方法を分析する。 どちらの方法も、皮膚データセットと眼データセットで評価される。 眼球データセットは、1200対の高出力と低出力の網膜オルガノイド画像を含む。 皮膚データセットは、ヒト皮膚の各サンプルの複数のフレームを含む。 高分解能画像は, 試料平均70フレーム, 低分解能画像は試料平均7フレーム, 試料平均15フレームで形成した。 スキンデータセットは、解像度レベルごとに550の画像を含む。 平均二乗誤差 (MSE) と構造的類似度指数 (SSIM) の2つの手法の性能測定を行った。 眼球データセットでは、U-Net法では平均MSEが27,611、U-Net法では146,855、U-Net法では平均SSIMが0.636である。 皮膚データセットでは,U-Net法では平均MSEが3.768,U-Net法では4.032,U-Net法では平均SSIMが0.824,U-Net法では0.783であった。 画像の画質は良いが、予測速度を比較する場合、パッチ法はu-net法よりも悪く、1つの画像を予測するのに303秒かかり、u-net法では1秒未満である。

Two-photon excitation fluorescence (2PEF) allows imaging of tissue up to about one millimeter in thickness. Typically, reducing fluorescence excitation exposure reduces the quality of the image. However, using deep learning super resolution techniques, these low-resolution images can be converted to high-resolution images. This work explores improving human tissue imaging by applying deep learning to maximize image quality while reducing fluorescence excitation exposure. We analyze two methods: a method based on U-Net, and a patch-based regression method. Both methods are evaluated on a skin dataset and an eye dataset. The eye dataset includes 1200 paired high power and low power images of retinal organoids. The skin dataset contains multiple frames of each sample of human skin. High-resolution images were formed by averaging 70 frames for each sample and low-resolution images were formed by averaging the first 7 and 15 frames for each sample. The skin dataset includes 550 images for each of the resolution levels. We track two measures of performance for the two methods: mean squared error (MSE) and structural similarity index measure (SSIM). For the eye dataset, the patches method achieves an average MSE of 27,611 compared to 146,855 for the U-Net method, and an average SSIM of 0.636 compared to 0.607 for the U-Net method. For the skin dataset, the patches method achieves an average MSE of 3.768 compared to 4.032 for the U-Net method, and an average SSIM of 0.824 compared to 0.783 for the U-Net method. Despite better performance on image quality, the patches method is worse than the U-Net method when comparing the speed of prediction, taking 303 seconds to predict one image compared to less than one second for the U-Net method.
翻訳日:2022-09-27 08:33:59 公開日:2020-11-10
# ディープニューラルネットワークを用いた光学自由画像の分類

Classification of optics-free images with deep neural networks ( http://arxiv.org/abs/2011.05132v1 )

ライセンス: Link先を確認
Soren Nelson and Rajesh Menon(参考訳) 最薄のカメラは、全ての光学系を取り除き、イメージセンサーだけを残すことで達成される。 深層ニューラルネットワークを訓練し,人間中心の画像再構成を必要とせず,光学系フリーな画像に対して,マルチクラス検出とバイナリ分類(精度92%)を行う。 光学自由画像からの参照は、プライバシーと電力効率を高める可能性がある。

The thinnest possible camera is achieved by removing all optics, leaving only the image sensor. We train deep neural networks to perform multi-class detection and binary classification (with accuracy of 92%) on optics-free images without the need for anthropocentric image reconstructions. Inferencing from optics-free images has the potential for enhanced privacy and power efficiency.
翻訳日:2022-09-27 08:32:39 公開日:2020-11-10
# 有向グラフの高次スペクトルクラスタリング

Higher-Order Spectral Clustering of Directed Graphs ( http://arxiv.org/abs/2011.05080v1 )

ライセンス: Link先を確認
Steinar Laenen and He Sun(参考訳) クラスタリングはアルゴリズムの重要なトピックであり、機械学習、コンピュータビジョン、統計学、その他いくつかの研究分野に多くの応用がある。 従来のグラフクラスタリングの目的は、コンダクタンスの低いクラスタを見つけることである。 これらの目的が単に無向グラフに適用できるだけでなく、クラスタ間の関係を考慮に入れられないため、多くのアプリケーションにとって不可欠である。 これらの欠点を克服するために,クラスタが相互にさらに"構造的"な情報を示す有向グラフ (digraphs) について検討した。 ダイグラフのエルミート行列表現に基づいて、ダイグラフクラスタリングのためのほぼ線形時間アルゴリズムを提案し、さらに、提案アルゴリズムが妥当な仮定の下でサブ線形時間で実装可能であることを示す。 我々の理論的な研究の意義は、uncomtradeデータセットに関する広範な実験結果によって示される: このアルゴリズムの出力クラスタリングは、これらのクラスター(国の集合)が、その輸入および輸出記録に対してどのように相互に関係しているかを示すだけでなく、これらのクラスターが国際貿易における既知の事実に従って、時間とともにどのように進化するかを示す。

Clustering is an important topic in algorithms, and has a number of applications in machine learning, computer vision, statistics, and several other research disciplines. Traditional objectives of graph clustering are to find clusters with low conductance. Not only are these objectives just applicable for undirected graphs, they are also incapable to take the relationships between clusters into account, which could be crucial for many applications. To overcome these downsides, we study directed graphs (digraphs) whose clusters exhibit further "structural" information amongst each other. Based on the Hermitian matrix representation of digraphs, we present a nearly-linear time algorithm for digraph clustering, and further show that our proposed algorithm can be implemented in sublinear time under reasonable assumptions. The significance of our theoretical work is demonstrated by extensive experimental results on the UN Comtrade Dataset: the output clustering of our algorithm exhibits not only how the clusters (sets of countries) relate to each other with respect to their import and export records, but also how these clusters evolve over time, in accordance with known facts in international trade.
翻訳日:2022-09-27 08:26:16 公開日:2020-11-10
# 非凸非平滑問題に対するモーメントを用いた分散確率的合意最適化

Distributed Stochastic Consensus Optimization with Momentum for Nonconvex Nonsmooth Problems ( http://arxiv.org/abs/2011.05082v1 )

ライセンス: Link先を確認
Zhiguo Wang, Jiawei Zhang, Tsung-Hui Chang, Jian Li and Zhi-Quan Luo(参考訳) ネットワーク上で滑らかあるいは凸な問題を解決するために多くの分散最適化アルゴリズムが提案されているが、非凸および非滑らかな問題を処理できるものは少ない。 本稿では,非凸および非スムース問題の最適化を高速化するために,ネステロフ運動量を持つ(統計的)分散アルゴリズムを提案する。 理論上,提案手法は,計算複雑性が$\mathcal{o}(1/\epsilon^2)$,通信複雑性が$\mathcal{o}(1/\epsilon)$で,一定のステップサイズで$\epsilon$定常解を実現できることを示す。 従来の勾配追跡法と比較すると,提案アルゴリズムは計算複雑性は同じだが通信複雑性は低い。 我々の知る限りでは、提示された結果は非凸および非スムース問題に対する$\mathcal{o}(1/\epsilon)$通信複雑性を持つ最初の確率的アルゴリズムである。 提案手法の有効性を示すために,分散非凸回帰問題とディープニューラルネットワークに基づく分類問題に対する数値実験を行った。

While many distributed optimization algorithms have been proposed for solving smooth or convex problems over the networks, few of them can handle non-convex and non-smooth problems. Based on a proximal primal-dual approach, this paper presents a new (stochastic) distributed algorithm with Nesterov momentum for accelerated optimization of non-convex and non-smooth problems. Theoretically, we show that the proposed algorithm can achieve an $\epsilon$-stationary solution under a constant step size with $\mathcal{O}(1/\epsilon^2)$ computation complexity and $\mathcal{O}(1/\epsilon)$ communication complexity. When compared to the existing gradient tracking based methods, the proposed algorithm has the same order of computation complexity but lower order of communication complexity. To the best of our knowledge, the presented result is the first stochastic algorithm with the $\mathcal{O}(1/\epsilon)$ communication complexity for non-convex and non-smooth problems. Numerical experiments for a distributed non-convex regression problem and a deep neural network based classification problem are presented to illustrate the effectiveness of the proposed algorithms.
翻訳日:2022-09-27 08:25:58 公開日:2020-11-10
# 生成逆ネットワークを用いた大規模宇宙構造符号化

Encoding large scale cosmological structure with Generative Adversarial Networks ( http://arxiv.org/abs/2011.05244v1 )

ライセンス: Link先を確認
Marion Ullmo, Aur\'elien Decelle, Nabila Aghanim(参考訳) 近年,計算量と計算能力の面では,重い計算や高価な宇宙シミュレーションをバイパスするために,シミュレーションライクなデータセットの高速生成のための解としてgans(generative adversarial networks)と呼ばれるニューラルネットワークが提案されている。 本研究では,GANを構築して,そのようなアプローチの強みと限界をより深く検討する。 そこで我々は,予測モデル構築に向けた第一歩として,訓練されたGANを用いて単純なオートエンコーダ(AE)を構築する新しい手法を提案する。 ganとaeはどちらも、2dと3dの2種類のn体シミュレーションから生成される画像に基づいて訓練される。 GANはトレーニングした画像と統計的に一致した新しい画像を生成することに成功した。 次に,AEがシミュレーション画像から効率的に情報を抽出し,GANの潜伏符号化を満足して推定し,同様の大規模構造を持つ画像を生成することを示す。

Recently a type of neural networks called Generative Adversarial Networks (GANs) has been proposed as a solution for fast generation of simulation-like datasets, in an attempt to bypass heavy computations and expensive cosmological simulations to run in terms of time and computing power. In the present work, we build and train a GAN to look further into the strengths and limitations of such an approach. We then propose a novel method in which we make use of a trained GAN to construct a simple autoencoder (AE) as a first step towards building a predictive model. Both the GAN and AE are trained on images issued from two types of N-body simulations, namely 2D and 3D simulations. We find that the GAN successfully generates new images that are statistically consistent with the images it was trained on. We then show that the AE manages to efficiently extract information from simulation images, satisfyingly inferring the latent encoding of the GAN to generate an image with similar large scale structures.
翻訳日:2022-09-27 08:24:49 公開日:2020-11-10
# パーシステンス-感度最適化による位相正規化

Topological Regularization via Persistence-Sensitive Optimization ( http://arxiv.org/abs/2011.05290v1 )

ライセンス: Link先を確認
Arnur Nigmetov, Aditi S. Krishnapriyan, Nicole Sanderson, Dmitriy Morozov(参考訳) 機械学習と統計の重要なツールである最適化は、オーバーフィッティングを減らすために正規化に依存している。 従来の正規化法はその滑らかさを保証するために解のノルムを制御する。 近年、トポロジカル手法は、解のより正確で表現力豊かな制御を提供し、その粗さの定量化と低減に永続的ホモロジーに依存している。 このような既存のテクニックはすべて、関数のトポロジ的特徴の要約である永続化ダイアグラムを通じて勾配をバックプロパゲートする。 彼らの欠点は、関数のクリティカルポイントでのみ情報を提供することだ。 そこで本稿では,永続性に敏感な単純化の上に構築され,必要な変更を永続性図に変換して,臨界点と正則点の両方を含む領域の大規模部分集合の変化に変換する手法を提案する。 このアプローチは、より速くより正確な位相正則化を可能にし、その利点は実験的な証拠で示される。

Optimization, a key tool in machine learning and statistics, relies on regularization to reduce overfitting. Traditional regularization methods control a norm of the solution to ensure its smoothness. Recently, topological methods have emerged as a way to provide a more precise and expressive control over the solution, relying on persistent homology to quantify and reduce its roughness. All such existing techniques back-propagate gradients through the persistence diagram, which is a summary of the topological features of a function. Their downside is that they provide information only at the critical points of the function. We propose a method that instead builds on persistence-sensitive simplification and translates the required changes to the persistence diagram into changes on large subsets of the domain, including both critical and regular points. This approach enables a faster and more precise topological regularization, the benefits of which we illustrate with experimental evidence.
翻訳日:2022-09-27 08:24:31 公開日:2020-11-10
# PACSET (Packed Serialized Trees): ツリーアンサンブル展開における推論レイテンシ低減

PACSET (Packed Serialized Trees): Reducing Inference Latency for Tree Ensemble Deployment ( http://arxiv.org/abs/2011.05383v1 )

ライセンス: Link先を確認
Meghana Madhyastha, Kunal Lillaney, James Browne, Joshua Vogelstein, Randal Burns(参考訳) モデルがまだメモリにロードされていない場合の推論遅延を最適化する,ツリーアンサンブルのシリアライズとデシリアライズを行う手法を提案する。 これは、モデルがメモリよりも大きい場合だけでなく、モノのインターネットのような低リソースデバイスにモデルがデプロイされる場合や、必要に応じてリソースが割り当てられるWebマイクロサービスとして実行される場合にも発生する。 組込みシリアライズドツリー(PACSET)は、外部メモリアルゴリズムの原理を用いて、ツリーアンサンブルのレイアウトにおける参照ローカリティを符号化する。 レイアウトは複数の木にまたがる相関ノードをインターリーブし、リーフ濃度を使って最も人気のあるパス上のノードをコロケーションし、i/oブロックに最適化される。 その結果、各I/Oは有用なデータの割合が高くなり、対話型ワークロードの分類遅延が2~6倍削減される。

We present methods to serialize and deserialize tree ensembles that optimize inference latency when models are not already loaded into memory. This arises whenever models are larger than memory, but also systematically when models are deployed on low-resource devices, such as in the Internet of Things, or run as Web micro-services where resources are allocated on demand. Our packed serialized trees (PACSET) encode reference locality in the layout of a tree ensemble using principles from external memory algorithms. The layout interleaves correlated nodes across multiple trees, uses leaf cardinality to collocate the nodes on the most popular paths and is optimized for the I/O blocksize. The result is that each I/O yields a higher fraction of useful data, leading to a 2-6 times reduction in classification latency for interactive workloads.
翻訳日:2022-09-27 08:23:46 公開日:2020-11-10
# ステレオおよびrgb-dカメラからの意味点雲の登録のための新しい枠組み

A New Framework for Registration of Semantic Point Clouds from Stereo and RGB-D Cameras ( http://arxiv.org/abs/2012.03683v1 )

ライセンス: Link先を確認
Ray Zhang, Tzu-Yuan Lin, Chien Erh Lin, Steven A. Parkison, William Clark, Jessy W. Grizzle, Ryan M. Eustice and Maani Ghaffari(参考訳) 本稿では,色や意味ラベルなどの幾何学的および意味的計測をアライメントプロセスに統合し,明示的なデータ関連付けを必要としない,新しい非パラメトリック剛性点クラウド登録フレームワークについて報告する。 点雲は再現可能な核ヒルベルト空間における非パラメトリック関数として表される。 アライメント問題は、2つの関数間の内積の最大化(本質的には重み付きカーネルの和)として定式化され、それぞれが局所幾何学的特徴と意味的特徴を利用する。 連続モデルの結果、解析的勾配を計算でき、剛体変換群に対する最適化により局所解を得ることができる。 さらに,提案フレームワークに固有の新たなポイントクラウドアライメント指標を提案し,幾何学的および意味的情報を考慮した。 公開ステレオおよびRGB-Dデータセットを用いて評価した結果,提案手法は屋外および屋内のフレーム・ツー・フレームの登録方法よりも優れていた。 オープンソースのGPU実装も提供されている。

This paper reports on a novel nonparametric rigid point cloud registration framework that jointly integrates geometric and semantic measurements such as color or semantic labels into the alignment process and does not require explicit data association. The point clouds are represented as nonparametric functions in a reproducible kernel Hilbert space. The alignment problem is formulated as maximizing the inner product between two functions, essentially a sum of weighted kernels, each of which exploits the local geometric and semantic features. As a result of the continuous models, analytical gradients can be computed, and a local solution can be obtained by optimization over the rigid body transformation group. Besides, we present a new point cloud alignment metric that is intrinsic to the proposed framework and takes into account geometric and semantic information. The evaluations using publicly available stereo and RGB-D datasets show that the proposed method outperforms state-of-the-art outdoor and indoor frame-to-frame registration methods. An open-source GPU implementation is also provided.
翻訳日:2022-09-27 08:17:51 公開日:2020-11-10
# 信号時相論理仕様に基づくモデルベース強化学習

Model-based Reinforcement Learning from Signal Temporal Logic Specifications ( http://arxiv.org/abs/2011.04950v1 )

ライセンス: Link先を確認
Parv Kapoor, Anand Balakrishnan, Jyotirmoy V. Deshmukh(参考訳) 強化学習(RL)に基づく技術は、ロボットシステムの制御ポリシーの設計にますます利用されている。 RLは基本的に、ロボットの望ましい振る舞いを符号化する状態に基づく報酬関数に依存しており、悪い報酬関数は学習エージェントによる搾取の傾向があり、最良の場合では望ましくない行動につながり、最悪の場合は致命的な危険をもたらす。 一方,複雑なタスクに対して適切な報酬関数を設計することは,難しい課題である。 本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望ましいロボット動作を表現することを提案する。 STL仕様をモデルベース学習と併用して,STL仕様の満足度を有限時間水平線上で最適化するモデル予測コントローラを設計する。 提案アルゴリズムは,ロボットアームのピック・アンド・プレースや自律走行車両の適応クルーズ制御などのロボットシステムのシミュレーションに基づいて実証的に評価される。

Techniques based on Reinforcement Learning (RL) are increasingly being used to design control policies for robotic systems. RL fundamentally relies on state-based reward functions to encode desired behavior of the robot and bad reward functions are prone to exploitation by the learning agent, leading to behavior that is undesirable in the best case and critically dangerous in the worst. On the other hand, designing good reward functions for complex tasks is a challenging problem. In this paper, we propose expressing desired high-level robot behavior using a formal specification language known as Signal Temporal Logic (STL) as an alternative to reward/cost functions. We use STL specifications in conjunction with model-based learning to design model predictive controllers that try to optimize the satisfaction of the STL specification over a finite time horizon. The proposed algorithm is empirically evaluated on simulations of robotic system such as a pick-and-place robotic arm, and adaptive cruise control for autonomous vehicles.
翻訳日:2022-09-27 08:17:33 公開日:2020-11-10
# 神経ゲノム組立への一歩

A step towards neural genome assembly ( http://arxiv.org/abs/2011.05013v1 )

ライセンス: Link先を確認
Lovro Vr\v{c}ek, Petar Veli\v{c}kovi\'c, Mile \v{S}iki\'c(参考訳) de novoゲノムアセンブリは、元のゲノムを再構築するために膨大な数の短い配列間の接続を見つけることに焦点を当てている。 ゲノム集合の中心的な問題は、未知の数のノードとエッジを回避すべきという制約のある大きな有向グラフを通してハミルトン経路を見つけることができる。 しかし、グラフの局所構造や生物学的特徴のため、冗長な情報の除去を含むグラフの単純化に還元することができる。 グラフ表現学習とアルゴリズムのニューラル実行の最近の進歩により、我々は最大集約子を用いてMPNNモデルを訓練し、グラフ単純化のためのいくつかのアルゴリズムを実行する。 アルゴリズムがうまく学習され、トレーニングで使用されるグラフの最大20倍の大きさのグラフにスケールできることを示す。 また、ラムダファージと大腸菌の実際のゲノムデータから得られたグラフについても検証した。

De novo genome assembly focuses on finding connections between a vast amount of short sequences in order to reconstruct the original genome. The central problem of genome assembly could be described as finding a Hamiltonian path through a large directed graph with a constraint that an unknown number of nodes and edges should be avoided. However, due to local structures in the graph and biological features, the problem can be reduced to graph simplification, which includes removal of redundant information. Motivated by recent advancements in graph representation learning and neural execution of algorithms, in this work we train the MPNN model with max-aggregator to execute several algorithms for graph simplification. We show that the algorithms were learned successfully and can be scaled to graphs of sizes up to 20 times larger than the ones used in training. We also test on graphs obtained from real-world genomic data---that of a lambda phage and E. coli.
翻訳日:2022-09-27 08:15:31 公開日:2020-11-10
# 勾配強化型未学習ニューラルネットワークによる低通信コストの分散学習

Distributed Learning with Low Communication Cost via Gradient Boosting Untrained Neural Network ( http://arxiv.org/abs/2011.05022v1 )

ライセンス: Link先を確認
Xiatian Zhang, Xunshi He, Nan Wang and Rong Chen(参考訳) 高次元データの場合,GBDT の通信量と特徴量の関係から,分散 GBDT には膨大な通信コストがかかる。 そこで本研究では,新しい勾配ブースティングアルゴリズムである勾配ブースティング非学習ニューラルネットワーク(gbun)を提案する。 GBUNは、トレーニングされていないランダムに生成されたニューラルネットワークをアンサンブルし、データサンプルを複数のニューロン出力にソフトに分散し、分散学習のための通信コストを劇的に削減する。 高次元データのための巨大なニューラルネットワークを作成するのを避けるため、Simhashアルゴリズムを拡張し、ニューラルネットワークの前方計算を模倣する。 複数のパブリックデータセットを用いた実験の結果,gbunは従来のgbdtと同程度に精度が高く,分散学習のスケーリング特性よりも優れていることがわかった。 従来のgbdtと比べ、gbunは64台のマシンでクラスタ上で最大13回、ネットワーク帯域が100kb/sのクラスタ上で最大4614回、トレーニングプロセスを高速化している。 したがって、GBUNは効率的な分散学習アルゴリズムであるだけでなく、連合学習にも大きな可能性を持っている。

For high-dimensional data, there are huge communication costs for distributed GBDT because the communication volume of GBDT is related to the number of features. To overcome this problem, we propose a novel gradient boosting algorithm, the Gradient Boosting Untrained Neural Network(GBUN). GBUN ensembles the untrained randomly generated neural network that softly distributes data samples to multiple neuron outputs and dramatically reduces the communication costs for distributed learning. To avoid creating huge neural networks for high-dimensional data, we extend Simhash algorithm to mimic forward calculation of the neural network. Our experiments on multiple public datasets show that GBUN is as good as conventional GBDT in terms of prediction accuracy and much better than it in scaling property for distributed learning. Comparing to conventional GBDT varieties, GBUN speeds up the training process up to 13 times on the cluster with 64 machines, and up to 4614 times on the cluster with 100KB/s network bandwidth. Therefore, GBUN is not only an efficient distributed learning algorithm but also has great potentials for federated learning.
翻訳日:2022-09-27 08:15:17 公開日:2020-11-10
# リアルなボケをレンダリングするaim 2020チャレンジ

AIM 2020 Challenge on Rendering Realistic Bokeh ( http://arxiv.org/abs/2011.04988v1 )

ライセンス: Link先を確認
Andrey Ignatov, Radu Timofte, Ming Qian, Congyu Qiao, Jiamin Lin, Zhenyu Guo, Chenghua Li, Cong Leng, Jian Cheng, Juewen Peng, Xianrui Luo, Ke Xian, Zijin Wu, Zhiguo Cao, Densen Puthussery, Jiji C V, Hrishikesh P S, Melvin Kuriakose, Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Kuldeep Purohit, Praveen Kandula, Maitreya Suin, A. N. Rajagopalan, Saagara M B, Minnu A L, Sanjana A R, Praseeda S, Ge Wu, Xueqin Chen, Tengyao Wang, Max Zheng, Hulk Wong, Jay Zou(参考訳) 本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューし,提案手法と結果について述べる。 そこでは、Canon 7D DSLRカメラでキャプチャした5Kの浅度/広深度の画像ペアからなる大規模なESB!ボケデータセットを使用して、現実的な浅度フォーカス技術を学ぶことが目標だった。 参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。 この課題で使用されるターゲットメトリックは、実行時とユーザスタディで測定されたソリューションの知覚品質を組み合わせたものだ。 提案したモデルの効率を確保するため,標準デスクトップCPU上でのランタイムの測定と,スマートフォンGPU上でのモデル実行を行った。 提案手法は, 実効ボケ効果レンダリング問題に対する最先端技術を定義することによって, ベースライン結果を大幅に改善した。

This paper reviews the second AIM realistic bokeh effect rendering challenge and provides the description of the proposed solutions and results. The participating teams were solving a real-world bokeh simulation problem, where the goal was to learn a realistic shallow focus technique using a large-scale EBB! bokeh dataset consisting of 5K shallow / wide depth-of-field image pairs captured using the Canon 7D DSLR camera. The participants had to render bokeh effect based on only one single frame without any additional data from other cameras or sensors. The target metric used in this challenge combined the runtime and the perceptual quality of the solutions measured in the user study. To ensure the efficiency of the submitted models, we measured their runtime on standard desktop CPUs as well as were running the models on smartphone GPUs. The proposed solutions significantly improved the baseline results, defining the state-of-the-art for practical bokeh effect rendering problem.
翻訳日:2022-09-27 08:08:04 公開日:2020-11-10
# 画像信号処理パイプラインのAIM 2020への挑戦

AIM 2020 Challenge on Learned Image Signal Processing Pipeline ( http://arxiv.org/abs/2011.04994v1 )

ライセンス: Link先を確認
Andrey Ignatov, Radu Timofte, Zhilu Zhang, Ming Liu, Haolin Wang, Wangmeng Zuo, Jiawei Zhang, Ruimao Zhang, Zhanglin Peng, Sijie Ren, Linhui Dai, Xiaohong Liu, Chengqi Li, Jun Chen, Yuichi Ito, Bhavya Vasudeva, Puneesh Deora, Umapada Pal, Zhenyu Guo, Yu Zhu, Tian Liang, Chenghua Li, Cong Leng, Zhihong Pan, Baopu Li, Byung-Hoon Kim, Joonyoung Song, Jong Chul Ye, JaeHyun Baek, Magauiya Zhussip, Yeskendir Koishekenov, Hwechul Cho Ye, Xin Liu, Xueying Hu, Jun Jiang, Jinwei Gu, Kai Li, Pengliang Tan, Bingxin Hou(参考訳) 本稿では,第2回AIM学習ISPチャレンジをレビューし,提案したソリューションと結果について解説する。 参加チームは現実世界のRAW-to-RGBマッピング問題を解決し、Huawei P20デバイスが捉えた品質の低いRAW画像を、Canon 5D DSLRカメラで取得したのと同じ写真にマッピングすることを目的としていた。 検討されたタスクは、画像の復調、ノイズ除去、ホワイトバランス、色とコントラストの補正、復調など、多くの複雑なコンピュータビジョンサブタスクを取り入れていた。 この課題で使用される対象尺度は,PSNRとSSIMと,ユーザスタディで測定されたソリューションの知覚結果を組み合わせたものである。 提案手法はベースライン結果を大幅に改善し,実用的な画像信号処理パイプラインモデリングのための最先端技術を定義した。

This paper reviews the second AIM learned ISP challenge and provides the description of the proposed solutions and results. The participating teams were solving a real-world RAW-to-RGB mapping problem, where to goal was to map the original low-quality RAW images captured by the Huawei P20 device to the same photos obtained with the Canon 5D DSLR camera. The considered task embraced a number of complex computer vision subtasks, such as image demosaicing, denoising, white balancing, color and contrast correction, demoireing, etc. The target metric used in this challenge combined fidelity scores (PSNR and SSIM) with solutions' perceptual results measured in a user study. The proposed solutions significantly improved the baseline results, defining the state-of-the-art for practical image signal processing pipeline modeling.
翻訳日:2022-09-27 08:07:47 公開日:2020-11-10
# Noise2Stack: ボリュームデータからの学習による画像復元の改善

Noise2Stack: Improving Image Restoration by Learning from Volumetric Data ( http://arxiv.org/abs/2011.05105v1 )

ライセンス: Link先を確認
Mikhail Papkov, Kenny Roberts, Lee Ann Madissoon, Omer Bayraktar, Dmytro Fishman, Kaupo Palo, Leopold Parts(参考訳) バイオメディカル画像が騒がしい。 撮像装置自体には物理的制約があり、信号対雑音比、取得速度、撮像深度の一連の実験的なトレードオフは問題を悪化させる。 したがって、デノイジングはあらゆる画像処理パイプラインの重要な部分であり、畳み込みニューラルネットワークは、このタスクに現在選択されている方法である。 一般的なアプローチである noise2noise は、クリーンな地上真理を必要とせず、第2のノイズコピーをトレーニングターゲットとして使用する。 Noise2SelfやNoss2Voidのような自己監督的手法は、明確なターゲットのない信号を学ぶことによって、データの要求を緩和するが、単一の画像における情報の不足によって制限される。 本稿では,空間隣接平面間の共有信号を利用した画像スタックへのノイズ2ノイズ法の拡張である noise2stack を導入する。 磁気共鳴脳スキャンと新たに取得したマルチプレーン顕微鏡データにより,スタック内の画像近傍のみからの学習はノイズ2ノイズとノイズ2Voidを上回り,そのギャップを教師付き復調法に埋めるのに十分であることが示された。 以上の結果から,多面体生物医学画像のノイズ除去パイプラインにおける低コスト,高精度な改善が示唆された。 この研究の一環として,多面体画像評価のためのベンチマークを確立するため,顕微鏡データセットをリリースする。

Biomedical images are noisy. The imaging equipment itself has physical limitations, and the consequent experimental trade-offs between signal-to-noise ratio, acquisition speed, and imaging depth exacerbate the problem. Denoising is, therefore, an essential part of any image processing pipeline, and convolutional neural networks are currently the method of choice for this task. One popular approach, Noise2Noise, does not require clean ground truth, and instead, uses a second noisy copy as a training target. Self-supervised methods, like Noise2Self and Noise2Void, relax data requirements by learning the signal without an explicit target but are limited by the lack of information in a single image. Here, we introduce Noise2Stack, an extension of the Noise2Noise method to image stacks that takes advantage of a shared signal between spatially neighboring planes. Our experiments on magnetic resonance brain scans and newly acquired multiplane microscopy data show that learning only from image neighbors in a stack is sufficient to outperform Noise2Noise and Noise2Void and close the gap to supervised denoising methods. Our findings point towards low-cost, high-reward improvement in the denoising pipeline of multiplane biomedical images. As a part of this work, we release a microscopy dataset to establish a benchmark for the multiplane image denoising.
翻訳日:2022-09-27 08:07:33 公開日:2020-11-10
# 生涯都市スケールマップによるスマートフォン上の協調型拡張現実

Collaborative Augmented Reality on Smartphones via Life-long City-scale Maps ( http://arxiv.org/abs/2011.05370v1 )

ライセンス: Link先を確認
Lukas Platinsky, Michal Szabados, Filip Hlasek, Ross Hemsley, Luca Del Pero, Andrej Pancik, Bryan Baum, Hugo Grimmett, Peter Ondruska(参考訳) 本稿では,モバイル端末上で都市規模でar体験を共有するためのエンド・ツー・エンドのコンピュータビジョンシステムについて紹介する。 そこで我々は,都市規模SLAMのスケーラビリティ,堅牢性,マップ更新,実運用システムに必要な全天候性能といった重要な課題に対する効果的なソリューションとして,経験ベースマッピングフレームワークの新たな定式化を提案する。 さらに,複数のエッジデバイスのシームレスなリアルタイムローカライズを実現するために,SLAMシステムの同期方法を提案する。 これらはすべて、ネットワークのレイテンシと帯域幅の制限がある。 システムはサンフランシスコで大規模に展開、テストされ、数百kmの地図化されたエリアでAR体験を提供する。 この分野のさらなる発展を促進するために、我々はデータセットを一般向けに提供し、これまでで最大のデータである。

In this paper we present the first published end-to-end production computer-vision system for powering city-scale shared augmented reality experiences on mobile devices. In doing so we propose a new formulation for an experience-based mapping framework as an effective solution to the key issues of city-scale SLAM scalability, robustness, map updates and all-time all-weather performance required by a production system. Furthermore, we propose an effective way of synchronising SLAM systems to deliver seamless real-time localisation of multiple edge devices at the same time. All this in the presence of network latency and bandwidth limitations. The resulting system is deployed and tested at scale in San Francisco where it delivers AR experiences in a mapped area of several hundred kilometers. To foster further development of this area we offer the data set to the public, constituting the largest of this kind to date.
翻訳日:2022-09-27 08:07:07 公開日:2020-11-10
# 深層学習による病理組織像スコアを用いた第3相臨床試験

Deep Learning Derived Histopathology Image Score for Increasing Phase 3 Clinical Trial Probability of Success ( http://arxiv.org/abs/2011.05406v1 )

ライセンス: Link先を確認
Qi Tang and Vardaan Kishore Kumar(参考訳) 第3相臨床試験の失敗は腫瘍学における薬の開発コストの高騰に寄与する。 このようなコストを大幅に削減するには、第3相臨床試験の計画前に患者データを限られた量で、創薬過程の早期に腫瘍治療への応答者を特定する必要がある。 第1相非小細胞肺癌臨床試験において,腫瘍生検試料に発現する標的抗原の免疫組織化学像に基づいて,深層学習由来のデジタル病理学スコアを用いて応答者を同定した。 以上の結果から, 深層学習法により, ROC曲線のAUCが4%, 精度・リコール曲線のAUCが6%, 腫瘍比率スコア(TPS)が6%であった。 また, 単発検査群では, 深層学習の成績が, TPS検査群と比較して, 人口増加率の25%以上を数値的に上回ったことも確認した。

Failures in Phase 3 clinical trials contribute to expensive cost of drug development in oncology. To drastically reduce such cost, responders to an oncology treatment need to be identified early on in the drug development process with limited amount of patient data before the planning of Phase 3 clinical trials. Despite the challenge of small sample size, we pioneered the use of deep-learning derived digital pathology scores to identify responders based on the immunohistochemistry images of the target antigen expressed in tumor biopsy samples from a Phase 1 Non-small Cell Lung Cancer clinical trial. Based on repeated 10-fold cross validations, the deep-learning derived score on average achieved 4% higher AUC of ROC curve and 6% higher AUC of Precision-Recall curve comparing to the tumor proportion score (TPS) based clinical benchmark. In a small independent testing set of patients, we also demonstrated that the deep-learning derived score achieved numerically at least 25% higher responder rate in the enriched population than the TPS clinical benchmark.
翻訳日:2022-09-27 08:06:53 公開日:2020-11-10
# 脳ctスキャンにおける自己教師付き分布外検出

Self-Supervised Out-of-Distribution Detection in Brain CT Scans ( http://arxiv.org/abs/2011.05428v1 )

ライセンス: Link先を確認
Abinav Ravi Venkatakrishnan, Seong Tae Kim, Rami Eisawy, Franz Pfister, Nassir Navab(参考訳) 医用画像データは、3D医療データの注釈付けに時間がかかり、コストがかかるため、アノテーションの入手が限られている。 さらに、たとえアノテーションが利用可能であっても、教師付き学習ベースのアプローチは高度に不均衡なデータに苦しむ。 スクリーニング中のスキャンのほとんどは正常な被験者によるものだが、異常な症例も多様である。 これらの問題に対処するため,近年,大規模正規スキャンでモデルを訓練し,再構成誤差を算出した異常スキャンを検出する,教師なし深部異常検出法が報告されている。 本稿では,異常検出のための新しい自己教師あり学習手法を提案する。 私たちのアーキテクチャは2つの部分で構成されています。 1)再建・再建 2)幾何変換を予測する。 ネットワークをトレーニングして幾何学的変換を予測することで、モデルがより優れた画像特徴と正規スキャンの分布を学ぶことができる。 テスト時間において、幾何変換予測器は、幾何変換と予測の間の誤差を計算して異常スコアを割り当てることができる。 さらに,自己教師型学習と文脈復元を併用して,モデルの事前学習を行う。 臨床脳CTにおける比較実験により,提案法の有効性が検証された。

Medical imaging data suffers from the limited availability of annotation because annotating 3D medical data is a time-consuming and expensive task. Moreover, even if the annotation is available, supervised learning-based approaches suffer highly imbalanced data. Most of the scans during the screening are from normal subjects, but there are also large variations in abnormal cases. To address these issues, recently, unsupervised deep anomaly detection methods that train the model on large-sized normal scans and detect abnormal scans by calculating reconstruction error have been reported. In this paper, we propose a novel self-supervised learning technique for anomaly detection. Our architecture largely consists of two parts: 1) Reconstruction and 2) predicting geometric transformations. By training the network to predict geometric transformations, the model could learn better image features and distribution of normal scans. In the test time, the geometric transformation predictor can assign the anomaly score by calculating the error between geometric transformation and prediction. Moreover, we further use self-supervised learning with context restoration for pretraining our model. By comparative experiments on clinical brain CT scans, the effectiveness of the proposed method has been verified.
翻訳日:2022-09-27 08:06:38 公開日:2020-11-10
# 機械のエンドツーエンド最適化画像圧縮に関する研究

End-to-end optimized image compression for machines, a study ( http://arxiv.org/abs/2011.06409v1 )

ライセンス: Link先を確認
Lahiru D. Chamain, Fabien Racap\'e, Jean B\'egaint, Akshay Pushparaja, Simon Feltman(参考訳) 画像と映像の共有度は、人間が見るのではなく機械によって分析されるため、リモートで解析を行うアプリケーションに対してコーデックを最適化することが重要となる。 残念なことに、従来のコーディングツールは、元々人間の知覚のために設計されたマシンタスクの専門化が難しい。 しかし、ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと共同でトレーニングすることができる。 本稿では、圧縮モジュールとエンドツーエンドに最適化可能なタスクアルゴリズムからなるチェーンを用いて、リモートマシンタスク分析のための効率的な画像圧縮を可能にするエンドツーエンドフレームワークを提案する。 コーデックとタスクネットワークを協調的に微調整する場合,特に低ビットレートでタスク精度を大幅に向上させることができることを示す。 トレーニングやデプロイメントの制約によっては、選択的な微調整はエンコーダ、デコーダ、タスクネットワークのみに適用でき、既製のコーデックやタスクネットワークよりもレート精度が向上する。 また,実用化に向けたエンドツーエンドパイプラインの柔軟性も実証した。

An increasing share of image and video content is analyzed by machines rather than viewed by humans, and therefore it becomes relevant to optimize codecs for such applications where the analysis is performed remotely. Unfortunately, conventional coding tools are challenging to specialize for machine tasks as they were originally designed for human perception. However, neural network based codecs can be jointly trained end-to-end with any convolutional neural network (CNN)-based task model. In this paper, we propose to study an end-to-end framework enabling efficient image compression for remote machine task analysis, using a chain composed of a compression module and a task algorithm that can be optimized end-to-end. We show that it is possible to significantly improve the task accuracy when fine-tuning jointly the codec and the task networks, especially at low bit-rates. Depending on training or deployment constraints, selective fine-tuning can be applied only on the encoder, decoder or task network and still achieve rate-accuracy improvements over an off-the-shelf codec and task network. Our results also demonstrate the flexibility of end-to-end pipelines for practical applications.
翻訳日:2022-09-27 08:06:02 公開日:2020-11-10
# 補助変数局所探索による離散エネルギーモデル学習

Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration ( http://arxiv.org/abs/2011.05363v1 )

ライセンス: Link先を確認
Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, Dale Schuurmans(参考訳) 離散構造は、プログラム言語モデリングやソフトウェア工学のようなアプリケーションにおいて重要な役割を果たす。 複雑な構造を予測しようとする現在のアプローチでは、一般的に、柔軟性を犠牲にして、自己回帰モデルを適用する。 一方、エネルギーベースモデル(EBM)は、そのような分布をモデル化するためのより柔軟で強力なアプローチを提供するが、分割関数の推定が必要である。 本稿では,局所探索を模倣した学習サンプルを用いてパラメータ勾配を推定する,離散構造データに対する条件付きおよび非条件付きEMMの学習アルゴリズムであるALOEを提案する。 エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練でき、柔軟性とトラクタビリティのトレードオフをよりよく達成できることを示す。 実験により,ローカル検索の学習は,アプリケーション領域の挑戦において大きな改善をもたらすことが示された。 最も注目すべきは、libfuzzerのようなよく設計されたファジングエンジンに匹敵する性能を達成するソフトウェアテストのためのエネルギーモデル誘導ファジングである。

Discrete structures play an important role in applications like program language modeling and software engineering. Current approaches to predicting complex structures typically consider autoregressive models for their tractability, with some sacrifice in flexibility. Energy-based models (EBMs) on the other hand offer a more flexible and thus more powerful approach to modeling such distributions, but require partition function estimation. In this paper we propose ALOE, a new algorithm for learning conditional and unconditional EBMs for discrete structured data, where parameter gradients are estimated using a learned sampler that mimics local search. We show that the energy function and sampler can be trained efficiently via a new variational form of power iteration, achieving a better trade-off between flexibility and tractability. Experimentally, we show that learning local search leads to significant improvements in challenging application domains. Most notably, we present an energy model guided fuzzer for software testing that achieves comparable performance to well engineered fuzzing engines like libfuzzer.
翻訳日:2022-09-27 08:01:08 公開日:2020-11-10
# オンライン非負行列分解の画像・時系列データへの応用

Applications of Online Nonnegative Matrix Factorization to Image and Time-Series Data ( http://arxiv.org/abs/2011.05384v1 )

ライセンス: Link先を確認
Hanbaek Lyu, Georg Menz, Deanna Needell, Christopher Strohmeier(参考訳) オンライン非負行列分解(onmf)は、ストリーミング形式でデータが取得され、行列因子が更新されるオンライン環境での行列分解手法である。 これにより、新しいデータサンプルの到着と同時に、因子分析が実行できる。 本稿では、オンライン非負行列分解アルゴリズムを用いて、相関データセットの集合から共同辞書原子を学習する方法を実証する。 本稿では,onmfアルゴリズムに基づく時系列データセットのための時間辞書学習手法を提案する。 我々は,過去の温度データ,ビデオフレーム,カラー画像の応用状況において,辞書学習手法を実証する。

Online nonnegative matrix factorization (ONMF) is a matrix factorization technique in the online setting where data are acquired in a streaming fashion and the matrix factors are updated each time. This enables factor analysis to be performed concurrently with the arrival of new data samples. In this article, we demonstrate how one can use online nonnegative matrix factorization algorithms to learn joint dictionary atoms from an ensemble of correlated data sets. We propose a temporal dictionary learning scheme for time-series data sets, based on ONMF algorithms. We demonstrate our dictionary learning technique in the application contexts of historical temperature data, video frames, and color images.
翻訳日:2022-09-27 08:00:18 公開日:2020-11-10
# グラフニューラルネットワークを用いた人間対応ナビゲーションマップの作成

Generation of Human-aware Navigation Maps using Graph Neural Networks ( http://arxiv.org/abs/2011.05180v1 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado and Pilar Bachiller and Luis J. Manso(参考訳) 社会状況下での移動時のロボットによる不快感を最小限に抑えることが重要である。 本稿では,既存の1次元データセットをブートストラップしてコストマップデータセットを生成する機械学習フレームワークと,グラフニューラルネットワークと畳み込みニューラルネットワーク層を組み合わせたモデルを提案する。 提案するフレームワークは,元の1次元データセットとシミュレーションナビゲーションタスクに対して評価される。 結果は、データセットの精度と使用するナビゲーションメトリクスを考慮して、同様の最先端メソッドを上回っている。 提案するフレームワークの応用は、人間の認識するナビゲーションに限らず、マップ生成が必要な他の分野にも適用できる。

Minimising the discomfort caused by robots when navigating in social situations is crucial for them to be accepted. The paper presents a machine learning-based framework that bootstraps existing one-dimensional datasets to generate a cost map dataset and a model combining Graph Neural Network and Convolutional Neural Network layers to produce cost maps for human-aware navigation in real-time. The proposed framework is evaluated against the original one-dimensional dataset and in simulated navigation tasks. The results outperform similar state-of-the-art-methods considering the accuracy on the dataset and the navigation metrics used. The applications of the proposed framework are not limited to human-aware navigation, it could be applied to other fields where map generation is needed.
翻訳日:2022-09-27 07:59:33 公開日:2020-11-10
# ノンパーソナライズド・レコメンデーションにおける二面公平性

Two-Sided Fairness in Non-Personalised Recommendations ( http://arxiv.org/abs/2011.05287v1 )

ライセンス: Link先を確認
Aadi Swadipto Mondal and Rakesh Bal and Sayan Sinha, Gourab K Patro(参考訳) recommender systemsは、いくつかのオンラインプラットフォームで最も広く利用されているサービスの1つで、エンドユーザに潜在的なアイテムを提案する。 これらのサービスは、特に下流サービスに社会的影響をもたらす能力がある場合に、フェアネスが関連する要因となる、異なる機械学習技術を使用することが多い。 したがって、ニュースメディアプラットフォームの非パーソナライズド(グローバル)レコメンデーション(例えば、twitter上のトップkトレンドトピック、ニュースプラットフォーム上のトップkニュースなど)に焦点を当て、ユーザーフェアネスと組織フェアネスの2つの特定の公平性(伝統的に別々に研究されている)について論じる。 ユーザフェアネスは、グローバルなレコメンデーションの場合、個々のユーザの選択を表現するというアイデアを捉えている一方で、組織フェアネスは政治的・イデオロギー的にバランスの取れたレコメンデーションセットを確実にしようと試みている。 これにより、ユーザの公平性はユーザ側の要件であり、組織の公平性はプラットフォーム側の要件となる。 ユーザフェアネスについては、社会的選択理論、すなわち、ユーザ選択をより良く表現するために知られている様々な投票ルールの手法を用いてテストする。 投票ルールを推薦設定に適用しても、高いユーザ満足度スコアを観察する。 そこで, 組織的公平性のために, 推奨項目群(論文)の総合的イデオロギーバイアスを測定するバイアスメトリックを提案する。 投票ルールに基づくレコメンデーションの結果を分析すると、よく知られた投票ルールはユーザー側より優れているが、高いバイアス値を示し、プラットフォームの組織的要件には明らかに適さないことが分かる。 したがって、ユーザフェアネスと組織フェアネスのアイデアを結束して包括的メカニズムを構築する必要がある。 本稿では,このようなメカニズムの要件の背景にあるモチベーションの明確化とともに,基本概念を体系化する。

Recommender systems are one of the most widely used services on several online platforms to suggest potential items to the end-users. These services often use different machine learning techniques for which fairness is a concerning factor, especially when the downstream services have the ability to cause social ramifications. Thus, focusing on the non-personalised (global) recommendations in news media platforms (e.g., top-k trending topics on Twitter, top-k news on a news platform, etc.), we discuss on two specific fairness concerns together (traditionally studied separately)---user fairness and organisational fairness. While user fairness captures the idea of representing the choices of all the individual users in the case of global recommendations, organisational fairness tries to ensure politically/ideologically balanced recommendation sets. This makes user fairness a user-side requirement and organisational fairness a platform-side requirement. For user fairness, we test with methods from social choice theory, i.e., various voting rules known to better represent user choices in their results. Even in our application of voting rules to the recommendation setup, we observe high user satisfaction scores. Now for organisational fairness, we propose a bias metric which measures the aggregate ideological bias of a recommended set of items (articles). Analysing the results obtained from voting rule-based recommendation, we find that while the well-known voting rules are better from the user side, they show high bias values and clearly not suitable for organisational requirements of the platforms. Thus, there is a need to build an encompassing mechanism by cohesively bridging ideas of user fairness and organisational fairness. In this abstract paper, we intend to frame the elementary ideas along with the clear motivation behind the requirement of such a mechanism.
翻訳日:2022-09-27 07:59:21 公開日:2020-11-10
# ベイズ情報フュージョンを用いたクラウドソーシングウェイズデータからの緊急インシデント検出

Emergency Incident Detection from Crowdsourced Waze Data using Bayesian Information Fusion ( http://arxiv.org/abs/2011.05440v1 )

ライセンス: Link先を確認
Yasas Senarath, Saideep Nannapaneni, Hemant Purohit, Abhishek Dubey(参考訳) 都市化が進むにつれて、緊急事態の数は年々増加している。 このパターンは、限られたリソースで緊急サービスを圧倒し、応答プロセスの最適化を要求する。 これは、元が緊急番号(例えば、米国では911)の呼び出しを開始し、潜在的に最適な応答を遅らせ、制限する、インシデントに関するデータを収集する、従来の緊急サービスの"reactive"アプローチによるものである。 wazeのようなクラウドソーシングプラットフォームは、クラウド生成の観察レポートを通じてインシデントに関するデータを収集する、迅速で“積極的な”アプローチを開発する機会を提供する。 しかし、報告源の信頼性と報告事件の時空間的不確実性は、そのような積極的なアプローチの設計に挑戦する。 そこで本稿では,ノイズの多いクラウドソーシングWazeデータを用いた緊急インシデント検出手法を提案する。 本研究では, 群衆発生報告の信頼性の不確実性と, その空間的, 時間的統合をモデル化し, ベイズ理論に基づく計算手法を提案する。 Wazeが収集したデータによる大規模な実験と、ナッシュビル、テネシーでの公式報告によると、我々の手法はF1スコアとAUCの両方の強力なベースラインを上回ります。 この研究の応用は、我々のコミュニティにおける緊急対応操作を改善し最適化するために、積極的なインシデント検出のために異なるノイズデータソースを組み込む拡張可能なフレームワークを提供する。

The number of emergencies have increased over the years with the growth in urbanization. This pattern has overwhelmed the emergency services with limited resources and demands the optimization of response processes. It is partly due to traditional `reactive' approach of emergency services to collect data about incidents, where a source initiates a call to the emergency number (e.g., 911 in U.S.), delaying and limiting the potentially optimal response. Crowdsourcing platforms such as Waze provides an opportunity to develop a rapid, `proactive' approach to collect data about incidents through crowd-generated observational reports. However, the reliability of reporting sources and spatio-temporal uncertainty of the reported incidents challenge the design of such a proactive approach. Thus, this paper presents a novel method for emergency incident detection using noisy crowdsourced Waze data. We propose a principled computational framework based on Bayesian theory to model the uncertainty in the reliability of crowd-generated reports and their integration across space and time to detect incidents. Extensive experiments using data collected from Waze and the official reported incidents in Nashville, Tenessee in the U.S. show our method can outperform strong baselines for both F1-score and AUC. The application of this work provides an extensible framework to incorporate different noisy data sources for proactive incident detection to improve and optimize emergency response operations in our communities.
翻訳日:2022-09-27 07:58:47 公開日:2020-11-10
# RANSAC仮説と3次元剛体登録のための効率的なロバスト計量について

On Efficient and Robust Metrics for RANSAC Hypotheses and 3D Rigid Registration ( http://arxiv.org/abs/2011.04862v1 )

ライセンス: Link先を確認
Jiaqi Yang, Zhiqiang Huang, Siwen Quan, Qian Zhang, Yanning Zhang, Zhiguo Cao(参考訳) 本稿では,高精度な3次元剛性登録を実現するために,RANSAC仮説の効率的かつ堅牢な評価指標の開発に焦点をあてる。 特徴対応から6自由度(6-DoF)のポーズを推定することは、ランダムサンプルコンセンサス(RANSAC)がこの問題のデファクトな選択である3次元剛性登録に対する一般的なアプローチである。 しかし、RANSAC仮説の既存のメトリクスは、一般的な問題、パラメータのバリエーション、異なるアプリケーションシナリオに時間を要するか、あるいは敏感であるため、全体的な登録精度と速度が低下する。 我々はまず、まずインレーヤとアウトレーヤのコントリビューションを分析し、その後、RANSAC仮説の異なる設計モチベーションを持つ複数の効率的で堅牢なメトリクスを提案し、この問題を緩和する。 異なるニュアンスとアプリケーションシナリオを持つ4つの標準データセットの比較実験は、提案されたメトリクスが登録性能を大幅に改善し、最先端の競合相手よりも堅牢であることを検証する。 この研究はまた興味深い結論を導き出している:すなわち、すべてのイノリアーが等しくなくとも、すべてのイノリアーが等しくなければならないわけではない。

This paper focuses on developing efficient and robust evaluation metrics for RANSAC hypotheses to achieve accurate 3D rigid registration. Estimating six-degree-of-freedom (6-DoF) pose from feature correspondences remains a popular approach to 3D rigid registration, where random sample consensus (RANSAC) is a de-facto choice to this problem. However, existing metrics for RANSAC hypotheses are either time-consuming or sensitive to common nuisances, parameter variations, and different application scenarios, resulting in performance deterioration in overall registration accuracy and speed. We alleviate this problem by first analyzing the contributions of inliers and outliers, and then proposing several efficient and robust metrics with different designing motivations for RANSAC hypotheses. Comparative experiments on four standard datasets with different nuisances and application scenarios verify that the proposed metrics can significantly improve the registration performance and are more robust than several state-of-the-art competitors, making them good gifts to practical applications. This work also draws an interesting conclusion, i.e., not all inliers are equal while all outliers should be equal, which may shed new light on this research problem.
翻訳日:2022-09-27 07:57:55 公開日:2020-11-10
# 単純で速い:cpu上の一人称ビデオのリアルタイム人間の動き予測

Simple means Faster: Real-Time Human Motion Forecasting in Monocular First Person Videos on CPU ( http://arxiv.org/abs/2011.04943v1 )

ライセンス: Link先を確認
Junaid Ahmed Ansari and Brojeshwar Bhowmick(参考訳) 人称単眼ビデオにおける人間の将来の位置を予測するための,シンプルで高速で軽量なRNNベースのフレームワークを提案する。 この研究の主な動機は、CPU上で非常に高い速度で将来の軌道を正確に予測できるネットワークを設計することであった。 このようなシステムの典型的な応用は、より重く、電力効率が低く、よりコストが高いことを避けるために高い計算能力を持つ余裕がないため、社会ロボットや視覚補助システムである。 カメラエゴモーションや人間の2Dポーズなど,複数のタイプのキューに依存する従来の手法とは対照的に,境界ボックスにのみ依存するネットワークモデルでは,性能が向上するだけでなく,約17MB程度の大きさのトラジェクトリを極めて高い速度で予測できることが示されている。 具体的には,過去の情報の符号化フェーズに自動エンコーダを,最後に正規化層を配置することにより,オーバーヘッドを無視できる予測精度が向上することを示す。 我々は、CityWalks、FPL、JAADという3つのファーストパーソンビデオデータセットを実験した。 CityWalksでトレーニングした単純な手法は、CPU上で9.6倍高速なSTED(State-of-the-art method)の予測精度を上回る。 また、我々のモデルは、ゼロショットまたは15%の微調整を他の類似したデータセットに転送し、そのようなデータセット(FPLとDTP)の最先端の手法と同等に実行することを示す。 我々の知る限りでは、我々はcpu上で非常に高い予測速度で軌道を正確に予測した最初の人物である。

We present a simple, fast, and light-weight RNN based framework for forecasting future locations of humans in first person monocular videos. The primary motivation for this work was to design a network which could accurately predict future trajectories at a very high rate on a CPU. Typical applications of such a system would be a social robot or a visual assistance system for all, as both cannot afford to have high compute power to avoid getting heavier, less power efficient, and costlier. In contrast to many previous methods which rely on multiple type of cues such as camera ego-motion or 2D pose of the human, we show that a carefully designed network model which relies solely on bounding boxes can not only perform better but also predicts trajectories at a very high rate while being quite low in size of approximately 17 MB. Specifically, we demonstrate that having an auto-encoder in the encoding phase of the past information and a regularizing layer in the end boosts the accuracy of predictions with negligible overhead. We experiment with three first person video datasets: CityWalks, FPL and JAAD. Our simple method trained on CityWalks surpasses the prediction accuracy of state-of-the-art method (STED) while being 9.6x faster on a CPU (STED runs on a GPU). We also demonstrate that our model can transfer zero-shot or after just 15% fine-tuning to other similar datasets and perform on par with the state-of-the-art methods on such datasets (FPL and DTP). To the best of our knowledge, we are the first to accurately forecast trajectories at a very high prediction rate of 78 trajectories per second on CPU.
翻訳日:2022-09-27 07:57:31 公開日:2020-11-10
# 非参照画像品質評価のためのマルチプールインセプション機能

Multi-pooled Inception features for no-reference image quality assessment ( http://arxiv.org/abs/2011.05139v1 )

ライセンス: Link先を確認
Domonkos Varga(参考訳) 画像品質評価(IQA)は、自動ビデオストリーミングからディスプレイ技術まで幅広い分野のアプリケーションにおいて重要な要素である。 さらに、画質の測定には、画像内容と特徴のバランスのとれた調査が必要となる。 提案手法は,imagenet database pretrained convolutional neural network (cnn) 上の複数のインセプションモジュールにgap(global average pooling)層をアタッチすることで視覚特徴を抽出する。 従来の手法とは対照的に、入力画像からパッチを取らない。 代わりに、入力画像全体が処理され、事前訓練されたcnn本体を通り抜けて、解像度非依存、多レベル深層特徴を抽出する。 その結果、任意の入力画像サイズと事前学習されたcnnに容易に一般化できる。 そこで本研究では,CNNベースアーキテクチャに関する詳細なパラメータスタディと,異なる深部特徴の有効性について述べる。 当社のベストプロポーザルであるmultigap-nriqaは,3つのベンチマーク iqa データベースで最先端の結果を提供することができます。 さらに、これらの結果は、LIVE In the Wild Image Quality Challengeデータベースを用いたクロスデータベーステストでも確認された。

Image quality assessment (IQA) is an important element of a broad spectrum of applications ranging from automatic video streaming to display technology. Furthermore, the measurement of image quality requires a balanced investigation of image content and features. Our proposed approach extracts visual features by attaching global average pooling (GAP) layers to multiple Inception modules of on an ImageNet database pretrained convolutional neural network (CNN). In contrast to previous methods, we do not take patches from the input image. Instead, the input image is treated as a whole and is run through a pretrained CNN body to extract resolution-independent, multi-level deep features. As a consequence, our method can be easily generalized to any input image size and pretrained CNNs. Thus, we present a detailed parameter study with respect to the CNN base architectures and the effectiveness of different deep features. We demonstrate that our best proposal - called MultiGAP-NRIQA - is able to provide state-of-the-art results on three benchmark IQA databases. Furthermore, these results were also confirmed in a cross database test using the LIVE In the Wild Image Quality Challenge database.
翻訳日:2022-09-27 07:51:14 公開日:2020-11-10
# 細胞イメージングデータによるウイルス粒子の高精度非教師なし検出

Pixel precise unsupervised detection of viral particle proliferation in cellular imaging data ( http://arxiv.org/abs/2011.05209v1 )

ライセンス: Link先を確認
Birgitta Dresp-Langley, John M. Wandeto(参考訳) 細胞局所感染後のウイルス増殖の単一段階を特徴づける細胞および分子イメージング技術とモデルがin vitroで開発されている。 細胞イメージングデータの高速かつ自動分類は、宿主細胞のウイルス伝播の数学的モデルに対する代表的実験データのさらなる比較に先立って有効である。 本稿では,前報で得られた宿主細胞単分子層における進行性ウイルス粒子の増殖を示す細胞イメージングデータから,画像モデルの再現から得られたコンピュータ画像を用いた。 実験時間に基づく画像データに触発されて, ウイルス粒子の時間増加は, 死細胞または一部感染した細胞を表わす黒または灰色の単一画素において, 画像全体で1/1の増加と, 元の画像モデルで生体細胞をコードする白画素の1/1増加による仮定的寛解によってシミュレートされる。 画像シミュレーションは、自己組織化マップ(SOM)により教師なし学習に送信され、SOM出力(SOM-QE)における量子化エラーは、ウイルス粒子増殖または細胞回復の表現範囲の関数として画像シミュレーションの自動分類に使用される。 100万画素以上のモデル画像のSOM-QEによる教師なし分類は、RGB画像平均計算による人間のコンピュータ支援画像分類より、統計的に信頼性が高く、精度が高く、高速な分類モデルを提供する。 ここで提案される自動分類法は、in vitroや他の細胞株におけるウイルスの感染および増殖の微調整機構を理解するための強力なアプローチを提供する。

Cellular and molecular imaging techniques and models have been developed to characterize single stages of viral proliferation after focal infection of cells in vitro. The fast and automatic classification of cell imaging data may prove helpful prior to any further comparison of representative experimental data to mathematical models of viral propagation in host cells. Here, we use computer generated images drawn from a reproduction of an imaging model from a previously published study of experimentally obtained cell imaging data representing progressive viral particle proliferation in host cell monolayers. Inspired by experimental time-based imaging data, here in this study viral particle increase in time is simulated by a one-by-one increase, across images, in black or gray single pixels representing dead or partially infected cells, and hypothetical remission by a one-by-one increase in white pixels coding for living cells in the original image model. The image simulations are submitted to unsupervised learning by a Self-Organizing Map (SOM) and the Quantization Error in the SOM output (SOM-QE) is used for automatic classification of the image simulations as a function of the represented extent of viral particle proliferation or cell recovery. Unsupervised classification by SOM-QE of 160 model images, each with more than three million pixels, is shown to provide a statistically reliable, pixel precise, and fast classification model that outperforms human computer-assisted image classification by RGB image mean computation. The automatic classification procedure proposed here provides a powerful approach to understand finely tuned mechanisms in the infection and proliferation of virus in cell lines in vitro or other cells.
翻訳日:2022-09-27 07:50:57 公開日:2020-11-10
# 時空間アグリゲーションに基づくポッドリファインメントシステム:実世界の映像における人間活動の理解を目指して

Selective Spatio-Temporal Aggregation Based Pose Refinement System: Towards Understanding Human Activities in Real-World Videos ( http://arxiv.org/abs/2011.05358v1 )

ライセンス: Link先を確認
Di Yang, Rui Dai, Yaohui Wang, Rupayan Mallick, Luca Minciullo, Gianpiero Francesca, Francois Bremond(参考訳) 近年,人間の行動を理解するためのポーズデータの利用が注目されている。 しかし、最先端のポーズ推定者は、実世界の無注釈ビデオにおいて、咬合、切断、低解像度による高品質な2dまたは3dポーズデータを得るのに苦労している。 したがって,本研究において提案する。 1) 複数の専門家のポーズ推定器によって抽出されたキーポイントの位置を洗練・円滑化する選択時空間集約機構SST-A 2) 実世界のポーズ推定のための手作りアノテーションの代わりに, 集約されたポーズを擬似接地真実として活用する, 効果的な自己学習フレームワーク。 4つのデータセット(Toyota Smarthome, NTU-RGB+D, Charades, Kinetics-50)において, 上流ポーズ補正だけでなく, 下流アクション認識性能の評価を行う。 ポーズ・リファインメント・システム(ssta-prs)によって精製されたスケルトンデータは,既存の様々な行動認識モデルの強化に有効であることを実証した。

Taking advantage of human pose data for understanding human activities has attracted much attention these days. However, state-of-the-art pose estimators struggle in obtaining high-quality 2D or 3D pose data due to occlusion, truncation and low-resolution in real-world un-annotated videos. Hence, in this work, we propose 1) a Selective Spatio-Temporal Aggregation mechanism, named SST-A, that refines and smooths the keypoint locations extracted by multiple expert pose estimators, 2) an effective weakly-supervised self-training framework which leverages the aggregated poses as pseudo ground-truth instead of handcrafted annotations for real-world pose estimation. Extensive experiments are conducted for evaluating not only the upstream pose refinement but also the downstream action recognition performance on four datasets, Toyota Smarthome, NTU-RGB+D, Charades, and Kinetics-50. We demonstrate that the skeleton data refined by our Pose-Refinement system (SSTA-PRS) is effective at boosting various existing action recognition models, which achieves competitive or state-of-the-art performance.
翻訳日:2022-09-27 07:50:30 公開日:2020-11-10
# fast & slow learning: ニューラルメモリコントローラに合成勾配を組み込む

Fast & Slow Learning: Incorporating Synthetic Gradients in Neural Memory Controllers ( http://arxiv.org/abs/2011.05438v1 )

ライセンス: Link先を確認
Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) ニューラルメモリネットワーク(nmns)は近年、制約付きメモリを使用するディープアーキテクチャに比べて注目を集めている。 新たな魅力にもかかわらず、NMNsの成功は、勾配に基づくオプティマイザがNMNコントローラのインクリメンタルトレーニングを実行し、その高容量を知識検索に活用する方法を決定することによる。 これは、トレーニングデータの一貫性と分散性に優れたパフォーマンスを実現することができるが、コントローラーがモデルトレーニング中にそれらを効果的に組み込むことができないため、希少なデータサンプルを学習することは困難である。 人間の認知過程,特にヒト脳におけるニューロモジュレータの利用からインスピレーションを得て,NMNコントローラの学習プロセスを分離し,新しい情報の存在下で柔軟かつ迅速な適応を可能にすることを提案する。 この特性は、メモリコントローラがターゲットドメインの抽象概念を素早く把握し、格納された知識を適応しなければならないメタ学習タスクに非常に有益である。 これによりNMNコントローラは、どのメモリを保持し、どのメモリを消去するかを素早く決定し、新しいタスクに迅速に戦略を適用することができる。 分類・回帰タスクを含む複数の公開ベンチマークにおける定量的・質的評価を通じ,提案手法の有用性を実証する。 我々の評価は、提案したNMNアーキテクチャが現在の最先端手法よりも優れていることを示すだけでなく、提案した拡張がそのような優れた結果の達成にどのように役立つかについての洞察を提供する。 さらに,学習経路を複数のニューラルメモリネットワーク間で共有し,知識共有のメカニズムとする学習戦略の実際的意義を実証する。

Neural Memory Networks (NMNs) have received increased attention in recent years compared to deep architectures that use a constrained memory. Despite their new appeal, the success of NMNs hinges on the ability of the gradient-based optimiser to perform incremental training of the NMN controllers, determining how to leverage their high capacity for knowledge retrieval. This means that while excellent performance can be achieved when the training data is consistent and well distributed, rare data samples are hard to learn from as the controllers fail to incorporate them effectively during model training. Drawing inspiration from the human cognition process, in particular the utilisation of neuromodulators in the human brain, we propose to decouple the learning process of the NMN controllers to allow them to achieve flexible, rapid adaptation in the presence of new information. This trait is highly beneficial for meta-learning tasks where the memory controllers must quickly grasp abstract concepts in the target domain, and adapt stored knowledge. This allows the NMN controllers to quickly determine which memories are to be retained and which are to be erased, and swiftly adapt their strategy to the new task at hand. Through both quantitative and qualitative evaluations on multiple public benchmarks, including classification and regression tasks, we demonstrate the utility of the proposed approach. Our evaluations not only highlight the ability of the proposed NMN architecture to outperform the current state-of-the-art methods, but also provide insights on how the proposed augmentations help achieve such superior results. In addition, we demonstrate the practical implications of the proposed learning strategy, where the feedback path can be shared among multiple neural memory networks as a mechanism for knowledge sharing.
翻訳日:2022-09-27 07:50:06 公開日:2020-11-10
# 多話者音声合成のための事前学習戦略、波形モデル選択、音響構成

Pretraining Strategies, Waveform Model Choice, and Acoustic Configurations for Multi-Speaker End-to-End Speech Synthesis ( http://arxiv.org/abs/2011.04839v1 )

ライセンス: Link先を確認
Erica Cooper, Xin Wang, Yi Zhao, Yusuke Yasuda, Junichi Yamagishi(参考訳) 我々は,ゼロショット・マルチスピーカー・エンドツーエンド合成のための最善の戦略を選択することを目的として,ベースコーパスの選択を含む事前学習戦略を検討する。 また、波形合成のためのニューラルボコーダの選択や、メルスペクトログラムや最終的な音声出力に用いる音響構成についても検討する。 簡単な品質閾値を達成したオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。 さらに,16kHzから24kHzのサンプリングレートでリスナが識別できることや,WaveRNNがWaveNetに匹敵する品質の出力波形を高速な推論時間で生成できることが判明した。

We explore pretraining strategies including choice of base corpus with the aim of choosing the best strategy for zero-shot multi-speaker end-to-end synthesis. We also examine choice of neural vocoder for waveform synthesis, as well as acoustic configurations used for mel spectrograms and final audio output. We find that fine-tuning a multi-speaker model from found audiobook data that has passed a simple quality threshold can improve naturalness and similarity to unseen target speakers of synthetic speech. Additionally, we find that listeners can discern between a 16kHz and 24kHz sampling rate, and that WaveRNN produces output waveforms of a comparable quality to WaveNet, with a faster inference time.
翻訳日:2022-09-27 07:49:36 公開日:2020-11-10
# GitHubイシューコメントの対話行為分類のための伝達学習アプローチ

A Transfer Learning Approach for Dialogue Act Classification of GitHub Issue Comments ( http://arxiv.org/abs/2011.04867v1 )

ライセンス: Link先を確認
Ayesha Enayet and Gita Sukthankar(参考訳) githubのようなソーシャルコーディングプラットフォームは、オープンソースソフトウェア開発における協調的な問題解決を研究するための実験室として機能している。 チームメンバー間の対話を分析することで、仮想チームのパフォーマンスに関する重要な洞察を得ることができる。 本稿では,論文コメントの対話行為分類を行うためのトランスファー学習手法を提案する。 GitHubイシューコメントのラベル付きコーパスは存在しないため、転送学習を利用することで、標準的な対話行動データセットとGitHubコメントデータセットを併用することが可能になります。 本稿では,Global Vectors for Word Representations (GloVe), Universal Sentence Encoder (USE), Bidirectional Encoder Representations from Transformers (BERT)など,複数の単語および文レベルの符号化モデルの性能を比較した。 問題コメントを対話行動にマッピングできることは、認知チームのプロセスを理解するための有用な一歩です。

Social coding platforms, such as GitHub, serve as laboratories for studying collaborative problem solving in open source software development; a key feature is their ability to support issue reporting which is used by teams to discuss tasks and ideas. Analyzing the dialogue between team members, as expressed in issue comments, can yield important insights about the performance of virtual teams. This paper presents a transfer learning approach for performing dialogue act classification on issue comments. Since no large labeled corpus of GitHub issue comments exists, employing transfer learning enables us to leverage standard dialogue act datasets in combination with our own GitHub comment dataset. We compare the performance of several word and sentence level encoding models including Global Vectors for Word Representations (GloVe), Universal Sentence Encoder (USE), and Bidirectional Encoder Representations from Transformers (BERT). Being able to map the issue comments to dialogue acts is a useful stepping stone towards understanding cognitive team processes.
翻訳日:2022-09-27 07:49:23 公開日:2020-11-10
# シーケンスラベリングのためのニューラル潜時依存モデル

Neural Latent Dependency Model for Sequence Labeling ( http://arxiv.org/abs/2011.05009v1 )

ライセンス: Link先を確認
Yang Zhou, Yong Jiang, Zechuan Hu, Kewei Tu(参考訳) シーケンスラベリングは、機械学習、自然言語処理、その他多くの分野における基本的な問題である。 配列ラベリングの古典的なアプローチは線形連鎖条件確率場(crfs)である。 ニューラルネットワークエンコーダと組み合わせると、多くのシーケンスラベリングタスクで非常に優れたパフォーマンスが得られる。 線形鎖 CRF の制限の一つは、ラベル間の長距離依存をモデル化できないことである。 高次 CRF は線形鎖 CRF を拡張し、依存関係をモデル化するが、計算複雑性は指数関数的に増大する。 本稿では,潜在木構造を持つラベル間の任意の長さの依存性をモデル化するニューラル潜在依存モデル(nldm)を提案する。 エンド・ツー・エンドのトレーニングアルゴリズムと多項式時間推論アルゴリズムを開発した。 合成データセットと実データの両方でモデルを評価し,モデルが強いベースラインより優れていることを示す。

Sequence labeling is a fundamental problem in machine learning, natural language processing and many other fields. A classic approach to sequence labeling is linear chain conditional random fields (CRFs). When combined with neural network encoders, they achieve very good performance in many sequence labeling tasks. One limitation of linear chain CRFs is their inability to model long-range dependencies between labels. High order CRFs extend linear chain CRFs by modeling dependencies no longer than their order, but the computational complexity grows exponentially in the order. In this paper, we propose the Neural Latent Dependency Model (NLDM) that models dependencies of arbitrary length between labels with a latent tree structure. We develop an end-to-end training algorithm and a polynomial-time inference algorithm of our model. We evaluate our model on both synthetic and real datasets and show that our model outperforms strong baselines.
翻訳日:2022-09-27 07:49:06 公開日:2020-11-10
# ビッグデータのための説明可能な知識トレースモデル: センスリングは答か?

Explainable Knowledge Tracing Models for Big Data: Is Ensembling an Answer? ( http://arxiv.org/abs/2011.05285v1 )

ライセンス: Link先を確認
Tirth Shah, Lukas Olson, Aditya Sharma, Nirmal Patel(参考訳) 本稿では,2020年のNeurIPS Education Challengeにおける知識追跡モデルについて述べる。 我々は、22種類のモデルを組み合わせて、学生が与えられた質問に正しく答えられるかどうかを予測する。 異なるアプローチを組み合わせることで、個々のモデルよりも精度が向上し、モデルタイプの変化によって、より説明しやすくなり、学習科学理論との整合性が向上し、高い予測能力が得られました。

In this paper, we describe our Knowledge Tracing model for the 2020 NeurIPS Education Challenge. We used a combination of 22 models to predict whether the students will answer a given question correctly or not. Our combination of different approaches allowed us to get an accuracy higher than any of the individual models, and the variation of our model types gave our solution better explainability, more alignment with learning science theories, and high predictive power.
翻訳日:2022-09-27 07:48:25 公開日:2020-11-10
# マルチリレーショナル伝播を伴う知識グラフにおけるノード属性の完全性

Node Attribute Completion in Knowledge Graphs with Multi-Relational Propagation ( http://arxiv.org/abs/2011.05301v1 )

ライセンス: Link先を確認
Eda Bayram and Alberto Garcia-Duran and Robert West(参考訳) 知識グラフ補完に関する既存の文献は主にリンク予測タスクに焦点を当てている。 しかし、ナレッジグラフにはさらに不完全性の問題があり、ノードには数値属性があり、その値はしばしば失われる。 本手法は,知識グラフのマルチリレーショナル構造に情報を伝播することにより,欠落属性の値を推定する。 回帰関数を使用して、ノードと属性のタイプの関係に応じて、別のノード属性からひとつのノード属性を予測する。 伝達機構は、反復毎に予測を収集し、ノード属性の値を更新するメッセージパッシングスキームで反復的に動作する。 2つのベンチマークデータセットに対する実験は、我々のアプローチの有効性を示している。

The existing literature on knowledge graph completion mostly focuses on the link prediction task. However, knowledge graphs have an additional incompleteness problem: their nodes possess numerical attributes, whose values are often missing. Our approach, denoted as MrAP, imputes the values of missing attributes by propagating information across the multi-relational structure of a knowledge graph. It employs regression functions for predicting one node attribute from another depending on the relationship between the nodes and the type of the attributes. The propagation mechanism operates iteratively in a message passing scheme that collects the predictions at every iteration and updates the value of the node attributes. Experiments over two benchmark datasets show the effectiveness of our approach.
翻訳日:2022-09-27 07:48:18 公開日:2020-11-10
# CoADNet:Co-Salient Object Detectionのための協調集約分散ネットワーク

CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection ( http://arxiv.org/abs/2011.04887v1 )

ライセンス: Link先を確認
Qijian Zhang, Runmin Cong, Junhui Hou, Chongyi Li, Yao Zhao(参考訳) cosod(co-salient object detection)は、2つ以上の関連画像を含む所定のクエリグループで繰り返し現れるサルエントオブジェクトを見つけることを目的としている。 課題の1つは、画像間の関係をモデル化し活用することで、協力関係の手がかりを効果的に捉える方法である。 本稿では,複数画像から有能かつ反復的な視覚パターンを抽出する,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。 まず,サリエンシ前処理をバックボーン機能に統合し,オンラインのサリエンシ内誘導構造を通じて冗長な背景情報を抑制する。 その後、2段階のアグリゲート・アンド・ディストリビュート・アーキテクチャを設計し,グループ間の意味的相互作用を探索し,協調性を実現する。 第1段階では,画像間関係をモデル化し,グループ間意味表現を生成するグループアグリゲーションモジュールを提案する。 第2段階では,学習群の意味を動的ゲーティング機構において異なる個人に適応的に分配するゲート群分散モジュールを提案する。 最後に、cosodタスク用に調整されたグループ一貫性保存デコーダを開発し、機能デコード中にグループ制約を維持し、より一貫性のあるフルレゾリューションコサリエンシーマップを予測する。 提案したCoADNetは4つの一般的なCoSODベンチマークデータセットで評価され、最先端の競合10社に対する顕著なパフォーマンス改善を示している。

Co-Salient Object Detection (CoSOD) aims at discovering salient objects that repeatedly appear in a given query group containing two or more relevant images. One challenging issue is how to effectively capture co-saliency cues by modeling and exploiting inter-image relationships. In this paper, we present an end-to-end collaborative aggregation-and-distribution network (CoADNet) to capture both salient and repetitive visual patterns from multiple images. First, we integrate saliency priors into the backbone features to suppress the redundant background information through an online intra-saliency guidance structure. After that, we design a two-stage aggregate-and-distribute architecture to explore group-wise semantic interactions and produce the co-saliency features. In the first stage, we propose a group-attentional semantic aggregation module that models inter-image relationships to generate the group-wise semantic representations. In the second stage, we propose a gated group distribution module that adaptively distributes the learned group semantics to different individuals in a dynamic gating mechanism. Finally, we develop a group consistency preserving decoder tailored for the CoSOD task, which maintains group constraints during feature decoding to predict more consistent full-resolution co-saliency maps. The proposed CoADNet is evaluated on four prevailing CoSOD benchmark datasets, which demonstrates the remarkable performance improvement over ten state-of-the-art competitors.
翻訳日:2022-09-27 07:42:48 公開日:2020-11-10
# オートディストリビューションに基づく教師なしコントラストフォトツーキャラクチュアル翻訳

Unsupervised Contrastive Photo-to-Caricature Translation based on Auto-distortion ( http://arxiv.org/abs/2011.04965v1 )

ライセンス: Link先を確認
Yuhe Ding, Xin Ma, Mandi Luo, Aihua Zheng, Ran He(参考訳) Photo-to-caricature翻訳は、スケッチ、鉛筆のストローク、その他の芸術的図面を通じて特徴を誇張するレンダリング画像として、似顔絵を合成することを目的としている。 スタイルレンダリングと幾何学的変形は、photo-to-caricature translationタスクで最も重要な側面である。 そこで,本論文では,教師なしのコントラスト型フォトツーキャピチュアル翻訳アーキテクチャを提案する。 既存手法の直感的なアーティファクトを考慮し,画像の描画スタイルと似通ったスタイルを強制し,写真との相違を同時に強化するスタイルレンダリングの対照的なスタイルロスを提案する。 制御点を固定しながら各入力画像の変位ベクトルの集合を予測し,その後に薄板のスプライン補間を行う歪予測モジュール(DPM)を提案する。 モデルは非ペア写真と似顔絵で訓練され、一方、写真または似顔絵の入力によって双方向の合成を提供することができる。 広範な実験により,提案モデルが既存の競合他社と比較して手描きの似顔絵を生成するのに有効であることが示された。

Photo-to-caricature translation aims to synthesize the caricature as a rendered image exaggerating the features through sketching, pencil strokes, or other artistic drawings. Style rendering and geometry deformation are the most important aspects in photo-to-caricature translation task. To take both into consideration, we propose an unsupervised contrastive photo-to-caricature translation architecture. Considering the intuitive artifacts in the existing methods, we propose a contrastive style loss for style rendering to enforce the similarity between the style of rendered photo and the caricature, and simultaneously enhance its discrepancy to the photos. To obtain an exaggerating deformation in an unpaired/unsupervised fashion, we propose a Distortion Prediction Module (DPM) to predict a set of displacements vectors for each input image while fixing some controlling points, followed by the thin plate spline interpolation for warping. The model is trained on unpaired photo and caricature while can offer bidirectional synthesizing via inputting either a photo or a caricature. Extensive experiments demonstrate that the proposed model is effective to generate hand-drawn like caricatures compared with existing competitors.
翻訳日:2022-09-27 07:41:27 公開日:2020-11-10
# 残差ポーズ:深度に基づく3次元ポーズ推定のための分離アプローチ

Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose Estimation ( http://arxiv.org/abs/2011.05010v1 )

ライセンス: Link先を確認
Angel Mart\'inez-Gonz\'alez, Michael Villamizar, Olivier Can\'evet and Jean-Marc Odobez(参考訳) 我々は,畳み込みニューラルネットワーク(CNN)を用いた信頼性2次元ポーズ推定の最近の進歩を活用し,多対人ロボットインタラクション(HRI)シナリオにおける深度画像から人の3次元ポーズを推定することを提案する。 本手法は, 深度情報を用いて2次元物体のランドマーク検出から3次元浮揚点を得ることにより, 真の3次元人間のポーズを大まかに推定し, 改良段階を要した。 その意味での私たちの貢献は3倍です。 i)2次元ポーズ推定と3次元ポーズ補正を分離して深度画像から3次元ポーズ推定を行うことを提案する。 二) 持ち上げられた3dポーズと真の3dポーズとの間の残留ポーズを後退させるディープラーニングアプローチを提案する。 3)本手法は,その単純さにもかかわらず,2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られることを示し,近年の最先端手法と比較して,多人数HRIをアピールしている。

We propose to leverage recent advances in reliable 2D pose estimation with Convolutional Neural Networks (CNN) to estimate the 3D pose of people from depth images in multi-person Human-Robot Interaction (HRI) scenarios. Our method is based on the observation that using the depth information to obtain 3D lifted points from 2D body landmark detections provides a rough estimate of the true 3D human pose, thus requiring only a refinement step. In that line our contributions are threefold. (i) we propose to perform 3D pose estimation from depth images by decoupling 2D pose estimation and 3D pose refinement; (ii) we propose a deep-learning approach that regresses the residual pose between the lifted 3D pose and the true 3D pose; (iii) we show that despite its simplicity, our approach achieves very competitive results both in accuracy and speed on two public datasets and is therefore appealing for multi-person HRI compared to recent state-of-the-art methods.
翻訳日:2022-09-27 07:40:25 公開日:2020-11-10
# パラメータ空間における剛性変換の一貫性評価に基づく点雲登録

Point Cloud Registration Based on Consistency Evaluation of Rigid Transformation in Parameter Space ( http://arxiv.org/abs/2011.05014v1 )

ライセンス: Link先を確認
Masaki Yoshii, Ikuko Shimizu(参考訳) 登録と呼ばれる手法を使って、現実世界の形を表す点雲を統合することができる。 本稿では,高精度かつ安定した登録手法を提案する。 本手法はポイントクラウドからキーポイントを検出し,複数のディスクリプタを用いてトリプレットを生成する。 さらに,各三重項の剛性変換パラメータとヒストグラムとの整合性を評価し,点雲間の剛性変換を求める。 本論文の実験では,本手法は誤りを最小限に抑え,大きな故障は生じなかった。 その結果,比較手法と比較して十分な精度と安定した登録結果を得た。

We can use a method called registration to integrate some point clouds that represent the shape of the real world. In this paper, we propose highly accurate and stable registration method. Our method detects keypoints from point clouds and generates triplets using multiple descriptors. Furthermore, our method evaluates the consistency of rigid transformation parameters of each triplet with histograms and obtains the rigid transformation between the point clouds. In the experiment of this paper, our method had minimul errors and no major failures. As a result, we obtained sufficiently accurate and stable registration results compared to the comparative methods.
翻訳日:2022-09-27 07:40:06 公開日:2020-11-10
# 発音文字を用いた画像中のテキストのオンデバイス言語識別

On-Device Language Identification of Text in Images using Diacritic Characters ( http://arxiv.org/abs/2011.05108v1 )

ライセンス: Link先を確認
Shubham Vatsal, Nikhil Arora, Gopi Ramena, Sukumar Moharana, Dhruval Jain, Naresh Purre, Rachit S Munjal(参考訳) 発音文字は、与えられた言語をかなり高い精度で識別する上で、適切かつ重要な手がかりを提供する、一意の文字集合と見なすことができる。 音声学に関連するダイアクリティカルな言語は、多くの言語、特にラテン文字で区別される特徴である。 本研究は,任意の自動環境下での光学的文字認識(OCR)性能を改善するために,発音文字の存在を利用して画像中のテキスト言語を特定することを目的とする。 85のダイアクリティカル文字を含む13のラテン言語にまたがる作品を紹介します。 ダイアクリティカル文字のオブジェクト検出にspeicedetに似たアーキテクチャを使用し,最後に浅いネットワークを使用して言語を識別する。 特定言語パラメータを伴う場合、OCRシステムは単独のOCRシステムよりも良い結果をもたらす傾向にある。 OCR結果の改善の保証とは別に、モデルサイズや推測時間の観点からデバイス上での制約(携帯電話)も考慮に入れている。

Diacritic characters can be considered as a unique set of characters providing us with adequate and significant clue in identifying a given language with considerably high accuracy. Diacritics, though associated with phonetics often serve as a distinguishing feature for many languages especially the ones with a Latin script. In this proposed work, we aim to identify language of text in images using the presence of diacritic characters in order to improve Optical Character Recognition (OCR) performance in any given automated environment. We showcase our work across 13 Latin languages encompassing 85 diacritic characters. We use an architecture similar to Squeezedet for object detection of diacritic characters followed by a shallow network to finally identify the language. OCR systems when accompanied with identified language parameter tends to produce better results than sole deployment of OCR systems. The discussed work apart from guaranteeing an improvement in OCR results also takes on-device (mobile phone) constraints into consideration in terms of model size and inference time.
翻訳日:2022-09-27 07:39:29 公開日:2020-11-10
# 多言語 amr-to-text 生成

Multilingual AMR-to-Text Generation ( http://arxiv.org/abs/2011.05443v1 )

ライセンス: Link先を確認
Angela Fan, Claire Gardent(参考訳) 構造化データからテキストを生成するには、ギャップを埋める必要があるため、難しい (i)構造と自然言語(NL)と (ii)意味的に不特定な入力と完全なNL出力。 多言語生成は、様々な単語順序と形態的特性を持つ言語に生成するという、さらなる課題をもたらす。 本研究では,構造化入力として抽象的意味表現 (abstract meaning representations, amrs) に着目した。 我々は、言語間埋め込み、事前学習、多言語モデルの進歩を活用して、20の異なる言語で生成される多言語AMR-to-textモデルを作成する。 自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。 我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。

Generating text from structured data is challenging because it requires bridging the gap between (i) structure and natural language (NL) and (ii) semantically underspecified input and fully specified NL output. Multilingual generation brings in an additional challenge: that of generating into languages with varied word order and morphological properties. In this work, we focus on Abstract Meaning Representations (AMRs) as structured input, where previous research has overwhelmingly focused on generating only into English. We leverage advances in cross-lingual embeddings, pretraining, and multilingual models to create multilingual AMR-to-text models that generate in twenty one different languages. For eighteen languages, based on automatic metrics, our multilingual models surpass baselines that generate into a single language. We analyse the ability of our multilingual models to accurately capture morphology and word order using human evaluation, and find that native speakers judge our generations to be fluent.
翻訳日:2022-09-27 07:33:21 公開日:2020-11-10
# Fact Checking Briefsの生成

Generating Fact Checking Briefs ( http://arxiv.org/abs/2011.05448v1 )

ライセンス: Link先を確認
Angela Fan, Aleksandra Piktus, Fabio Petroni, Guillaume Wenzek, Marzieh Saeidi, Andreas Vlachos, Antoine Bordes, Sebastian Riedel(参考訳) 大規模なファクトチェックは難しい -- アクティブなファクトチェックwebサイトの数は増えているが、現代のメディアエコシステムのニーズには小さすぎる。 しかし、善意にもかかわらず、ボランティアからの貢献はしばしばエラーを起こし、実際にはクレーム検出に制限される。 そこで本研究では,事実チェックを行う前に,事実チェックの正確性と効率を向上させる方法について,自然言語ブリーフという形で検討する。 本稿では,ウィキペディアからの関連記事,言及されたエンティティのウィキペディアページからなるエンティティ中心のブリーフ,およびクレームを分解した質問回答ブリーフ,およびその回答を考察する。 QABrief を生成するために,クレームに条件付き質問セットを生成し,証拠を検索し,回答を生成するモデル QABriefer を開発した。 コンポーネントをトレーニングするために、クラウドソーシングを通じて収集したQABriefDatasetを紹介します。 特にカブリフス(qabriefs)による事実チェックによって、群衆労働者の正確性が10%向上し、時間の短縮が図られている。 ボランティア(無給)のファクトチェッカーの場合、QABriefsは精度をわずかに向上させ、必要な時間を約20%削減する。

Fact checking at scale is difficult -- while the number of active fact checking websites is growing, it remains too small for the needs of the contemporary media ecosystem. However, despite good intentions, contributions from volunteers are often error-prone, and thus in practice restricted to claim detection. We investigate how to increase the accuracy and efficiency of fact checking by providing information about the claim before performing the check, in the form of natural language briefs. We investigate passage-based briefs, containing a relevant passage from Wikipedia, entity-centric ones consisting of Wikipedia pages of mentioned entities, and Question-Answering Briefs, with questions decomposing the claim, and their answers. To produce QABriefs, we develop QABriefer, a model that generates a set of questions conditioned on the claim, searches the web for evidence, and generates answers. To train its components, we introduce QABriefDataset which we collected via crowdsourcing. We show that fact checking with briefs -- in particular QABriefs -- increases the accuracy of crowdworkers by 10% while slightly decreasing the time taken. For volunteer (unpaid) fact checkers, QABriefs slightly increase accuracy and reduce the time required by around 20%.
翻訳日:2022-09-27 07:33:06 公開日:2020-11-10
# 教師なし機械翻訳から逆テキスト生成へ

From Unsupervised Machine Translation To Adversarial Text Generation ( http://arxiv.org/abs/2011.05449v1 )

ライセンス: Link先を確認
Ahmad Rashid, Alan Do-Omri, Md. Akmal Haidar, Qun Liu and Mehdi Rezagholizadeh(参考訳) 本稿では、教師なしニューラルネットワーク翻訳システムのエンコーダ表現からテキストを生成することができる自己注意型バイリンガル対向テキスト生成器(B-GAN)を提案する。 B-GANは、注目に基づくデコーダと組み合わせて、流動的な文を生成する分散潜在空間表現を生成することができる。 2つの言語間で共有され、適切なデコーダとペアリングされたエンコーダでトレーニングされると、どちらの言語でも文を生成することができる。 B-GANは、自動エンコーダの再構成損失、翻訳のクロスドメイン損失、テキスト生成のGANベースの対逆損失の組み合わせを用いて訓練される。 複数の損失のみを用いて単言語コーパスを訓練したb-ganは,パラメータの半数を効果的に用いながら,単言語ベースラインよりも流れる文を生成する。

We present a self-attention based bilingual adversarial text generator (B-GAN) which can learn to generate text from the encoder representation of an unsupervised neural machine translation system. B-GAN is able to generate a distributed latent space representation which can be paired with an attention based decoder to generate fluent sentences. When trained on an encoder shared between two languages and paired with the appropriate decoder, it can generate sentences in either language. B-GAN is trained using a combination of reconstruction loss for auto-encoder, a cross domain loss for translation and a GAN based adversarial loss for text generation. We demonstrate that B-GAN, trained on monolingual corpora only using multiple losses, generates more fluent sentences compared to monolingual baselines while effectively using half the number of parameters.
翻訳日:2022-09-27 07:32:45 公開日:2020-11-10
# ニューラルネットワーク制御システムの安全性検証

Safety Verification of Neural Network Controlled Systems ( http://arxiv.org/abs/2011.05174v1 )

ライセンス: Link先を確認
Arthur Clavi\`ere, Eric Asselin, Christophe Garion (ISAE-SUPAERO), Claire Pagetti (ANITI)(参考訳) 本稿では,連続時間物理システムと離散時間ニューラルネットワークベースのコントローラを組み合わせることで,ニューラルネットワーク制御システムの安全性を検証するシステムレベルアプローチを提案する。 ニューラルネットワークを含む単純かつ複雑な動作をキャプチャできるコントローラの汎用モデルが想定されている。 このモデルに基づいて,システム全体の到達可能な状態を的確に近似した到達可能性解析を行い,安全性の正式な証明を実現する。 この目的のために、検証されたシミュレーションを用いて物理系の挙動を近似し、抽象的な解釈を行い、コントローラの挙動を近似する。 本手法の適用性は実世界のユースケースを用いて評価する。 また,本手法では,システムが完全に安全であることを証明できない場合に,貴重な情報を提供できることを示す。

In this paper, we propose a system-level approach for verifying the safety of neural network controlled systems, combining a continuous-time physical system with a discrete-time neural network based controller. We assume a generic model for the controller that can capture both simple and complex behaviours involving neural networks. Based on this model, we perform a reachability analysis that soundly approximates the reachable states of the overall system, allowing to achieve a formal proof of safety. To this end, we leverage both validated simulation to approximate the behaviour of the physical system and abstract interpretation to approximate the behaviour of the controller. We evaluate the applicability of our approach using a real-world use case. Moreover, we show that our approach can provide valuable information when the system cannot be proved totally safe.
翻訳日:2022-09-27 07:32:31 公開日:2020-11-10
# CenterFusion:3次元物体検出のためのセンターベースレーダとカメラフュージョン

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2011.04841v1 )

ライセンス: Link先を確認
Ramin Nabati, Hairong Qi(参考訳) 自動運転車の知覚システムは、周囲の物体を検出し、追跡する。 これは通常、いくつかのセンシングモードを利用して堅牢性と精度を高め、センサ融合を知覚システムの重要な部分とする。 本稿では,レーダとカメラセンサの融合問題に着目し,レーダデータとカメラデータを併用して3次元物体検出を行うミドルフュージョン手法を提案する。 CenterFusionと呼ばれる私たちのアプローチでは、まず中心点検出ネットワークを使用して、画像上の中心点を識別します。 次に,新しいフラスタムに基づく手法を用いて,レーダ検出を対象物の中心点に関連付けることにより,鍵データアソシエーション問題を解く。 関連するレーダー検出は、画像の特徴を補完するレーダーベースの特徴マップを生成するために使用され、深さ、回転、速度などの物体特性に回帰する。 CenterFusionは、最新のカメラベースアルゴリズムのnuScenes Detection Score(NDS)を12%以上改善する挑戦的なnuScenesデータセットに基づいて評価する。 さらに,センタフュージョンは時間的情報を用いずに速度推定精度を大幅に向上させることを示した。 コードはhttps://github.com/mrnabati/CenterFusion で公開されている。

The perception system in autonomous vehicles is responsible for detecting and tracking the surrounding objects. This is usually done by taking advantage of several sensing modalities to increase robustness and accuracy, which makes sensor fusion a crucial part of the perception system. In this paper, we focus on the problem of radar and camera sensor fusion and propose a middle-fusion approach to exploit both radar and camera data for 3D object detection. Our approach, called CenterFusion, first uses a center point detection network to detect objects by identifying their center points on the image. It then solves the key data association problem using a novel frustum-based method to associate the radar detections to their corresponding object's center point. The associated radar detections are used to generate radar-based feature maps to complement the image features, and regress to object properties such as depth, rotation and velocity. We evaluate CenterFusion on the challenging nuScenes dataset, where it improves the overall nuScenes Detection Score (NDS) of the state-of-the-art camera-based algorithm by more than 12%. We further show that CenterFusion significantly improves the velocity estimation accuracy without using any additional temporal information. The code is available at https://github.com/mrnabati/CenterFusion .
翻訳日:2022-09-27 07:31:46 公開日:2020-11-10
# ソーン材質画像における楕円検出と結び目への応用

Ellipse Detection and Localization with Applications to Knots in Sawn Lumber Images ( http://arxiv.org/abs/2011.04844v1 )

ライセンス: Link先を確認
Shenyi Pan, Shuxian Fan, Samuel W.K. Wong, James V. Zidek, Helge Rhodin(参考訳) 一般物体検出は著しく進展しているが,楕円物体の局在性は文献上ではほとんど注目されていない。 本研究のモチベーションは,木ノット数や種類が木ノットの品質に悪影響を及ぼす視覚的特徴であるため,木ノットの検出である。 より一般的には、ガラスやプラスチックを鋳造する際の封入気泡などの楕円形欠陥が工業生産において一般的である。 本稿では,高速 r-cnn とその領域提案ネットワーク (rpn) をガウス関数を持つ楕円型物体のモデル化に適用し,領域間プーリングと回帰分岐を加えて既存のガウス型提案ネットワーク (gpn) アーキテクチャを拡張し,損失関数として wasserstein 距離を用いて楕円型物体の正確な位置を予測した。 提案手法は, 木材結び目データセットにおいて有望な結果を得た: 結び目は, 一般目的検出器では63.63%に対して, 平均交点73.05%で検出される。 また,木材応用に特有な手法として,走査中の木材画像の誤りを補正するアルゴリズムを提案し,前処理画像の楕円結び目をラベル付けして,第1のオープンソース木材結び目データセットに寄与する手法を提案する。

While general object detection has seen tremendous progress, localization of elliptical objects has received little attention in the literature. Our motivating application is the detection of knots in sawn timber images, which is an important problem since the number and types of knots are visual characteristics that adversely affect the quality of sawn timber. We demonstrate how models can be tailored to the elliptical shape and thereby improve on general purpose detectors; more generally, elliptical defects are common in industrial production, such as enclosed air bubbles when casting glass or plastic. In this paper, we adapt the Faster R-CNN with its Region Proposal Network (RPN) to model elliptical objects with a Gaussian function, and extend the existing Gaussian Proposal Network (GPN) architecture by adding the region-of-interest pooling and regression branches, as well as using the Wasserstein distance as the loss function to predict the precise locations of elliptical objects. Our proposed method has promising results on the lumber knot dataset: knots are detected with an average intersection over union of 73.05%, compared to 63.63% for general purpose detectors. Specific to the lumber application, we also propose an algorithm to correct any misalignment in the raw timber images during scanning, and contribute the first open-source lumber knot dataset by labeling the elliptical knots in the preprocessed images.
翻訳日:2022-09-27 07:31:26 公開日:2020-11-10
# 畳み込みニューラルネットワークと生成逆向ネットワークを用いたハンドジェスチャの理解

Understanding the hand-gestures using Convolutional Neural Networks and Generative Adversial Networks ( http://arxiv.org/abs/2011.04860v1 )

ライセンス: Link先を確認
Arpita Vats(参考訳) 本稿では,文字をリアルタイムで認識する手動ジェスチャー認識システムを提案する。 このシステムは、畳み込みニューラルネットワークを用いたリアルタイムハンドトラッキング、トレーニングジェスチャ、ジェスチャー認識の3つのモジュールで構成されている。 モーションディスクリプタとハンド領域を得るために,ハンドトラッキングのためのcamshiftアルゴリズムとhand blobs分析が使用されている。 背景クラスタに頑丈で、手のジェスチャー追跡や認識に肌の色を使用する。 さらに,入力パターンをジェスチャとして評価する非ジェスチャパターンを除去するために,トレーニング画像の選択や適応しきい値ジェスチャなどの手法を用いて,認識性能と精度を向上させる手法が提案されている。 実験では、アルファベットや数字を含む36のジェスチャーの語彙に対して検証され、アプローチの有効性が示された。

In this paper, it is introduced a hand gesture recognition system to recognize the characters in the real time. The system consists of three modules: real time hand tracking, training gesture and gesture recognition using Convolutional Neural Networks. Camshift algorithm and hand blobs analysis for hand tracking are being used to obtain motion descriptors and hand region. It is fairy robust to background cluster and uses skin color for hand gesture tracking and recognition. Furthermore, the techniques have been proposed to improve the performance of the recognition and the accuracy using the approaches like selection of the training images and the adaptive threshold gesture to remove non-gesture pattern that helps to qualify an input pattern as a gesture. In the experiments, it has been tested to the vocabulary of 36 gestures including the alphabets and digits, and results effectiveness of the approach.
翻訳日:2022-09-27 07:31:00 公開日:2020-11-10
# STCNet:産業煙検知のための時空間クロスネットワーク

STCNet: Spatio-Temporal Cross Network for Industrial Smoke Detection ( http://arxiv.org/abs/2011.04863v1 )

ライセンス: Link先を確認
Yichao Cao, Qingfei Tang, Xiaobo Lu, Fan Li, and Jinde Cao(参考訳) 産業煙の排出は、自然の生態系と人間の健康に深刻な脅威をもたらす。 以前の研究では、煙を識別するコンピュータビジョン技術が低コストで便利な方法であることが示されている。 しかし、産業用煙検知は、産業用排出粒子が積み上げや設備の外で急速に崩壊し、蒸気が煙と非常によく似ているため、難しい課題である。 これらの問題を克服するため,産業用煙排出ガスを識別する新しい時空間クロスネットワーク(STCNet)が提案されている。 提案するstcnetは,テクスチャ特徴を抽出する空間経路と,煙の運動情報をキャプチャする時間経路を含む。 空間的経路と時間的経路が相互に導出できると仮定する。 例えば、空間経路は木や建物のような明らかな干渉を容易に認識することができ、時間経路は煙の動きのあいまいな痕跡を強調することができる。 この2つの経路が相互に誘導できるなら、煙の検出性能に役立ちます。 さらに,マルチスケールの時空間情報の融合性を向上させるため,効率良く簡潔な時空間双対ピラミッドアーキテクチャを設計した。 最後に、パブリックデータセットに関する広範な実験により、当社のSTCNetは、RISE産業煙検知データセットを最も優れた競合相手に対して6.2%改善したことを示す。 コードはhttps://github.com/caoyichao/stcnet。

Industrial smoke emissions present a serious threat to natural ecosystems and human health. Prior works have shown that using computer vision techniques to identify smoke is a low cost and convenient method. However, industrial smoke detection is a challenging task because industrial emission particles are often decay rapidly outside the stacks or facilities and steam is very similar to smoke. To overcome these problems, a novel Spatio-Temporal Cross Network (STCNet) is proposed to recognize industrial smoke emissions. The proposed STCNet involves a spatial pathway to extract texture features and a temporal pathway to capture smoke motion information. We assume that spatial and temporal pathway could guide each other. For example, the spatial path can easily recognize the obvious interference such as trees and buildings, and the temporal path can highlight the obscure traces of smoke movement. If the two pathways could guide each other, it will be helpful for the smoke detection performance. In addition, we design an efficient and concise spatio-temporal dual pyramid architecture to ensure better fusion of multi-scale spatiotemporal information. Finally, extensive experiments on public dataset show that our STCNet achieves clear improvements on the challenging RISE industrial smoke detection dataset against the best competitors by 6.2%. The code will be available at: https://github.com/Caoyichao/STCNet.
翻訳日:2022-09-27 07:30:47 公開日:2020-11-10
# 低レイテンシ ASR-free end to end 音声言語理解システム

A low latency ASR-free end to end spoken language understanding system ( http://arxiv.org/abs/2011.04884v1 )

ライセンス: Link先を確認
Mohamed Mhiri, Samuel Myer, Vikrant Singh Tomar(参考訳) 近年では、まず音声をテキストに書き込むことなく、意図やスロットなどの構造化データに波形を分類する音声理解システムの開発が興味深い研究課題となっている。 本研究は,小型マイクロコントローラや組込みシステム上で,最小レイテンシで動作可能なフットプリントの少ないシステムの設計に制約を加えたシステムを提案する。 ストリーミング入力音声信号が与えられると、提案するシステムは、処理の瞬間にストリーム全体を保持することなく、セグメント毎の処理を行うことができる。 提案システムは,公開可能なfluent speech commandデータセット上で評価される。 実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。

In recent years, developing a speech understanding system that classifies a waveform to structured data, such as intents and slots, without first transcribing the speech to text has emerged as an interesting research problem. This work proposes such as system with an additional constraint of designing a system that has a small enough footprint to run on small micro-controllers and embedded systems with minimal latency. Given a streaming input speech signal, the proposed system can process it segment-by-segment without the need to have the entire stream at the moment of processing. The proposed system is evaluated on the publicly available Fluent Speech Commands dataset. Experiments show that the proposed system yields state-of-the-art performance with the advantage of low latency and a much smaller model when compared to other published works on the same task.
翻訳日:2022-09-27 07:30:24 公開日:2020-11-10
# 文脈における自然言語推論 -長文に対する文脈推論の検討-

Natural Language Inference in Context -- Investigating Contextual Reasoning over Long Texts ( http://arxiv.org/abs/2011.04864v1 )

ライセンス: Link先を確認
Hanmeng Liu, Leyang Cui, Jian Liu, Yue Zhang(参考訳) 自然言語推論(NLI)は2つのテキスト間の関連性を調べる基本的なNLPタスクである。 一般的なNLIデータセットは、タスクを文レベルで提示する。 意味表現のテストには適しているが、人間の推論プロセスの自然な部分である長いテキストに対する文脈推論のテストには不足している。 本稿では,ConTextual Reasoning on Longテキストのための新しいデータセットであるConTRoLを紹介する。 専門家が設計した8,325の"context-hypothesis"ペアとゴールドラベルで構成されるConTRoLは、論理的推論のような複雑なコンテキスト推論型に焦点を当てたパスレベルのNLIデータセットである。 これは、専門家レベルの品質で、警察採用のための競争選択および採用テスト(バーバル推論テスト)から派生したものである。 以前のNLIベンチマークと比較すると、ConTRoLの材料はより困難であり、様々な推論タイプを含んでいる。 実験の結果、最先端の言語モデルは教育を受けた人間よりもはるかに悪い結果が得られた。 私たちのデータセットは、アセンブリのFactual Correctnessチェックのような下流タスクのテストセットとしても機能します。

Natural language inference (NLI) is a fundamental NLP task, investigating the entailment relationship between two texts. Popular NLI datasets present the task at sentence-level. While adequate for testing semantic representations, they fall short for testing contextual reasoning over long texts, which is a natural part of the human inference process. We introduce ConTRoL, a new dataset for ConTextual Reasoning over Long texts. Consisting of 8,325 expert-designed "context-hypothesis" pairs with gold labels, ConTRoL is a passage-level NLI dataset with a focus on complex contextual reasoning types such as logical reasoning. It is derived from competitive selection and recruitment test (verbal reasoning test) for police recruitment, with expert level quality. Compared with previous NLI benchmarks, the materials in ConTRoL are much more challenging, involving a range of reasoning types. Empirical results show that state-of-the-art language models perform by far worse than educated humans. Our dataset can also serve as a testing-set for downstream tasks like Checking Factual Correctness of Summaries.
翻訳日:2022-09-27 07:24:11 公開日:2020-11-10
# データの事前学習には何十億もの言葉が必要か?

When Do You Need Billions of Words of Pretraining Data? ( http://arxiv.org/abs/2011.04946v1 )

ライセンス: Link先を確認
Yian Zhang, Alex Warstadt, Haau-Sing Li, and Samuel R. Bowman(参考訳) 現在、NLPはRoBERTaのような汎用事前学習言語モデルによって支配されており、数十億の単語を事前学習することで、NLUタスクの強力なパフォーマンスを実現している。 しかし、Transformer LMは、より少ないデータから学べない大規模な事前学習から、正確な知識やスキルを学ぶことができるだろうか? 分類法,情報理論的探索,教師なし相対受容性判定,NLUタスクの微調整の4つの手法を採用し,MiniBERTas,1M,10M,100M,1Bワードで事前学習したRoBERTaモデルを用いて,これらの言語能力の様々な尺度の成長を追跡する学習曲線を描画する。 lmsは、テストする構文的および意味的特徴のほとんどを確実にエンコードする表現を学ぶために、約10mまたは1mの単語しか必要としないことがわかった。 一般的なnluタスクを習得するために必要なコモンセンス知識やその他のスキルを取得するには、より多くのデータが必要である。 その結果、言語的特徴をエンコードする能力は言語理解にほぼ確実に必要であるが、他の形態の知識が、大規模事前学習モデルにおける最近の言語理解の改善の主要な要因である可能性が示唆された。

NLP is currently dominated by general-purpose pretrained language models like RoBERTa, which achieve strong performance on NLU tasks through pretraining on billions of words. But what exact knowledge or skills do Transformer LMs learn from large-scale pretraining that they cannot learn from less data? We adopt four probing methods---classifier probing, information-theoretic probing, unsupervised relative acceptability judgment, and fine-tuning on NLU tasks---and draw learning curves that track the growth of these different measures of linguistic ability with respect to pretraining data volume using the MiniBERTas, a group of RoBERTa models pretrained on 1M, 10M, 100M and 1B words. We find that LMs require only about 10M or 100M words to learn representations that reliably encode most syntactic and semantic features we test. A much larger quantity of data is needed in order to acquire enough commonsense knowledge and other skills required to master typical downstream NLU tasks. The results suggest that, while the ability to encode linguistic features is almost certainly necessary for language understanding, it is likely that other forms of knowledge are the major drivers of recent improvements in language understanding among large pretrained models.
翻訳日:2022-09-27 07:23:54 公開日:2020-11-10
# オンライン・アーティクル・リカバリ・フォーラムに投稿されたコメントに表れるソーシャルサポートは存在するか?

Does Social Support Expressed in Post Titles Elicit Comments in Online Substance Use Recovery Forums? ( http://arxiv.org/abs/2011.05103v1 )

ライセンス: Link先を確認
Anietie Andy and Sharath Guntuku(参考訳) 物質使用から回復する個人は、しばしば、オンラインリカバリフォーラムにおける社会的支援(感情的および情報的)を求め、そこでは投稿を書いてコメントし、苦労と成功を表現できる。 これらのフォーラムで共通する課題は、特定の投稿(いくつかはサポートしているかもしれない)にコメントがないことである。 本研究では、Redditの2つの物質回収フォーラム(/r/Leavesと/r/OpiatesRecovery)のデータを用いて、投稿のタイトルに表されるソーシャルサポートと、受け取ったコメント数との関係を判定する。 本稿では,コメントを引用するポストタイトルで表現されるソーシャルサポートの種類が,ある物質利用回復フォーラムによって異なることを示す。

Individuals recovering from substance use often seek social support (emotional and informational) on online recovery forums, where they can both write and comment on posts, expressing their struggles and successes. A common challenge in these forums is that certain posts (some of which may be support seeking) receive no comments. In this work, we use data from two Reddit substance recovery forums:/r/Leaves and/r/OpiatesRecovery, to determine the relationship between the social supports expressed in the titles of posts and the number of comments they receive. We show that the types of social support expressed in post titles that elicit comments vary from one substance use recovery forum to the other.
翻訳日:2022-09-27 07:23:30 公開日:2020-11-10
# twitterにおける抑うつと不安の事前検出に向けて

Towards Preemptive Detection of Depression and Anxiety in Twitter ( http://arxiv.org/abs/2011.05249v1 )

ライセンス: Link先を確認
David Owen, Jose Camacho Collados, Luis Espinosa-Anke(参考訳) うつ病と不安は、日常生活の多くの領域で観察される精神疾患である。 例えば、これらの障害は、ソーシャルメディアで診断されていないユーザーによって書かれたテキストに頻繁に現れる。 しかし、これらの条件でユーザを検知することは、彼らの精神状態について明示的に話すことのできない単純なタスクではなく、もしそうであるなら、即時性のような文脈的な手がかりを考慮する必要がある。 利用可能な場合、不安や抑うつを示す言語旗は、医療専門家がより良いガイドラインや治療を書くために使用できる。 本稿では,twitterにおける抑うつと不安検出の研究を促進すべく,検出タスクをバイナリ・ツイート分類問題として表現したデータセットを開発した。 次に、このデータセットに最先端の分類モデルを適用し、定性的エラー解析と競合するベースラインセットを提供する。 その結果,言語モデルの性能は従来のベースラインよりも良好であることがわかった。 それにもかかわらず、特にバランスのとれないトレーニングセットや、一見明らかな言語的手がかり(キーワード)が直観的に使われる場合など、改善の余地は明らかである。

Depression and anxiety are psychiatric disorders that are observed in many areas of everyday life. For example, these disorders manifest themselves somewhat frequently in texts written by nondiagnosed users in social media. However, detecting users with these conditions is not a straightforward task as they may not explicitly talk about their mental state, and if they do, contextual cues such as immediacy must be taken into account. When available, linguistic flags pointing to probable anxiety or depression could be used by medical experts to write better guidelines and treatments. In this paper, we develop a dataset designed to foster research in depression and anxiety detection in Twitter, framing the detection task as a binary tweet classification problem. We then apply state-of-the-art classification models to this dataset, providing a competitive set of baselines alongside qualitative error analysis. Our results show that language models perform reasonably well, and better than more traditional baselines. Nonetheless, there is clear room for improvement, particularly with unbalanced training sets and in cases where seemingly obvious linguistic cues (keywords) are used counter-intuitively.
翻訳日:2022-09-27 07:22:49 公開日:2020-11-10
# 医用知識に富んだテキスト・エンターメント・フレームワーク

Medical Knowledge-enriched Textual Entailment Framework ( http://arxiv.org/abs/2011.05257v1 )

ライセンス: Link先を確認
Shweta Yadav, Vishal Pallagani, Amit Sheth(参考訳) 堅牢な医療質問応答システムを実現するための基本的なタスクの1つは、テキストによる補足である。 既存のアプローチでは、事前訓練された言語モデルやデータ拡張のアンサンブルを使用して、検証メトリクスのより高い数値をクロックすることが多い。 しかし,(1)質問の焦点/意図を理解すること,(2)実世界の背景知識を活用して文章以外の文脈を捉えること,の2つの大きな欠点は,質問内容の特定において高い成功を妨げている。 本稿では,入力された医用テキストの意味的およびグローバルな表現を,関連するドメイン固有の知識グラフの助けを借りて獲得することのできる,新しい医用知識豊か化テクスチュアル・エンターメント・フレームワークを提案する。 我々は、ベンチマーク mediqa-rqe データセット上でフレームワークを評価し、知識強化されたデュアルエンコーディング機構が sota 言語モデルに対する8.27%の絶対的改善を達成するのに役立つことを示す。 ソースコードはここで公開しています。

One of the cardinal tasks in achieving robust medical question answering systems is textual entailment. The existing approaches make use of an ensemble of pre-trained language models or data augmentation, often to clock higher numbers on the validation metrics. However, two major shortcomings impede higher success in identifying entailment: (1) understanding the focus/intent of the question and (2) ability to utilize the real-world background knowledge to capture the context beyond the sentence. In this paper, we present a novel Medical Knowledge-Enriched Textual Entailment framework that allows the model to acquire a semantic and global representation of the input medical text with the help of a relevant domain-specific knowledge graph. We evaluate our framework on the benchmark MEDIQA-RQE dataset and manifest that the use of knowledge enriched dual-encoding mechanism help in achieving an absolute improvement of 8.27% over SOTA language models. We have made the source code available here.
翻訳日:2022-09-27 07:22:31 公開日:2020-11-10
# 極低資源アフリカの言語に対するニューラル機械翻訳 : バンバラを事例として

Neural Machine Translation for Extremely Low-Resource African Languages: A Case Study on Bambara ( http://arxiv.org/abs/2011.05284v1 )

ライセンス: Link先を確認
Allahsera Auguste Tapo, Bakary Coulibaly, S\'ebastien Diarra, Christopher Homan, Julia Kreutzer, Sarah Luger, Arthur Nagashima, Marcos Zampieri, Michael Leventhal(参考訳) 低リソース言語は(神経)機械翻訳に固有の課題を示す。 本稿では,トレーニングデータが不足し,大量の前処理を必要とするマンデ言語であるbambaraの事例について述べる。 バンバラ語そのものの言語的状況よりも、バンバラ話者が住む社会文化的文脈は、この言語の自動処理の課題を提起している。 本稿では,Bambaraを英語とフランス語に翻訳するための最初の並列データセットと,Bambaraの機械翻訳における最初のベンチマーク結果を示す。 我々は低リソース言語を扱う際の課題について議論し、低リソース機械翻訳(MT)におけるデータ不足に対処するための戦略を提案する。

Low-resource languages present unique challenges to (neural) machine translation. We discuss the case of Bambara, a Mande language for which training data is scarce and requires significant amounts of pre-processing. More than the linguistic situation of Bambara itself, the socio-cultural context within which Bambara speakers live poses challenges for automated processing of this language. In this paper, we present the first parallel data set for machine translation of Bambara into and from English and French and the first benchmark results on machine translation to and from Bambara. We discuss challenges in working with low-resource languages and propose strategies to cope with data scarcity in low-resource machine translation (MT).
翻訳日:2022-09-27 07:22:15 公開日:2020-11-10
# DoLFIn: 解釈可能性のための潜在機能上の分散

DoLFIn: Distributions over Latent Features for Interpretability ( http://arxiv.org/abs/2011.05295v1 )

ライセンス: Link先を確認
Phong Le and Willem Zuidema(参考訳) ニューラルモデルの内部動作を解釈することは、モデルの堅牢性と信頼性を確保する上で重要なステップだが、ニューラルネットワークの解釈可能性に関する作業は、一般的にトレードオフに直面している。 実験では、このトレードオフを避けるために、解釈可能性を達成するための新しい戦略を提案します。 私たちのアプローチは、例えば注意機構内で、確率を中央の量として使うという成功に基づいている。 私たちのアーキテクチャであるDoLFIn(Relatnt Features for Interpretability)では、各機能が何を表現しているかを事前に決めていません。 それぞれの特徴は0から1までの確率を持ち、さらなる処理の重要性を重み付けている。 注意と塩分マップのアプローチとは異なり、このセットアップは、入力コンポーネントが神経モデルが下す決定をサポートする確率を計算するためにストレートフォワードであることを示している。 提案手法の有用性を示すために,テキスト分類にDoLFInを適用し,解釈可能なソリューションを提供するだけでなく,SST2およびAG-newsデータセット上の古典的CNNおよびBiLSTMテキスト分類器よりも若干優れていることを示す。

Interpreting the inner workings of neural models is a key step in ensuring the robustness and trustworthiness of the models, but work on neural network interpretability typically faces a trade-off: either the models are too constrained to be very useful, or the solutions found by the models are too complex to interpret. We propose a novel strategy for achieving interpretability that -- in our experiments -- avoids this trade-off. Our approach builds on the success of using probability as the central quantity, such as for instance within the attention mechanism. In our architecture, DoLFIn (Distributions over Latent Features for Interpretability), we do no determine beforehand what each feature represents, and features go altogether into an unordered set. Each feature has an associated probability ranging from 0 to 1, weighing its importance for further processing. We show that, unlike attention and saliency map approaches, this set-up makes it straight-forward to compute the probability with which an input component supports the decision the neural model makes. To demonstrate the usefulness of the approach, we apply DoLFIn to text classification, and show that DoLFIn not only provides interpretable solutions, but even slightly outperforms the classical CNN and BiLSTM text classifiers on the SST2 and AG-news datasets.
翻訳日:2022-09-27 07:22:04 公開日:2020-11-10
# 絶滅危惧言語テキストに対するOCRポスト補正

OCR Post Correction for Endangered Language Texts ( http://arxiv.org/abs/2011.05402v1 )

ライセンス: Link先を確認
Shruti Rijhwani, Antonios Anastasopoulos, Graham Neubig(参考訳) ほとんどの絶滅危惧言語で自然言語処理モデルを構築するデータはほとんど、ほとんどありません。 しかし、これらの言語のテキストデータは、紙本やスキャンされた画像など、機械で読めない形式にしばしば存在する。 本研究では,これらの資源からテキストを抽出する作業に対処する。 3つの危惧言語におけるスキャンされた書籍の書き起こしのベンチマークデータセットを作成し、絶滅危惧言語のデータセット設定に対して汎用OCRツールがいかに堅牢でないかを体系的に分析する。 我々は,このデータスカース設定におけるトレーニングを容易にするため,OCRポストコレクション法を開発し,認識誤り率を3言語平均34%削減した。

There is little to no data available to build natural language processing models for most endangered languages. However, textual data in these languages often exists in formats that are not machine-readable, such as paper books and scanned images. In this work, we address the task of extracting text from these resources. We create a benchmark dataset of transcriptions for scanned books in three critically endangered languages and present a systematic analysis of how general-purpose OCR tools are not robust to the data-scarce setting of endangered languages. We develop an OCR post-correction method tailored to ease training in this data-scarce setting, reducing the recognition error rate by 34% on average across the three languages.
翻訳日:2022-09-27 07:21:41 公開日:2020-11-10
# 密度推定器の効率的な補間

Efficient Interpolation of Density Estimators ( http://arxiv.org/abs/2011.04922v1 )

ライセンス: Link先を確認
Paxton Turner, Jingbo Liu, and Philippe Rigollet(参考訳) 未知の密度を近似する非パラメトリック推定器の空間的および時間的効率評価の問題について検討する。 一貫した推定が可能なシステムでは、分数的に多変量多項式補間スキームを用いて、元の推定器を効率よく、空間要求の少ない新しい推定器に変換し、元の近似品質を悪用することなく、計算効率の良い構成を与える。 本結果は,基礎となる滑らかさの存在下でのカーネル密度推定器の高速評価に関する新しい統計的視点を与える。 corollary として、滑らかな函数の H\"{o}lder クラスの計量エントロピーについて、コルモゴロフ--チホミロフの古典的な結果の簡潔な導出を与える。

We study the problem of space and time efficient evaluation of a nonparametric estimator that approximates an unknown density. In the regime where consistent estimation is possible, we use a piecewise multivariate polynomial interpolation scheme to give a computationally efficient construction that converts the original estimator to a new estimator that can be queried efficiently and has low space requirements, all without adversely deteriorating the original approximation quality. Our result gives a new statistical perspective on the problem of fast evaluation of kernel density estimators in the presence of underlying smoothness. As a corollary, we give a succinct derivation of a classical result of Kolmogorov---Tikhomirov on the metric entropy of H\"{o}lder classes of smooth functions.
翻訳日:2022-09-27 07:15:15 公開日:2020-11-10
# 新型コロナウイルス(covid-19)の胸部x線トリアージのためのプリシンアノテーションを用いたマルチモーダル訓練型人工知能ソリューション

Pristine annotations-based multi-modal trained artificial intelligence solution to triage chest X-ray for COVID-19 ( http://arxiv.org/abs/2011.05186v1 )

ライセンス: Link先を確認
Tao Tan, Bipul Das, Ravi Soni, Mate Fejes, Sohan Ranjan, Daniel Attila Szabo, Vikram Melapudi, K S Shriram, Utkarsh Agrawal, Laszlo Rusko, Zita Herczeg, Barbara Darazs, Pal Tegzes, Lehel Ferenczi, Rakesh Mullick, Gopal Avinash(参考訳) 新型コロナウイルス(covid-19)のパンデミックは世界人口の健康に影響を与え続けている。 CT(Computed tomography)やX線といった最前線のモダリティは、新型コロナウイルス患者のトリアージに重要な役割を果たす。 資源(ハードウェアと訓練員の両方)の限られたアクセスと汚染対策を考えると、CTは疑わしい被験者をトリアージするのに理想的ではないかもしれない。 人工知能(AI)によるトリアージとモニタリングのためのX線ベースの応用には、経験豊富な放射線学者が、ウイルス患者をタイムリーに識別し、疾患領域の境界をさらに明確にすることが必要である。 提案するソリューションは,産業や学術コミュニティの既存のソリューションと異なり,単一のx線画像を用いた参照によるトリアージのための機能的aiモデルを示し,ディープラーニングモデルはx線とctデータの両方を用いてトレーニングする。 このようなマルチモーダルトレーニングが,x線のみのトレーニングよりもソリューションを改善する方法について報告する。 マルチモーダル解はAUC(受信機動作特性曲線下の領域)を0.89から0.93に増加させ、またDice係数(0.59から0.62)に正の影響を与える。 我々の知る限りでは、それは開発にマルチモーダル情報を活用する最初のX線ソリューションである。

The COVID-19 pandemic continues to spread and impact the well-being of the global population. The front-line modalities including computed tomography (CT) and X-ray play an important role for triaging COVID patients. Considering the limited access of resources (both hardware and trained personnel) and decontamination considerations, CT may not be ideal for triaging suspected subjects. Artificial intelligence (AI) assisted X-ray based applications for triaging and monitoring require experienced radiologists to identify COVID patients in a timely manner and to further delineate the disease region boundary are seen as a promising solution. Our proposed solution differs from existing solutions by industry and academic communities, and demonstrates a functional AI model to triage by inferencing using a single x-ray image, while the deep-learning model is trained using both X-ray and CT data. We report on how such a multi-modal training improves the solution compared to X-ray only training. The multi-modal solution increases the AUC (area under the receiver operating characteristic curve) from 0.89 to 0.93 and also positively impacts the Dice coefficient (0.59 to 0.62) for localizing the pathology. To the best our knowledge, it is the first X-ray solution by leveraging multi-modal information for the development.
翻訳日:2022-09-27 07:14:38 公開日:2020-11-10
# コミュニケーションの学習とポーズエラーの修正

Learning to Communicate and Correct Pose Errors ( http://arxiv.org/abs/2011.05289v1 )

ライセンス: Link先を確認
Nicholas Vadivelu, Mengye Ren, James Tu, Jingkang Wang, Raquel Urtasun(参考訳) 学習されたコミュニケーションは、分散情報を集約することで、マルチエージェントシステムをより効果的にする。 しかし、個々のエージェントが受信する可能性のある誤ったメッセージの脅威にさらされる。 本稿では,近傍の自動運転車が協調的に物体検出と運動予測を行うv2vnetで提案されている設定について検討する。 エージェントが一緒にタスクを解くと性能が大幅に向上するが、通信が空間変換に依存するため、ポーズノイズの存在下での利得は急速に低下する。 そこで本研究では,コミュニケーションを学び,潜在的な誤りを推定し,最終的にそれらの誤りについて合意に達するための新しいニューラル推論フレームワークを提案する。 実験により,提案手法は,現実的かつ厳密な位置定位雑音下でのマルチエージェント型自律認識と運動予測システムの堅牢性を大幅に向上させることを確認した。

Learned communication makes multi-agent systems more effective by aggregating distributed information. However, it also exposes individual agents to the threat of erroneous messages they might receive. In this paper, we study the setting proposed in V2VNet, where nearby self-driving vehicles jointly perform object detection and motion forecasting in a cooperative manner. Despite a huge performance boost when the agents solve the task together, the gain is quickly diminished in the presence of pose noise since the communication relies on spatial transformations. Hence, we propose a novel neural reasoning framework that learns to communicate, to estimate potential errors, and finally, to reach a consensus about those errors. Experiments confirm that our proposed framework significantly improves the robustness of multi-agent self-driving perception and motion forecasting systems under realistic and severe localization noise.
翻訳日:2022-09-27 07:14:14 公開日:2020-11-10
# マルチモーダルラジオグラフィーと組織データを用いたグリオーマ分類

Glioma Classification Using Multimodal Radiology and Histology Data ( http://arxiv.org/abs/2011.05410v1 )

ライセンス: Link先を確認
Azam Hamidinekoo, Tomasz Pieciak, Maryam Afzali, Otar Akanyeti, Yinyin Yuan(参考訳) グリオーマは、高い死亡率の脳腫瘍である。 この腫瘍には様々な分類とサブタイプがあり、治療手順は様々である。 臨床医や腫瘍医は、放射線と組織データの視覚的検査に基づいてこれらの腫瘍を診断し分類する。 しかし、このプロセスは時間がかかり、主観的になりうる。 このコンピュータ支援手法は、臨床医がより良く、より迅速に意思決定するのに役立つ。 本稿では,放射線画像と病理画像の両方を用いて,グリオーマを自動的に3つのサブタイプ(オリゴデンドログリオーマ,アストロサイトーマ,グリオブラストマ)に分類するパイプラインを提案する。 提案手法は,放射線学と組織学の異なる分類モデルを実装し,それらをアンサンブル法で組み合わせる。 分類アルゴリズムは、まず、深層学習法を用いてタイルレベル(組織学)とスライスレベル(放射線学)の分類を行い、その後、タイル/スライスレベル潜在特徴を、全スライディングおよび全ボリュームサブタイプ予測に組み合わせる。 分類アルゴリズムは, CPM-RadPath 2020 チャレンジで提供されるデータセットを用いて評価した。 提案されたパイプラインはF1スコア0.886、カッパスコア0.811、バランス精度0.860を達成した。 多様な特徴のエンド・ツー・エンド学習のために提案されたモデルの能力は、グリオーマ腫瘍のサブタイプの予測に匹敵するものである。

Gliomas are brain tumours with a high mortality rate. There are various grades and sub-types of this tumour, and the treatment procedure varies accordingly. Clinicians and oncologists diagnose and categorise these tumours based on visual inspection of radiology and histology data. However, this process can be time-consuming and subjective. The computer-assisted methods can help clinicians to make better and faster decisions. In this paper, we propose a pipeline for automatic classification of gliomas into three sub-types: oligodendroglioma, astrocytoma, and glioblastoma, using both radiology and histopathology images. The proposed approach implements distinct classification models for radiographic and histologic modalities and combines them through an ensemble method. The classification algorithm initially carries out tile-level (for histology) and slice-level (for radiology) classification via a deep learning method, then tile/slice-level latent features are combined for a whole-slide and whole-volume sub-type prediction. The classification algorithm was evaluated using the data set provided in the CPM-RadPath 2020 challenge. The proposed pipeline achieved the F1-Score of 0.886, Cohen's Kappa score of 0.811 and Balance accuracy of 0.860. The ability of the proposed model for end-to-end learning of diverse features enables it to give a comparable prediction of glioma tumour sub-types.
翻訳日:2022-09-27 07:13:47 公開日:2020-11-10
# gansを用いたディープフェイク生成のための最小トレーニングデータ合成

Using GANs to Synthesise Minimum Training Data for Deepfake Generation ( http://arxiv.org/abs/2011.05421v1 )

ライセンス: Link先を確認
Simranjeet Singh and Rajneesh Sharma and Alan F. Smeaton(参考訳) コンピュータビジョン、自然言語処理、音声合成などの分野では、GAN(Generative Adversarial Networks)の多くの応用がある。 もっとも顕著な成果は、画像合成の分野、特にディープフェイクビデオの生成である。 ディープフェイクはメディアの報道をかなり否定的に受け取っているが、エンターテイメントや顧客関係、さらには支援ケアといったアプリケーションには便利な技術だ。 ディープフェイクを生成する際の1つの問題は、被写体の多くの画像訓練データを要求することであるが、被写体が既に多くの画像が存在する有名人であれば問題ではない。 訓練用画像がわずかでもあれば、ディープフェイクのクオリティは低くなるだろう。 メディアの報道によると、良いディープフェイクは500枚程度の画像で作れるが、実際にはクオリティのディープフェイクには何千もの画像が必要であり、有名人や政治家のディープフェイクがこれほど人気になった理由の1つである。 本研究では,GANの特性を利用して表情の異なる人物の画像を生成し,それを用いてディープフェイクを生成する。 合成GAN生成訓練画像の表情の変動と、その量の減少により、ほぼ現実的なディープフェイク映像が作成できることが観察された。

There are many applications of Generative Adversarial Networks (GANs) in fields like computer vision, natural language processing, speech synthesis, and more. Undoubtedly the most notable results have been in the area of image synthesis and in particular in the generation of deepfake videos. While deepfakes have received much negative media coverage, they can be a useful technology in applications like entertainment, customer relations, or even assistive care. One problem with generating deepfakes is the requirement for a lot of image training data of the subject which is not an issue if the subject is a celebrity for whom many images already exist. If there are only a small number of training images then the quality of the deepfake will be poor. Some media reports have indicated that a good deepfake can be produced with as few as 500 images but in practice, quality deepfakes require many thousands of images, one of the reasons why deepfakes of celebrities and politicians have become so popular. In this study, we exploit the property of a GAN to produce images of an individual with variable facial expressions which we then use to generate a deepfake. We observe that with such variability in facial expressions of synthetic GAN-generated training images and a reduced quantity of them, we can produce a near-realistic deepfake videos.
翻訳日:2022-09-27 07:07:28 公開日:2020-11-10
# モデル説明のためのデバッギングテスト

Debugging Tests for Model Explanations ( http://arxiv.org/abs/2011.05429v1 )

ライセンス: Link先を確認
Julius Adebayo, Michael Muelly, Ilaria Liccardi, Been Kim(参考訳) モデルエラーの診断にポストホックモデルの説明が有効かどうかを検討する。 モデルの予測を説明する上での課題に対して,多数の説明手法が提案されている。 使用量の増加にもかかわらず、有効かどうかは不明である。 まず、ソースに基づいて、次のように分類する。~\textit{data, model, and test-time} 汚染バグ。 いくつかの説明法では, 突発的相関アーチファクト(データ汚染), 誤ラベル付きトレーニング例(データ汚染), 再初期化モデルとトレーニングモデル(モデル汚染)を区別し, アウト・オブ・ディストリビューション入力(テスト時間汚染)を検出する能力を評価する。 テストした手法は、素早いバックグラウンドバグを診断できるが、誤ってラベル付けされたトレーニング例を確定するものではない。 さらに、バックプロパゲーションアルゴリズムを変更する手法のクラスは、ディープネットワークの上位層パラメータに不変であるため、モデル汚染の診断には有効ではない。 分析を人間の被験者による研究で補完し、被験者は帰属を使って欠陥のあるモデルを識別できないが、主にモデル予測に依存していることを発見した。 総合すると,モデルデバッグのためのツールとして説明を行う実践者や研究者にガイダンスを提供する。

We investigate whether post-hoc model explanations are effective for diagnosing model errors--model debugging. In response to the challenge of explaining a model's prediction, a vast array of explanation methods have been proposed. Despite increasing use, it is unclear if they are effective. To start, we categorize \textit{bugs}, based on their source, into:~\textit{data, model, and test-time} contamination bugs. For several explanation methods, we assess their ability to: detect spurious correlation artifacts (data contamination), diagnose mislabeled training examples (data contamination), differentiate between a (partially) re-initialized model and a trained one (model contamination), and detect out-of-distribution inputs (test-time contamination). We find that the methods tested are able to diagnose a spurious background bug, but not conclusively identify mislabeled training examples. In addition, a class of methods, that modify the back-propagation algorithm are invariant to the higher layer parameters of a deep network; hence, ineffective for diagnosing model contamination. We complement our analysis with a human subject study, and find that subjects fail to identify defective models using attributions, but instead rely, primarily, on model predictions. Taken together, our results provide guidance for practitioners and researchers turning to explanations as tools for model debugging.
翻訳日:2022-09-27 07:07:06 公開日:2020-11-10
# 多発性粒子型ナノ粒子癌治療の進歩

Evolving Nano Particle Cancer Treatments with Multiple Particle Types ( http://arxiv.org/abs/2011.04975v1 )

ライセンス: Link先を確認
Michail-Antisthenis Tsompanas, Larry Bull, Andrew Adamatzky, Igor Balaz(参考訳) 進化的アルゴリズムは、解の適切なサイズが未定の最適化問題に長い間使われてきた。 本手法の適用性は, 癌腫瘍を標的としたナノ粒子(np)ベースの薬物デリバリーシステムの設計について検討した。 複数のタイプのnpsからなる治療は、処理の複雑さが高いため、より効果的であることが期待される。 本稿では、よく知られたNKモデルを用いて、ゲノム長の進化と解の複雑さに対するフィットネスランドスケープの頑丈さの影響を調べることから始める。 新規配列の大きさや配列欠落の有無も考慮される。 その結果、ランドスケープの頑丈さはプロセスのダイナミクスを変えることができるが、ゲノム長の進化を妨げるものではないことが示された。 これらの発見は、前述の現実世界の問題の中で調査される。 最初の例では、エージェントベースのオープンソース物理学ベースの細胞シミュレータを通して、複数のタイプのNPによる処理を同時に使用する。 この結果から,あらかじめ定義された計算予算の下で,進化的手法を用いて解空間を探索する場合,複数のタイプのNPを利用する方が効率的であることが示唆された。

Evolutionary algorithms have long been used for optimization problems where the appropriate size of solutions is unclear a priori. The applicability of this methodology is here investigated on the problem of designing a nano-particle (NP) based drug delivery system targeting cancer tumours. Utilizing a treatment comprising of multiple types of NPs is expected to be more effective due to the higher complexity of the treatment. This paper begins by utilizing the well-known NK model to explore the effects of fitness landscape ruggedness upon the evolution of genome length and, hence, solution complexity. The size of a novel sequence and the absence or presence of sequence deletion are also considered. Results show that whilst landscape ruggedness can alter the dynamics of the process, it does not hinder the evolution of genome length. These findings are then explored within the aforementioned real-world problem. In the first known instance, treatments with multiple types of NPs are used simultaneously, via an agent-based open source physics-based cell simulator. The results suggest that utilizing multiple types of NPs is more efficient when the solution space is explored with the evolutionary techniques under a predefined computational budget.
翻訳日:2022-09-27 07:06:19 公開日:2020-11-10
# タスク関連キーポイント学習による難易度ノットのアンタングリング

Untangling Dense Knots by Learning Task-Relevant Keypoints ( http://arxiv.org/abs/2011.04999v1 )

ライセンス: Link先を確認
Jennifer Grannen, Priya Sundaresan, Brijen Thananjeyan, Jeffrey Ichnowski, Ashwin Balakrishna, Minho Hwang, Vainavi Viswanath, Michael Laskey, Joseph E. Gonzalez, Ken Goldberg(参考訳) ロープ、ワイヤー、ケーブルのアンタングルは、高次元構成空間、視覚的均質性、自己閉塞性、複雑なダイナミクスのために、ロボットにとって難しい課題である。 我々は,自己交叉間の空間を欠く(密接な)結び目を考察し,構成学の幾何学的構造を用いた反復的アプローチを提案する。 学習に基づく知覚と幾何学的プランナーを組み合わせることで、二者間ロボットに結び目を解き放つように導くポリシーが実現されます。 この方針を評価するため,我々は,様々な結び目タイプやテクスチャを持つケーブルをモデル化する新しいシミュレーション環境と,ダヴィンチ手術ロボットを用いた物理的システムで実験を行った。 HULKは、高密度のフィギュアエイトとオーバーハンド結び目でケーブルをアンタングルし、様々なテクスチャや外観に一般化することができる。 HULKの2つの変種を3つのベースラインと比較し、HULKが次の最良ベースラインと比較して物理的システムで43.3%高い成功率を達成することを観察する。 HULKは、378のシミュレーション実験の97.9%で、2本のオーバーハンドとフィギュアエイトノットを含む密集した初期構成からケーブルを解き放つことに成功した。 物理実験では、HULKは61.7%の精度で成功し、1回の試行で平均8.48アクションを達成している。 追加資料、コード、ビデオはhttps://tinyurl.com/y3a88ycu.comにある。

Untangling ropes, wires, and cables is a challenging task for robots due to the high-dimensional configuration space, visual homogeneity, self-occlusions, and complex dynamics. We consider dense (tight) knots that lack space between self-intersections and present an iterative approach that uses learned geometric structure in configurations. We instantiate this into an algorithm, HULK: Hierarchical Untangling from Learned Keypoints, which combines learning-based perception with a geometric planner into a policy that guides a bilateral robot to untangle knots. To evaluate the policy, we perform experiments both in a novel simulation environment modelling cables with varied knot types and textures and in a physical system using the da Vinci surgical robot. We find that HULK is able to untangle cables with dense figure-eight and overhand knots and generalize to varied textures and appearances. We compare two variants of HULK to three baselines and observe that HULK achieves 43.3% higher success rates on a physical system compared to the next best baseline. HULK successfully untangles a cable from a dense initial configuration containing up to two overhand and figure-eight knots in 97.9% of 378 simulation experiments with an average of 12.1 actions per trial. In physical experiments, HULK achieves 61.7% untangling success, averaging 8.48 actions per trial. Supplementary material, code, and videos can be found at https://tinyurl.com/y3a88ycu.
翻訳日:2022-09-27 07:05:48 公開日:2020-11-10
# ランダム化された不確定な社会的選好からの創発的相互性とチーム形成

Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences ( http://arxiv.org/abs/2011.05373v1 )

ライセンス: Link先を確認
Bowen Baker(参考訳) マルチエージェント強化学習(MARL)は、ますます複雑な固定チームゼロサム環境において、近年成功している。 しかし、現実世界はゼロサムでも固定チームでもない。人間は多くの社会的ジレンマに直面し、いつ協力し、いつ競争するかを学ぶ必要がある。 エージェントを人間の世界にうまく配置するには、彼らが私たちの紛争を理解し、支援できることが重要だ。 残念ながら、利己的なMARLエージェントは通常、社会的ジレンマに直面して失敗します。 本研究では,無作為化された不確定な社会的選好(rusp)を持つエージェントの学習において,創発的な直接的な相互関係,間接的な相互性と評判,チーム形成の証拠を示す。 RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。 特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。

Multi-agent reinforcement learning (MARL) has shown recent success in increasingly complex fixed-team zero-sum environments. However, the real world is not zero-sum nor does it have fixed teams; humans face numerous social dilemmas and must learn when to cooperate and when to compete. To successfully deploy agents into the human world, it may be important that they be able to understand and help in our conflicts. Unfortunately, selfish MARL agents typically fail when faced with social dilemmas. In this work, we show evidence of emergent direct reciprocity, indirect reciprocity and reputation, and team formation when training agents with randomized uncertain social preferences (RUSP), a novel environment augmentation that expands the distribution of environments agents play in. RUSP is generic and scalable; it can be applied to any multi-agent environment without changing the original underlying game dynamics or objectives. In particular, we show that with RUSP these behaviors can emerge and lead to higher social welfare equilibria in both classic abstract social dilemmas like Iterated Prisoner's Dilemma as well in more complex intertemporal environments.
翻訳日:2022-09-27 07:04:37 公開日:2020-11-10
# クロスエントロピー損失の活用と悪用--近代的深層学習を事例として

Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep Learning ( http://arxiv.org/abs/2011.05231v1 )

ライセンス: Link先を確認
Elliott Gordon-Rodriguez, Gabriel Loaiza-Ganem, Geoff Pleiss, John P. Cunningham(参考訳) 現代のディープラーニングは、主に実験的な科学であり、経験的な進歩が確率的厳密さを犠牲にされることがある。 ここでは,その1つの例に焦点を当てる。すなわち,厳密な分類ではなく,単純な値を取るモデルデータに対するカテゴリ間クロスエントロピー損失の利用である。 このプラクティスは、ラベル平滑化やアクタ-ミミック強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。 最近発見された連続的カテゴリー分布に基づき,これらのモデルに対する確率的インスパイアされた代替案を提案し,より原理的かつ理論的に魅力的であるアプローチを提案する。 アブレーション研究を含む慎重な実験を通じて,これらのモデルにおけるアウトパフォーマンスの可能性を特定し,適切な確率的治療の重要性を強調するとともに,その障害モードのいくつかを例示する。

Modern deep learning is primarily an experimental science, in which empirical advances occasionally come at the expense of probabilistic rigor. Here we focus on one such example; namely the use of the categorical cross-entropy loss to model data that is not strictly categorical, but rather takes values on the simplex. This practice is standard in neural network architectures with label smoothing and actor-mimic reinforcement learning, amongst others. Drawing on the recently discovered continuous-categorical distribution, we propose probabilistically-inspired alternatives to these models, providing an approach that is more principled and theoretically appealing. Through careful experimentation, including an ablation study, we identify the potential for outperformance in these models, thereby highlighting the importance of a proper probabilistic treatment, as well as illustrating some of the failure modes thereof.
翻訳日:2022-09-27 06:57:36 公開日:2020-11-10
# 3次元cnnにおける時間的確率的ソフトマックス : 表情認識への応用

Temporal Stochastic Softmax for 3D CNNs: An Application in Facial Expression Recognition ( http://arxiv.org/abs/2011.05227v1 )

ライセンス: Link先を確認
Th\'eo Ayral, Marco Pedersoli, Simon Bacon and Eric Granger(参考訳) ビデオにおける表情の正確な時空間認識のためのディープラーニングモデルの訓練には、かなりの計算資源が必要である。 実用的な理由から、3D畳み込みニューラルネットワーク(3D CNN)は通常、ビデオからランダムに抽出された比較的短いクリップで訓練される。 しかしながら、このような一様サンプリングは一般に、各時間クリップに等しい重要性が割り当てられるため、準最適である。 本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。 ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。 効率的なクリップサンプリングによる計算複雑性の低減と、トレーニングと推論の両方において、時間重み付けがより適切なクリップにフォーカスするため、精度の向上である。 提案手法を用いた複数の表情認識ベンチマークによる実験結果から,訓練ビデオにおけるより有意義なクリップに着目した効果が得られた。 特に,不正確なトリミングやビデオの粗末なアノテーションの影響を低減し,時間にまたがる視覚情報の異種分布を低減し,性能と計算コストを向上させる。

Training deep learning models for accurate spatiotemporal recognition of facial expressions in videos requires significant computational resources. For practical reasons, 3D Convolutional Neural Networks (3D CNNs) are usually trained with relatively short clips randomly extracted from videos. However, such uniform sampling is generally sub-optimal because equal importance is assigned to each temporal clip. In this paper, we present a strategy for efficient video-based training of 3D CNNs. It relies on softmax temporal pooling and a weighted sampling mechanism to select the most relevant training clips. The proposed softmax strategy provides several advantages: a reduced computational complexity due to efficient clip sampling, and an improved accuracy since temporal weighting focuses on more relevant clips during both training and inference. Experimental results obtained with the proposed method on several facial expression recognition benchmarks show the benefits of focusing on more informative clips in training videos. In particular, our approach improves performance and computational cost by reducing the impact of inaccurate trimming and coarse annotation of videos, and heterogeneous distribution of visual information across time.
翻訳日:2022-09-27 06:55:32 公開日:2020-11-10
# コンパクト畳み込みニューラルネットワークを用いた偏光SAR画像の分類

Classification of Polarimetric SAR Images Using Compact Convolutional Neural Networks ( http://arxiv.org/abs/2011.05243v1 )

ライセンス: Link先を確認
Mete Ahishali, Serkan Kiranyaz, Turker Ince, Moncef Gabbouj(参考訳) ポーラリメトリック合成開口レーダ(PolSAR)画像の分類は、環境応用において大きな役割を果たす活発な研究領域である。 この領域で提案される従来の機械学習(ML)手法は一般的に、分類性能を改善するために高い差別的特徴を活用することに重点を置いている。 深層畳み込みニューラルネットワーク(CNN)に基づく他のアプローチには、高い計算複雑性、地味なラベルを持つ不可能な大規模なトレーニングセット、特別なハードウェア要件など、一定の制限と欠点がある。 本研究では,従来のMLと深部CNNに基づく手法の限界に対処するため,スライディングウインドウの分類手法を用いたCNNのコンパクトかつ適応的な実装に基づいて,PolSAR画像の分類のための新しい系統分類フレームワークを提案する。 提案手法には3つの利点がある。 まず、広範な特徴抽出のプロセスは不要である。 第二に、コンパクトな構成を利用するため、計算効率が良い。 特に,提案するコンパクトで適応的なcnnモデルは,最大分類精度を最小のトレーニングと計算複雑性で達成するために設計されている。 これはpolsar分類のラベル付けに関わる高いコストを考慮すると非常に重要である。 最後に,提案手法は深部CNNよりも小さいウィンドウサイズで分類できる。 最も一般的に使用されている4つのpolsar画像(airsar l-bandとradarsat-2 c-band data)に対して、サンフランシスコ湾とフレボランド地域の実験的評価がなされている。 したがって、得られた総合的精度は92.33から99.39%の範囲である。

Classification of polarimetric synthetic aperture radar (PolSAR) images is an active research area with a major role in environmental applications. The traditional Machine Learning (ML) methods proposed in this domain generally focus on utilizing highly discriminative features to improve the classification performance, but this task is complicated by the well-known "curse of dimensionality" phenomena. Other approaches based on deep Convolutional Neural Networks (CNNs) have certain limitations and drawbacks, such as high computational complexity, an unfeasibly large training set with ground-truth labels, and special hardware requirements. In this work, to address the limitations of traditional ML and deep CNN based methods, a novel and systematic classification framework is proposed for the classification of PolSAR images, based on a compact and adaptive implementation of CNNs using a sliding-window classification approach. The proposed approach has three advantages. First, there is no requirement for an extensive feature extraction process. Second, it is computationally efficient due to utilized compact configurations. In particular, the proposed compact and adaptive CNN model is designed to achieve the maximum classification accuracy with minimum training and computational complexity. This is of considerable importance considering the high costs involved in labelling in PolSAR classification. Finally, the proposed approach can perform classification using smaller window sizes than deep CNNs. Experimental evaluations have been performed over the most commonly-used four benchmark PolSAR images: AIRSAR L-Band and RADARSAT-2 C-Band data of San Francisco Bay and Flevoland areas. Accordingly, the best obtained overall accuracies range between 92.33 - 99.39% for these benchmark study sites.
翻訳日:2022-09-27 06:55:17 公開日:2020-11-10
# 制御プリミティブの連続学習:リセットゲームによるスキル発見

Continual Learning of Control Primitives: Skill Discovery via Reset-Games ( http://arxiv.org/abs/2011.05286v1 )

ライセンス: Link先を確認
Kelvin Xu, Siddharth Verma, Chelsea Finn, Sergey Levine(参考訳) 強化学習は複雑な環境での行動の獲得を自動化する可能性があるが、それがうまく展開されるためには、多くの実用的な課題に対処する必要がある。 まず、現実世界の設定では、エージェントがタスクを試みて失敗すると、エージェントが再びタスクを試みられるように、環境が何かを「リセット」する必要がある。 シミュレーションは簡単だが、特に試行回数が非常に多い場合は、現実世界でかなりの人的努力が必要になる可能性がある。 第二に、現実世界の学習は、しばしば複雑で時間的に拡張された振る舞いを伴い、ランダムな探索で取得することが難しい。 これらの2つの問題は、当初は無関係に見えるかもしれないが、本研究では、エージェントがリセットの必要をなくしながら、最小限の監督力でスキルを習得できる方法を示す。 我々は、エージェントを学習タスクの初期状態の広いセットに“リセット”する必要があるという洞察を利用して、多様な“リセットスキル”を学習するための自然な設定を提供します。 そこで本研究では,リセットと学習スキルのバランスをとる汎用ゲーム定式化を提案し,リセットフリータスクの性能向上効果を示すとともに,得られたスキルを下流学習の大幅な促進に活用できることを実証する。

Reinforcement learning has the potential to automate the acquisition of behavior in complex settings, but in order for it to be successfully deployed, a number of practical challenges must be addressed. First, in real world settings, when an agent attempts a task and fails, the environment must somehow "reset" so that the agent can attempt the task again. While easy in simulation, this could require considerable human effort in the real world, especially if the number of trials is very large. Second, real world learning often involves complex, temporally extended behavior that is often difficult to acquire with random exploration. While these two problems may at first appear unrelated, in this work, we show how a single method can allow an agent to acquire skills with minimal supervision while removing the need for resets. We do this by exploiting the insight that the need to "reset" an agent to a broad set of initial states for a learning task provides a natural setting to learn a diverse set of "reset-skills". We propose a general-sum game formulation that balances the objectives of resetting and learning skills, and demonstrate that this approach improves performance on reset-free tasks, and additionally show that the skills we obtain can be used to significantly accelerate downstream learning.
翻訳日:2022-09-27 06:48:58 公開日:2020-11-10
# 会話レコメンデーションシステムのトレーニングコストの推定について

On Estimating the Training Cost of Conversational Recommendation Systems ( http://arxiv.org/abs/2011.05302v1 )

ライセンス: Link先を確認
Stefanos Antaris, Dimitrios Rafailidis, Mohammad Aliannejadi(参考訳) 会話レコメンデーションシステムは、ユーザが複数の会話のターンで継続的にシステムと対話できるため、近年多くの注目を集めている。 しかし,対話型レコメンデーションシステムは複雑なニューラルアーキテクチャに基づいているため,モデルのトレーニングコストが高い。 最先端の会話モデルの高い計算訓練時間を明らかにするために,5つの代表的な戦略を検討し,この問題を実証する。 さらに、知識蒸留戦略の後に高いトレーニングコストに対処する方法についても論じ、対話型レコメンデーションシステムにおいて、多数のモデルパラメータのオンライン推論時間を短縮する上で重要な課題を詳述する。

Conversational recommendation systems have recently gain a lot of attention, as users can continuously interact with the system over multiple conversational turns. However, conversational recommendation systems are based on complex neural architectures, thus the training cost of such models is high. To shed light on the high computational training time of state-of-the art conversational models, we examine five representative strategies and demonstrate this issue. Furthermore, we discuss possible ways to cope with the high training cost following knowledge distillation strategies, where we detail the key challenges to reduce the online inference time of the high number of model parameters in conversational recommendation systems
翻訳日:2022-09-27 06:48:36 公開日:2020-11-10
# 深部強化学習における摂動に基づく探索法

Perturbation-based exploration methods in deep reinforcement learning ( http://arxiv.org/abs/2011.05446v1 )

ライセンス: Link先を確認
Sneha Aenugu(参考訳) 構造化探査の最近の研究は、国家空間における新しい状態の特定と、本質的な報酬ボーナスを通じてそれらを再考するエージェントのインセンティブに重点を置いている。 本研究では,これらの手法によって実証された性能向上は,エージェントの探索スケジュールにおける構造発見によるものであるのか,あるいは,構造探索を追求する上で現れる政策や報酬空間の摂動に起因するメリットなのかを疑問視する。 本研究では,政策と報酬空間における摂動がエージェントの探索行動に及ぼす影響について検討する。 我々は,ソフトマックス層の直前にポリシーを乱す単純な行為と,散発的な報酬ボーナスをドメインに導入することで,アーケード学習環境のいくつかの領域における探索を大幅に促進できることを示す。 これらの知見を踏まえ, 騒音探査の背景から, 構造探査研究への拡張のベンチマークを推奨する。

Recent research on structured exploration placed emphasis on identifying novel states in the state space and incentivizing the agent to revisit them through intrinsic reward bonuses. In this study, we question whether the performance boost demonstrated through these methods is indeed due to the discovery of structure in exploratory schedule of the agent or is the benefit largely attributed to the perturbations in the policy and reward space manifested in pursuit of structured exploration. In this study we investigate the effect of perturbations in policy and reward spaces on the exploratory behavior of the agent. We proceed to show that simple acts of perturbing the policy just before the softmax layer and introduction of sporadic reward bonuses into the domain can greatly enhance exploration in several domains of the arcade learning environment. In light of these findings, we recommend benchmarking any enhancements to structured exploration research against the backdrop of noisy exploration.
翻訳日:2022-09-27 06:48:06 公開日:2020-11-10
# MarginsはGradient Boostingの説明に不十分である

Margins are Insufficient for Explaining Gradient Boosting ( http://arxiv.org/abs/2011.04998v1 )

ライセンス: Link先を確認
Allan Gr{\o}nlund, Lior Kamma, Kasper Green Larsen(参考訳) ブースティングは機械学習において最も成功したアイデアの1つであり、微調整をほとんど行わずに優れた実用的なパフォーマンスを達成する。 強化された分類器の成功は、しばしばマージンの改善によるものである。 マージンの説明への焦点は、Schapire et al. (1998) の独創的な研究で開拓され、Gao と Zhou (2013) が束縛した$k$'th margin generalization において頂点に達した(Gronlund et al. 2019)。 本研究ではまず,最先端勾配ブースターの性能を説明する上で,$k$'th margin boundが不十分であることを示す。 次に、$k$'thマージン境界の短絡を説明し、現代の勾配ブースターの性能を説明することに成功し、より強くより洗練されたマージンベースの一般化を証明した。 最後に、gr{\o}nlund et al. (2019) による最近の一般化低域化について改善する。

Boosting is one of the most successful ideas in machine learning, achieving great practical performance with little fine-tuning. The success of boosted classifiers is most often attributed to improvements in margins. The focus on margin explanations was pioneered in the seminal work by Schapire et al. (1998) and has culminated in the $k$'th margin generalization bound by Gao and Zhou (2013), which was recently proved to be near-tight for some data distributions (Gronlund et al. 2019). In this work, we first demonstrate that the $k$'th margin bound is inadequate in explaining the performance of state-of-the-art gradient boosters. We then explain the short comings of the $k$'th margin bound and prove a stronger and more refined margin-based generalization bound for boosted classifiers that indeed succeeds in explaining the performance of modern gradient boosters. Finally, we improve upon the recent generalization lower bound by Gr{\o}nlund et al. (2019).
翻訳日:2022-09-27 06:47:50 公開日:2020-11-10
# 2つの時間スケール値に基づく強化学習アルゴリズムのサンプル複雑性境界

Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms ( http://arxiv.org/abs/2011.05053v1 )

ライセンス: Link先を確認
Tengyu Xu, Yingbin Liang(参考訳) 2つの時間スケール確率近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。 政策評価設定では、勾配補正(TDC)アルゴリズムを線形SAと非線形SAとして、線形および非線形時間差分学習をモデル化することができる。 ポリシー最適化設定では、2つの時間スケール非線形SAがグリーディ勾配-Q (Greedy-GQ) アルゴリズムをモデル化できる。 これまでの研究では、線形TDCとGreedy-GQの非漸近解析はマルコフのセッティングにおいて、減少または精度に依存したステップサイズで研究されてきた。 非線形TDCアルゴリズムでは漸近収束のみが確立されている。 本稿では,2つの時間スケール線形および非線形tdcとgreedy-gqの非漸近収束速度をマルコフサンプリングと精度に依存しない定数ステップで検討する。 線形 TDC に対して、新しい非漸近解析を提供し、一定のステップサイズで $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$ の最適なサンプル複雑性を持つ $\epsilon$-正確な解が得られることを示す。 非線形 TDC と Greedy-GQ に対して、両方のアルゴリズムがサンプル複雑性$\mathcal{O}(\epsilon^{-2})$で$\epsilon$-正確な定常解を得ることを示す。 これはマルコフサンプリングの下で非線形 tdc に対して確立された最初の非漸近収束結果であり、greedy-gq の結果は$\mathcal{o}(\epsilon^{-1}\log(1/\epsilon))$ の係数によって順序的に前の結果を上回る。

Two timescale stochastic approximation (SA) has been widely used in value-based reinforcement learning algorithms. In the policy evaluation setting, it can model the linear and nonlinear temporal difference learning with gradient correction (TDC) algorithms as linear SA and nonlinear SA, respectively. In the policy optimization setting, two timescale nonlinear SA can also model the greedy gradient-Q (Greedy-GQ) algorithm. In previous studies, the non-asymptotic analysis of linear TDC and Greedy-GQ has been studied in the Markovian setting, with diminishing or accuracy-dependent stepsize. For the nonlinear TDC algorithm, only the asymptotic convergence has been established. In this paper, we study the non-asymptotic convergence rate of two timescale linear and nonlinear TDC and Greedy-GQ under Markovian sampling and with accuracy-independent constant stepsize. For linear TDC, we provide a novel non-asymptotic analysis and show that it attains an $\epsilon$-accurate solution with the optimal sample complexity of $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$ under a constant stepsize. For nonlinear TDC and Greedy-GQ, we show that both algorithms attain $\epsilon$-accurate stationary solution with sample complexity $\mathcal{O}(\epsilon^{-2})$. It is the first non-asymptotic convergence result established for nonlinear TDC under Markovian sampling and our result for Greedy-GQ outperforms the previous result orderwisely by a factor of $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$.
翻訳日:2022-09-27 06:47:13 公開日:2020-11-10
# 類似言語翻訳:多言語変換における相互知能の役割

Translating Similar Languages: Role of Mutual Intelligibility in Multilingual Transformers ( http://arxiv.org/abs/2011.05037v1 )

ライセンス: Link先を確認
Ife Adebara, El Moatez Billah Nagoudi, Muhammad Abdul Mageed(参考訳) 我々は、wmt 2020 類似言語翻訳共有タスクへの貢献の一環として、低リソース条件下で類似言語間の翻訳の異なるアプローチを調査した。 すべての言語ペアに対して,トランスフォーマティブに基づくバイリンガルシステムとマルチリンガルシステムを提案した。 私たちはまた、言語ペアの1つにバックトランスレーションを利用し、3つ以上の点の改善を得ました。 本研究は,両者の相互信頼度(ジャカード類似度に基づく)の程度を考慮し,相互信頼度とモデル性能の正の相関関係を見出した。 私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。 Hindi-Marathiを除いて、我々のバイリンガルモデルは全てのペアのマルチリンガルモデルよりも優れた性能を達成する。

We investigate different approaches to translate between similar languages under low resource conditions, as part of our contribution to the WMT 2020 Similar Languages Translation Shared Task. We submitted Transformer-based bilingual and multilingual systems for all language pairs, in the two directions. We also leverage back-translation for one of the language pairs, acquiring an improvement of more than 3 BLEU points. We interpret our results in light of the degree of mutual intelligibility (based on Jaccard similarity) between each pair, finding a positive correlation between mutual intelligibility and model performance. Our Spanish-Catalan model has the best performance of all the five language pairs. Except for the case of Hindi-Marathi, our bilingual models achieve better performance than the multilingual models on all pairs.
翻訳日:2022-09-27 06:39:33 公開日:2020-11-10
# UmBERTo-MTSA @ AcCompl-It: 自己監督アノテーションを用いたマルチタスク学習による複雑度とアクセプタビリティ予測の改善

UmBERTo-MTSA @ AcCompl-It: Improving Complexity and Acceptability Prediction with Multi-task Learning on Self-Supervised Annotations ( http://arxiv.org/abs/2011.05197v1 )

ライセンス: Link先を確認
Gabriele Sarti(参考訳) 本研究は,ラベル付きデータの適度な使用量のみの学習モデルの性能向上に使用される,自己教師型データ拡張手法について述べる。 オリジナルのモデルの複数のコピーは、最初に下流タスクでトレーニングされる。 それらの予測は、未ラベルの例の大きなセットに注釈付けするために使われる。 最後に、得られた訓練セットの並列アノテーションに基づいてマルチタスクトレーニングを行い、注釈者固有の頭部予測を平均して最終スコアを得る。 ニューラルネットワークモデルは、EVALITA 2020におけるAcCompl-it共有タスクのコンテキストにおいて、この手順を使用して微調整される。

This work describes a self-supervised data augmentation approach used to improve learning models' performances when only a moderate amount of labeled data is available. Multiple copies of the original model are initially trained on the downstream task. Their predictions are then used to annotate a large set of unlabeled examples. Finally, multi-task training is performed on the parallel annotations of the resulting training set, and final scores are obtained by averaging annotator-specific head predictions. Neural language models are fine-tuned using this procedure in the context of the AcCompl-it shared task at EVALITA 2020, obtaining considerable improvements in prediction quality.
翻訳日:2022-09-27 06:39:04 公開日:2020-11-10
# E.T.: Entity-Transformers。 Entity-Transformerブロックによるよりリッチな参照表現のための参照強化ニューラルネットワークモデル

E.T.: Entity-Transformers. Coreference augmented Neural Language Model for richer mention representations via Entity-Transformer blocks ( http://arxiv.org/abs/2011.05431v1 )

ライセンス: Link先を確認
Nikolaos Stylianou, Ioannis Vlahavas(参考訳) 過去10年間、ニューラル言語モデリングの分野は、トランスフォーマーアーキテクチャを使った新しいモデルの開発によって、大きな変化を目にしてきた。 しかし、これらのモデルでさえ、メモリの制約と計算複雑性の増大のために長いシーケンスをモデル化するのに苦労している。 トレーニングデータに対する参照アノテーションは、そのような言語モデルのモデリング制限を超えてコンテキストを提供することができる。 本稿では、トレーニング中にエンティティアノテーションを組み込むために、ニューラルネットワークモデル、特にgpt2で使用されるトランスフォーマーブロックアーキテクチャの拡張を提案する。 我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。 そのために,エンティティの言及をよりリッチに表現し,トレーニングに要するコストを抑える。 CoNLL 2012 と LAMBADA データセットのパープレキシティの点から GPT2 と GPT2E の比較モデル性能を示すとともに,エンティティ表現における重要な違いと,名前付きエンティティ認識のような下流タスクにおけるそれらの効果を示す。 さらに,本手法はTransformerベースの言語モデルの大部分に採用することができる。

In the last decade, the field of Neural Language Modelling has witnessed enormous changes, with the development of novel models through the use of Transformer architectures. However, even these models struggle to model long sequences due to memory constraints and increasing computational complexity. Coreference annotations over the training data can provide context far beyond the modelling limitations of such language models. In this paper we present an extension over the Transformer-block architecture used in neural language models, specifically in GPT2, in order to incorporate entity annotations during training. Our model, GPT2E, extends the Transformer layers architecture of GPT2 to Entity-Transformers, an architecture designed to handle coreference information when present. To that end, we achieve richer representations for entity mentions, with insignificant training cost. We show the comparative model performance between GPT2 and GPT2E in terms of Perplexity on the CoNLL 2012 and LAMBADA datasets as well as the key differences in the entity representations and their effects in downstream tasks such as Named Entity Recognition. Furthermore, our approach can be adopted by the majority of Transformer-based language models.
翻訳日:2022-09-27 06:38:52 公開日:2020-11-10
# 畳み込みニューラルネットワークを用いた多面的疾患診断法

A Multi-Plant Disease Diagnosis Method using Convolutional Neural Network ( http://arxiv.org/abs/2011.05151v1 )

ライセンス: Link先を確認
Muhammad Mohsin Kabir, Abu Quwsar Ohi, M. F. Mridha(参考訳) 植物を最大容量から制限する疾患は、植物病と定義される。 農業の観点からは、病気が植物の生産能力を制限することが多いため、植物病の診断が重要である。 しかし、植物の病気を認識するための手動のアプローチは、しばしば時間的、挑戦的で時間を要する。 したがって、農業自動化の分野では、植物病のコンピュータ認識が望まれている。 近年のコンピュータビジョンの改善により、特定の植物の葉画像を用いた病気の同定がすでに行われている。 しかしながら、最も導入されたモデルは特定の植物の病気のみを診断することができる。 そこで本章では,複数の植物の診断を組み合わせる最適な植物病診断モデルについて検討する。 マルチクラス分類に依存しているにもかかわらず、このモデルは、植物と病気のタイプを並列に識別するマルチラベル分類法を継承する。 実験および評価のために,トマト,ジャガイモ,米,トウモロコシ,ブドウ,リンゴの6種の葉のイメージを含む各種オンライン資料からデータを収集した。 本研究では,cnn(popular convolutional neural network)アーキテクチャを実装した。 Xception と DenseNet アーキテクチャは,マルチラベル植物病の分類タスクにおいて,より優れた性能を示した。 アーキテクチャ調査を通じて,接続のスキップ,空間的畳み込み,隠蔽層接続の短縮が植物病の分類により良い結果をもたらすことを示唆する。

A disease that limits a plant from its maximal capacity is defined as plant disease. From the perspective of agriculture, diagnosing plant disease is crucial, as diseases often limit plants' production capacity. However, manual approaches to recognize plant diseases are often temporal, challenging, and time-consuming. Therefore, computerized recognition of plant diseases is highly desired in the field of agricultural automation. Due to the recent improvement of computer vision, identifying diseases using leaf images of a particular plant has already been introduced. Nevertheless, the most introduced model can only diagnose diseases of a specific plant. Hence, in this chapter, we investigate an optimal plant disease identification model combining the diagnosis of multiple plants. Despite relying on multi-class classification, the model inherits a multilabel classification method to identify the plant and the type of disease in parallel. For the experiment and evaluation, we collected data from various online sources that included leaf images of six plants, including tomato, potato, rice, corn, grape, and apple. In our investigation, we implement numerous popular convolutional neural network (CNN) architectures. The experimental results validate that the Xception and DenseNet architectures perform better in multi-label plant disease classification tasks. Through architectural investigation, we imply that skip connections, spatial convolutions, and shorter hidden layer connectivity cause better results in plant disease classification.
翻訳日:2022-09-27 06:38:18 公開日:2020-11-10
# 低リソース言語におけるソーシャルメディア操作の検出

Detecting Social Media Manipulation in Low-Resource Languages ( http://arxiv.org/abs/2011.05367v1 )

ライセンス: Link先を確認
Samar Haider, Luca Luceri, Ashok Deb, Adam Badawy, Nanyun Peng, Emilio Ferrara(参考訳) ソーシャルメディアは政治的操作や偽情報を含む悪意ある目的のために意図的に使われてきた。 ほとんどの研究は高リソース言語に焦点を当てている。 しかし、悪質なアクターは低リソースのアクターを含む国や言語でコンテンツを共有している。 本稿では,低リソース言語設定で悪意あるアクターをどの程度検出できるかを検討する。 2016年アメリカ合衆国大統領選挙後のTwitterによる干渉行為の取り締まりの一環として、タガログに投稿された大量のアカウントが停止されていることが分かった。 テキスト埋め込みと転送学習を組み合わせることで、我々のフレームワークは、有望な精度で、タガログに投稿する悪意のあるユーザーを、その言語の悪意のあるコンテンツに対する事前の知識や訓練なしに検出することができる。 まず,各言語の組込みモデル,すなわち高リソース言語(英語)と低リソース言語(tagalog)をそれぞれ独立に学習する。 次に,2つの潜在空間間のマッピングを学習し,検出モデルを転送する。 提案手法は,BERTを含む最先端モデルよりも大幅に優れており,オンラインプラットフォームにおける悪意ある活動の検出に対処する際の,非常に限られたトレーニングデータを用いた設定において顕著な優位性を示す。

Social media have been deliberately used for malicious purposes, including political manipulation and disinformation. Most research focuses on high-resource languages. However, malicious actors share content across countries and languages, including low-resource ones. Here, we investigate whether and to what extent malicious actors can be detected in low-resource language settings. We discovered that a high number of accounts posting in Tagalog were suspended as part of Twitter's crackdown on interference operations after the 2016 US Presidential election. By combining text embedding and transfer learning, our framework can detect, with promising accuracy, malicious users posting in Tagalog without any prior knowledge or training on malicious content in that language. We first learn an embedding model for each language, namely a high-resource language (English) and a low-resource one (Tagalog), independently. Then, we learn a mapping between the two latent spaces to transfer the detection model. We demonstrate that the proposed approach significantly outperforms state-of-the-art models, including BERT, and yields marked advantages in settings with very limited training data-the norm when dealing with detecting malicious activity in online platforms.
翻訳日:2022-09-27 06:37:58 公開日:2020-11-10
# 自動・自己認識異常検出システムの構築

Building an Automated and Self-Aware Anomaly Detection System ( http://arxiv.org/abs/2011.05047v1 )

ライセンス: Link先を確認
Sayan Chakraborty, Smit Shah, Kiumars Soltani, Anna Swigart, Luyao Yang, Kyle Buckingham(参考訳) 組織は、運用およびビジネスパフォーマンスの重要な側面を計測し、モデル化するために、時系列メトリクスに大きく依存します。 これらのメトリクスで問題を確実に検出する能力は、普及する前に主要な問題の早期指標を特定するのに不可欠である。 多数の多様で絶えず変化する時系列を積極的に監視することは非常に難しいため、監視カバレッジのギャップや、誤ったポジティブアラームによるモニターの無効化や無視、問題検出のためにチャートを手動で検査するチームなどが多い。 伝統的に、データ生成プロセスやパターンのバリエーションは、異常を正確にフラグするモデルを作成するために、強力なモデリング専門知識を必要としてきた。 本稿では,手作業による介入を必要とせず,各モデルに必要な変更を加えることで,この共通課題を克服する異常検出システムについて述べる。 我々は、この新しいアプローチが、多くのシナリオで利用可能なベンチマークデータセットの代替案を上回ることを実証する。

Organizations rely heavily on time series metrics to measure and model key aspects of operational and business performance. The ability to reliably detect issues with these metrics is imperative to identifying early indicators of major problems before they become pervasive. It can be very challenging to proactively monitor a large number of diverse and constantly changing time series for anomalies, so there are often gaps in monitoring coverage, disabled or ignored monitors due to false positive alarms, and teams resorting to manual inspection of charts to catch problems. Traditionally, variations in the data generation processes and patterns have required strong modeling expertise to create models that accurately flag anomalies. In this paper, we describe an anomaly detection system that overcomes this common challenge by keeping track of its own performance and making changes as necessary to each model without requiring manual intervention. We demonstrate that this novel approach outperforms available alternatives on benchmark datasets in many scenarios.
翻訳日:2022-09-27 06:37:41 公開日:2020-11-10
# あまり読むな - オープンドメインの質問回答に対する適応型計算

Don't Read Too Much into It: Adaptive Computation for Open-Domain Question Answering ( http://arxiv.org/abs/2011.05435v1 )

ライセンス: Link先を確認
Yuxiang Wu, Sebastian Riedel, Pasquale Minervini, Pontus Stenetorp(参考訳) Open-Domain Question Answeringへのほとんどのアプローチは、候補パスのセットを選択する軽量な検索器と、正しい回答を特定するためにパスを調べる計算コストの高い読者で構成される。 以前の著作では、検索された文数が増えるにつれて、読み手のパフォーマンスも向上することを示した。 しかし、検索された全てのパスは等しく重要であり、それらに同じ量の計算を割り当てると仮定し、計算コストが大幅に増加する。 このコストを削減するため,本研究では,読み込むパスに割り当てられた計算予算を制御するための適応計算法を提案する。 まず,任意の時間予測と早期出口確率の層毎推定に依存する個別経路を分離して操作する手法を紹介する。 次に,強化学習によって訓練された資源割当方針に基づき,各ステップで計算を割り当てる経路を動的に決定する手法であるskylinebuilderを提案する。 SQuAD-Openで行った結果から,グローバルな優先順位付けによる適応計算は,複数の強い静的および適応的手法よりも向上し,全モデルの95%性能を維持しつつ,計算の4.3倍の削減が達成された。

Most approaches to Open-Domain Question Answering consist of a light-weight retriever that selects a set of candidate passages, and a computationally expensive reader that examines the passages to identify the correct answer. Previous works have shown that as the number of retrieved passages increases, so does the performance of the reader. However, they assume all retrieved passages are of equal importance and allocate the same amount of computation to them, leading to a substantial increase in computational cost. To reduce this cost, we propose the use of adaptive computation to control the computational budget allocated for the passages to be read. We first introduce a technique operating on individual passages in isolation which relies on anytime prediction and a per-layer estimation of an early exit probability. We then introduce SkylineBuilder, an approach for dynamically deciding on which passage to allocate computation at each step, based on a resource allocation policy trained via reinforcement learning. Our results on SQuAD-Open show that adaptive computation with global prioritisation improves over several strong static and adaptive methods, leading to a 4.3x reduction in computation while retaining 95% performance of the full model.
翻訳日:2022-09-27 06:30:44 公開日:2020-11-10
# あなたはどう思うだろうか? インテントアウトカムによるエージェントの行動説明

What Did You Think Would Happen? Explaining Agent Behaviour Through Intended Outcomes ( http://arxiv.org/abs/2011.05064v1 )

ライセンス: Link先を確認
Herman Yau, Chris Russell, Simon Hadfield,(参考訳) 本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。 これらの説明は、エージェントがそのアクションによって達成しようとする結果を説明する。 従来の強化学習では,この性質のポストホックな説明の一般的な方法が不可能であることを示す。 むしろ、説明に必要な情報はエージェントのトレーニングと合わせて収集する必要がある。 提案手法は,いくつかのQ関数近似の変種に対する意図に基づく局所的な説明を抽出し,その説明と学習したQ値との整合性を証明する。 我々は,複数の強化学習問題に対して本手法を実証し,研究者がRL環境やアルゴリズムをイントロスペクションするためのコードを提供する。

We present a novel form of explanation for Reinforcement Learning, based around the notion of intended outcome. These explanations describe the outcome an agent is trying to achieve by its actions. We provide a simple proof that general methods for post-hoc explanations of this nature are impossible in traditional reinforcement learning. Rather, the information needed for the explanations must be collected in conjunction with training the agent. We derive approaches designed to extract local explanations based on intention for several variants of Q-function approximation and prove consistency between the explanations and the Q-values learned. We demonstrate our method on multiple reinforcement learning problems, and provide code to help researchers introspecting their RL environments and algorithms.
翻訳日:2022-09-27 06:30:08 公開日:2020-11-10
# ディエンスビデオキャプションのためのマルチモーダルプレトレーニング

Multimodal Pretraining for Dense Video Captioning ( http://arxiv.org/abs/2011.11760v1 )

ライセンス: Link先を確認
Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut(参考訳) 料理、車のメンテナンス、家庭の修理といった特定のハンズオンスキルを学ぶことは、教育ビデオを通じてますます起こる。 このようなビデオのユーザエクスペリエンスは、主要なステップのタイムスタンプアノテーションなどのメタ情報によって改善されることが知られている。 このようなアノテーションの自動生成は困難であり、関連する2つのコントリビューションについて説明する。 まず、様々な指導ビデオとタイムスタンプ付きアノテーションを備えた、新しい高密度ビデオキャプションデータセット、Video Timeline Tags(ViTT)を構築し、リリースする。 第2に,ビデオやキャプションライクなテキストの大きな教師なしデータセットを活用する,マルチモーダルシーケンスからシーケンスへの事前学習戦略について検討する。 YouCook2 と ViTT を併用した高密度動画キャプションモデルの事前訓練を行った。 このようなモデルが一般化し,多種多様な授業ビデオに対して頑健であることを示す。

Learning specific hands-on skills such as cooking, car maintenance, and home repairs increasingly happens via instructional videos. The user experience with such videos is known to be improved by meta-information such as time-stamped annotations for the main steps involved. Generating such annotations automatically is challenging, and we describe here two relevant contributions. First, we construct and release a new dense video captioning dataset, Video Timeline Tags (ViTT), featuring a variety of instructional videos together with time-stamped annotations. Second, we explore several multimodal sequence-to-sequence pretraining strategies that leverage large unsupervised datasets of videos and caption-like texts. We pretrain and subsequently finetune dense video captioning models using both YouCook2 and ViTT. We show that such models generalize well and are robust over a wide variety of instructional videos.
翻訳日:2022-09-27 06:29:59 公開日:2020-11-10
# スペクトル帯域の選択と結合のためのソフトコンピューティングアプローチ

A Soft Computing Approach for Selecting and Combining Spectral Bands ( http://arxiv.org/abs/2011.05127v1 )

ライセンス: Link先を確認
Juan F. H. Albarrac\'in, Rafael S. Oliveira, Marina Hirota, Jefersson A. dos Santos, Ricardo da S. Torres(参考訳) 本稿では,分類タスクに使用可能なマルチスペクトル画像のリモートセンシングからインデックスの自動選択と合成を行うソフトコンピューティング手法を提案する。 提案手法は, 遺伝的プログラミング(GP)フレームワークを基礎として, 様々な最適化問題によく用いられる手法である。 GPを通して、2つの異なるクラスからのサンプルの分離性を最大化する指標を学ぶことができる。 すべてのクラスのペアに特化したインデックスが取得されると、ピクセル単位の分類タスクで使用される。 GPをベースとした手法を用いて,熱帯生物群間の植生の種別識別に関連するような複雑な分類問題を評価した。 学習したスペクトル指標で定義される時系列を用いて、GPフレームワークは熱帯生物の識別・分類に使用される他の指標よりも優れた結果をもたらすことを示す。

We introduce a soft computing approach for automatically selecting and combining indices from remote sensing multispectral images that can be used for classification tasks. The proposed approach is based on a Genetic-Programming (GP) framework, a technique successfully used in a wide variety of optimization problems. Through GP, it is possible to learn indices that maximize the separability of samples from two different classes. Once the indices specialized for all the pairs of classes are obtained, they are used in pixelwise classification tasks. We used the GP-based solution to evaluate complex classification problems, such as those that are related to the discrimination of vegetation types within and between tropical biomes. Using time series defined in terms of the learned spectral indices, we show that the GP framework leads to superior results than other indices that are used to discriminate and classify tropical biomes.
翻訳日:2022-09-27 06:29:45 公開日:2020-11-10
# GANのグローバルロスランドスケープ化に向けて

Towards a Better Global Loss Landscape of GANs ( http://arxiv.org/abs/2011.04926v1 )

ライセンス: Link先を確認
Ruoyu Sun, Tiantian Fang, Alex Schwing(参考訳) GANトレーニングの理解は依然として極めて限られている。 主な課題の1つは、非凸非凸min-maxの目標であり、これは準最適局所極小に繋がる可能性がある。 本研究では,グローバルなランドスケープ解析を行い,GANの損失を実証した。 JS-GANを含む分離可能なGANのクラスは指数関数的に多くの悪い盆地を持ち、モード崩壊と見なされる。 また, 生成したサンプルと真のサンプルを結合した相対論的ペアリングGAN(RpGAN)損失についても検討した。 我々はRpGANが悪い盆地を持たないことを証明した。 合成データによる実験では、予測された悪い盆地は訓練中に実際に現れることが示されている。 また,RpGANは分離可能なGANよりもランドスケープが優れているという理論を支持する実験を行った。 例えば、RpGANは比較的狭いニューラルネットを持つ分離可能なGANよりも優れた性能を示す。 コードはhttps://github.com/AilsaF/RS-GANで公開されている。

Understanding of GAN training is still very limited. One major challenge is its non-convex-non-concave min-max objective, which may lead to sub-optimal local minima. In this work, we perform a global landscape analysis of the empirical loss of GANs. We prove that a class of separable-GAN, including the original JS-GAN, has exponentially many bad basins which are perceived as mode-collapse. We also study the relativistic pairing GAN (RpGAN) loss which couples the generated samples and the true samples. We prove that RpGAN has no bad basins. Experiments on synthetic data show that the predicted bad basin can indeed appear in training. We also perform experiments to support our theory that RpGAN has a better landscape than separable-GAN. For instance, we empirically show that RpGAN performs better than separable-GAN with relatively narrow neural nets. The code is available at https://github.com/AilsaF/RS-GAN.
翻訳日:2022-09-27 06:29:31 公開日:2020-11-10
# マルチタスク学習を用いたクラウドソーシングデータセットの質問応答可能性の決定

Determining Question-Answer Plausibility in Crowdsourced Datasets Using Multi-Task Learning ( http://arxiv.org/abs/2011.04883v1 )

ライセンス: Link先を確認
Rachel Gardner, Maya Varma, Clare Zhu, Ranjay Krishna(参考訳) ソーシャルネットワークやオンラインフォーラムから抽出されたデータセットは、しばしば自然言語の落とし穴、すなわち、構造化されていない、ノイズの多いデータによって引き起こされる。 本研究では,質分析とデータクリーニングの新たなタスクを提案することで,ソーシャルメディアからの質の高い質問応答データセットの収集を可能にすることを目指す。 マシンやユーザ生成の質問、ソーシャルメディアユーザからのクラウドソースの回答が与えられた場合、質問と回答が有効であるかどうかを判断します。 BERTをベースとしたモデルをQA検証タスクとして設計し,クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。 提案手法は,質問の妥当性を決定する単一タスクモデルと,回答の妥当性を評価するマルチタスクモデルと,回答を抽出する(クエストプラズビリティAUROC=0.75,レスポンスプラズビリティAUROC=0.78,アンサー抽出F1=0.665)。

Datasets extracted from social networks and online forums are often prone to the pitfalls of natural language, namely the presence of unstructured and noisy data. In this work, we seek to enable the collection of high-quality question-answer datasets from social media by proposing a novel task for automated quality analysis and data cleaning: question-answer (QA) plausibility. Given a machine or user-generated question and a crowd-sourced response from a social media user, we determine if the question and response are valid; if so, we identify the answer within the free-form response. We design BERT-based models to perform the QA plausibility task, and we evaluate the ability of our models to generate a clean, usable question-answer dataset. Our highest-performing approach consists of a single-task model which determines the plausibility of the question, followed by a multi-task model which evaluates the plausibility of the response as well as extracts answers (Question Plausibility AUROC=0.75, Response Plausibility AUROC=0.78, Answer Extraction F1=0.665).
翻訳日:2022-09-27 06:29:15 公開日:2020-11-10
# BERTをベースとした多言語音声言語理解における言語境界の理解

To What Degree Can Language Borders Be Blurred In BERT-based Multilingual Spoken Language Understanding? ( http://arxiv.org/abs/2011.05007v1 )

ライセンス: Link先を確認
Quynh Do, Judith Gaspers, Tobias Roding, Melanie Bradford(参考訳) 本稿では,BERTをベースとした多言語音声言語理解(SLU)モデルが言語間で知識を伝達できる程度について述べる。 実験を通して、それは遠くの言語グループでもかなりうまく機能するが、理想的な多言語のパフォーマンスにはまだギャップがあることを示す。 さらに,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。 実験の結果,提案モデルは理想的多言語性能にギャップを狭めることができることがわかった。

This paper addresses the question as to what degree a BERT-based multilingual Spoken Language Understanding (SLU) model can transfer knowledge across languages. Through experiments we will show that, although it works substantially well even on distant language groups, there is still a gap to the ideal multilingual performance. In addition, we propose a novel BERT-based adversarial model architecture to learn language-shared and language-specific representations for multilingual SLU. Our experimental results prove that the proposed model is capable of narrowing the gap to the ideal multilingual performance.
翻訳日:2022-09-27 06:28:56 公開日:2020-11-10
# 微分帰納論理プログラミングによる資源制約付き対話政策学習

Resource Constrained Dialog Policy Learning via Differentiable Inductive Logic Programming ( http://arxiv.org/abs/2011.05457v1 )

ライセンス: Link先を確認
Zhenpeng Zhou, Ahmad Beirami, Paul Crook, Pararth Shah, Rajen Subba, and Alborz Geramifard(参考訳) リソース制約付きダイアログポリシー学習の必要性に動機づけられ,微分可能帰納論理(dilog)によるダイアログポリシーを導入する。 我々は,simdial と multiwoz 上の dilog を用いて,ワンショット学習とゼロショットドメイン転送のタスクを検討する。 レストランドメインの1つの代表ダイアログを使用して、シムディアルデータセットでダイアログをトレーニングし、99+%のドメイン内テスト精度を得る。 また、訓練されたDILOGゼロショットは99%以上の精度で他のすべてのドメインに転送され、スロット充足ダイアログに対するDILOGの適合性が証明された。 さらに,本研究をマルチウォズデータセットに拡張し,90+%のインフォメーションとサクセスメトリックを実現する。 また,これらの指標は偽陽性という観点からはDILOGの欠点を捉えていないため,補助的行動F1スコアを測定する必要がある。 この結果から,DILOGはMultiWoZの最先端ニューラルネットワークに比べて100倍のデータ効率が向上し,類似のパフォーマンス指標が得られた。 本稿では,DILOGの強みと弱みについて論じる。

Motivated by the needs of resource constrained dialog policy learning, we introduce dialog policy via differentiable inductive logic (DILOG). We explore the tasks of one-shot learning and zero-shot domain transfer with DILOG on SimDial and MultiWoZ. Using a single representative dialog from the restaurant domain, we train DILOG on the SimDial dataset and obtain 99+% in-domain test accuracy. We also show that the trained DILOG zero-shot transfers to all other domains with 99+% accuracy, proving the suitability of DILOG to slot-filling dialogs. We further extend our study to the MultiWoZ dataset achieving 90+% inform and success metrics. We also observe that these metrics are not capturing some of the shortcomings of DILOG in terms of false positives, prompting us to measure an auxiliary Action F1 score. We show that DILOG is 100x more data efficient than state-of-the-art neural approaches on MultiWoZ while achieving similar performance metrics. We conclude with a discussion on the strengths and weaknesses of DILOG.
翻訳日:2022-09-27 06:28:46 公開日:2020-11-10