このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210409となっている論文です。

PDF登録状況(公開日: 20210409)

TitleAuthorsAbstract論文公表日・翻訳日
# 循環系における文脈性の疫学

Epistemic Odds of Contextuality in Cyclic Systems ( http://arxiv.org/abs/2002.07755v6 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov, Janne V. Kujala, V\'ictor H. Cervantes(参考訳) ベルの定理から始まり、ディコトナス確率変数の巡回系は量子力学における多くの基礎的な発見の対象となっている。 ここで質問する:もし循環系を「ランダムに」選択すれば(与えられた限界を持つ全ての可能なシステムのハイパーボックス内で一様に)、文脈的確率はどうなるのか? システムのサイズが大きくなるにつれて、文脈性の確率は急速にゼロになる傾向がある。 この結果は、システムに非摂動的/信号的制約が課せられていると仮定する必要のない、コンテキスト・バイ・Default理論に基づいている。

Beginning with the Bell theorem, cyclic systems of dichotomous random variables have been the object of many foundational findings in quantum mechanics. Here, we ask the question: if one chooses a cyclic system "at random" (uniformly within the hyperbox of all possible systems with given marginals), what are the odds that it will be contextual? We show that the odds of contextuality rapidly tend to zero as the size of the system increases. The result is based on the Contextuality-by-Default theory, in which we do not have to assume that the systems are subject to the no-disturbance/no-signaling constraints.
翻訳日:2023-06-03 07:03:00 公開日:2021-04-09
# トラップイオン量子CCDコンピュータアーキテクチャの実証

Demonstration of the trapped-ion quantum-CCD computer architecture ( http://arxiv.org/abs/2003.01293v4 )

ライセンス: Link先を確認
J. M. Pino, J. M. Dreiling, C. Figgatt, J. P. Gaebler, S. A. Moses, M. S. Allman, C. H. Baldwin, M. Foss-Feig, D. Hayes, K. Mayer, C. Ryan-Anderson, and B. Neyenhuis(参考訳) トラップイオンQCCD(量子電荷結合デバイス)アーキテクチャの提案は、普遍量子コンピュータの青写真を作成する。 設計は、複数のイオン(またはイオン結晶)をトラップする2次元表面に電極がパターン化されることから始まる。 イオン結晶ネットワーク内の通信により、各結晶中のイオン数を少ない数に保ちながら、機械をスケールできるため、閉じ込められたイオン実験で示された低いエラー率を維持することができる。 空間を移動して他の遠いイオンと相互作用することで量子情報を伝えることで、アーキテクチャは完全な接続性を持つ量子コンピュータを生成する。 しかし、この完全に接続されたコンピュータのエンジニアリングは、提案から20年でアーキテクチャが完全に実現されることを妨げている多くの困難をもたらす。 本報告では,ハネウェル低温表面トラップを用いて,QCCDアーキテクチャに必要なすべての成分をプログラム可能なトラップイオン量子コンピュータに統合する。 4量子ビット回路と6量子ビット回路を用いて、中間回路計測と2^6=64$の量子体積測定を利用したCNOTゲートの忠実度でプロセッサのシステムレベル性能を定量化する。 小型イオン結晶で実現可能な低エラーレートをスケーラブルなトラップ設計、並列光伝送、高速イオン輸送とうまく統合できることを実証することで、qccdアーキテクチャは大規模量子コンピュータに向けた有効な経路であることが示されている。 原子イオンは完全な同一の高忠実性量子ビットを提供する。 我々の研究は、これらの量子ビットを中心に構築されたQCCDアーキテクチャが高性能な量子コンピュータを提供することを示している。

The trapped-ion QCCD (quantum charge-coupled device) architecture proposal lays out a blueprint for a universal quantum computer. The design begins with electrodes patterned on a two-dimensional surface configured to trap multiple arrays of ions (or ion crystals). Communication within the ion crystal network allows for the machine to be scaled while keeping the number of ions in each crystal to a small number, thereby preserving the low error rates demonstrated in trapped-ion experiments. By proposing to communicate quantum information by moving the ions through space to interact with other distant ions, the architecture creates a quantum computer endowed with full-connectivity. However, engineering this fully-connected computer introduces a host of difficulties that have precluded the architecture from being fully realized in the twenty years since its proposal. Using a Honeywell cryogenic surface trap, we report on the integration of all necessary ingredients of the QCCD architecture into a programmable trapped-ion quantum computer. Using four and six qubit circuits, the system level performance of the processor is quantified by the fidelity of a teleported CNOT gate utilizing mid-circuit measurement and a quantum volume measurement of $2^6=64$. By demonstrating that the low error rates achievable in small ion crystals can be successfully integrated with a scalable trap design, parallel optical delivery, and fast ion transport, the QCCD architecture is shown to be a viable path toward large quantum computers. Atomic ions provide perfectly identical, high-fidelity qubits. Our work shows that the QCCD architecture built around these qubits will provide high performance quantum computers, likely enabling important near-term demonstrations such as quantum error correction and quantum advantage.
翻訳日:2023-05-31 07:48:17 公開日:2021-04-09
# 量子コヒーレンス共鳴

Quantum Coherence Resonance ( http://arxiv.org/abs/2006.09203v2 )

ライセンス: Link先を確認
Yuzuru Kato, Hiroya Nakao(参考訳) コヒーレンス共鳴(coherence resonance)は、非線形励起系におけるノイズ誘起振動の正則性が一定の最適な雑音強度で最大化される現象であり、量子散逸系で観測できることを示した。 量子マスター方程式の数値シミュレーションにより,古典的極限における双安定励起性を示す量子ファンデルポル系の解析を行った。 まず、量子コヒーレンス共鳴が半古典的状態、すなわちシステムの振動応答の正則性が量子揺らぎの最適強度で最大化されることを示し、この現象を半古典的確率微分方程式を用いた古典的なノイズ励起系と類似させて解釈する。 この共鳴は、半古典的記述が無効である適度に強い量子ゆらぎの下で持続する。 さらに,より強固な量子構造の研究を行い,量子揺らぎの強度がさらに増大するにつれて,システムの応答の正則性が第2のピークを示すことを示した。 この共鳴の2番目のピークは強い量子効果であり、半古典的な図では解釈できない。

It is shown that coherence resonance, a phenomenon in which regularity of noise-induced oscillations in nonlinear excitable systems is maximized at a certain optimal noise intensity, can be observed in quantum dissipative systems. We analyze a quantum van der Pol system subjected to squeezing, which exhibits bistable excitability in the classical limit, by numerical simulations of the quantum master equation. We first demonstrate that quantum coherence resonance occurs in the semiclassical regime, namely, the regularity of the system's oscillatory response is maximized at an optimal intensity of quantum fluctuations, and interpret this phenomenon by analogy with classical noisy excitable systems using semiclassical stochastic differential equations. This resonance persists under moderately strong quantum fluctuations for which the semiclassical description is invalid. Moreover, we investigate even stronger quantum regimes and demonstrate that the regularity of the system's response can exhibit the second peak as the intensity of the quantum fluctuations is further increased. We show that this second peak of resonance is a strong quantum effect that cannot be interpreted by a semiclassical picture, in which only a few energy states participate in the system dynamics.
翻訳日:2023-05-13 18:11:03 公開日:2021-04-09
# マヨラナ量子ビットの雑音量子ドットに基づく測定の可視化

Visibility of noisy quantum dot-based measurements of Majorana qubits ( http://arxiv.org/abs/2007.11024v3 )

ライセンス: Link先を確認
Aleksei Khindanov, Dmitry Pikulin, Torsten Karzig(参考訳) 量子ドット(QD)に基づくマヨラナゼロモード(MZM)の測定スキームは、トポロジカル量子計算のためのスケーラブルなプラットフォームを提供するため、現在注目されている。 結合量子QDでは、2-MZMと4-MZMの測定の両方に対して、QDの電荷とその差分容量が実験的に調整可能なパラメータに与える影響を計算する。 脱調,トンネル振幅,位相の1/f$ノイズを考慮し,測定視認性に及ぼす騒音の影響を定量化する。 その結果,QDに対するノイズ結合は,位相的量子ビットの高忠実度測定の限界ではないことがわかった。

Measurement schemes of Majorana zero modes (MZMs) based on quantum dots (QDs) are of current interest as they provide a scalable platform for topological quantum computation. In a coupled qubit-QD setup we calculate the dependence of the charge of the QD and its differential capacitance on experimentally tunable parameters for both 2-MZM and 4-MZM measurements. We quantify the effect of noise on the measurement visibility by considering $1/f$ noise in detuning, tunneling amplitudes or phase. We find that on- or close-to-resonance measurements are generally preferable and predict, using conservative noise estimates, that noise coupling to the QDs is not a limitation to high-fidelity measurements of topological qubits.
翻訳日:2023-05-08 20:37:58 公開日:2021-04-09
# 微分可能プログラミングと自然進化戦略によるマヨラナの量子制御のためのプロトコル探索

Protocol Discovery for the Quantum Control of Majoranas by Differentiable Programming and Natural Evolution Strategies ( http://arxiv.org/abs/2008.09128v2 )

ライセンス: Link先を確認
Luuk Coopmans, Di Luo, Graham Kells, Bryan K. Clark and Juan Carrasquilla(参考訳) 量子制御(Quantum control)とは、量子力学の法則によって記述される物理系の能動的操作を指し、量子技術の発展に不可欠な要素である。 ここでは、超伝導ナノワイヤにおけるマヨラナゼロモードの最適輸送に微分可能プログラミング(DP)と自然進化戦略(NES)を適用し、マヨラナに基づく位相量子計算の成功の鍵となる要素である。 我々は,マヨラナゼロモードの運動制御を最適化問題として定式化し,システムの臨界速度と総輸送時間に対する4つの異なる状態の新しい分類法を提案する。 断熱的な方法で予測された滑らかなプロトコルを正しく回収することに加えて、本アルゴリズムは非断熱的な方法で効率的だが直観に反する動き戦略を明らかにする。 創発的な画像は、プロトコルの初めと終わりにパルスのようなジャンプを、ジャンプ間の一定速度の周期で利用し、jump-move-jumpプロトコルをダビングする、単純で高忠実な戦略を示しています。 移動フレームにおけるマヨラナ運動の急激な近似と再構成を利用して、ジャンプ・ムーブ・ジャンプ制御戦略の重要な特徴を照らす透明半解析画像を提供する。 ジャンプ・ムーブ・ジャンプ・プロトコルは相互作用や障害の存在に対して頑健であり、現実的な近接結合ナノワイヤモデルにおいて高い有効性を示す。 本研究では,量子制御のための機械学習を,大規模量子技術の実現と関連する性能レベルを持つ量子多体力学系に適用できることを実証する。

Quantum control, which refers to the active manipulation of physical systems described by the laws of quantum mechanics, constitutes an essential ingredient for the development of quantum technology. Here we apply Differentiable Programming (DP) and Natural Evolution Strategies (NES) to the optimal transport of Majorana zero modes in superconducting nanowires, a key element to the success of Majorana-based topological quantum computation. We formulate the motion control of Majorana zero modes as an optimization problem for which we propose a new categorization of four different regimes with respect to the critical velocity of the system and the total transport time. In addition to correctly recovering the anticipated smooth protocols in the adiabatic regime, our algorithms uncover efficient but strikingly counter-intuitive motion strategies in the non-adiabatic regime. The emergent picture reveals a simple but high fidelity strategy that makes use of pulse-like jumps at the beginning and the end of the protocol with a period of constant velocity in between the jumps, which we dub the jump-move-jump protocol. We provide a transparent semi-analytical picture, which uses the sudden approximation and a reformulation of the Majorana motion in a moving frame, to illuminate the key characteristics of the jump-move-jump control strategy. We verify that the jump-move-jump protocol remains robust against the presence of interactions or disorder, and corroborate its high efficacy on a realistic proximity coupled nanowire model. Our results demonstrate that machine learning for quantum control can be applied efficiently to quantum many-body dynamical systems with performance levels that make it relevant to the realization of large-scale quantum technology.
翻訳日:2023-05-05 12:16:47 公開日:2021-04-09
# カルタン分解による$sl(2, \mathbb{c})$の有限平均集合の構成について

On construction of finite averaging sets for $SL(2, \mathbb{C})$ via its Cartan decomposition ( http://arxiv.org/abs/2010.15783v3 )

ライセンス: Link先を確認
Marcin Markiewicz and Janusz Przewocki(参考訳) リー群に対する物理量の平均化は、量子情報科学や量子光学のような急速に発展する物理学の分野にまたがる多くの文脈に現れる。 そのような平均化過程は、常に、有限平均集合と呼ばれる群の有限個の元に対して平均化として表すことができる。 以前の研究では、このようなセットは$t$-designsとして知られ、ユニタリ群を平均化する場合にのみ構築された(ユニタリ$t$-designsという名前である)。 本研究では、一般の非コンパクト行列リー群を平均化するための有限平均集合を構築する問題を考察する。これは群多様体(ハール測度)上の一様不変測度が無限であるという事実から、はるかに微妙な課題である。 群をコンパクトかつ非コンパクトな成分に分割する、群のカルタン分解に基づくそのような集合の一般構成を提供する。 コンパクト部分上の平均化は一様であるが、非コンパクト部分上の平均化は代用重量関数で与えられなければならず、一般化されたガウス二次数を用いてアプローチすることができる。 これにより、コンパクトかつ非コンパクトな部分に対する有限平均集合の積形式における半単純行列リー群に対する有限平均集合の一般形式が導かれる。 我々は群 $SL(2, \mathbb{C})$ に対してそのような集合を明示的に計算するが、この構成は他の場合にも適用できる。 この結果は、量子情報科学や量子光学におけるランダム演算の有限エンサンブルの発見をカバーしており、光干渉計実装を含むランダム化量子アルゴリズムの構築に利用することができる。

Averaging physical quantities over Lie groups appears in many contexts across the rapidly developing branches of physics like quantum information science or quantum optics. Such an averaging process can be always represented as averaging with respect to a finite number of elements of the group, called a finite averaging set. In the previous research such sets, known as $t$-designs, were constructed only for the case of averaging over unitary groups (hence the name unitary $t$-designs). In this work we investigate the problem of constructing finite averaging sets for averaging over general non-compact matrix Lie groups, which is much more subtle task due to the fact that the the uniform invariant measure on the group manifold (the Haar measure) is infinite. We provide a general construction of such sets based on the Cartan decomposition of the group, which splits the group into its compact and non-compact components. The averaging over the compact part can be done in a uniform way, whereas the averaging over the non-compact one has to be endowed with a suppresing weight function, and can be approached using generalised Gauss quadratures. This leads us to the general form of finite averaging sets for semisimple matrix Lie groups in the product form of finite averaging sets with respect to the compact and non-compact parts. We provide an explicit calculation of such sets for the group $SL(2, \mathbb{C})$, although our construction can be applied to other cases. Possible applications of our results cover finding finite ensambles of random operations in quantum information science and quantum optics, which can be used in constructions of randomised quantum algorithms, including optical interferometric implementations.
翻訳日:2023-04-27 00:40:20 公開日:2021-04-09
# 普遍Fibonacci Turaev-Viro符号の量子誤差補正しきい値

Quantum error correction thresholds for the universal Fibonacci Turaev-Viro code ( http://arxiv.org/abs/2012.04610v2 )

ライセンス: Link先を確認
Alexis Schotte, Guanyu Zhu, Lander Burgelman, Frank Verstraete(参考訳) 我々は、拡張されたfibonaccistring-netコードをエンコードするトーラス上の量子ビットの二次元量子メモリを検討し、これらの量子ビットが非分極化ノイズを受ける場合の誤り訂正戦略を考案する。チューブ代数の概念に基づいて、任意の量子ビットエラーを文字列-ネット部分空間にマップする一連の測定と量子ゲートを構築し、結果として生じるエラーシンドロームを2倍のfibonaccianyonでキャラクタリゼーションできるようにする。 テンソルネットワーク技術は、弦-ネット部分空間上のパウリノイズの作用を定量的に研究することができる。 このフィボナッチ符号における誤り訂正のモンテカルロシミュレーションを行い,複数のデコーダの性能を比較する。 定速サンプリング脱分極ノイズモデルの場合、クラスタリングデコーダを用いて誤差補正しきい値が4.7%となる。 我々の知る限りでは、符号空間内で普遍的な量子計算を行うための2次元誤り訂正符号のしきい値が推定されたのは、これが初めてである。

We consider a two-dimensional quantum memory of qubits on a torus which encode the extended Fibonaccistring-net code, and devise strategies for error correction when those qubits are subjected to depolarizing noise.Building on the concept of tube algebras, we construct a set of measurements and of quantum gates whichmap arbitrary qubit errors to the string-net subspace and allow for the characterization of the resulting errorsyndrome in terms of doubled Fibonacci anyons. Tensor network techniques then allow to quantitatively studythe action of Pauli noise on the string-net subspace. We perform Monte Carlo simulations of error correctionin this Fibonacci code, and compare the performance of several decoders. For the case of a fixed-rate samplingdepolarizing noise model, we find an error correction threshold of 4.7% using a clustering decoder. To the bestof our knowledge, this is the first time that a threshold has been estimated for a two-dimensional error correctingcode for which universal quantum computation can be performed within its code space via braiding anyons
翻訳日:2023-04-21 18:14:30 公開日:2021-04-09
# ほぼ同期量子相関

Almost synchronous quantum correlations ( http://arxiv.org/abs/2103.02468v2 )

ライセンス: Link先を確認
Thomas Vidick(参考訳) 1980年代にツィレルソンによって始められた量子相関集合の研究は、量子力学の基礎における疑問に動機付けられ、近年では量子暗号学、複雑性理論、作用素空間理論、群論などの問題に結びついている。 Paulsen et. al, JFA 2016] で導入された同期相関集合は、特に研究に有用であることが証明され、応用において自然に現れる相関のサブクラスである。 自然な$\ell_1$ の意味でほぼ同期的な相関関係は、最大に絡み合った状態における射影計測の凸結合によって近似された状態と測定演算子から生じる。 これは[paulsen et. al, jfa 2016]の結果を拡張したものである。 重要なことに、近似の質はヒルベルト空間の次元や相関の大きさとは独立である。 この結果により、剛性特性を含む多くの非局所ゲームの解析を、一般に操作し易い最大絡み合った状態を用いた戦略の場合に行うことができる。

The study of quantum correlation sets initiated by Tsirelson in the 1980s and originally motivated by questions in the foundations of quantum mechanics has more recently been tied to questions in quantum cryptography, complexity theory, operator space theory, group theory, and more. Synchronous correlation sets introduced in [Paulsen et. al, JFA 2016] are a subclass of correlations that has proven particularly useful to study and arises naturally in applications. We show that any correlation that is almost synchronous, in a natural $\ell_1$ sense, arises from a state and measurement operators that are well-approximated by a convex combination of projective measurements on a maximally entangled state. This extends a result of [Paulsen et. al, JFA 2016] which applies to exactly synchronous correlations. Crucially, the quality of approximation is independent of the dimension of the Hilbert spaces or of the size of the correlation. Our result allows one to reduce the analysis of many classes of nonlocal games, including rigidity properties, to the case of strategies using maximally entangled states which are generally easier to manipulate.
翻訳日:2023-04-09 08:01:46 公開日:2021-04-09
# 静的線形光学を用いたフォールトトレラント量子計算

Fault-tolerant quantum computation with static linear optics ( http://arxiv.org/abs/2104.03241v2 )

ライセンス: Link先を確認
Ilan Tzitrin, Takaya Matsuura, Rafael N. Alexander, Guillaume Dauphinais, J. Eli Bourassa, Krishna K. Sabapathy, Nicolas C. Menicucci, Ish Dhand(参考訳) Gottesman-Kitaev-Preskill(GKP)量子ビットに基づくフォールトトレラント量子コンピューティングのフォトニック実装のスケーラビリティは、線形光ネットワークのインラインスクイーズと再構成性の要求により損なわれる。 本研究では,これらの要素を - 実際,利点として - 無償で - 除去して,準備のオーバーヘッドを宣言する,トポロジカルなエラー訂正アーキテクチャを提案する。 我々のコンピュータは,gkp状態の確率的源の2dアレイ,静的ビームスプリッターの深さ4回路,位相シフト回路,単一時間ステップ遅延線路,ホモダイン検出器の2dアレイの3つのモジュールからなる。 提案回路の対称性により、雑音モデルにおける有限スキューズと均一光子損失の影響を組み合わせ、より包括的なしきい値推定を行うことができる。 これらはアーキテクチャ上のハードルと分析上のハードルを乗り越え、フォトニック量子コンピュータの構築をかなり加速させる。

The scalability of photonic implementations of fault-tolerant quantum computing based on Gottesman-Kitaev-Preskill (GKP) qubits is injured by the requirements of inline squeezing and reconfigurability of the linear optical network. In this work we propose a topologically error-corrected architecture that does away with these elements at no cost - in fact, at an advantage - to state preparation overheads. Our computer consists of three modules: a 2D array of probabilistic sources of GKP states; a depth-four circuit of static beamsplitters, phase shifters, and single-time-step delay lines; and a 2D array of homodyne detectors. The symmetry of our proposed circuit allows us to combine the effects of finite squeezing and uniform photon loss within the noise model, resulting in more comprehensive threshold estimates. These jumps over both architectural and analytical hurdles considerably expedite the construction of a photonic quantum computer.
翻訳日:2023-04-05 02:19:27 公開日:2021-04-09
# 周波数変調によるビット緩和率の安定化

Stabilization of Qubit Relaxation Rates by Frequency Modulation ( http://arxiv.org/abs/2104.03695v2 )

ライセンス: Link先を確認
Shlomi Matityahu, Alexander Shnirman, Moshe Schechter(参考訳) 量子ビットのコヒーレンス特性における時間的・スペクトル的・サンプル間変動は、高スケールのフォールトトレラント量子コンピュータの開発において顕著な課題となっている。 超伝導量子ビットにおけるこれらのゆらぎのユビキタス源は、2レベル構造を持つ原子スケール欠陥の集合である。 本稿では,これらのゆらぎを緩和し,量子ビット性能を安定化する方法を提案する。 量子ビットの周波数変調、あるいは2レベル欠陥の周波数変調は、広い周波数間隔での量子ビット緩和率の平均化につながることを示す。

Temporal, spectral, and sample-to-sample fluctuations in coherence properties of qubits form an outstanding challenge for the development of upscaled fault-tolerant quantum computers. A ubiquitous source for these fluctuations in superconducting qubits is a set of atomic-scale defects with a two-level structure. Here we propose a way to mitigate these fluctuations and stabilize the qubit performance. We show that frequency modulation of a qubit or, alternatively, of the two-level defects, leads to averaging of the qubit relaxation rate over a wide interval of frequencies.
翻訳日:2023-04-04 12:02:38 公開日:2021-04-09
# 集団ネットワーク構造が遺伝的アルゴリズムの最適化性能に与える影響

Population network structure impacts genetic algorithm optimisation performance ( http://arxiv.org/abs/2104.04254v1 )

ライセンス: Link先を確認
Aymeric Vie(参考訳) 遺伝的アルゴリズム(英: genetic algorithm, GA)は、自然進化をシミュレートして解の集団を最適化する探索法である。 良いソリューションは、より良い候補を作るために一緒に再現します。 標準GAは、任意の2つの解が一致できると仮定する。 しかし、自然と社会的文脈において、ソーシャルネットワークは2人が交尾する可能性を条件にすることができる。 GAの性能に対する人口ネットワーク構造の影響は不明である。 本稿では,ネットワーク遺伝的アルゴリズム(NGA)を導入し,様々なランダム・スケールフリー集団ネットワークがベンチマーク関数上でのGAの最適化性能に与える影響を評価する。 ネットワークが変化するにつれてNGAの性能が著しく変化することを示す。 さらに,中間密度と最短経路長の低さを特徴とする最もパフォーマンスの高い人口ネットワークは,標準完全ネットワークgaを大きく上回っていることがわかった。 これらの結果は、ネットワークチューニングとネットワーク制御の出発点となり得る: 人口のネットワーク構造を、進化的アルゴリズムの性能を向上させるために調整できるパラメータと見なし、より現実的な社会学習モデルを提供する。

A genetic algorithm (GA) is a search method that optimises a population of solutions by simulating natural evolution. Good solutions reproduce together to create better candidates. The standard GA assumes that any two solutions can mate. However, in nature and social contexts, social networks can condition the likelihood that two individuals mate. This impact of population network structure over GAs performance is unknown. Here we introduce the Networked Genetic Algorithm (NGA) to evaluate how various random and scale-free population networks influence the optimisation performance of GAs on benchmark functions. We show evidence of significant variations in performance of the NGA as the network varies. In addition, we find that the best-performing population networks, characterised by intermediate density and low average shortest path length, significantly outperform the standard complete network GA. These results may constitute a starting point for network tuning and network control: seeing the network structure of the population as a parameter that can be tuned to improve the performance of evolutionary algorithms, and offer more realistic modelling of social learning.
翻訳日:2023-04-04 08:03:21 公開日:2021-04-09
# ソフトx線自由電子レーザーにおけるハンベリーブラウンおよびtwiss干渉法の理論的解析

Theoretical Analysis of Hanbury Brown and Twiss Interferometry at Soft X-ray Free-Electron Lasers ( http://arxiv.org/abs/2104.04249v1 )

ライセンス: Link先を確認
Ivan A. Vartanyants and Ruslan Khubbutdinov(参考訳) 本研究では,軟X線自由電子レーザー(XFEL)実験における2次相関関数の解析の理論的背景を提供する。 通常、XFELの軟X線ビームラインは可変線間隔(VLS)モノクロマターによって構成される。 有限モノクロマター分解能と出口スリット幅との相互作用を特に考慮して、このようなVLSモノクロマターによるビーム伝搬の検証を行う。 次に,スペクトル領域と空間領域の2次相関強度の一般解析を行う。 最後に、これらの関数をガウス・シェルモデルパルスの極限におけるモノクロマター単位に届くビームの統計的性質と接続する。

In this work we provide theoretical background for the analysis of second-order correlation functions in experiments performed at the soft x-ray free-electron lasers (XFELs). Typically, soft x-ray beamlines at XFELs are equipped by the variable line spacing (VLS) monochromators. We perform examination of the beam propagation through such VLS monochromator taking specially into account the interplay between the finite monochromator resolution and the exit slits width. We then provide general analysis of the second-order correlation intensities in spectral and spatial domains. Finally, we connect these functions with the statistical properties of the beam incoming to the monochromator unit in the limit of Gaussian Schell-model pulses.
翻訳日:2023-04-04 08:03:04 公開日:2021-04-09
# 分断を超えて: ライドシェアリングが公共交通機関とどのように競合するか

Beyond the Dichotomy: How Ride-hailing Competes with and Complements Public Transport ( http://arxiv.org/abs/2104.04208v1 )

ライセンス: Link先を確認
Oded Cats, Rafa{\l} Kucharski, Santosh Rao Danda, Menno Yap(参考訳) ライドシェアリングは世界中の多くの都市で重要な交通手段となっているため、公共交通サービスと競合するか補完するかで激しい議論が続いている。 私たちは、米国と欧州の6都市でuber tripデータを使用して、各乗車に最も魅力的な公共交通手段を特定しています。 次に次の質問に答えます (i)相乗りの旅行時間とコストは、最も速い公共交通機関と比較してどうですか。 (ii)公共交通機関の代替手段がない配車旅行の割合はどのくらいか。 (iii)ライドシェアリングはサービス全体のアクセシビリティをどのように変化させるか? 4)2つの選択肢間の需要シェアと相対競争の関係はどのようなものか。 以上の結果から, 術式と競合または相補性は偽であると考えられた。 配車サービスの大半は公共交通機関の代替手段となっているが、20%から40%は公共交通機関の代替手段を持っていない。 配車サービスの導入によるサービスアクセシビリティの向上は、米国の都市において、ヨーロッパの都市よりも大きい。 需要の分裂は、旅行時間の相対的な競争性、すなわち公共交通機関の移動時間が競争力のある配車需要のシェアが低く、逆転している場合に直接関係している。

Since ride-hailing has become an important travel alternative in many cities worldwide, a fervent debate is underway on whether it competes with or complements public transport services. We use Uber trip data in six cities in the United States and Europe to identify the most attractive public transport alternative for each ride. We then address the following questions: (i) How does ride-hailing travel time and cost compare to the fastest public transport alternative? (ii) What proportion of ride-hailing trips that do not have a viable public transport alternative? (iii) How does ride-hailing change overall service accessibility? (iv) What is the relation between demand share and relative competition between the two alternatives? Our findings suggest that the dichotomy - competing with or complementing - is false. Though the vast majority of ride-hailing trips have a viable public transport alternative, between 20% and 40% of them have no viable public transport alternative. The increased service accessibility attributed to the inclusion of ride-hailing is greater in our US cities than in their European counterparts. Demand split is directly related to the relative competitiveness of travel times i.e. when public transport travel times are competitive ride-hailing demand share is low and vice-versa.
翻訳日:2023-04-04 08:02:07 公開日:2021-04-09
# 光子封鎖によるオンデマンドヘラルド単一光子源を目指して

Towards On-Demand Heralded Single-Photon Sources via Photon Blockade ( http://arxiv.org/abs/2104.04178v1 )

ライセンス: Link先を確認
Jiangshan Tang, Lei Tang, Haodong Wu, Yang Wu, Hui Sun, Han Zhang, Tao Li, Yanqing Lu, Min Xiao and Keyu Xia(参考訳) レーザー励起光非線形媒体における自発パラメトリックダウンコンバージョン(SPDC)は、高い純度であるが非常に低収率の単光子を生成することができる。 SPDCのポンプパワーを増大させることで収量を改善することは、多光子事象の励起による純度を必然的に低下させる。 キャビティ強化SPDCにおける多光子現象を光子遮断効果によって抑制し, この純度-収率トレードオフを克服する手法を提案する。 キャビティ内媒体に強い光子-光子相互作用を導入し、ポンプ出力を増大させることで、利用可能な単光子収率を90\%$以上に改善できると同時に、SPDCプロセスによる単光子のオンデマンド生成に向けて99\%$高純度を維持することができる。 当社の準オンデマンドSPDCソースは、単一光子ベースの量子情報技術を促進する可能性がある。

Spontaneous parametric down-conversion (SPDC) in a laser pumped optical nonlinear medium can produce heralded single photons with a high purity but a very low yield. Improving the yield by increasing the pump power in SPDC inevitably reduces the purity due to excitation of multi-photon events. We propose a scheme to overcome this purity-yield trade-off by suppressing multi-photon events in a cavity-enhanced SPDC via the photon blockade effect. By introducing a strong photon-photon interaction into the intracavity medium and increasing the pump power, we can improve the available single-photon yield to larger than $90\%$, while maintaining a high purity of $99\%$, towards on-demand generation of single photons through the SPDC process. Our quasi-on-demand SPDC sources may boost single-photon-based quantum information technology.
翻訳日:2023-04-04 08:01:32 公開日:2021-04-09
# 量子強化ボソニック学習マシン

Quantum-enhanced bosonic learning machine ( http://arxiv.org/abs/2104.04168v1 )

ライセンス: Link先を確認
Chi-Huan Nguyen, Ko-Wei Tseng, Gleb Maslennikov, H. C. J. Gan, Dzmitry Matsukevich(参考訳) 量子プロセッサは、高次元ベクトルの並列操作による機械学習の計算スピードアップを可能にする。 量子機械学習の初期の実証は、qubitsで情報を処理することに焦点を当てている。 このようなシステムでは、より大きい計算空間は複数の物理量子ビットの集合空間によって提供される。 あるいは、量子調和振動子のようなボゾン系の無限次元ヒルベルト空間で情報を符号化して処理することができる。 このアプローチは、実用的な機械学習問題に対する潜在的な量子スピードアップを備えた、ハードウェア効率の良いソリューションを提供する。 ここでは,捕捉イオンの系を用いて量子データ上で動作する量子エンハンスボソニック学習マシンを示す。 学習プロセッサのコア要素は、イオンの運動状態にデータをエンコードする普遍的な特徴埋め込み回路と、2つの量子状態間の重なりを推定する定数深さ回路である。 教師なしk-meansアルゴリズムを実装し,高次元量子状態のパターンを認識し,未知の量子状態を教師なしk-nnアルゴリズムで分類する。 これらの結果は、ボソニックプロセッサを用いて機械学習を探索するためのビルディングブロックを提供する。

Quantum processors enable computational speedups for machine learning through parallel manipulation of high-dimensional vectors. Early demonstrations of quantum machine learning have focused on processing information with qubits. In such systems, a larger computational space is provided by the collective space of multiple physical qubits. Alternatively, we can encode and process information in the infinite-dimensional Hilbert space of bosonic systems such as quantum harmonic oscillators. This approach offers a hardware-efficient solution with potential quantum speedups to practical machine learning problems. Here we demonstrate a quantum-enhanced bosonic learning machine operating on quantum data with a system of trapped ions. Core elements of the learning processor are the universal feature-embedding circuit that encodes data into the motional states of ions, and the constant-depth circuit that estimates overlap between two quantum states. We implement the unsupervised K-means algorithm to recognize a pattern in a set of high-dimensional quantum states and use the discovered knowledge to classify unknown quantum states with the supervised k-NN algorithm. These results provide building blocks for exploring machine learning with bosonic processors.
翻訳日:2023-04-04 08:01:14 公開日:2021-04-09
# プログラム可能な量子シミュレータによる位相スピン液体の探索

Probing Topological Spin Liquids on a Programmable Quantum Simulator ( http://arxiv.org/abs/2104.04119v1 )

ライセンス: Link先を確認
Giulia Semeghini, Harry Levine, Alexander Keesling, Sepehr Ebadi, Tout T. Wang, Dolev Bluvstein, Ruben Verresen, Hannes Pichler, Marcin Kalinowski, Rhine Samajdar, Ahmed Omran, Subir Sachdev, Ashvin Vishwanath, Markus Greiner, Vladan Vuletic, Mikhail D. Lukin(参考訳) 量子スピン液体は、トポロジカルな秩序を持つ物質のエキゾチックな相であり、過去数十年間、物理科学における探究の主要な焦点であった。 このような位相は長距離量子絡み合いを特徴とし、堅牢な量子計算を実現するために利用することができる。 219原子プログラム可能な量子シミュレータを用いて量子スピン状態の探索を行う。 このアプローチでは、原子の配列をカゴメ格子のリンク上に配置し、rydbergブロック下での進化は局所順序を持たないフラストレーション量子状態を生成する。 トリック符号型の量子スピン液体相の開始は、トポロジカル順序と量子相関の直接的なシグネチャを提供するトポロジカル弦演算子を評価することによって検出される。 その性質は非自明なトポロジーを持つアトムアレイを用いてさらに明らかにされ、トポロジカルエンコーディングへの第一歩を示している。 我々の観測により、トポロジカル量子物質の実験的探索と保護量子情報処理が可能となった。

Quantum spin liquids, exotic phases of matter with topological order, have been a major focus of explorations in physical science for the past several decades. Such phases feature long-range quantum entanglement that can potentially be exploited to realize robust quantum computation. We use a 219-atom programmable quantum simulator to probe quantum spin liquid states. In our approach, arrays of atoms are placed on the links of a kagome lattice and evolution under Rydberg blockade creates frustrated quantum states with no local order. The onset of a quantum spin liquid phase of the paradigmatic toric code type is detected by evaluating topological string operators that provide direct signatures of topological order and quantum correlations. Its properties are further revealed by using an atom array with nontrivial topology, representing a first step towards topological encoding. Our observations enable the controlled experimental exploration of topological quantum matter and protected quantum information processing.
翻訳日:2023-04-04 08:00:45 公開日:2021-04-09
# 高速CV-QKDによる高密度5G無線ネットワーク用モバイルWDMフロントホール

High Rate CV-QKD Secured Mobile WDM Fronthaul for Dense 5G Radio Networks ( http://arxiv.org/abs/2104.04360v1 )

ライセンス: Link先を確認
Dinka Milovan\v{c}ev, Nemanja Voki\'c, Fabian Laudenbach, Christoph Pacher, Hannes H\"ubel, and Bernhard Schrenk (AIT Austrian Institute of Technology)(参考訳) コヒーレントイントラダイン受信機による量子ヘテロダイン測定に基づく連続可変量子鍵分布(CV-QKD)システムのコヒーレント伝送手法を5Gモバイルフロントホールリンクの枠組みで実験的に実証した。 連続光キャリア同期は、周波数と偏波の両方においてパイロットトーンとして量子信号に多重化されるトレーニング情報を介して得られる。 光キャリア抑制とシングルサイドバンド変調によるスペクトル調整を採用し、量子チャネルへのクロストークの緩和とパイロットトーンの自己干渉を同時に行うことにより、このトレーニング信号に対して高い信号対雑音比を実現する。 受信機の自由動作ローカル発振器の周波数オフセット補正と光位相推定を正確に行い、Nyquistパルス整形による250MHzおよび500MHzの高信号レートで低雑音量子信号受信を保証する。 フロントホールリンクリーチ13.2kmのファイバー伝送において、ショットノイズユニットの0.1%から0.5%の低い余剰ノイズが得られる。 さらに,11キャリアグレードの古典信号との共存を実験的に検討した。 量子信号と古典信号の両方のcバンドにおける合同信号伝送の実証に成功した。 秘密鍵レート18と10Mb/sは、Eveがそれぞれ暗黒および光ファイバーリンクに対して受信音の制御を行う厳密なセキュリティ前提の下で得られる。 さらに、85Mb/sと72Mb/sのレートは、信頼できる受信機シナリオをもたらす。 これらのセキュアキーレートは、クラウドベースの処理を伴う高密度5g無線アクセスネットワークにおける時間共有cv-qkdシステムの要件を十分に満たしている。

A coherent transmission methodology for a continuous-variable quantum key distribution (CV-QKD) system based on quantum-heterodyne measurement through a coherent intradyne receiver is experimentally demonstrated in the framework of 5G mobile fronthaul links. Continuous optical carrier synchronization is obtained through training information, which is multiplexing to the quantum signal as pilot tone in both, frequency and polarization. Spectral tailoring by means of optical carrier suppression and single-sideband modulation is adopted to simultaneously mitigate crosstalk into the quantum channel and self-interference for the pilot tone, thus allowing for a high signal-to-noise ratio for this training signal. Frequency offset correction and optical phase estimation for the free-running local oscillator of the receiver is accurately performed and guarantees low-noise quantum signal reception at high symbol rates of 250 MHz and 500 MHz with additional Nyquist pulse shaping. A low excess noise in the order of 0.1% to 0.5% of shot-noise units is obtained for fiber-based transmission over a fronthaul link reach of 13.2 km. Moreover, co-existence with 11 carrier-grade classical signals is experimentally investigated. Joint signal transmission in the C-band of both, quantum signal and classical signals, is successfully demonstrated. Secure-key rates of 18 and 10 Mb/s are obtained under strict security assumptions, where Eve has control of the receiver noise, for a dark and a lit fiber link, respectively. Moreover, rates of 85 and 72 Mb/s are resulting for a trusted receiver scenario. These secure-key rates are well addressing the requirements for time-shared CV-QKD system in densified 5G radio access networks with cloud-based processing.
翻訳日:2023-04-04 07:55:15 公開日:2021-04-09
# 悪質な情報を扱う人を助ける - 社会技術的視点

Helping People Deal With Disinformation -- A Socio-Technical Perspective ( http://arxiv.org/abs/2104.04311v1 )

ライセンス: Link先を確認
Hendrik Heuer(参考訳) インターネットの出現以来の最新で、偽情報や陰謀説は至るところで広まっている。 QAnonやPizzagateといった最近の例は、偽情報が本当の暴力につながることを証明している。 CHI 2021のヒューマン・アスペクト・オブ・ミス情報ワークショップのモチベーションステートメントでは、私の研究課題について説明します。 一 人々が偽情報を信じる理由 二 偽情報の認識において、いかに人々が最善の支援をすることができるか、及び 3. 偽情報に対抗するために作られた様々なツールの可能性とリスクは何か。

At the latest since the advent of the Internet, disinformation and conspiracy theories have become ubiquitous. Recent examples like QAnon and Pizzagate prove that false information can lead to real violence. In this motivation statement for the Workshop on Human Aspects of Misinformation at CHI 2021, I explain my research agenda focused on 1. why people believe in disinformation, 2. how people can be best supported in recognizing disinformation, and 3. what the potentials and risks of different tools designed to fight disinformation are.
翻訳日:2023-04-04 07:52:56 公開日:2021-04-09
# 4HSiCにおけるシリコン空孔関連電子常磁性共鳴中心の同定

Identification of silicon vacancy-related electron paramagnetic resonance centers in 4H SiC ( http://arxiv.org/abs/2104.04292v1 )

ライセンス: Link先を確認
A. Cs\'or\'e, N. T. Son, A. Gali(参考訳) 炭化ケイ素(SiC)の負電荷シリコン空孔[V$_\text{Si}(-)$]は、六方晶SiCの常磁性および光学活性欠陥である。 V$_\text{Si}(-)$ 欠陥は長いスピンコヒーレンス時間を持つ$S = 3/2$ スピンを持ち、室温でも光学的に操作できる。 近年、SiCの4H多型におけるV$_\text{Si}(-)$欠陥に関連する信号以外に電子スピン共鳴信号が観測されている。 対応するセンターは v$_\text{si}(-)$ の欠陥と類似の性質を共有しており、量子技術応用の候補となる可能性がある。 しかし、新しい信号の正確な起源は不明である。 本稿では,未知中心の候補として v$_\text{si}(-)$-related pair defect model を報告する。 密度汎関数理論(DFT)計算により,対応する電子構造と磁気光学特性を導出する。 近年観測された電子常磁性共鳴中心のモデルを提案し、今後の実験でその光信号の同定を行う。

The negatively charged silicon vacancy [V$_\text{Si}(-)$] in silicon carbide (SiC) is a paramagnetic and optically active defect in hexagonal SiC. V$_\text{Si}(-)$ defect possesses $S = 3/2$ spin with long spin coherence time and can be optically manipulated even at room temperature. Recently, electron spin resonance signals have been observed besides the signals associated with the V$_\text{Si}(-)$ defects in the 4H polytype of SiC. The corresponding centers share akin properties to those of the V$_\text{Si}(-)$ defects and thus they may be promising candidates for quantum technology applications. However, the exact origin of the new signals is unknown. In this paper we report V$_\text{Si}(-)$-related pair defect models as possible candidates for the unknown centers. We determine the corresponding electronic structures and magneto-optical properties as obtained by density functional theory (DFT) calculations. We propose models for the recently observed electron paramagnetic resonance centers with predicting their optical signals for identification in future experiments.
翻訳日:2023-04-04 07:52:49 公開日:2021-04-09
# 1 + 1)d$量子セルオートマトンにおける量子時間相関と古典時間相関

Quantum and classical temporal correlations in $(1 + 1)D$ Quantum Cellular Automata ( http://arxiv.org/abs/2104.04279v1 )

ライセンス: Link先を確認
Edward Gillman, Federico Carollo, and Igor Lesanovsky(参考訳) 我々は,非平衡定常相転移を示す量子系におけるエンタングルメントとコヒーレンス近傍の臨界性の進化を研究するために,$(1 + 1) の量子セルオートマトンを用いる。 この構成は、基礎となる非平衡ダイナミクスの時空構造全体への直接アクセスを可能にする。 古典的軌跡の完全なアンサンブルを含み、また「現在」と「過去」の間の時間方向の絡み合いのような非伝統的な相関の解析も可能である。 臨界に近づき、これらの相関のダイナミクス(第2次レニイエントロピーを通して定量化する)は、定常性へのアプローチにパワー・ローの振る舞いを示す。 我々の分析は、古典的非平衡系の量子一般化、すなわちドマニ・キンゼルセルセルオートマトンとバグノリ・ボッカラ・レヒトマンモデルに基づいており、エントロピーの古典的および量子的成分に関連する臨界指数について推定する。 我々の研究は、1 + 1) 次元の量子セルオートマトンが古典的および量子的相関の性質を非平衡系で興味深い視点に導くことを示している。

We employ $(1 + 1)$-dimensional quantum cellular automata to study the evolution of entanglement and coherence near criticality in quantum systems that display non-equilibrium steady-state phase transitions. This construction permits direct access to the entire space-time structure of the underlying non-equilibrium dynamics. It contains the full ensemble of classical trajectories and also allows for the analysis of unconventional correlations, such as entanglement in the time direction between the "present" and the "past". Close to criticality, the dynamics of these correlations - which we quantify through the second-order Renyi entropy - displays power-law behavior on its approach to stationarity. Our analysis is based on quantum generalizations of classical non-equilibrium systems: the Domany-Kinzel cellular automaton and the Bagnoli-Boccara-Rechtman model, for which we provide estimates for the critical exponents related to the classical and quantum components of the entropy. Our study shows that $(1 + 1)$-dimensional quantum cellular automata permit an intriguing perspective on the nature of classical and quantum correlations in out-of-equilibrium systems.
翻訳日:2023-04-04 07:52:19 公開日:2021-04-09
# メタハミルトン学習

Meta Hamiltonian Learning ( http://arxiv.org/abs/2104.04453v1 )

ライセンス: Link先を確認
Przemyslaw Bienias, Alireza Seif, Mohammad Hafezi(参考訳) 量子デバイスの効率的なキャラクタリゼーションは、大規模量子コンピュータの開発において重要な課題である。 我々は,ハミルトニアンを適切に推定する実験的な動機付けの状況を考え,そのパラメータを,漂流する実験変数と闘うために頻繁に調整する必要がある。 我々はメタ学習として知られる機械学習技術を用いて、このタスクのより効率的な最適化方法を学ぶ。 近距離イジングモデルを用いたトレーニングを検討し,他のハミルトニアモデルに対するトレーニングモデルの一般化可能性とシステムサイズについて検討した。 メタ最適化器は,テストサンプルの平均損失において,他の最適化手法よりも優れていた。 この利点は、メタオプティマイザが局所的なミニマで立ち往生しにくく、他のオプティマイザの最終損失の分布を非常に歪めているためである。 一般に、メタラーニングは実験への呼び出し数を減らし、必要な古典的な計算資源を減らす。

Efficient characterization of quantum devices is a significant challenge critical for the development of large scale quantum computers. We consider an experimentally motivated situation, in which we have a decent estimate of the Hamiltonian, and its parameters need to be characterized and fine-tuned frequently to combat drifting experimental variables. We use a machine learning technique known as meta-learning to learn a more efficient optimizer for this task. We consider training with the nearest-neighbor Ising model and study the trained model's generalizability to other Hamiltonian models and larger system sizes. We observe that the meta-optimizer outperforms other optimization methods in average loss over test samples. This advantage follows from the meta-optimizer being less likely to get stuck in local minima, which highly skews the distribution of the final loss of the other optimizers. In general, meta-learning decreases the number of calls to the experiment and reduces the needed classical computational resources.
翻訳日:2023-04-04 07:44:41 公開日:2021-04-09
# 国家中心のオンラインプロパガンダについて

A Few Observations About State-Centric Online Propaganda ( http://arxiv.org/abs/2104.04389v1 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 本稿では,2015年から2021年前半にかけて,欧州連合(EU)に加盟する東ストラトコムタスクフォース(ESTF)のデータセットを用いて,親クレムリンプロパガンダについていくつかの観察を行った。 誤情報や偽情報に焦点をあてるのではなく、観察は古典的なプロパガンダ研究とメディアシステムの継続的な変容によって動機付けられている。 仮の結果によると。 (i)プロパガンダは、国内外の観客の両方をターゲットとすることができる。 国や地域について論じる。 (ii)ロシア、ウクライナ、アメリカ合衆国、ヨーロッパ、ドイツ、ポーランド、eu内では、最も頻繁に議論されている。 また、シリアのような他の紛争地域もプロパガンダにしばしば登場している。 しかし、縦方向の傾向については、 (iii)2016年のデジタル津波以降、これらの議論のほとんどが減っているが、ウクライナの紛争は再びクリムリン寄りのプロパガンダの激しさを高めたようである。 最後に (iv)議論されたテーマは、国家中心の戦争プロパガンダと紛争ゾーンと一致しているが、ポスト真実のテーマもしばしば現れ、新型コロナウイルスによる陰謀説からファシズムまで、プロパガンダに典型的なものまで。

This paper presents a few observations about pro-Kremlin propaganda between 2015 and early 2021 with a dataset from the East Stratcom Task Force (ESTF), which is affiliated with the European Union (EU) but working independently from it. Instead of focusing on misinformation and disinformation, the observations are motivated by classical propaganda research and the ongoing transformation of media systems. According to the tentative results, (i) the propaganda can be assumed to target both domestic and foreign audiences. Of the countries and regions discussed, (ii) Russia, Ukraine, the United States, and within Europe, Germany, Poland, and the EU have been the most frequently discussed. Also other conflict regions such as Syria have often appeared in the propaganda. In terms of longitudinal trends, however, (iii) most of these discussions have decreased in volume after the digital tsunami in 2016, although the conflict in Ukraine seems to have again increased the intensity of pro-Kremlin propaganda. Finally, (iv) the themes discussed align with state-centric war propaganda and conflict zones, although also post-truth themes frequently appear; from conspiracy theories via COVID-19 to fascism -- anything goes, as is typical to propaganda.
翻訳日:2023-04-04 07:42:38 公開日:2021-04-09
# 量子同期におけるコヒーレンスと縮退の役割

Role of Coherence and Degeneracies in Quantum Synchronisation ( http://arxiv.org/abs/2104.04383v1 )

ライセンス: Link先を確認
Parvinder Solanki, Noufal Jaseem, Michal Hajdu\v{s}ek and Sai Vinjanampathy(参考訳) 量子システムにおける同期の研究の進展は、周波数のエントレインメントと相互同期のいくつかの例を導いた特定の例によって大きく推進されている。 ここでは、リウヴィル空間摂動理論を用いて量子同期を研究する。 まず,量子同期の文脈における中心,対称性,振動コヒーレンスの役割を明らかにする。 次に、量子系のダイナミクスを生成するliouvilleスーパーオペレータの固有スペクトルを分析し、同期が発生する条件を決定する。 量子系におけるエネルギー保存、縮退、同期の強力な関係を導出するために、我々の枠組みを適用する。 最後に, 相互結合型熱機械の解析と, 同期化と熱力学量との密接な関係について述べる。

Progress on the study of synchronisation in quantum systems has been largely driven by specific examples which resulted in several examples of frequency entrainment as well as mutual synchronisation. Here we study quantum synchronisation by utilising Liouville space perturbation theory. We begin by clarifying the role of centers, symmetries and oscillating coherences in the context of quantum synchronisation. We then analyse the eigenspectrum of the Liouville superoperator generating the dynamics of the quantum system and determine the conditions under which synchronisation arises. We apply our framework to derive a powerful relationship between energy conservation, degeneracies and synchronisation in quantum systems. Finally, we demonstrate our approach by analysing two mutually coupled thermal machines and the close relationship between synchronisation and thermodynamic quantities.
翻訳日:2023-04-04 07:42:15 公開日:2021-04-09
# 1つの有意なパウリ誤差型量子チャネルの短符号

Short Codes for Quantum Channels with One Prevalent Pauli Error Type ( http://arxiv.org/abs/2104.04365v1 )

ライセンス: Link先を確認
Marco Chiani and Lorenzo Valentini(参考訳) 量子情報システムの主要な問題の一つはノイズによるエラーの存在であり、そのため量子誤り訂正符号(qecc)が重要な役割を果たす。 既知のコードのほとんどは、pauli x, y, z演算子の任意の組み合わせで表されるエラーを訂正するために設計されているが、本論文では、与えられた一般的なpauliエラーの数egを補正できる安定化器qeccの設計と、特定のタイプのez pauliエラー、例えばzエラーについて検討する。 これらの符号は、量子チャネルが非対称であるとき、ある種のエラーが他のものよりも頻繁に発生するという点で興味深い。 まず、そのような符号に対して一般化された量子ハミングを導出し、シンドローム代入に基づく設計手法を提案する。 例えば、[9,1]]量子エラー訂正コードは、任意の位置に1つの一般的な量子ビットエラーと1つのzエラーを訂正できる。 一般化された量子ハミング境界によると、これは特定の誤り訂正能力を持つ最短符号である。 最後に,新しい符号の性能を非対称チャネル上で解析的に評価する。

One of the main problems in quantum information systems is the presence of errors due to noise, and for this reason quantum error-correcting codes (QECCs) play a key role. While most of the known codes are designed for correcting generic errors, i.e., errors represented by arbitrary combinations of Pauli X , Y and Z operators, in this paper we investigate the design of stabilizer QECC able to correct a given number eg of generic Pauli errors, plus eZ Pauli errors of a specified type, e.g., Z errors. These codes can be of interest when the quantum channel is asymmetric in that some types of error occur more frequently than others. We first derive a generalized quantum Hamming bound for such codes, then propose a design methodology based on syndrome assignments. For example, we found a [[9,1]] quantum error-correcting code able to correct up to one generic qubit error plus one Z error in arbitrary positions. This, according to the generalized quantum Hamming bound, is the shortest code with the specified error correction capability. Finally, we evaluate analytically the performance of the new codes over asymmetric channels.
翻訳日:2023-04-04 07:42:01 公開日:2021-04-09
# 量子力学における測定問題とサージェクション仮説

Measurement Problem in Quantum Mechanics and the Surjection Hypothesis ( http://arxiv.org/abs/2104.04508v1 )

ライセンス: Link先を確認
Fritz W. Bopp(参考訳) ユニタリ量子力学から始めて、量子計測を加える方法を検討する。 量子測定には4つの重要な要素がある:毛皮、証人生成、アライメント投影、そして実際の選択決定である。 最初の2つの成分は依然としてユニタリ量子力学の領域にある。 デコヒーレンスの概念は第三の貢献を説明する。 これは、波動関数側と共役関数側において、証人が時間の終わりに到達し、共役の証人が同一である必要があるという要件に基づくことができる。 このようにして、量子力学領域内に留まる。 推測仮説は実際の選択決定を説明する。 これは完全な量子宇宙に適用される2つの境界解釈に基づいている。 一見ランダムな投影を純粋に決定論的ユニタリ量子力学に還元する簡単な方法を提供し、測定問題を排除する。

Starting with unitary quantum dynamics, we investigate how to add quantum measurements. Quantum measurements have four essential components: the furcation, the witness production, an alignment projection, and the actual choice decision. The first two components still lie in the domain of unitary quantum dynamics. The decoherence concept explains the third contribution. It can be based on the requirement that witnesses reaching the end of time on the wave function side and the conjugate one have to be identical. In this way, it also stays within the quantum dynamics domain. The surjection hypothesis explains the actual choice decision. It is based on a two boundary interpretation applied to the complete quantum universe. It offers a simple way to reduce these seemingly random projections to purely deterministic unitary quantum dynamics, eliminating the measurement problem.
翻訳日:2023-04-04 07:35:09 公開日:2021-04-09
# 求人広告配信アルゴリズムにおける差別の監査

Auditing for Discrimination in Algorithms Delivering Job Ads ( http://arxiv.org/abs/2104.04502v1 )

ライセンス: Link先を確認
Basileal Imana, Aleksandra Korolova, John Heidemann(参考訳) Facebook、Google、LinkedInなどの広告プラットフォームは、ターゲット広告を通じて広告主に価値を約束する。 しかし、複数の研究により、そのようなプラットフォーム上での広告配信は、広告主から要求されていなくても、プラットフォームによる隠れたアルゴリズム最適化によって性別や人種によって歪められることが示されている。 広告配信における歪を測定する先行作業に基づいて,求人広告配信における識別アルゴリズムのブラックボックス監査のための新しい手法を開発した。 最初のコントリビューションは、性別や人種などの保護されたカテゴリーによる広告配信におけるスキューと、対象者間での資格の違いによるスキューとを区別することである。 この区別はアメリカ合衆国の法律において重要であり、広告は資格に基づいてターゲティングされるが、保護されたカテゴリーには当てはまらない。 第2に、広告プラットフォームによるエンゲージメント最適化やバイアスデータに基づくアルゴリズムのトレーニングなど、他の要因と資格の違いによって説明可能なキューを区別する監査手法を開発する。 本手法は,2つの同時広告の広告配信を類似のジョブに対して比較することにより,求職資格を規定するが,従業員の事実上の性別分布が異なる2つの企業に対して比較する。 結果に不等化スキューの証拠を立証する慎重な統計検査について述べる。 第3に、提案手法を求人広告のための2つの主要なターゲット広告プラットフォーム、FacebookとLinkedInに適用する。 われわれはfacebookでの広告配信における性別の偏りを確認し、資格の違いで正当化できないことを示した。 LinkedInで広告配信の難しさを見つけるのに失敗している。 最後に、公共の利益のためにアルゴリズムの外部監査をより実現可能かつ正確にする広告プラットフォームプラクティスの改善を提案する。

Ad platforms such as Facebook, Google and LinkedIn promise value for advertisers through their targeted advertising. However, multiple studies have shown that ad delivery on such platforms can be skewed by gender or race due to hidden algorithmic optimization by the platforms, even when not requested by the advertisers. Building on prior work measuring skew in ad delivery, we develop a new methodology for black-box auditing of algorithms for discrimination in the delivery of job advertisements. Our first contribution is to identify the distinction between skew in ad delivery due to protected categories such as gender or race, from skew due to differences in qualification among people in the targeted audience. This distinction is important in U.S. law, where ads may be targeted based on qualifications, but not on protected categories. Second, we develop an auditing methodology that distinguishes between skew explainable by differences in qualifications from other factors, such as the ad platform's optimization for engagement or training its algorithms on biased data. Our method controls for job qualification by comparing ad delivery of two concurrent ads for similar jobs, but for a pair of companies with different de facto gender distributions of employees. We describe the careful statistical tests that establish evidence of non-qualification skew in the results. Third, we apply our proposed methodology to two prominent targeted advertising platforms for job ads: Facebook and LinkedIn. We confirm skew by gender in ad delivery on Facebook, and show that it cannot be justified by differences in qualifications. We fail to find skew in ad delivery on LinkedIn. Finally, we suggest improvements to ad platform practices that could make external auditing of their algorithms in the public interest more feasible and accurate.
翻訳日:2023-04-04 07:34:27 公開日:2021-04-09
# 司法公開データによる判決の重大性の調査-オランダの刑事司法制度におけるハイテク犯罪の判例

Investigating sentence severity with judicial open data -- A case study on sentencing high-tech crime in the Dutch criminal justice system ( http://arxiv.org/abs/2104.04486v1 )

ライセンス: Link先を確認
Pieter Hartel, Rolf van Wegberg, Mark van Staalduinen(参考訳) オープンデータは透明性と説明責任を促進する。 法執行機関と司法機関は、刑事司法制度への信頼と信頼を高めるために、データを入手しやすくしている。 プライバシーに関する法律により、欧州の司法公開データは、通常匿名化されている。 これにより、例えば犯罪者に関する情報の一部が取り除かれるため、センデンシングに対する犯罪学的な研究がどの程度匿名化されたオープンデータを利用することができるのかという疑問が生じる。 我々は、オランダの刑事司法制度のオープンデータを用いて、Uitsprakenが利用できるケーススタディに基づいて、この問題に答える。 2015-2020年の間、我々は25,366件の裁判所判決において、判決の重大さと犯罪者の高度なictの使用との関係について分析した。 最も重要な結果は、第一に、先進的なICTを使用する犯罪者は、他の犯罪者と比較して長文である。 第2に,オープンデータによるセンテンス研究の質は,匿名化されていない司法データベースによるセンテンス研究の質に匹敵することを示した。

Open data promotes transparency and accountability as everyone can analyse it. Law enforcement and the judiciary are increasingly making data available, to increase trust and confidence in the criminal justice system. Due to privacy legislation, judicial open data -- like court judgments -- in Europe is usually anonymised. Because this removes part of the information on for instance offenders, the question arises to what extent criminological research into sentencing can make use of anonymised open data. We answer this question based on a case study in which we use the open data of the Dutch criminal justice system that rechtspraak.nl/Uitspraken makes available. Over the period 2015-2020, we analysed sentencing in 25,366 court judgments and, in particular, investigated the relationship between sentence severity and the offender's use of advanced ICT -- as this is information that is readily available in open data. The most important results are, firstly, that offenders who use advanced ICT are sentenced to longer custodial sentences compared to other offenders. Second, our results show that the quality of sentencing research with open data is comparable to the quality of sentencing research with judicial databases, which are not anonymised.
翻訳日:2023-04-04 07:33:43 公開日:2021-04-09
# 制約付き最大推定における粒子群最適化 : ケーススタディ

Particle swarm optimization in constrained maximum likelihood estimation a case study ( http://arxiv.org/abs/2104.10041v1 )

ライセンス: Link先を確認
Elvis Cui, Dongyuan Song, Weng Kee Wong(参考訳) 論文の目的は,バイオインフォマティクスのサブフィールドであるpseudotime anal-ysisにおける制約付き最大確率推定問題に,粒子群最適化の2つのタイプ,global bestとlocal best psoを適用することである。 その結果, 粒子群最適化は非微分可能で非凸であり, 解析解の導出が不可能であり, 勾配法を適用できない場合に極めて有用かつ効率的であることが示唆された。

The aim of paper is to apply two types of particle swarm optimization, global best andlocal best PSO to a constrained maximum likelihood estimation problem in pseudotime anal-ysis, a sub-field in bioinformatics. The results have shown that particle swarm optimizationis extremely useful and efficient when the optimization problem is non-differentiable and non-convex so that analytical solution can not be derived and gradient-based methods can not beapplied.
翻訳日:2023-04-04 07:25:35 公開日:2021-04-09
# オンラインニュース消費における政治分極

Political Polarization in Online News Consumption ( http://arxiv.org/abs/2104.06481v1 )

ライセンス: Link先を確認
Kiran Garimella, Tim Smith, Rebecca Weiss, Robert West(参考訳) 政治的分極は、投票行動によって測定され、反対派とその政党に対する一般的な影響、オンラインに投稿され、消費されるコンテンツによって上昇しているように見える。 ここ数年の研究は、分極の原動力としてのWebの役割に焦点を当ててきた。 オンラインの分極化の背景にある要因をより深く理解するため,本研究では,数万人のユーザのwebブラウジング履歴を収集し,分析し,各種ニュースソースの閲覧に要する時間を注意深く測定する。 オンラインニュース消費は、ユーザーが自身の政治的傾きに合わせたニュースソースを訪問することが、他のニュースソースの訪問よりもかなり長いという偏極パターンに従うことを示す。 次に、これらの嗜好は、集約されたブラウジングパターンからニュースドメインのパーソナライズされたコミュニティが出現したことから、個人だけでなく、人口レベルにも当てはまることを示す。 最後に、偏光におけるユーザ選択の役割に関する重要な問題に取り組む。 ユーザーは単に自分のウェブ環境から引用されたリンクをフォローしているのか、それとも意図的に類似のニュースソースを追求することでパルチザンの分断を悪化させるのだろうか? この質問に答えるために、ブラウジングパターンと、考慮されたニュースドメインにまたがるハイパーリンク構造を比較し、webのハイパーリンク構造によって説明できる、パルチザンブラウジングの習慣における偏りの強い証拠を見つける。

Political polarization appears to be on the rise, as measured by voting behavior, general affect towards opposing partisans and their parties, and contents posted and consumed online. Research over the years has focused on the role of the Web as a driver of polarization. In order to further our understanding of the factors behind online polarization, in the present work we collect and analyze Web browsing histories of tens of thousands of users alongside careful measurements of the time spent browsing various news sources. We show that online news consumption follows a polarized pattern, where users' visits to news sources aligned with their own political leaning are substantially longer than their visits to other news sources. Next, we show that such preferences hold at the individual as well as the population level, as evidenced by the emergence of clear partisan communities of news domains from aggregated browsing patterns. Finally, we tackle the important question of the role of user choices in polarization. Are users simply following the links proffered by their Web environment, or do they exacerbate partisan polarization by intentionally pursuing like-minded news sources? To answer this question, we compare browsing patterns with the underlying hyperlink structure spanned by the considered news domains, finding strong evidence of polarization in partisan browsing habits beyond that which can be explained by the hyperlink structure of the Web.
翻訳日:2023-04-04 07:25:26 公開日:2021-04-09
# 自動メタ分析:因果学習の視点

Automated Meta-Analysis: A Causal Learning Perspective ( http://arxiv.org/abs/2104.04633v1 )

ライセンス: Link先を確認
Lu Cheng, Dmitriy A. Katz-Rogozhnikov, Kush R. Varshney, Ioana Baldini(参考訳) メタアナリシス(meta- analysis)は、以前に発表された多くの実験的研究の結果を分析して現象を理解するための体系的なアプローチである。 医療における治療と介入、貧困軽減、その他の社会的影響を伴う応用の要約効果に関する結論を導き出すことが中心である。 残念ながら、メタ分析には大きな人間の努力が伴い、非常に非効率で人間のバイアスに弱いプロセスを作ります。 これらの問題を克服するために,我々はバイアスのリスクの制御に焦点をあてたメタ分析の自動化に取り組んでいる。 特に、自然言語で書かれた科学論文から、まず情報を抽出する。 次に,新しい因果学習の観点から,第1段階の入力に基づく自動メタ分析を,介入によって要約効果が得られるマルチカウサル推論問題として構成することを提案する。 メタ分析の最初のステップを自動化する既存の取り組みに基づいて構築されたこのアプローチは、自動メタ分析の目標を達成し、人間の労力を大幅に削減する。 合成および半合成データセットの評価は、このアプローチが有望な結果をもたらすことを示す。

Meta-analysis is a systematic approach for understanding a phenomenon by analyzing the results of many previously published experimental studies. It is central to deriving conclusions about the summary effect of treatments and interventions in medicine, poverty alleviation, and other applications with social impact. Unfortunately, meta-analysis involves great human effort, rendering a process that is extremely inefficient and vulnerable to human bias. To overcome these issues, we work toward automating meta-analysis with a focus on controlling for risks of bias. In particular, we first extract information from scientific publications written in natural language. From a novel causal learning perspective, we then propose to frame automated meta-analysis -- based on the input of the first step -- as a multiple-causal-inference problem where the summary effect is obtained through intervention. Built upon existing efforts for automating the initial steps of meta-analysis, the proposed approach achieves the goal of automated meta-analysis and largely reduces the human effort involved. Evaluations on synthetic and semi-synthetic datasets show that this approach can yield promising results.
翻訳日:2023-04-04 07:25:03 公開日:2021-04-09
# イリノイ・エクスプレス量子ネットワーク(ieqnet: metropolitan-scale experimental quantum network over deployment optical fiber)

Illinois Express Quantum Network (IEQNET): Metropolitan-scale experimental quantum networking over deployed optical fiber ( http://arxiv.org/abs/2104.04629v1 )

ライセンス: Link先を確認
Joaquin Chung, Gregory Kanter, Nikolai Lauk, Raju Valivarthi, Wenji Wu, Russell R. Ceballos, Cristi\'an Pe\~na, Neil Sinclair, Jordan Thomas, Si Xie, Rajkumar Kettimuthu, Prem Kumar, Panagiotis Spentzouris, Maria Spiropulu(参考訳) イリノイ・エクスプレス量子ネットワーク(イリノイ・エクスプレス・量子ネットワーク、IEQNET)は、現在利用可能な技術を用いて展開された光ファイバ上のメトロスケール量子ネットワークを実現するプログラムである。 IEQNETはシカゴ都市圏に地理的に分散している複数のサイトで構成されている。 各サイトは、量子ネットワーク内の通信相手を表す1つ以上の量子ノード(Qノード)を有する。 qノードは、絡み合った光子のような量子信号を生成または測定し、標準的な古典的手段で結果を伝達する。 IEQNETノードの絡み合った光子は、複数の波長で生成され、光スイッチを介して所望のユーザに選択的に分散される。 本稿では,従来のQノード間の波長ルーティングと割り当てを行うために,SDN(Software-Defined-networking)技術を活用した階層構造を含むIEQNETのネットワークアーキテクチャについて述べる。 具体的には、SDNはコントロールプレーンとデータプレーンを分離し、コントロールプレーンは完全に古典的である。 同期、キャリブレーション、ネットワーク監視、スケジューリングに関する問題について議論する。 IEQNETの重要なゴールは、制御プレーンが同じファイバーラインを使用してデータプレーンと共存できる範囲を示すことである。 この目標は、受信機での波長可変狭帯域光フィルタリングの使用と、少なくともいくつかのケースでは、量子チャネルと古典チャネルの広い波長分離によってさらに進んでいる。 我々は,絡み合い分布や量子状態テレポーテーションなどの大規模量子通信タスクを実証することにより,堅牢で実用的な量子ネットワークの開発を支援するためにIEQNETを構想する。

The Illinois Express Quantum Network (IEQNET) is a program to realize metro-scale quantum networking over deployed optical fiber using currently available technology. IEQNET consists of multiple sites that are geographically dispersed in the Chicago metropolitan area. Each site has one or more quantum nodes (Q-nodes) representing the communication parties in a quantum network. Q-nodes generate or measure quantum signals such as entangled photons and communicate the results via standard, classical, means. The entangled photons in IEQNET nodes are generated at multiple wavelengths, and are selectively distributed to the desired users via optical switches. Here we describe the network architecture of IEQNET, including the Internet-inspired layered hierarchy that leverages software-defined-networking (SDN) technology to perform traditional wavelength routing and assignment between the Q-nodes. Specifically, SDN decouples the control and data planes, with the control plane being entirely classical. Issues associated with synchronization, calibration, network monitoring, and scheduling will be discussed. An important goal of IEQNET is demonstrating the extent to which the control plane can coexist with the data plane using the same fiber lines. This goal is furthered by the use of tunable narrow-band optical filtering at the receivers and, at least in some cases, a wide wavelength separation between the quantum and classical channels. We envision IEQNET to aid in developing robust and practical quantum networks by demonstrating metro-scale quantum communication tasks such as entanglement distribution and quantum-state teleportation.
翻訳日:2023-04-04 07:24:47 公開日:2021-04-09
# 量子コンピュータにおける読み出し誤差相関の分類

Categorizing Readout Error Correlations on Near Term Quantum Computers ( http://arxiv.org/abs/2104.04607v1 )

ライセンス: Link先を確認
Benjamin Nachman and Michael R. Geller(参考訳) 読み出し誤差は、短期量子コンピュータにとって重要なノイズ源である。 古典的なポスト処理を用いてこれらの誤りを軽減するための様々な方法が提案されている。 n$ qubitsのシステムの場合、読み取りエラープロファイル全体は2^n\times 2^n$Matrixで指定される。 サブ指数近似を用いる最近の提案は、小さい、あるいは短い範囲の誤差相関に依存する。 本稿では,複数ビットの読み出し誤り相関を分類し,定量化する手法を提案する。 2つの異なるタイプの誤差相関が考慮される: 与えられた量子ビットの近傍の「オブザーバ」量子ビットの状態に対する感度、および測定演算子共分散。 我々は、この手法をIBMQ量子コンピュータに展開し、IBMQ Melbourne(15量子ビット)とIBMQ Manhattan(65量子ビット)のシングルキュービットの読み出し誤差と比較して誤差相関が実際に小さいことを発見した。

Readout errors are a significant source of noise for near term quantum computers. A variety of methods have been proposed to mitigate these errors using classical post processing. For a system with $n$ qubits, the entire readout error profile is specified by a $2^n\times 2^n$ matrix. Recent proposals to use sub-exponential approximations rely on small and/or short-ranged error correlations. In this paper, we introduce and demonstrate a methodology to categorize and quantify multiqubit readout error correlations. Two distinct types of error correlations are considered: sensitivity of the measurement of a given qubit to the state of nearby "spectator" qubits, and measurement operator covariances. We deploy this methodology on IBMQ quantum computers, finding that error correlations are indeed small compared to the single-qubit readout errors on IBMQ Melbourne (15 qubits) and IBMQ Manhattan (65 qubits), but that correlations on IBMQ Melbourne are long-ranged and do not decay with inter-qubit distance.
翻訳日:2023-04-04 07:24:20 公開日:2021-04-09
# 水素原子:そのスペクトルとラプラス・ランゲ・レンツベクトルの縮退の重要性

Hydrogen Atom: Its Spectrum and Degeneracy Importance of the Laplace-Runge-Lenz Vector ( http://arxiv.org/abs/2104.04577v1 )

ライセンス: Link先を確認
Akshay Pal, Siddhartha Sen(参考訳) 水素原子ハミルトニアンの結合状態スペクトル $e(n) < 0$, of hydrogen atom hamiltonian $h$ は、回転対称性によって必要とされるものよりも多くの退化固有状態を持つのか? その答えはよく知られ、パウリによって実証された。 これは、惑星軌道で最初に発見されたラプラス・ランゲ・レンツベクトルと呼ばれる保存ベクトルである$\vec A$による。 しかし、驚くべきことに、h$の退化固有状態とそれらを記述する物理ラベルの間の直接的なリンクが欠落している。 このようなリンクを提供するには、我々が示すように、自己随伴作用素の微妙な問題を解決する必要がある。 我々の議論では、古典と量子ベクトル $\vec a$ の両方についての慎重な議論を含む水素原子に関する多くの概念的歴史的側面を取り上げている。

Consider the problem: why does the bound state spectrum $E(n) < 0$, of hydrogen atom Hamiltonian $H$ have more degenerate eigenstates than those required by rotational symmetry? The answer is well known and was demonstrated by Pauli. It is due to an additional conserved vector, $\vec A$, of $H$, called the Laplace-Runge-Lenz vector, that was first discovered for planetary orbits. However, surprisingly, a direct link between degenerate eigenstates of $H$ and the physical labels that describe them is missing. To provide such a link requires, as we show, solving a subtle problem of self adjoint operators. In our discussions we address a number of conceptual historical aspects regarding hydrogen atom that also include a careful discussion of both the classical as well as the quantum vector $\vec A$.
翻訳日:2023-04-04 07:24:01 公開日:2021-04-09
# コメントは「動く四極子モーメントと磁場の間の相互作用によって誘導されるクーロン型ポテンシャルのバウンド」である。 アン Phys 341 (2014) 86

Comment on: "Bound states for a Coulomb-type potential induced by the interaction between a moving electric quadrupole moment and a magnetic field". Ann. Phys. 341 (2014) 86 ( http://arxiv.org/abs/2104.04562v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 本研究では、移動電気四極子モーメントと磁場との相互作用からなるモデルから得られた結果を分析する。 著者が述べたことに反する境界州は存在しないと我々は主張する。 提案手法は全ての境界状態を得るのに不適当であり、許容サイクロトロン周波数の存在はアプローチの成果であることが示された。

We analyze the results obtained from a model consisting of the interaction between a moving electric quadrupole moment and a magnetic field. We argue that there are no bound states contrary to what the author stated. It is shown that the proposed method is unsuitable for obtaining all the bound states and that the existence of allowed cyclotron frequencies is an artifact of the approach.
翻訳日:2023-04-04 07:23:44 公開日:2021-04-09
# ブラックホールの共食い

Black Hole Cannibalism ( http://arxiv.org/abs/2104.04536v1 )

ライセンス: Link先を確認
Ning Bao and Elizabeth Wildenhain(参考訳) 我々は、ブラックホールに投げ込まれたメッセージがそれ自体が小さなブラックホールである、ヘイデン・プレスキルの思考実験のバージョンを考える。 そして、この漸近無限大におけるブラックホールメッセージの回復チャネルの存在の意味について議論し、地平線に近づく必要のない観測者に対してブラックホール情報パラドックスを研ぎ澄ませる結果となった。 この急激なパラドックスの解法としてデコヒーレンス機構を提案する。

We consider a version of the Hayden-Preskill thought experiment in which the message thrown into the black hole is itself a smaller black hole. We then discuss the implications of the existence of a recovery channel for this black hole message at asymptotic infinity, resulting in a sharpening of the black hole information paradox for observers who never need to approach a horizon. We suggest decoherence mechanisms as a way of resolving this sharpened paradox.
翻訳日:2023-04-04 07:23:28 公開日:2021-04-09
# 正しい質問: クエリ応答を通じて解釈可能なアクションモデルを学ぶ

Asking the Right Questions: Learning Interpretable Action Models Through Query Answering ( http://arxiv.org/abs/1912.12613v6 )

ライセンス: Link先を確認
Pulkit Verma, Shashank Rao Marpally, Siddharth Srivastava(参考訳) 本稿では,計画と行動が可能なブラックボックス自律エージェントの解釈可能な関係モデルを推定するための新しい手法を提案する。 我々の主な貢献は、エージェントとの最小クエリインタフェースを用いてそのようなモデルを推定するための新しいパラダイムと、ユーザが提供する語彙でエージェントの内部モデルを推定するための尋問ポリシーを生成する階層的なクエリアルゴリズムである。 提案手法の実証評価により, エージェントモデルの難解な探索空間にもかかわらず, 幅広いブラックボックス自律エージェントに対して, 解釈可能なエージェントモデルの正確かつスケーラブルな推定が可能となった。 また,この手法は,述語分類器を用いて,状態を画像として表現する計画エージェントの解釈可能なモデルを学ぶことができることを示した。

This paper develops a new approach for estimating an interpretable, relational model of a black-box autonomous agent that can plan and act. Our main contributions are a new paradigm for estimating such models using a minimal query interface with the agent, and a hierarchical querying algorithm that generates an interrogation policy for estimating the agent's internal model in a vocabulary provided by the user. Empirical evaluation of our approach shows that despite the intractable search space of possible agent models, our approach allows correct and scalable estimation of interpretable agent models for a wide class of black-box autonomous agents. Our results also show that this approach can use predicate classifiers to learn interpretable models of planning agents that represent states as images.
翻訳日:2023-01-17 07:45:50 公開日:2021-04-09
# pv-rcnn: 3dオブジェクト検出のためのpoint-voxel機能セット抽象化

PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection ( http://arxiv.org/abs/1912.13192v2 )

ライセンス: Link先を確認
Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, Hongsheng Li(参考訳) 本稿では,点雲からの高精度3次元物体検出のための新しい高性能3次元物体検出フレームワークであるPointVoxel-RCNN(PV-RCNN)を提案する。 提案手法は,3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化を深く統合し,より識別的な点クラウド特徴を学習する。 3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブルな受容場を利用する。 具体的には,3次元のボクセルCNNを用いて3次元シーンを,新しいボクセル集合抽象モジュールを通じて小さなキーポイントの集合にまとめ,フォローアップ計算を保存し,代表シーンの特徴を符号化する。 ボクセルCNNが生成する高品質な3Dプロポーザルを考慮に入れ、ロイグリッドプーリングは、キーポイントから複数の受容場を持つキーポイントセット抽象化を介してロイグリッドポイントまで、提案固有の特徴を抽象化するために提案される。 従来のプール操作と比較すると、RoI-grid機能ポイントはよりリッチなコンテキスト情報を符号化し、オブジェクトの信頼度や位置を正確に推定する。 KITTIデータセットとWaymo Openデータセットの両方での大規模な実験により、提案したPV-RCNNは、ポイントクラウドのみを用いることで、最先端の3D検出方法をはるかに上回っていることがわかった。 コードはhttps://github.com/open-mmlab/openpcdetで入手できる。

We present a novel and high-performance 3D object detection framework, named PointVoxel-RCNN (PV-RCNN), for accurate 3D object detection from point clouds. Our proposed method deeply integrates both 3D voxel Convolutional Neural Network (CNN) and PointNet-based set abstraction to learn more discriminative point cloud features. It takes advantages of efficient learning and high-quality proposals of the 3D voxel CNN and the flexible receptive fields of the PointNet-based networks. Specifically, the proposed framework summarizes the 3D scene with a 3D voxel CNN into a small set of keypoints via a novel voxel set abstraction module to save follow-up computations and also to encode representative scene features. Given the high-quality 3D proposals generated by the voxel CNN, the RoI-grid pooling is proposed to abstract proposal-specific features from the keypoints to the RoI-grid points via keypoint set abstraction with multiple receptive fields. Compared with conventional pooling operations, the RoI-grid feature points encode much richer context information for accurately estimating object confidences and locations. Extensive experiments on both the KITTI dataset and the Waymo Open dataset show that our proposed PV-RCNN surpasses state-of-the-art 3D detection methods with remarkable margins by using only point clouds. Code is available at https://github.com/open-mmlab/OpenPCDet.
翻訳日:2023-01-16 20:44:06 公開日:2021-04-09
# 開量子系の定常状態に対する変分量子アルゴリズム

Variational Quantum Algorithms for Steady States of Open Quantum Systems ( http://arxiv.org/abs/2001.02552v2 )

ライセンス: Link先を確認
Huan-Yu Liu, Tai-Ping Sun, Yu-Chun Wu and Guo-Ping Guo(参考訳) オープン量子システムに関連する問題の解決は多くの関心を集めている。 本稿では,開量子システムの定常状態を求めるための変分量子アルゴリズムを提案する。 本アルゴリズムでは,定数化された量子回路を用いて定常状態の浄化を準備し,量子回路で効率的に評価できるlindbladマスター方程式に基づいてコスト関数を定義する。 次に、量子回路のパラメータを最適化して定常状態を求める。 散逸チャネルを有する一次元横磁界イジングモデルを用いて数値シミュレーションを行う。 その結果,最適混合状態と真の定常状態との忠実性は99\%以上であることがわかった。 このアルゴリズムは、混合状態の精製による表現という自然なアイデアから派生し、オープン量子系の研究への参照を提供する。

Solving problems related to open quantum systems has attracted many interests. Here, we propose a variational quantum algorithm to find the steady state of open quantum systems. In this algorithm, we employ parameterized quantum circuits to prepare the purification of the steady state and define the cost function based on the Lindblad master equation, which can be efficiently evaluated with quantum circuits. Then we optimize the parameters of the quantum circuit to find the steady state. Numerical simulations are performed on the one-dimensional transverses field Ising model with dissipative channels. The result showed that the fidelity between the optimal mixed state and the true steady state is over 99\%. This algorithm is derived from the natural idea of expressing mixed states with purification and provides a reference for the study of open quantum systems.
翻訳日:2023-01-13 12:37:16 公開日:2021-04-09
# マイクロリング共振器における後方散乱と自発4波混合

Backscatter and Spontaneous Four-Wave Mixing in Micro-Ring Resonators ( http://arxiv.org/abs/2001.05761v4 )

ライセンス: Link先を確認
Jonte R. Hance, Gary F. Sinclair and John Rarity(参考訳) 我々は、光マイクロリング共振器を伝搬する電界の後方散乱を、インリングとインカップラの両方に生じるようにモデル化する。 これらの光学デバイスにおける伝送およびインリングフィールドをモデル化するための有用なツールを提供する。 次に, 自発的4波混合について検討し, モデルを用いてヘラルド効率とレートを得る。 環がより強く後方散乱するにつれて、これらの間のトレードオフがより極端になる。

We model backscatter for electric fields propagating through optical micro-ring resonators, as occurring both in-ring and in-coupler. These provide useful tools for modelling transmission and in-ring fields in these optical devices. We then discuss spontaneous four-wave mixing and use the models to obtain heralding efficiencies and rates. We observe a trade-off between these, which becomes more extreme as the rings become more strongly backscattered.
翻訳日:2023-01-11 00:55:17 公開日:2021-04-09
# 重みからニューラルネットワークの精度を予測する

Predicting Neural Network Accuracy from Weights ( http://arxiv.org/abs/2002.11448v4 )

ライセンス: Link先を確認
Thomas Unterthiner, Daniel Keysers, Sylvain Gelly, Olivier Bousquet, Ilya Tolstikhin(参考訳) トレーニングされたニューラルネットワークの精度は、入力データで評価することなく、重みだけを見て驚くほどよく予測できることを実験的に示す。 このタスクを動機付け、正式な設定を導入します。 重みの単純な統計を用いても、予測器は非常に高い精度でニューラルネットワークをランク付けすることができる(R2スコアは0.98以上)。 さらに、予測者は異なる、観測されていないデータセットと異なるアーキテクチャでトレーニングされたネットワークをランク付けすることができる。 我々は、4つの異なるデータセットでトレーニングされた120kの畳み込みニューラルネットワークのコレクションをリリースし、この領域におけるさらなる研究を促進し、ネットワークトレーニングとパフォーマンスの向上を目標にしています。

We show experimentally that the accuracy of a trained neural network can be predicted surprisingly well by looking only at its weights, without evaluating it on input data. We motivate this task and introduce a formal setting for it. Even when using simple statistics of the weights, the predictors are able to rank neural networks by their performance with very high accuracy (R2 score more than 0.98). Furthermore, the predictors are able to rank networks trained on different, unobserved datasets and with different architectures. We release a collection of 120k convolutional neural networks trained on four different datasets to encourage further research in this area, with the goal of understanding network training and performance better.
翻訳日:2022-12-28 14:15:41 公開日:2021-04-09
# ラムダフリー高階論理の重ね合わせ

Superposition for Lambda-Free Higher-Order Logic ( http://arxiv.org/abs/2005.02094v4 )

ライセンス: Link先を確認
Alexander Bentkamp, Jasmin Blanchette, Simon Cruanes, Uwe Waldmann(参考訳) 本稿では, 意図的および拡張的クラス数$\lambda$-free高階論理に対して, 部分的応用と適用変数を許容する2つの定式化法を導入する。 計算は完全単調でなくてもよい項順でパラメタ化され、$\lambda$-free高階語彙パスとKnuth-Bendix順序を使うことができる。 Zipperposition 証明器に計算を実装し,Isabelle/HOL および TPTP ベンチマークで評価した。 彼らは完全な高階論理のための完全かつ高効率な自動定理プローバーへの踏み石として期待できるように見える。

We introduce refutationally complete superposition calculi for intentional and extensional clausal $\lambda$-free higher-order logic, two formalisms that allow partial application and applied variables. The calculi are parameterized by a term order that need not be fully monotonic, making it possible to employ the $\lambda$-free higher-order lexicographic path and Knuth-Bendix orders. We implemented the calculi in the Zipperposition prover and evaluated them on Isabelle/HOL and TPTP benchmarks. They appear promising as a stepping stone towards complete, highly efficient automatic theorem provers for full higher-order logic.
翻訳日:2022-12-06 14:26:45 公開日:2021-04-09
# soloist: 転校学習と機械学習による大規模タスクボットの構築

SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine Teaching ( http://arxiv.org/abs/2005.05298v4 )

ライセンス: Link先を確認
Baolin Peng and Chunyuan Li and Jinchao Li and Shahin Shayandeh and Lars Liden and Jianfeng Gao(参考訳) 本稿では,トランスファー学習と機械学習を用いてタスクボットを大規模に構築する新しい方法を提案する。 従来のモジュール型タスク指向ダイアログシステムを,トランスフォーマティブに基づく自己回帰型言語モデルを用いてパラメータ化する。 我々は,タスク完了のためのユーザ目標と実世界の知識に基づく対話応答を生成するタスク基底応答生成モデルであるヘテロジニアスダイアログコーパスを事前学習する。 事前学習されたモデルは、システムと対話する人間の教師によってトレーニングサンプルが生成される機械教育を通じて、いくつかのタスク固有のダイアログで新しいタスクを効率的に達成するために適応することができる。 実験によると (i) SOLOISTは、CamRest676やMultiWOZなど、よく研究されているタスク指向のダイアログのベンチマークを新たに作成する。 (ii)数ショットの微調整設定では、SOLOISTは既存のメソッドよりも大幅に優れており、 (iii)機械教示の使用は、微調整のラベリングコストを大幅に削減する。 事前訓練されたモデルとコードはhttps://aka.ms/soloist.comで入手できる。

We present a new method SOLOIST that uses transfer learning and machine teaching to build task bots at scale. We parameterize classical modular task-oriented dialog systems using a Transformer-based auto-regressive language model, which subsumes different dialog modules into a single neural model. We pre-train, on heterogeneous dialog corpora, a task-grounded response generation model, which can generate dialog responses grounded in user goals and real-world knowledge for task completion. The pre-trained model can be efficiently adapted to accomplish new tasks with a handful of task-specific dialogs via machine teaching, where training samples are generated by human teachers interacting with the system. Experiments show that (i) SOLOIST creates new state-of-the-art on well-studied task-oriented dialog benchmarks, including CamRest676 and MultiWOZ; (ii) in the few-shot fine-tuning settings, SOLOIST significantly outperforms existing methods, and (iii) the use of machine teaching substantially reduces the labeling cost of fine-tuning. The pre-trained models and codes are available at https://aka.ms/soloist.
翻訳日:2022-12-04 19:17:20 公開日:2021-04-09
# リスク分散ペナリゼーション

Risk Variance Penalization ( http://arxiv.org/abs/2006.07544v2 )

ライセンス: Link先を確認
Chuanlong Xie, Haotian Ye, Fei Chen, Yue Liu, Rui Sun, Zhenguo Li(参考訳) out-of-distribution(ood)一般化の鍵は、トレーニングドメインからターゲットドメインへの非分散を一般化することだ。 分散リスク補間(V-REx)は、ドメインレベルの正規化に依存するが、そのモチベーションと実用性に関する理論的検証が欠けている実用的なOOD法である。 本稿では、分散に基づく正則化器を研究することにより、V-RExに関する理論的知見を提供する。 本稿では,V-RExの正規化をわずかに変化させるリスク分散ペナリゼーション(RVP)を提案する。 RVPの正規化パラメータに対する理論的説明と理論に着想を得たチューニングスキームを提供する。 我々の結果は、RVPが堅牢な予測器を発見することを指摘している。 最後に,提案した正則化器が特定の条件下で不変な予測器を発見できることを示す。

The key of the out-of-distribution (OOD) generalization is to generalize invariance from training domains to target domains. The variance risk extrapolation (V-REx) is a practical OOD method, which depends on a domain-level regularization but lacks theoretical verifications about its motivation and utility. This article provides theoretical insights into V-REx by studying a variance-based regularizer. We propose Risk Variance Penalization (RVP), which slightly changes the regularization of V-REx but addresses the theory concerns about V-REx. We provide theoretical explanations and a theory-inspired tuning scheme for the regularization parameter of RVP. Our results point out that RVP discovers a robust predictor. Finally, we experimentally show that the proposed regularizer can find an invariant predictor under certain conditions.
翻訳日:2022-11-21 20:32:15 公開日:2021-04-09
# 進化的学習データを用いた深部単眼3次元ポーズ推定

Cascaded deep monocular 3D human pose estimation with evolutionary training data ( http://arxiv.org/abs/2006.07778v3 )

ライセンス: Link先を確認
Shichao Li, Lei Ke, Kevin Pratama, Yu-Wing Tai, Chi-Keung Tang, Kwang-Ting Cheng(参考訳) エンド・ツー・エンドの深層表現学習は、単眼の3次元人間のポーズ推定において顕著な精度を達成したが、これらのモデルは限られた訓練データで見えないポーズに失敗する可能性がある。 本稿では,(1)大量のトレーニングデータ(800万以上の有効3Dポーズと対応する2Dプロジェクション)を2D-3Dネットワークでトレーニングするためのスケーラブルで,(2)データセットバイアスを効果的に低減できる,新しいデータ拡張手法を提案する。 従来の知識に触発された階層的人間表現とヒューリスティックスに基づいて,未知の3次元人体骨格を合成するための限定データセットを進化させる。 広範な実験により,我々のアプローチは,最大の公開ベンチマークで最先端の精度を実現するだけでなく,見当たらない,稀なポーズに対してはるかに優れた一般化を実現することが示された。 コード、事前トレーニングされたモデル、ツールは、このHTTPS URLで利用できる。

End-to-end deep representation learning has achieved remarkable accuracy for monocular 3D human pose estimation, yet these models may fail for unseen poses with limited and fixed training data. This paper proposes a novel data augmentation method that: (1) is scalable for synthesizing massive amount of training data (over 8 million valid 3D human poses with corresponding 2D projections) for training 2D-to-3D networks, (2) can effectively reduce dataset bias. Our method evolves a limited dataset to synthesize unseen 3D human skeletons based on a hierarchical human representation and heuristics inspired by prior knowledge. Extensive experiments show that our approach not only achieves state-of-the-art accuracy on the largest public benchmark, but also generalizes significantly better to unseen and rare poses. Code, pre-trained models and tools are available at this HTTPS URL.
翻訳日:2022-11-21 12:47:35 公開日:2021-04-09
# エネルギー効率dnn加速器のビットエラーロバスト性

Bit Error Robustness for Energy-Efficient DNN Accelerators ( http://arxiv.org/abs/2006.13977v3 )

ライセンス: Link先を確認
David Stutz, Nandhini Chandramoorthy, Matthias Hein, Bernt Schiele(参考訳) ディープニューラルネットワーク(DNN)アクセラレーターは、メインストリームのハードウェアと比較して省エネのため、過去数年間でかなりの注目を集めた。 DNN加速器の低電圧動作はエネルギー消費を大幅に削減するが、量子化されたDNN重みを記憶するメモリのビットレベル障害を引き起こす。 本稿では,ランダムビット誤りに対するロバスト不動点量子化,ウェイトクリッピング,ランダムビット誤りトレーニング(randbet)の組み合わせにより,dnn重みのランダムビット誤りに対するロバスト性が著しく向上することを示す。 これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。 提案手法は,SRAMアレイのビット誤りを実証し,動作電圧と加速器をまたいで一般化する。 また,ビット誤りに対するロバスト性を実現する上で,ウェイトクリップのみがすでに有効な方法である理由についても論じる。 また、精度、ロバスト性、正確性に関するトレードオフについても具体的に検討した。通常訓練された8ビットdnnと比較して1%以上の精度を損なうことなく、cifar-10のエネルギー消費量を20%削減できる。 例えば30%の高エネルギー節約は、4ビットのDNNであっても2.5%の精度で可能である。

Deep neural network (DNN) accelerators received considerable attention in past years due to saved energy compared to mainstream hardware. Low-voltage operation of DNN accelerators allows to further reduce energy consumption significantly, however, causes bit-level failures in the memory storing the quantized DNN weights. In this paper, we show that a combination of robust fixed-point quantization, weight clipping, and random bit error training (RandBET) improves robustness against random bit errors in (quantized) DNN weights significantly. This leads to high energy savings from both low-voltage operation as well as low-precision quantization. Our approach generalizes across operating voltages and accelerators, as demonstrated on bit errors from profiled SRAM arrays. We also discuss why weight clipping alone is already a quite effective way to achieve robustness against bit errors. Moreover, we specifically discuss the involved trade-offs regarding accuracy, robustness and precision: Without losing more than 1% in accuracy compared to a normally trained 8-bit DNN, we can reduce energy consumption on CIFAR-10 by 20%. Higher energy savings of, e.g., 30%, are possible at the cost of 2.5% accuracy, even for 4-bit DNNs.
翻訳日:2022-11-17 09:05:14 公開日:2021-04-09
# 展開中の自己監督型政策適応

Self-Supervised Policy Adaptation during Deployment ( http://arxiv.org/abs/2007.04309v3 )

ライセンス: Link先を確認
Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Aleny\`a, Pieter Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang(参考訳) ほとんどの現実世界のシナリオでは、強化学習によって訓練されたポリシーを別の環境にデプロイする必要があります。 しかし、異なる環境にまたがる一般化は困難であることが知られている。 自然な解決策は、新しい環境にデプロイした後にトレーニングを続けることですが、新しい環境が報酬信号を提供しなければ、これはできません。 我々の研究は、報酬を使わずに、ポリシーがデプロイ後のトレーニングを継続できるようにするために、セルフスーパービジョンの使用を探求する。 従来の手法では, 新たな環境の変化を明示的に予測していたが, 事前の知識は得られていない。 実験的な評価は、DeepMind ControlスイートやViZDoomの様々なシミュレーション環境や、継続的に変化する環境における実際のロボット操作タスクで行われ、未調整のカメラから観察される。 提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。

In most real world scenarios, a policy trained by reinforcement learning in one environment needs to be deployed in another, potentially quite different environment. However, generalization across different environments is known to be hard. A natural solution would be to keep training after deployment in the new environment, but this cannot be done if the new environment offers no reward signal. Our work explores the use of self-supervision to allow the policy to continue training after deployment without using any rewards. While previous methods explicitly anticipate changes in the new environment, we assume no prior knowledge of those changes yet still obtain significant improvements. Empirical evaluations are performed on diverse simulation environments from DeepMind Control suite and ViZDoom, as well as real robotic manipulation tasks in continuously changing environments, taking observations from an uncalibrated camera. Our method improves generalization in 31 out of 36 environments across various tasks and outperforms domain randomization on a majority of environments.
翻訳日:2022-11-12 09:54:37 公開日:2021-04-09
# ソーシャルメディアにおけるCOVID-19情報デミックとの戦い : 全体観と武器への呼びかけ

Fighting the COVID-19 Infodemic in Social Media: A Holistic Perspective and a Call to Arms ( http://arxiv.org/abs/2007.07996v2 )

ライセンス: Link先を確認
Firoj Alam, Fahim Dalvi, Shaden Shaar, Nadir Durrani, Hamdy Mubarak, Alex Nikolov, Giovanni Da San Martino, Ahmed Abdelali, Hassan Sajjad, Kareem Darwish, Preslav Nakov(参考訳) 新型コロナウイルスのパンデミックが勃発すると、人々はソーシャルメディアに、統計、警告、アドバイス、インスピレーションのある物語など、タイムリーな情報を読み、共有するよう求めた。 残念ながら、これらの有用な情報と並行して、医療と政治の誤った情報と偽情報が融合し、最初のグローバルな情報デミックが誕生した。 このインフォデミックと戦うことは、一般的に事実性の観点から考えられているが、悪意のあるコンテンツは偽ニュース、噂、陰謀説だけでなく、偽の治療法、パニック、人種差別、異端者、当局への不信などの宣伝も含んでいるため、より広い。 これはジャーナリスト、ファクトチェッカー、政策立案者、政府団体、ソーシャルメディアプラットフォーム、社会全体の視点を結合した全体論的アプローチを必要とする複雑な問題である。 それらを考慮すると、これらの観点を反映したアノテーションスキーマと詳細なアノテーション命令を定義します。 このスキーマを使って初期アノテーションを実行し、最初の実験ではベースラインよりも大きな改善が示された。 今我々は,クラウドソーシングのアノテーション活動を支援することで,研究コミュニティとそれ以上の協力を呼び掛けている。

With the outbreak of the COVID-19 pandemic, people turned to social media to read and to share timely information including statistics, warnings, advice, and inspirational stories. Unfortunately, alongside all this useful information, there was also a new blending of medical and political misinformation and disinformation, which gave rise to the first global infodemic. While fighting this infodemic is typically thought of in terms of factuality, the problem is much broader as malicious content includes not only fake news, rumors, and conspiracy theories, but also promotion of fake cures, panic, racism, xenophobia, and mistrust in the authorities, among others. This is a complex problem that needs a holistic approach combining the perspectives of journalists, fact-checkers, policymakers, government entities, social media platforms, and society as a whole. Taking them into account we define an annotation schema and detailed annotation instructions, which reflect these perspectives. We performed initial annotations using this schema, and our initial experiments demonstrated sizable improvements over the baselines. Now, we issue a call to arms to the research community and beyond to join the fight by supporting our crowdsourcing annotation efforts.
翻訳日:2022-11-10 05:18:34 公開日:2021-04-09
# BorderDet:Dense Object DetectionのためのBorder機能

BorderDet: Border Feature for Dense Object Detection ( http://arxiv.org/abs/2007.11056v3 )

ライセンス: Link先を確認
Han Qiu, Yuchen Ma, Zeming Li, Songtao Liu, Jian Sun(参考訳) 複雑な物体検出器は、物体を通常の画像グリッド上で予測するスライドウインドウのパラダイムに依存している。 一方、グリッドの点にある特徴マップは境界ボックス予測を生成するために採用されている。 ポイント機能は使いやすいが、正確なローカライゼーションのための明確な境界情報がない可能性がある。 本稿では,境界の極端点から境界特徴を抽出し,点特徴を増強する,Border-Alignと呼ばれるシンプルで効率的な演算子を提案する。 BorderAlignに基づいてBorderDetと呼ばれる新しい検出アーキテクチャを設計し、より強力な分類とより正確なローカライゼーションのために境界情報を明示的に活用する。 ResNet-50のバックボーンでは、単段検出器FCOSを2.8APゲイン(38.6 v.s. 41.4)改善する。 ResNeXt-101-DCNのバックボーンにより、BorderDetは50.3 APを獲得し、既存の最先端アプローチよりも優れています。 コードはhttps://github.com/Megvii-BaseDetection/BorderDet)で入手できる。

Dense object detectors rely on the sliding-window paradigm that predicts the object over a regular grid of image. Meanwhile, the feature maps on the point of the grid are adopted to generate the bounding box predictions. The point feature is convenient to use but may lack the explicit border information for accurate localization. In this paper, We propose a simple and efficient operator called Border-Align to extract "border features" from the extreme point of the border to enhance the point feature. Based on the BorderAlign, we design a novel detection architecture called BorderDet, which explicitly exploits the border information for stronger classification and more accurate localization. With ResNet-50 backbone, our method improves single-stage detector FCOS by 2.8 AP gains (38.6 v.s. 41.4). With the ResNeXt-101-DCN backbone, our BorderDet obtains 50.3 AP, outperforming the existing state-of-the-art approaches. The code is available at (https://github.com/Megvii-BaseDetection/BorderDet).
翻訳日:2022-11-08 05:14:28 公開日:2021-04-09
# 混合整数線形プログラムを用いたReLU活性化多層ニューラルネットワーク

ReLU activated Multi-Layer Neural Networks trained with Mixed Integer Linear Programs ( http://arxiv.org/abs/2008.08386v3 )

ライセンス: Link先を確認
Steffen Goebbels(参考訳) 本稿では、ReLU関数によって活性化される多層フィードフォワードニューラルネットワークが、原則として、Mixed Integer Linear Programs (MILP) を用いて反復的に訓練可能であることを示す。 重み付けはバッチ学習によって決定される。 トレーニングデータのバッチ毎に複数のイテレーションが使用される。 各イテレーションにおいて、アルゴリズムは出力層から始まり、第1の隠蔽層に情報を伝達し、MILPまたは線形プログラムを使用して重みを調整する。 各レイヤの目標は、出力と対応するターゲット出力との差を最小限にすることである。 最後の(出力)層の目標出力は、基底真理と等しい。 前の層の目標出力は、以下の層の調整入力として定義される。 与えられた層に対して、重量はミルプを解いて計算される。 そして、第1の隠蔽層を除いて、入力値もMILPで修正され、層出力と対応するターゲット出力とをよりよく一致させる。 本手法を手書き数字を含むMNISTデータセット上の2つの単純なネットワークを用いて,Tensorflow/Keras (Adam Optimizationr) と比較した。 テンソルフロー/ケラスと同等の精度を達成した。

In this paper, it is demonstrated through a case study that multilayer feedforward neural networks activated by ReLU functions can in principle be trained iteratively with Mixed Integer Linear Programs (MILPs) as follows. Weights are determined with batch learning. Multiple iterations are used per batch of training data. In each iteration, the algorithm starts at the output layer and propagates information back to the first hidden layer to adjust the weights using MILPs or Linear Programs. For each layer, the goal is to minimize the difference between its output and the corresponding target output. The target output of the last (output) layer is equal to the ground truth. The target output of a previous layer is defined as the adjusted input of the following layer. For a given layer, weights are computed by solving a MILP. Then, except for the first hidden layer, the input values are also modified with a MILP to better match the layer outputs to their corresponding target outputs. The method was tested and compared with Tensorflow/Keras (Adam optimizer) using two simple networks on the MNIST dataset containing handwritten digits. Accuracies of the same magnitude as with Tensorflow/Keras were achieved.
翻訳日:2022-10-27 08:51:25 公開日:2021-04-09
# Hi-CI:高次元における深い因果推論

Hi-CI: Deep Causal Inference in High Dimensions ( http://arxiv.org/abs/2008.09858v3 )

ライセンス: Link先を確認
Ankit Sharma, Garima Gupta, Ranjitha Prasad, Arnab Chatterjee, Lovekesh Vig, Gautam Shroff(参考訳) 高次元共変量と高濃度処理からなる観測研究において,因果推論(ci)を用いた反事実回帰の問題に対処する。 不正確な治療効果の推定につながる共起バイアスは、治療と結果の両方に影響を及ぼす共変量に起因する。 高次元の共変量の存在は、これらの共同設立者の影響を分離し測定することが困難であるため、バイアスの影響を悪化させる。 高心拍数処理変数の存在下では、予測すべき偽結果の数の増加により、CIは不適切な状態となる。 我々は,多数の共変量が存在する場合の因果効果を推定するためのディープニューラルネットワーク(DNN)ベースのフレームワークであるHi-CIと,高次および連続的な治療変数を提案する。 提案するアーキテクチャは、非相関ネットワークと結果予測ネットワークとからなる。 デコリエーションネットワークでは、元の共変量と比較して低次元のデータ表現を学習し、バイアスの共起に対処する。 そして, 結果予測ネットワークにおいて, データ表現と協調して, 心電図と連続した治療の埋め込みを学習する。 合成および実世界のNEWSデータセットを用いたHi-CIネットワークの因果効果予測の有効性を示す。

We address the problem of counterfactual regression using causal inference (CI) in observational studies consisting of high dimensional covariates and high cardinality treatments. Confounding bias, which leads to inaccurate treatment effect estimation, is attributed to covariates that affect both treatments and outcome. The presence of high-dimensional co-variates exacerbates the impact of bias as it is harder to isolate and measure the impact of these confounders. In the presence of high-cardinality treatment variables, CI is rendered ill-posed due to the increase in the number of counterfactual outcomes to be predicted. We propose Hi-CI, a deep neural network (DNN) based framework for estimating causal effects in the presence of large number of covariates, and high-cardinal and continuous treatment variables. The proposed architecture comprises of a decorrelation network and an outcome prediction network. In the decorrelation network, we learn a data representation in lower dimensions as compared to the original covariates and addresses confounding bias alongside. Subsequently, in the outcome prediction network, we learn an embedding of high-cardinality and continuous treatments, jointly with the data representation. We demonstrate the efficacy of causal effect prediction of the proposed Hi-CI network using synthetic and real-world NEWS datasets.
翻訳日:2022-10-26 07:56:02 公開日:2021-04-09
# 教師なし3次元脳異常検出

Unsupervised 3D Brain Anomaly Detection ( http://arxiv.org/abs/2010.04717v2 )

ライセンス: Link先を確認
Jaime Simarro, Ezequiel de la Rosa, Thijs Vande Vyvere, David Robben and Diana M. Sima(参考訳) 異常検出(AD)とは、学習したデータ分布に適合しないデータサンプルの同定である。 そのため、ADシステムは、医師が病理の存在、重症度、拡張性を決定するのに役立つ。 generative adversarial networks (gans) のような深層生成モデルは解剖学的変動を捉えるために利用される。 これにより、任意の外れ値(すなわち、学習された分布の外側に落下するサンプル)を教師なしの方法で異常として検出することができる。 この方法を用いることで,期待される病変や既知の病変を検出できるだけでなく,未認識のバイオマーカーも提示できる。 我々の知る限り、本研究では、1つのモデルで体積データを効率的に処理し、3次元脳異常を検出する最初のADアプローチを実証する。 提案手法は,最先端の3D GANと改良訓練工程を組み合わせた2D f-AnoGANモデルの体積および高精度拡張である。 外傷性脳損傷(TBI)患者の非コントラストCT画像を用いた実験では、RAC曲線の75%以下の領域でTBI異常を検出し、局所化する。 さらに,低画質画像,前処理の不正確性,アーティファクト,術後の徴候(頭蓋切除や脳シャントなど)など,他の異常を検出する方法の可能性についても検討した。 この手法は、大量の画像データセットの異常を迅速にラベル付けし、新しいバイオマーカーを同定する可能性がある。

Anomaly detection (AD) is the identification of data samples that do not fit a learned data distribution. As such, AD systems can help physicians to determine the presence, severity, and extension of a pathology. Deep generative models, such as Generative Adversarial Networks (GANs), can be exploited to capture anatomical variability. Consequently, any outlier (i.e., sample falling outside of the learned distribution) can be detected as an abnormality in an unsupervised fashion. By using this method, we can not only detect expected or known lesions, but we can even unveil previously unrecognized biomarkers. To the best of our knowledge, this study exemplifies the first AD approach that can efficiently handle volumetric data and detect 3D brain anomalies in one single model. Our proposal is a volumetric and high-detail extension of the 2D f-AnoGAN model obtained by combining a state-of-the-art 3D GAN with refinement training steps. In experiments using non-contrast computed tomography images from traumatic brain injury (TBI) patients, the model detects and localizes TBI abnormalities with an area under the ROC curve of ~75%. Moreover, we test the potential of the method for detecting other anomalies such as low quality images, preprocessing inaccuracies, artifacts, and even the presence of post-operative signs (such as a craniectomy or a brain shunt). The method has potential for rapidly labeling abnormalities in massive imaging datasets, as well as identifying new biomarkers.
翻訳日:2022-10-09 06:15:17 公開日:2021-04-09
# RNNは、より厳しい主観的合意のインスタンスでトレーニングできますか?

Can RNNs trained on harder subject-verb agreement instances still perform well on easier ones? ( http://arxiv.org/abs/2010.04976v2 )

ライセンス: Link先を確認
Hritik Bansal, Gantavya Bhatt, Sumeet Agarwal(参考訳) 以前の研究では、自然言語コーパスで訓練されたrnnは、単純な文に対して番号の合意をうまく捉えることができるが、文が合意の引き金を含んでいる場合、あまりうまく機能しないことを示唆している。 これは、これらのモデルが実際の合意の構文を学ぶのではなく、より浅いヒューリスティックな'agree with the recent noun'を推測することを示唆している。 本研究では,選択的に選択された「ハード」合意例,すなわち少なくとも1つの合意引受者を含む文を訓練した帰納的バイアスの異なるrnnモデルについて検討する。 これらのため、動詞数は単純な線形ヒューリスティックでは予測できないため、階層構文のためのモデル追加の手がかりを提供するのに役立つかもしれない。 もしRNNがそのようなハードなインスタンスでトレーニングされた場合、基礎となる合意ルールを学習できれば、より単純なものを含む他の文によく当てはまるべきである。 しかし,弱い構造的帰納バイアスを持つonlstmを含む複数のrnnタイプは,アトラクタを持つ文のみを訓練した場合,アトラクタなしでは,驚くほどうまく機能しないことがわかった。 本研究では,これらのRNNを,各構文構成の数値一致精度,表現的類似性,性能の次元に沿って,基準線(契約引力の自然な分布に基づく学習)と比較する。 我々のハードコンセンサスインスタンスでトレーニングされたRNNは、いまだ基盤となるコンセンサス構文を捉えておらず、むしろ'easy'なアウト・オブ・ディストリビューションインスタンスでパフォーマンスが劣る方法でトレーニング分布に過度に適合する傾向にあることを示唆している。 したがって、RNNは非自明な依存性パターンを拾える強力なモデルであるが、表面ではなく構文レベルでそれらを実行するように誘導することは、依然として課題である。

Previous work suggests that RNNs trained on natural language corpora can capture number agreement well for simple sentences but perform less well when sentences contain agreement attractors: intervening nouns between the verb and the main subject with grammatical number opposite to the latter. This suggests these models may not learn the actual syntax of agreement, but rather infer shallower heuristics such as `agree with the recent noun'. In this work, we investigate RNN models with varying inductive biases trained on selectively chosen `hard' agreement instances, i.e., sentences with at least one agreement attractor. For these the verb number cannot be predicted using a simple linear heuristic, and hence they might help provide the model additional cues for hierarchical syntax. If RNNs can learn the underlying agreement rules when trained on such hard instances, then they should generalize well to other sentences, including simpler ones. However, we observe that several RNN types, including the ONLSTM which has a soft structural inductive bias, surprisingly fail to perform well on sentences without attractors when trained solely on sentences with attractors. We analyze how these selectively trained RNNs compare to the baseline (training on a natural distribution of agreement attractors) along the dimensions of number agreement accuracy, representational similarity, and performance across different syntactic constructions. Our findings suggest that RNNs trained on our hard agreement instances still do not capture the underlying syntax of agreement, but rather tend to overfit the training distribution in a way which leads them to perform poorly on `easy' out-of-distribution instances. Thus, while RNNs are powerful models which can pick up non-trivial dependency patterns, inducing them to do so at the level of syntax rather than surface remains a challenge.
翻訳日:2022-10-08 22:26:29 公開日:2021-04-09
# 空間勾配とノイズセグメンテーションラベルを用いた深層学習に基づく登録

Deep learning based registration using spatial gradients and noisy segmentation labels ( http://arxiv.org/abs/2010.10897v2 )

ライセンス: Link先を確認
Th\'eo Estienne, Maria Vakalopoulou, Enzo Battistella, Alexandre Carr\'e, Th\'eophraste Henry, Marvin Lerousseau, Charlotte Robert, Nikos Paragios and Eric Deutsch(参考訳) 画像登録は、医用画像分析における最も困難な問題の1つである。 近年では、ディープラーニングベースのアプローチが広く普及し、高速かつ高性能な登録戦略を提供している。 本稿では,Learner2Reg Challenge 2020に関する論文を要約する。 私たちの仕事の主な貢献は (i)ソースからターゲットへ、ターゲットからソースへ同時に変換を予測し、訓練された表現を類似させる対称な定式化 (ii)プリトレーニングとセグメンテーションラベルの強化の両方に使用される様々な公開データセットの統合。 提案手法では,タスク3に対して0.64$,テストセットでタスク4に対して0.85$という平均サイスを報告し,チャレンジで3位となった。 私たちのコードとモデルはhttps://github.com/theoest/abdominal_registrationと \https://github.com/theoest/hippocampus_registrationで公開されています。

Image registration is one of the most challenging problems in medical image analysis. In the recent years, deep learning based approaches became quite popular, providing fast and performing registration strategies. In this short paper, we summarise our work presented on Learn2Reg challenge 2020. The main contributions of our work rely on (i) a symmetric formulation, predicting the transformations from source to target and from target to source simultaneously, enforcing the trained representations to be similar and (ii) integration of variety of publicly available datasets used both for pretraining and for augmenting segmentation labels. Our method reports a mean dice of $0.64$ for task 3 and $0.85$ for task 4 on the test sets, taking third place on the challenge. Our code and models are publicly available at https://github.com/TheoEst/abdominal_registration and \https://github.com/TheoEst/hippocampus_registration.
翻訳日:2022-10-04 23:43:26 公開日:2021-04-09
# 低リソースシナリオにおける自然言語処理の最近のアプローチに関する調査

A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios ( http://arxiv.org/abs/2010.12309v3 )

ライセンス: Link先を確認
Michael A. Hedderich, Lukas Lange, Heike Adel, Jannik Str\"otgen, Dietrich Klakow(参考訳) ディープニューラルネットワークと巨大な言語モデルが、自然言語アプリケーションにおいて一様化しつつある。 大量のトレーニングデータを必要とすることで知られているため、低リソース環境でのパフォーマンスを改善するための作業が増えている。 ニューラルモデルに対する最近の根本的な変化と、一般的なプレトレインおよびファインチューンパラダイムにより、低リソースの自然言語処理に対する有望なアプローチを調査した。 データ可用性の異なる次元に関する議論の後、トレーニングデータが少ない場合の学習を可能にする方法の構造化概要を述べる。 これには、データ拡張や遠隔監視といったラベル付きデータを追加するメカニズムや、ターゲット監視の必要性を減らすための転送学習設定が含まれる。 調査の目的は,これらの手法が,特定の低リソース環境に適した手法を選択する上で,それらの理解が不可欠であることから,それぞれの要件においてどのように異なるかを説明することである。 この研究のさらに重要な側面は、オープンな問題を強調し、将来の研究に向けた有望な方向性を概説することである。

Deep neural networks and huge language models are becoming omnipresent in natural language applications. As they are known for requiring large amounts of training data, there is a growing body of work to improve the performance in low-resource settings. Motivated by the recent fundamental changes towards neural models and the popular pre-train and fine-tune paradigm, we survey promising approaches for low-resource natural language processing. After a discussion about the different dimensions of data availability, we give a structured overview of methods that enable learning when training data is sparse. This includes mechanisms to create additional labeled data like data augmentation and distant supervision as well as transfer learning settings that reduce the need for target supervision. A goal of our survey is to explain how these methods differ in their requirements as understanding them is essential for choosing a technique suited for a specific low-resource setting. Further key aspects of this work are to highlight open issues and to outline promising directions for future research.
翻訳日:2022-10-03 21:41:39 公開日:2021-04-09
# 変動emを用いた構成データの潜在ネットワーク推定と可変選択

Latent Network Estimation and Variable Selection for Compositional Data via Variational EM ( http://arxiv.org/abs/2010.13229v2 )

ライセンス: Link先を確認
Nathan Osborne, Christine B. Peterson, and Marina Vannucci(参考訳) ネットワーク推定と変数選択は統計学で広く研究されてきたが、最近になって2つの課題が同時に解決された。 本稿では,数量データ,特に固定和制約を持つ合成データに対して,ネットワーク間相互作用と関連する共変量との関係を同時に推定する新しい手法を提案する。 階層型ベイズモデルと潜在層を用いて,エッジ選択と共変量選択にスパイク・アンド・スラブ先行を用いる。 後部推論のために,予測最大化ステップを持つ新しい変分推論手法を開発し,効率的な推定を実現する。 シミュレーション研究を通じて,提案手法はネットワーク回復の精度において既存手法よりも優れていることを示す。 マイクロバイオームデータへの応用を通して,本モデルの実用性を示す。 ヒトのマイクロバイオームは、ヒトの身体の機能の多くに寄与し、また多くの疾患と関連していることが示されている。 我々は,微生物と関連する共変体との相互作用や微生物同士の相互作用をよりよく理解することを目指す。 我々は、SINC(Simultaneous Inference for Networks and Covariates)と呼ばれるアルゴリズムのPython実装をオンラインで提供します。

Network estimation and variable selection have been extensively studied in the statistical literature, but only recently have those two challenges been addressed simultaneously. In this paper, we seek to develop a novel method to simultaneously estimate network interactions and associations to relevant covariates for count data, and specifically for compositional data, which have a fixed sum constraint. We use a hierarchical Bayesian model with latent layers and employ spike-and-slab priors for both edge and covariate selection. For posterior inference, we develop a novel variational inference scheme with an expectation maximization step, to enable efficient estimation. Through simulation studies, we demonstrate that the proposed model outperforms existing methods in its accuracy of network recovery. We show the practical utility of our model via an application to microbiome data. The human microbiome has been shown to contribute to many of the functions of the human body, and also to be linked with a number of diseases. In our application, we seek to better understand the interaction between microbes and relevant covariates, as well as the interaction of microbes with each other. We provide a Python implementation of our algorithm, called SINC (Simultaneous Inference for Networks and Covariates), available online.
翻訳日:2022-10-03 04:57:49 公開日:2021-04-09
# グラフ上の mat\'ern gaussian process

Mat\'ern Gaussian Processes on Graphs ( http://arxiv.org/abs/2010.15538v3 )

ライセンス: Link先を確認
Viacheslav Borovitskiy, Iskander Azangulov, Alexander Terenin, Peter Mostowsky, Marc Peter Deisenroth, Nicolas Durrande(参考訳) ガウス過程(gaussian processes)は、未知の関数を学習するための汎用的なフレームワークであり、その特性に関する事前情報を利用することができる。 多くのガウス過程モデルは、入力空間がユークリッドであるときに容易に利用できるが、その選択は、入力空間が無向グラフであるガウス過程に対してはるかに制限される。 本研究では、ユークリッド設定において広く用いられるモデルクラスであるMat\'ern Gaussianプロセスの確率的偏微分方程式を用いて、そのアナログを非方向グラフに対して研究する。 結果のガウス過程はユークリッドアナログやリーマンアナログの様々な魅力的な性質を継承し、点の誘導のような標準的な手法を用いてそれらを訓練できる技術を提供する。 これにより、グラフのMat\'ern Gaussianプロセスがミニバッチや非共役設定に採用され、実践者がよりアクセスしやすくなり、より大きな学習フレームワークへのデプロイが容易になる。

Gaussian processes are a versatile framework for learning unknown functions in a manner that permits one to utilize prior information about their properties. Although many different Gaussian process models are readily available when the input space is Euclidean, the choice is much more limited for Gaussian processes whose input space is an undirected graph. In this work, we leverage the stochastic partial differential equation characterization of Mat\'ern Gaussian processes - a widely-used model class in the Euclidean setting - to study their analog for undirected graphs. We show that the resulting Gaussian processes inherit various attractive properties of their Euclidean and Riemannian analogs and provide techniques that allow them to be trained using standard methods, such as inducing points. This enables graph Mat\'ern Gaussian processes to be employed in mini-batch and non-conjugate settings, thereby making them more accessible to practitioners and easier to deploy within larger learning frameworks.
翻訳日:2022-10-01 22:08:23 公開日:2021-04-09
# 逆声道変動を用いた抑うつ検出のための一般化拡張CNNモデル

Generalized Dilated CNN Models for Depression Detection Using Inverted Vocal Tract Variables ( http://arxiv.org/abs/2011.06739v3 )

ライセンス: Link先を確認
Nadee Seneviratne, Carol Espy-Wilson(参考訳) 声帯バイオマーカーを用いた抑うつ検出は高い研究領域である。 調音調整機能(acfs)は、主うつ病障害の重要な特徴である精神運動の減速による神経運動の協調の変化に基づいて発達する。 しかし、既存の研究の結果は、結果の一般化性を制限する単一のデータベース上で検証されている。 異なるうつ病データベース間の変動は、クロスコーパス評価(CCE)の結果に悪影響を及ぼす。 本稿では,2つの抑うつデータベースから抽出したACFに基づいて学習した拡張畳み込みニューラルネットワークを用いた抑うつ検出のための一般化分類器を提案する。 我々は,声道変動(TV)から派生したACFが,抑うつ検出のための堅牢な特徴セットとして有望であることを示す。 本モデルでは,1つのデータベース上で学習したモデル上で行ったCCEと比較して,相対精度が約10%向上した。 本研究は,Fusing TVとMel-Frequency Cepstral Coefficientsにより,この分類器の性能をさらに向上させることができることを示す。

Depression detection using vocal biomarkers is a highly researched area. Articulatory coordination features (ACFs) are developed based on the changes in neuromotor coordination due to psychomotor slowing, a key feature of Major Depressive Disorder. However findings of existing studies are mostly validated on a single database which limits the generalizability of results. Variability across different depression databases adversely affects the results in cross corpus evaluations (CCEs). We propose to develop a generalized classifier for depression detection using a dilated Convolutional Neural Network which is trained on ACFs extracted from two depression databases. We show that ACFs derived from Vocal Tract Variables (TVs) show promise as a robust set of features for depression detection. Our model achieves relative accuracy improvements of ~10% compared to CCEs performed on models trained on a single database. We extend the study to show that fusing TVs and Mel-Frequency Cepstral Coefficients can further improve the performance of this classifier.
翻訳日:2022-09-26 00:36:35 公開日:2021-04-09
# ターゲットガイド型感情認識チャットマシン

Target Guided Emotion Aware Chat Machine ( http://arxiv.org/abs/2011.07432v2 )

ライセンス: Link先を確認
Wei Wei, Jiayi Liu, Xianling Mao, Guibin Guo, Feida Zhu, Pan Zhou, Yuchong Hu and Shanshan Feng(参考訳) 意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。 しかし、ほとんどのアプローチは、反応を生成しながら投稿が伝える感情情報を無視しているため、この課題は文献ではうまく解決されていない。 本論では,感情のセマンティクスと感情を同時にエンコードし,よりインテリジェントな応答を適切に表現された感情で生成するためのターゲット情報を活用する,未定義のエンドツーエンドニューラルアーキテクチャを提案する。 実世界データに対する広範囲な実験により,提案手法が,コンテンツの一貫性と感情の適切性という観点から,最先端手法よりも優れていることが示された。

The consistency of a response to a given post at semantic-level and emotional-level is essential for a dialogue system to deliver human-like interactions. However, this challenge is not well addressed in the literature, since most of the approaches neglect the emotional information conveyed by a post while generating responses. This article addresses this problem by proposing a unifed end-to-end neural architecture, which is capable of simultaneously encoding the semantics and the emotions in a post and leverage target information for generating more intelligent responses with appropriately expressed emotions. Extensive experiments on real-world data demonstrate that the proposed method outperforms the state-of-the-art methods in terms of both content coherence and emotion appropriateness.
翻訳日:2022-09-25 06:45:32 公開日:2021-04-09
# MUST-GAN:自己駆動型人物画像生成のための多段階統計伝達

MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image Generation ( http://arxiv.org/abs/2011.09084v3 )

ライセンス: Link先を確認
Tianxiang Ma, Bo Peng, Wei Wang, Jing Dong(参考訳) pose-guided person Image generationは、通常、トレーニングを監督するためにペアのソースターゲットイメージを使用する。 そこで,本稿では,人物画像から複数レベルの出現特徴を抽出・転送し,それらをポーズ特徴と融合して原点画像自体を再構成する多レベル統計伝達モデルを提案する。 ソースイメージを自己駆動型イメージ生成の監督として使用できるようにします。 具体的には,出現エンコーダから多レベル特徴を抽出し,注意機構と属性統計を用いて最適な出現表現を学習する。 次に、外観とポーズを再注入するためのポーズ誘導ジェネレータにそれらを転送する。 本手法により,人物の外観やポーズ特性を柔軟に操作し,ポーズの移動や着衣の移動を行うことができる。 DeepFashionデータセットの実験結果は、最先端の教師付きおよび教師なしの手法と比較して、我々の手法の優位性を示している。 さらに、私たちのアプローチは野生でもうまく機能します。

Pose-guided person image generation usually involves using paired source-target images to supervise the training, which significantly increases the data preparation effort and limits the application of the models. To deal with this problem, we propose a novel multi-level statistics transfer model, which disentangles and transfers multi-level appearance features from person images and merges them with pose features to reconstruct the source person images themselves. So that the source images can be used as supervision for self-driven person image generation. Specifically, our model extracts multi-level features from the appearance encoder and learns the optimal appearance representation through attention mechanism and attributes statistics. Then we transfer them to a pose-guided generator for re-fusion of appearance and pose. Our approach allows for flexible manipulation of person appearance and pose properties to perform pose transfer and clothes style transfer tasks. Experimental results on the DeepFashion dataset demonstrate our method's superiority compared with state-of-the-art supervised and unsupervised methods. In addition, our approach also performs well in the wild.
翻訳日:2022-09-24 04:22:40 公開日:2021-04-09
# CLIPPER:ロバストデータアソシエーションのためのグラフ理論フレームワーク

CLIPPER: A Graph-Theoretic Framework for Robust Data Association ( http://arxiv.org/abs/2011.10202v2 )

ライセンス: Link先を確認
Parker C. Lusk, Kaveh Fathian, Jonathan P. How(参考訳) CLIPPER(Consistent Linking,Pruning,Pairwise Error Rectification)は,ノイズや外れ値の存在下でのロバストなデータ関連のためのフレームワークである。 幾何学的整合性の概念を用いてグラフ理論の枠組みで問題を定式化する。 このフレームワークを使用する最先端技術は、大規模な問題にうまく対応できない組合せ最適化技術を利用するか、高ノイズで高出力のシステムにおいて低い精度をもたらすヒューリスティック近似を使用する。 対照的に、CLIPPERは組合せ問題の緩和を使い、元の問題の最適値に対応することが保証された解を返す。 低時間複雑性は、効率的な投影勾配上昇アプローチによって達成される。 実験の結果、CLIPPERは最大で最大24秒の正確なメソッドを必要とする15ミリ秒のランタイムを一貫して維持している。 ノイズの多いポイントクラウドの登録問題を評価すると、CLIPPERは100%の精度と98%のリコールを90%のアウトレージレシブで達成し、競合するアルゴリズムは70%のアウトレージで劣化し始める。 スタンフォード・バニー(Stanford Bunny)のノイズポイントと990のアウトリー・アソシエーションと10のイリヤ・アソシエーションを関連付ける場合、CLIPPERは138msで100%精度で8つのイリヤ・アソシエーションを返却することに成功した。

We present CLIPPER (Consistent LInking, Pruning, and Pairwise Error Rectification), a framework for robust data association in the presence of noise and outliers. We formulate the problem in a graph-theoretic framework using the notion of geometric consistency. State-of-the-art techniques that use this framework utilize either combinatorial optimization techniques that do not scale well to large-sized problems, or use heuristic approximations that yield low accuracy in high-noise, high-outlier regimes. In contrast, CLIPPER uses a relaxation of the combinatorial problem and returns solutions that are guaranteed to correspond to the optima of the original problem. Low time complexity is achieved with an efficient projected gradient ascent approach. Experiments indicate that CLIPPER maintains a consistently low runtime of 15 ms where exact methods can require up to 24 s at their peak, even on small-sized problems with 200 associations. When evaluated on noisy point cloud registration problems, CLIPPER achieves 100% precision and 98% recall in 90% outlier regimes while competing algorithms begin degrading by 70% outliers. In an instance of associating noisy points of the Stanford Bunny with 990 outlier associations and only 10 inlier associations, CLIPPER successfully returns 8 inlier associations with 100% precision in 138 ms. Code is available at https://mit-acl.github.io/clipper.
翻訳日:2022-09-23 06:26:30 公開日:2021-04-09
# 顕微鏡画像を用いた口腔癌検出のための転写学習

Transfer Learning for Oral Cancer Detection using Microscopic Images ( http://arxiv.org/abs/2011.11610v2 )

ライセンス: Link先を確認
Rutwik Palaskar, Renu Vyas, Vilas Khedekar, Sangeeta Palaskar, Pranjal Sahu(参考訳) 早期に検出された口腔癌の生存率は83%を超えているが,早期に検出された症例は29%に過ぎなかった。 ディープラーニング技術は、口腔がん細胞のパターンを検出し、早期発見を支援することができる。 本稿では,顕微鏡画像を用いた口腔癌検出のためのニューラルネットワークの最初の結果を示す。 我々は,トランスファーラーニングアプローチによる多くの最先端モデルを比較し,口腔癌の高品質な顕微鏡画像のデータセットを収集,リリースする。 本稿では,様々なモデルに関する包括的研究を行い,その性能について報告する。 総じて、単純な畳み込みニューラルネットワークのベースラインと比較して、転送学習法で10~15%の絶対改善が得られる。 アブレーション研究は、このタスクに対する微調整によるデータ拡張技術の追加の利点を示している。

Oral cancer has more than 83% survival rate if detected in its early stages, however, only 29% of cases are currently detected early. Deep learning techniques can detect patterns of oral cancer cells and can aid in its early detection. In this work, we present the first results of neural networks for oral cancer detection using microscopic images. We compare numerous state-of-the-art models via transfer learning approach and collect and release an augmented dataset of high-quality microscopic images of oral cancer. We present a comprehensive study of different models and report their performance on this type of data. Overall, we obtain a 10-15% absolute improvement with transfer learning methods compared to a simple Convolutional Neural Network baseline. Ablation studies show the added benefit of data augmentation techniques with finetuning for this task.
翻訳日:2022-09-22 01:52:54 公開日:2021-04-09
# spinnet: 3dポイントクラウド登録のための汎用ディスクリプタの学習

SpinNet: Learning a General Surface Descriptor for 3D Point Cloud Registration ( http://arxiv.org/abs/2011.12149v2 )

ライセンス: Link先を確認
Sheng Ao, Qingyong Hu, Bo Yang, Andrew Markham, Yulan Guo(参考訳) 堅牢で一般的な3Dローカル機能を抽出することは、ポイントクラウドの登録や再構築といった下流タスクの鍵となる。 既存の学習ベースのローカル記述子は回転変換に敏感であるか、あるいは汎用的でも代表的でもない古典的な手作りの特徴に依存している。 本稿では,SpinNetと呼ばれる新しい,概念上はシンプルなニューラルアーキテクチャを導入し,回転不変な局所的特徴を抽出し,正確な登録を可能にする。 空間点変換器は、入力された局所曲面を慎重に設計された円筒空間にマッピングするために最初に導入され、SO(2)等変表現によるエンドツーエンドの最適化を可能にする。 次に、強力な点ベースおよび3d円筒型畳み込み神経層を利用する神経特徴抽出器を用いて、コンパクトで代表的な記述子を導出してマッチングを行う。 屋内および屋外のデータセットにおける広範囲な実験は、spinnetが既存の最先端技術よりも大きなマージンで優れていることを示している。 より重要なことは、センサモードの異なる未確認シナリオにまたがる最高の一般化能力である。 コードはhttps://github.com/QingyongHu/SpinNetで入手できる。

Extracting robust and general 3D local features is key to downstream tasks such as point cloud registration and reconstruction. Existing learning-based local descriptors are either sensitive to rotation transformations, or rely on classical handcrafted features which are neither general nor representative. In this paper, we introduce a new, yet conceptually simple, neural architecture, termed SpinNet, to extract local features which are rotationally invariant whilst sufficiently informative to enable accurate registration. A Spatial Point Transformer is first introduced to map the input local surface into a carefully designed cylindrical space, enabling end-to-end optimization with SO(2) equivariant representation. A Neural Feature Extractor which leverages the powerful point-based and 3D cylindrical convolutional neural layers is then utilized to derive a compact and representative descriptor for matching. Extensive experiments on both indoor and outdoor datasets demonstrate that SpinNet outperforms existing state-of-the-art techniques by a large margin. More critically, it has the best generalization ability across unseen scenarios with different sensor modalities. The code is available at https://github.com/QingyongHu/SpinNet.
翻訳日:2022-09-21 12:18:29 公開日:2021-04-09
# ロボットのための物体検出のための高速領域提案学習

Fast Region Proposal Learning for Object Detection for Robotics ( http://arxiv.org/abs/2011.12790v2 )

ライセンス: Link先を確認
Federico Ceola, Elisa Maiettini, Giulia Pasquale, Lorenzo Rosasco and Lorenzo Natale(参考訳) 物体検出は、ロボットが非構造環境で動作するための基本的なタスクである。 現在、この課題を顕著なパフォーマンスで解決する深層学習アルゴリズムがいくつかある。 残念ながら、そのようなシステムのトレーニングには数時間のGPU時間が必要です。 ロボットが環境の変化にうまく適応したり、新しい物体を学習したりするためには、物体検出器を短時間で再訓練することも重要である。 最近のメソッド[1]は、ディープラーニング記述子を強力に表現し、高速な適応時間を可能にするアーキテクチャを提案する。 タスクの自然な分解を活用する (i)地域候補世代 (ii)特徴抽出及び (iii)領域分類、この方法は、分類層を再訓練するだけで、検出器の迅速な適応を行う。 これにより、最先端のパフォーマンスを維持しながらトレーニング時間を短縮する。 本稿では,まず,目の前のタスクに領域候補生成を適応させることにより,精度のさらなる向上が期待できることを示す。 次に,2つの異なるロボットデータセットにおける速度と精度の面での改善を実験的に証明し,(1)で提示した物体検出システムを高速学習手法で拡張する。 実験を再現するコードはgithubで公開されている。

Object detection is a fundamental task for robots to operate in unstructured environments. Today, there are several deep learning algorithms that solve this task with remarkable performance. Unfortunately, training such systems requires several hours of GPU time. For robots, to successfully adapt to changes in the environment or learning new objects, it is also important that object detectors can be re-trained in a short amount of time. A recent method [1] proposes an architecture that leverages on the powerful representation of deep learning descriptors, while permitting fast adaptation time. Leveraging on the natural decomposition of the task in (i) regions candidate generation, (ii) feature extraction and (iii) regions classification, this method performs fast adaptation of the detector, by only re-training the classification layer. This shortens training time while maintaining state-of-the-art performance. In this paper, we firstly demonstrate that a further boost in accuracy can be obtained by adapting, in addition, the regions candidate generation on the task at hand. Secondly, we extend the object detection system presented in [1] with the proposed fast learning approach, showing experimental evidence on the improvement provided in terms of speed and accuracy on two different robotics datasets. The code to reproduce the experiments is publicly available on GitHub.
翻訳日:2022-09-21 03:30:17 公開日:2021-04-09
# カーネルに基づくロボットのための高速物体セグメンテーション学習

Fast Object Segmentation Learning with Kernel-based Methods for Robotics ( http://arxiv.org/abs/2011.12805v2 )

ライセンス: Link先を確認
Federico Ceola, Elisa Maiettini, Giulia Pasquale, Lorenzo Rosasco and Lorenzo Natale(参考訳) オブジェクトセグメンテーション(Object segmentation)は、ロボットの視覚システムにおいて、特にオクルージョンの存在下で、把握やオブジェクト操作などのタスクを実行する重要なコンポーネントである。 他の多くのコンピュータビジョンタスクと同様に、ディープアーキテクチャの採用により、このタスクを顕著なパフォーマンスで実行するアルゴリズムが利用可能になった。 しかし、ロボット工学におけるそのようなアルゴリズムの採用は、トレーニングには大量の計算時間が必要であり、オンラインでは実行できないという事実によって妨げられている。 本稿では,この問題を克服し,最先端手法が要求する時間の一部で同等の性能を実現する,オブジェクト分割のための新しいアーキテクチャを提案する。 このアプローチは,事前学習されたマスクr-cnnに基づいており,新たなタスクのために再トレーニングされる分類器とレグレッシャのセットに,さまざまなレイヤを置き換えている。 大規模問題に対する高速トレーニングを可能にするカーネルベースの効率的な手法を採用する。 我々のアプローチは、コンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証され、トレーニング時間の大幅な削減({\sim}6\times$)により、最先端技術のパフォーマンスを達成し、さらに超えることができることを示した。 実験を再現するコードはgithubで公開されている。

Object segmentation is a key component in the visual system of a robot that performs tasks like grasping and object manipulation, especially in presence of occlusions. Like many other computer vision tasks, the adoption of deep architectures has made available algorithms that perform this task with remarkable performance. However, adoption of such algorithms in robotics is hampered by the fact that training requires large amount of computing time and it cannot be performed on-line. In this work, we propose a novel architecture for object segmentation, that overcomes this problem and provides comparable performance in a fraction of the time required by the state-of-the-art methods. Our approach is based on a pre-trained Mask R-CNN, in which various layers have been replaced with a set of classifiers and regressors that are re-trained for a new task. We employ an efficient Kernel-based method that allows for fast training on large scale problems. Our approach is validated on the YCB-Video dataset which is widely adopted in the computer vision and robotics community, demonstrating that we can achieve and even surpass performance of the state-of-the-art, with a significant reduction (${\sim}6\times$) of the training time. The code to reproduce the experiments is publicly available on GitHub.
翻訳日:2022-09-21 03:30:01 公開日:2021-04-09
# ソフトデータ強化による強化学習の一般化

Generalization in Reinforcement Learning by Soft Data Augmentation ( http://arxiv.org/abs/2011.13389v2 )

ライセンス: Link先を確認
Nicklas Hansen, Xiaolong Wang(参考訳) ドメインのランダム化とデータ拡張による強化学習(RL)手法の一般化能力の向上に大きく取り組んできた。 しかしながら、トレーニング中により多くの変動要因が導入されるにつれて、最適化はますます難しくなり、経験上はサンプル効率が低下し、不安定なトレーニングになる可能性がある。 拡張データから直接ポリシを学習するのではなく,ポリシー学習から拡張を分離する手法であるsoft data augmentation(soda)を提案する。 特に、SODAはエンコーダにソフト制約を課し、拡張されたデータと非拡張されたデータの潜在表現間の相互情報を最大化することを目的としている。 我々は,DeepMind Controlスイートとロボット操作タスクの多様なタスクに対して実験的な評価を行い,最先端のビジョンベースRL手法によるトレーニングにおいて,サンプル効率,一般化,安定性を著しく向上させるSODAを見出した。

Extensive efforts have been made to improve the generalization ability of Reinforcement Learning (RL) methods via domain randomization and data augmentation. However, as more factors of variation are introduced during training, optimization becomes increasingly challenging, and empirically may result in lower sample efficiency and unstable training. Instead of learning policies directly from augmented data, we propose SOft Data Augmentation (SODA), a method that decouples augmentation from policy learning. Specifically, SODA imposes a soft constraint on the encoder that aims to maximize the mutual information between latent representations of augmented and non-augmented data, while the RL optimization process uses strictly non-augmented data. Empirical evaluations are performed on diverse tasks from DeepMind Control suite as well as a robotic manipulation task, and we find SODA to significantly advance sample efficiency, generalization, and stability in training over state-of-the-art vision-based RL methods.
翻訳日:2022-09-20 12:07:07 公開日:2021-04-09
# GAEA:強化学習による等価アクセスのためのグラフ拡張

GAEA: Graph Augmentation for Equitable Access via Reinforcement Learning ( http://arxiv.org/abs/2012.03900v2 )

ライセンス: Link先を確認
Govardana Sachithanandam Ramachandran, Ivan Brugere, Lav R. Varshney, and Caiming Xiong(参考訳) 異なるサブ人口による資源の異なるアクセスは、社会技術ネットワークや社会技術ネットワークにおいて主要な問題である。 例えば、都市インフラネットワークは、特定の人種集団が高品質の学校、食料品店、投票所などのリソースをより簡単にアクセスできるようにする。 同様に、大学や組織内のソーシャルネットワークは、あるグループが価値のある情報や影響力を持つ人々にアクセスしやすくする。 本稿では,予算制約下でグラフエッジを編集することにより,ネットワークシステムにおけるエクイティを高めるための新たな問題として,等価アクセスのためのグラフ拡張(gaea)を提案する。 そのような問題はNPハードであり、$(1-\tfrac{1}{3e})$で近似することはできない。 GAEAのためのMRP(Markov Reward Process)に基づくメカニズム設計フレームワークを開発した。 我々のアルゴリズムは多種多様な合成グラフのベースラインを上回る。 さらに,シカゴ市における人口センサス,学校,交通データの統合と,バスネットワークへの人間解釈可能な編集手法の適用により,人種間での質の高い学校への公平なアクセスを促進することにより,実世界のネットワーク上での手法を実証する。 大学内のfacebookネットワークでのさらなる実験は、性別グループ間の特定の帰属ノードへの公平なアクセスを増加させる、新たな社会接続のセットをもたらす。

Disparate access to resources by different subpopulations is a prevalent issue in societal and sociotechnical networks. For example, urban infrastructure networks may enable certain racial groups to more easily access resources such as high-quality schools, grocery stores, and polling places. Similarly, social networks within universities and organizations may enable certain groups to more easily access people with valuable information or influence. Here we introduce a new class of problems, Graph Augmentation for Equitable Access (GAEA), to enhance equity in networked systems by editing graph edges under budget constraints. We prove such problems are NP-hard, and cannot be approximated within a factor of $(1-\tfrac{1}{3e})$. We develop a principled, sample- and time- efficient Markov Reward Process (MRP)-based mechanism design framework for GAEA. Our algorithm outperforms baselines on a diverse set of synthetic graphs. We further demonstrate the method on real-world networks, by merging public census, school, and transportation datasets for the city of Chicago and applying our algorithm to find human-interpretable edits to the bus network that enhance equitable access to high-quality schools across racial groups. Further experiments on Facebook networks of universities yield sets of new social connections that would increase equitable access to certain attributed nodes across gender groups.
翻訳日:2021-05-16 21:39:40 公開日:2021-04-09
# サイドステッピングによるより強いキャリブレーション下限

Stronger Calibration Lower Bounds via Sidestepping ( http://arxiv.org/abs/2012.03454v2 )

ライセンス: Link先を確認
Mingda Qiao, Gregory Valiant(参考訳) 我々は、予測者が1つずつ$t$ビットのシーケンスを観察するオンラインバイナリ予測設定を考える。 各ビットが明かされる前に、予測器はビットが1ドルである確率を予測する。 予測器が well-calibrated と呼ばれるのは、各$p \in [0, 1]$ に対して、予測者が確率 $p$ を予測する$n_p$ のうち、実際の数 $m_p$ が$p \cdot n_p$ に等しい場合である。 キャリブレーション誤差は$\sum_p |m_pp n_p|$と定義され、予測器が適切に校正されない範囲を定量化する。 O(T^{2/3})$キャリブレーション誤差は、ビットが逆選択された場合でも達成可能であり、おそらくは以前の予測に基づいている。 しかし、独立フェアコインフリップの自明な例から従う$\Omega(\sqrt{T})$boundを除いて、下界側ではほとんど知られていない。 本稿では,キャリブレーション誤差に対する$\Omega(T^{0.528})$バウンドを証明し,この設定を私たちの知識の最高のものにするための最初のスーパー=$\sqrt{T}$ローバウンドである。 我々の研究の技術的貢献には、早期停止とサイドステッピングの2つの下限技術が含まれており、これは以前に強いキャリブレーションの下限を妨げていた障害を回避するものである。 また, 予測設定の抽象化として, 独立興味を持った手話保存ゲームを提案する。 このゲームは完全な予測設定よりもずっと小さな状態空間を持ち、より単純な分析を可能にする。 $\Omega(T^{0.528})$ lower bound は Sign-Preservation のゲーム値の下位境界をキャリブレーション誤差の下位境界に変換する一般還元定理から従う。

We consider an online binary prediction setting where a forecaster observes a sequence of $T$ bits one by one. Before each bit is revealed, the forecaster predicts the probability that the bit is $1$. The forecaster is called well-calibrated if for each $p \in [0, 1]$, among the $n_p$ bits for which the forecaster predicts probability $p$, the actual number of ones, $m_p$, is indeed equal to $p \cdot n_p$. The calibration error, defined as $\sum_p |m_p - p n_p|$, quantifies the extent to which the forecaster deviates from being well-calibrated. It has long been known that an $O(T^{2/3})$ calibration error is achievable even when the bits are chosen adversarially, and possibly based on the previous predictions. However, little is known on the lower bound side, except an $\Omega(\sqrt{T})$ bound that follows from the trivial example of independent fair coin flips. In this paper, we prove an $\Omega(T^{0.528})$ bound on the calibration error, which is the first super-$\sqrt{T}$ lower bound for this setting to the best of our knowledge. The technical contributions of our work include two lower bound techniques, early stopping and sidestepping, which circumvent the obstacles that have previously hindered strong calibration lower bounds. We also propose an abstraction of the prediction setting, termed the Sign-Preservation game, which may be of independent interest. This game has a much smaller state space than the full prediction setting and allows simpler analyses. The $\Omega(T^{0.528})$ lower bound follows from a general reduction theorem that translates lower bounds on the game value of Sign-Preservation into lower bounds on the calibration error.
翻訳日:2021-05-16 21:38:57 公開日:2021-04-09
# アイソポイント:ハイブリッド表現を用いたニューラルネットワーク表面の最適化

Iso-Points: Optimizing Neural Implicit Surfaces with Hybrid Representations ( http://arxiv.org/abs/2012.06434v2 )

ライセンス: Link先を確認
Wang Yifan, Shihao Wu, Cengiz Oztireli, Olga Sorkine-Hornung(参考訳) ニューラル暗黙関数は3dの曲面の強力な表現として現れた。 このような関数は、ディープニューラルネットワークのパラメータに複雑な詳細を持つ高品質な表面を符号化することができる。 しかし、特に入力データがノイズや不完全である場合、正確で堅牢な再構成のためのパラメータの最適化は依然として困難である。 本研究では,形状認識型サンプリングと正則化を課すハイブリッドニューラルサーフェス表現を開発し,再構成の忠実性を大幅に改善した。 我々は,神経暗黙関数の明示表現として \emph{iso-points} を用いることを提案する。 これらの点はトレーニング中に計算され更新され、重要な幾何学的特徴を捉え、最適化に幾何的制約を課す。 我々は,多視点画像や点雲からニューラルな暗黙表面を再構築するための最先端技術を改善するために,本手法を適用できることを実証した。 定量的および定性的な評価は,既存のサンプリング法や最適化法と比較して,より高速な収束,一般化,詳細およびトポロジーの正確な回復を可能にすることを示す。

Neural implicit functions have emerged as a powerful representation for surfaces in 3D. Such a function can encode a high quality surface with intricate details into the parameters of a deep neural network. However, optimizing for the parameters for accurate and robust reconstructions remains a challenge, especially when the input data is noisy or incomplete. In this work, we develop a hybrid neural surface representation that allows us to impose geometry-aware sampling and regularization, which significantly improves the fidelity of reconstructions. We propose to use \emph{iso-points} as an explicit representation for a neural implicit function. These points are computed and updated on-the-fly during training to capture important geometric features and impose geometric constraints on the optimization. We demonstrate that our method can be adopted to improve state-of-the-art techniques for reconstructing neural implicit surfaces from multi-view images or point clouds. Quantitative and qualitative evaluations show that, compared with existing sampling and optimization methods, our approach allows faster convergence, better generalization, and accurate recovery of details and topology.
翻訳日:2021-05-11 02:53:35 公開日:2021-04-09
# キースライスROI解析による多相MRボリュームの完全自動肝腫瘍局在と評価

Fully-Automated Liver Tumor Localization and Characterization from Multi-Phase MR Volumes Using Key-Slice ROI Parsing: A Physician-Inspired Approach ( http://arxiv.org/abs/2012.06964v3 )

ライセンス: Link先を確認
Bolin Lai, Yuhsuan Wu, Xiaoyu Bai, Xiao-Yun Zhou, Peng Wang, Jinzheng Cai, Yuankai Huo, Lingyun Huang, Yong Xia, Jing Xiao, Le Lu, Heping Hu, Adam Harrison(参考訳) 肝腫瘍の診断には放射線検査が不可欠である。 多相磁気共鳴(MR)画像を用いた場合であっても、F1のスコアが約80%(肝細胞癌(HCC)対その他のもの)であるのに対して、これは非常に困難である。 このように、コンピュータ支援診断(CAD)ソリューションには大きな意味がある。 重要な課題は、特にエッジケースにおいて、診断可能な関心領域(ROI)の局在化のために、3次元MRボリュームを堅牢に解析することである。 本稿では、まずキースライスを特定し、対応するキーロアをローカライズすることで、医師のワークフローをエミュレートするキースライスパーサ(ksp)を用いてこの問題を解明する。 堅牢性を達成するため、KSPはカーブパーシングと検出信頼度再重み付けも使用している。 これまでの多段階mr肝病変検査データ(生検患者430名)に対するアプローチを評価した。 87%の患者は、基礎的真実と平均3d重なりが40%以上あるが、最もよく検査された検出器は79%である。 分類器と組み合わせると、HCCと他のF1スコアの0.801を達成し、上位の医師に匹敵する完全なCAD性能を提供する。

Using radiological scans to identify liver tumors is crucial for proper patient treatment. This is highly challenging, as top radiologists only achieve F1 scores of roughly 80% (hepatocellular carcinoma (HCC) vs. others) with only moderate inter-rater agreement, even when using multi-phase magnetic resonance (MR) imagery. Thus, there is great impetus for computer-aided diagnosis (CAD) solutions. A critical challenge is to robustly parse a 3D MR volume to localize diagnosable regions of interest (ROI), especially for edge cases. In this paper, we break down this problem using a key-slice parser (KSP), which emulates physician workflows by first identifying key slices and then localizing their corresponding key ROIs. To achieve robustness, the KSP also uses curve-parsing and detection confidence re-weighting. We evaluate our approach on the largest multi-phase MR liver lesion test dataset to date (430 biopsy-confirmed patients). Experiments demonstrate that our KSP can localize diagnosable ROIs with high reliability: 87% patients have an average 3D overlap of >= 40% with the ground truth compared to only 79% using the best tested detector. When coupled with a classifier, we achieve an HCC vs. others F1 score of 0.801, providing a fully-automated CAD performance comparable to top human physicians.
翻訳日:2021-05-09 12:45:21 公開日:2021-04-09
# トランスフォーマー:NLPの「歴史の終わり」?

Transformers: "The End of History" for NLP? ( http://arxiv.org/abs/2105.00813v1 )

ライセンス: Link先を確認
Anton Chernyavskiy, Dmitry Ilvovsky, Preslav Nakov(参考訳) Transformerのようなニューラルアーキテクチャの最近の進歩とBERTのような大規模事前学習モデルの出現は、自然言語処理(NLP)の分野に革命をもたらし、NLPタスクの最先端を推し進めている。 ロベルタ、アルバート、xlnetなど、これらのモデルの豊富なバリエーションが提案されているが、基本的には、それらはいずれも特定の種類の情報をモデル化する能力に制限があり、既存のモデルにとって容易な特定の情報ソースに対応できない。 そこで本研究では,一般的な Transformer アーキテクチャに固有の BERT スタイルのモデルに,いくつかの重要な理論的制約を課すことを目的としている。 まず、セグメンテーションとセグメンテーションラベリングという2つの一般的なタスクと、これらの制限が本当に有害である4つのデータセットについて、非常に単純でナイーブな方法であっても、vanilla robertaとxlnetに対して大きな改善をもたらす可能性があることを実際に実証します。 次に、desiderataについてより一般的な議論を行い、その表現力を高めるトランスフォーマーアーキテクチャへの今後の追加について述べ、次世代の深層nlpアーキテクチャの設計に役立てることを望んでいる。

Recent advances in neural architectures, such as the Transformer, coupled with the emergence of large-scale pre-trained models such as BERT, have revolutionized the field of Natural Language Processing (NLP), pushing the state-of-the-art for a number of NLP tasks. A rich family of variations of these models has been proposed, such as RoBERTa, ALBERT, and XLNet, but fundamentally, they all remain limited in their ability to model certain kinds of information, and they cannot cope with certain information sources, which was easy for pre-existing models. Thus, here we aim to shed some light on some important theoretical limitations of pre-trained BERT-style models that are inherent in the general Transformer architecture. First, we demonstrate in practice on two general types of tasks -- segmentation and segment labeling -- and four datasets that these limitations are indeed harmful and that addressing them, even in some very simple and naive ways, can yield sizable improvements over vanilla RoBERTa and XLNet. Then, we offer a more general discussion on desiderata for future additions to the Transformer architecture that would increase its expressiveness, which we hope could help in the design of the next generation of deep NLP architectures.
翻訳日:2021-05-04 20:41:40 公開日:2021-04-09
# (参考訳) 空気の質が新型コロナウイルスの感染拡大に及ぼす影響。 人工知能のアプローチ

The Effects of Air Quality on the Spread of the COVID-19. An Artificial Intelligence Approach ( http://arxiv.org/abs/2104.12546v1 )

ライセンス: CC BY 4.0
Andrea Loreggia, Anna Passarelli(参考訳) 新型コロナウイルスのパンデミックは世界中の公衆衛生システムに大きな影響を及ぼす。 ウイルスに関する知識の欠如、この現象の延長、および感染の進化の速度は、これらの現象を研究するために新しいアプローチを採用する必要があることを強調するすべての要因である。 人工知能技術は、ウイルスの影響を受けた領域に関するデータを分析するのに有用である。 本研究の目的は,イタリア地方における大気汚染とcovid-19の感染状況の関連について検討することである。 具体的には, 日中感染者と気温, 相対湿度, 大気汚染物質などの環境要因との関連性について検討した。 本解析により,環境パラメータとウイルスの拡散との関連性が確認できた。 これは、将来の感染数を予測するために環境パラメータでトレーニングされた機械学習モデルが正確であることを示唆している。 予測モデルは、人口を保護し、パンデミックと対比する決定を下すのに役立つかもしれない。

The COVID-19 pandemic considerably affects public health systems around the world. The lack of knowledge about the virus, the extension of this phenomenon, and the speed of the evolution of the infection are all factors that highlight the necessity of employing new approaches to study these events. Artificial intelligence techniques may be useful in analyzing data related to areas affected by the virus. The aim of this work is to investigate any possible relationships between air quality and confirmed cases of COVID-19 in Italian districts. Specifically, we report an analysis of the correlation between daily COVID-19 cases and environmental factors, such as temperature, relative humidity, and atmospheric pollutants. Our analysis confirms a significant association of some environmental parameters with the spread of the virus. This suggests that machine learning models trained on the environmental parameters to predict the number of future infected cases may be accurate. Predictive models may be useful for helping institutions in making decisions for protecting the population and contrasting the pandemic.
翻訳日:2021-05-04 08:50:45 公開日:2021-04-09
# (参考訳) 国連における倫理的AIの枠組み

A Framework for Ethical AI at the United Nations ( http://arxiv.org/abs/2104.12547v1 )

ライセンス: CC BY 4.0
Lambert Hogenhout(参考訳) 本稿では、人工知能(AI)の倫理的関心事の概要と、それらのリスクを軽減するために必要な枠組みについて述べ、国連におけるAIの開発と利用が倫理的価値観に合致することを確実にするための実践的な道筋を提案する。 要約では、aiが、基本的人権と国連の価値に逆らうネガティブな副作用のリスクが高いものの、善への可能性を持つ、ますます強力なツールになっていることを論じている。 データとAIが密接に絡み合っているため、データガバナンスの原則に沿ったAIの倫理原則の必要性を説明する。 それは存在する異なる倫理的枠組みとアセスメントリストのようなツールを探求する。 国連は、倫理的原則、建築基準、評価方法、ツール、方法論からなる枠組み、およびこの枠組みの実施と遵守を統制するための方針を職員教育プログラムとともに策定することを推奨している。

This paper aims to provide an overview of the ethical concerns in artificial intelligence (AI) and the framework that is needed to mitigate those risks, and to suggest a practical path to ensure the development and use of AI at the United Nations (UN) aligns with our ethical values. The overview discusses how AI is an increasingly powerful tool with potential for good, albeit one with a high risk of negative side-effects that go against fundamental human rights and UN values. It explains the need for ethical principles for AI aligned with principles for data governance, as data and AI are tightly interwoven. It explores different ethical frameworks that exist and tools such as assessment lists. It recommends that the UN develop a framework consisting of ethical principles, architectural standards, assessment methods, tools and methodologies, and a policy to govern the implementation and adherence to this framework, accompanied by an education program for staff.
翻訳日:2021-05-04 08:35:43 公開日:2021-04-09
# KI-BERT:より良い言語とドメイン理解のための知識コンテキストの注入

KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding ( http://arxiv.org/abs/2104.08145v1 )

ライセンス: Link先を確認
Keyur Faldu, Amit Sheth, Prashant Kikani, Hemang Akabari(参考訳) 最先端のディープラーニングモデル(BERT、GPT、T5など)によって学習されたコンテキスト化されたエンティティ表現は、注意機構を利用してデータコンテキストを学習する。 しかし、これらのモデルは知識グラフに存在する知識コンテキストを活用するには依然として盲目である。 知識コンテキストは、エンティティに関する意味論や、知識グラフにおける近隣エンティティとの関係として理解することができる。 本稿では,知識コンテキストを概念的かつ曖昧なエンティティの知識グラフからトランスフォーマーアーキテクチャに基づくモデルに注入する手法を提案する。 提案手法は,同質なベクトル空間に埋め込まれたプロジェクト知識グラフ,エンティティのための新しいトークン型の導入,エンティティ位置IDの整合化,選択的アテンション機構である。 本研究では,BERTをベースラインモデルとし,コンセプションネットとWordNetから知識コンテキストを注入して"Knowledge Infused BERT"を実装する。 KI-BERTベースモデルは、SciTailのようなドメイン固有のタスクや、QQP、QNLI、MNLIの学術サブセットに対してBERT-largeよりも優れています。

Contextualized entity representations learned by state-of-the-art deep learning models (BERT, GPT, T5, etc) leverage the attention mechanism to learn the data context. However, these models are still blind to leverage the knowledge context present in the knowledge graph. Knowledge context can be understood as semantics about entities, and their relationship with neighboring entities in knowledge graphs. We propose a novel and effective technique to infuse knowledge context from knowledge graphs for conceptual and ambiguous entities into models based on transformer architecture. Our novel technique project knowledge graph embedding in the homogeneous vector-space, introduces new token-types for entities, align entity position ids, and a selective attention mechanism. We take BERT as a baseline model and implement "KnowledgeInfused BERT" by infusing knowledge context from ConceptNet and WordNet, which significantly outperforms BERT over a wide range of NLP tasks over eight different GLUE datasets. KI-BERT-base model even outperforms BERT-large for domain-specific tasks like SciTail and academic subsets of QQP, QNLI, and MNLI.
翻訳日:2021-05-03 19:44:04 公開日:2021-04-09
# 分類問題に対する特徴の影響評価 : COVID-19患者への適用

Assessment of the influence of features on a classification problem: an application to COVID-19 patients ( http://arxiv.org/abs/2104.14958v1 )

ライセンス: Link先を確認
L. Davila-Pena, Ignacio Garc\'ia-Jurado, B. Casas-M\'endez(参考訳) 本稿では,機械学習技術が対処する分類問題において重要な課題である,個々人の分類に対する各特徴の影響の評価について述べる。 具体的には、協調ゲームにおけるShapley値を用いて、その影響の尺度を導入する。 さらに, 効率特性とバランスの取れたコントリビューションに基づいて, 提案尺度の公理的特徴付けを行う。 さらに,これらの測定値の適切な性能を検証するために,いくつかの実験が設計されている。 最後に、covid-19患者のサンプルに導入した手法を用いて、特定の人口動態やリスク要因が、疾患の進化に関連する様々な関心事に与える影響を研究する。

This paper deals with an important subject in classification problems addressed by machine learning techniques: the evaluation of the influence of each of the features on the classification of individuals. Specifically, a measure of that influence is introduced using the Shapley value of cooperative games. In addition, an axiomatic characterisation of the proposed measure is provided based on properties of efficiency and balanced contributions. Furthermore, some experiments have been designed in order to validate the appropriate performance of such measure. Finally, the methodology introduced is applied to a sample of COVID-19 patients to study the influence of certain demographic or risk factors on various events of interest related to the evolution of the disease.
翻訳日:2021-05-03 19:43:04 公開日:2021-04-09
# 人工知能、ヒューマンファクター、自動化の組み合わせに関する総合的な体系的レビュー

Comprehensive systematic review into combinations of artificial intelligence, human factors, and automation ( http://arxiv.org/abs/2104.09233v1 )

ライセンス: Link先を確認
Reza Khani-Shekarab, Alireza khani-shekarab(参考訳) 人工知能(AI)ベースのモデルは、医療や金融などさまざまな分野を改善するために使用される。 AIの利点を享受する分野のひとつに自動化がある。 しかし、自動化にAIを適用する際の人間的要因を考えることは重要である。 本稿では,PMにおけるAIの適用を調査するために使用される論文の体系的レビューについて報告する。 この総合的な体系的なレビューでは、ScienceDirectを使用して関連する記事を特定した。 422項目のうち40項目が包括的および排他的基準を満たしており、レビューで使用された。 選択項目は人的要因と適用領域の分類に基づいて分類された。 その結果、人間の要因に対する自動化におけるaiの適用は、身体的人間工学、認知的人間工学、組織的人間工学の3つの領域に分けられることが示された。 身体と認知のエルゴノミクスにおける主な応用分野は、輸送、ユーザー体験、人間と機械の相互作用である。

Artificial intelligence (AI)-based models used to improve different fields including healthcare, and finance. One of the field that receive advantages of AI is automation. However, it is important to consider human factors in application of AI in automation. This paper reports on a systematic review of the published studies used to investigate the application of AI in PM. This comprehensive systematic review used ScienceDirect to identify relevant articles. Of the 422 articles found, 40 met the inclusion and exclusion criteria and were used in the review. Selected articles were classified based on categories of human factors and areas of application. The results indicated that application of AI in automation with respect to human factors could be divided into three areas of physical ergonomics, cognitive ergonomic and organizational ergonomics. The main areas of application in physical and cognitive ergonomics are including transportation, User experience, and human-machine interactions.
翻訳日:2021-05-03 19:41:32 公開日:2021-04-09
# ランダムフィールドを用いた複数の疑似画像分類と疾患適応のための深層信念ネットワーク

Multiple Simultaneous Pseudo Image Classification with Random Fields and a Deep Belief Network for Disease Indication ( http://arxiv.org/abs/2104.10762v1 )

ライセンス: Link先を確認
Robert A. Murphy(参考訳) 2次元整数行列の擬似画像分類のための教師付きエネルギーベースモデルにおいて、ランダム場理論を用いる方法を示す。 モデルでは、2次元整数行列の各行は、局所受容場が同時に学習する個々の行の複数の部分に焦点を当てた擬似画像である。 このモデルは、特定の疾患を示す患者バイオマーカーの存在からなる分類タスクに使用される。

We show how to use random field theory in a supervised, energy-based model for multiple pseudo image classification of 2D integer matrices. In the model, each row of a 2D integer matrix is a pseudo image where a local receptive field focuses on multiple portions of individual rows for simultaneous learning. The model is used for a classification task consisting of presence of patient biomarkers indicative of a particular disease.
翻訳日:2021-05-03 19:40:58 公開日:2021-04-09
# スパースビームフォーミングマップからのソースローカライズとスペクトル生成

Automatic source localization and spectra generation from sparse beamforming maps ( http://arxiv.org/abs/2012.09643v3 )

ライセンス: Link先を確認
Armin Goudarzi, Carsten Spehr, Steffen Herbold(参考訳) ビームフォーミングは、空力音響現象を調査するためのイメージングツールであり、興味のある空間領域を統合することでスペクトルに分解される高次元データを生成する。 本稿では,スパースビームフォーミングマップにおける音響源の自動同定と,それに対応するスペクトルの抽出により,関心領域のマニュアル定義を克服する2つの手法を提案する。 この手法は2つのスケールドエアフレームの半模型風洞実験で評価された。 1つ目は、スパースビームフォーミングマップにおける空気音響ブロードバンド源の空間正規分布に依存する。 2つ目は階層的クラスタリング手法である。 どちらの手法も統計雑音に対して頑健であり、興味のある領域を自動的に決定したソースの存在、位置、空間的確率推定を予測できる。

Beamforming is an imaging tool for the investigation of aeroacoustic phenomena and results in high dimensional data that is broken down to spectra by integrating spatial Regions Of Interest. This paper presents two methods which enable the automated identification of aeroacoustic sources in sparse beamforming maps and the extraction of their corresponding spectra to overcome the manual definition of Regions Of Interest. The methods are evaluated on two scaled airframe half-model wind tunnel measurements. The first relies on the spatial normal distribution of aeroacoustic broadband sources in sparse beamforming maps. The second uses hierarchical clustering methods. Both methods are robust to statistical noise and predict the existence, location and spatial probability estimation for sources based on which Regions Of Interests are automatically determined.
翻訳日:2021-05-03 02:40:17 公開日:2021-04-09
# (参考訳) 時系列予測のための機械学習の進歩

Machine Learning Advances for Time Series Forecasting ( http://arxiv.org/abs/2012.12802v3 )

ライセンス: CC BY 4.0
Ricardo P. Masini, Marcelo C. Medeiros and Eduardo F. Mendes(参考訳) 本稿では,時系列予測のための教師付き機械学習と高次元モデルの最新動向について述べる。 線形および非線形の代替を考える。 線形手法のうち、ペナルティ化された回帰とモデルのアンサンブルに特に注意を払う。 本稿で考慮された非線形手法は、フィードフォワードおよびリカレントバージョンにおける浅層および深層ニューラルネットワークと、ランダム森林や隆起木などの木に基づく手法である。 異なる代替品の材料を組み合わせることで、アンサンブルとハイブリッドモデルも検討する。 優れた予測能力を示すテストは、簡単にレビューされる。 最後に、経済学および金融分野における機械学習の適用について論じ、高周波金融データを用いたイラストを提供する。

In this paper we survey the most recent advances in supervised machine learning and high-dimensional models for time series forecasting. We consider both linear and nonlinear alternatives. Among the linear methods we pay special attention to penalized regressions and ensemble of models. The nonlinear methods considered in the paper include shallow and deep neural networks, in their feed-forward and recurrent versions, and tree-based methods, such as random forests and boosted trees. We also consider ensemble and hybrid models by combining ingredients from different alternatives. Tests for superior predictive ability are briefly reviewed. Finally, we discuss application of machine learning in economics and finance and provide an illustration with high-frequency financial data.
翻訳日:2021-04-25 21:21:44 公開日:2021-04-09
# 実演で見つけたルーチンによるポリシー学習の強化

Augmenting Policy Learning with Routines Discovered from a Demonstration ( http://arxiv.org/abs/2012.12469v3 )

ライセンス: Link先を確認
Zelin Zhao, Chuang Gan, Jiajun Wu, Xiaoxiao Guo, Joshua B. Tenenbaum(参考訳) 人間は非常に少ないデータから事前の知識を抽象化し、それを使ってスキル学習を促進することができる。 本稿では,1つの実演から原始的な行動からなるルーチンを発見し,発見ルーチンを用いて政策学習を増強するルーチン拡張政策学習(RAPL)を提案する。 実演からルーチンを発見するために,まず,実演行動軌跡上で文法を識別し,ルーチン候補を抽象化する。 そして、長さと周波数で測定した最良のルーチンを選択して、ルーチンライブラリを形成する。 本稿では,基本レベルとルーチンレベルを同時に学習し,ルーチンの時間的構造を活用することを提案する。 提案手法は,複数の時間スケールで専門家の行動を模倣して模倣学習を可能にし,強化学習探索を促進する。 Atariゲームに対する大規模な実験により、RAPLは最先端の模倣学習法SQILと強化学習法A2Cを改善した。 さらに,検出されたルーチンは,CoinRunベンチマークの未確認レベルと難易度に一般化可能であることを示す。

Humans can abstract prior knowledge from very little data and use it to boost skill learning. In this paper, we propose routine-augmented policy learning (RAPL), which discovers routines composed of primitive actions from a single demonstration and uses discovered routines to augment policy learning. To discover routines from the demonstration, we first abstract routine candidates by identifying grammar over the demonstrated action trajectory. Then, the best routines measured by length and frequency are selected to form a routine library. We propose to learn policy simultaneously at primitive-level and routine-level with discovered routines, leveraging the temporal structure of routines. Our approach enables imitating expert behavior at multiple temporal scales for imitation learning and promotes reinforcement learning exploration. Extensive experiments on Atari games demonstrate that RAPL improves the state-of-the-art imitation learning method SQIL and reinforcement learning method A2C. Further, we show that discovered routines can generalize to unseen levels and difficulties on the CoinRun benchmark.
翻訳日:2021-04-25 18:17:10 公開日:2021-04-09
# 確率分布と条件輸送の比較

Comparing Probability Distributions with Conditional Transport ( http://arxiv.org/abs/2012.14100v3 )

ライセンス: Link先を確認
Huangjie Zheng and Mingyuan Zhou(参考訳) 2つの確率分布の差を測定するために, 条件付き輸送(CT)を新たな分岐として提案し, さらに, 暗黙的分布と確率的勾配勾配に基づく最適化を実現するために, 償却CT(ACT)コストを近似した。 ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。 生成モデルの訓練に応用すると、ACTはモード被覆と動作探索のバランスが良く、モード崩壊に強く抵抗することが示される。 生成モデルのための様々なベンチマークデータセットにおいて、ACTによる既存の生成逆数ネットワークの既定統計距離を置換することにより、その性能を一貫して改善することを示す。

To measure the difference between two probability distributions, we propose conditional transport (CT) as a new divergence and further approximate it with the amortized CT (ACT) cost to make it amenable to implicit distributions and stochastic gradient descent based optimization. ACT amortizes the computation of its conditional transport plans and comes with unbiased sample gradients that are straightforward to compute. When applied to train a generative model, ACT is shown to strike a good balance between mode covering and seeking behaviors and strongly resist mode collapse. On a wide variety of benchmark datasets for generative modeling, substituting the default statistical distance of an existing generative adversarial network with ACT is shown to consistently improve the performance.
翻訳日:2021-04-19 11:09:18 公開日:2021-04-09
# (参考訳) SFE-Net:対称空間特徴抽出による脳波に基づく感情認識

SFE-Net: EEG-based Emotion Recognition with Symmetrical Spatial Feature Extraction ( http://arxiv.org/abs/2104.06308v1 )

ライセンス: CC BY 4.0
Xiangwen Deng, Shangming Yang and Junlin Zhu(参考訳) 脳波に基づく感情認識は、人間とコンピュータの相互作用、遠隔教育、医療において広く用いられている。 しかし、従来の手法では脳波信号の隣接的および対称的特性を無視し、感情に関連する有意な情報も含む。 本稿では,脳波の特徴抽出と感情認識のための空間的折り畳みアンサンブルネットワーク(SFENet)を提案する。 第一に,脳波電極間の未検出領域に対して,脳波路情報補完のためのBicubic-EEG補間アルゴリズムを改良し,より広い範囲の空間特徴を抽出する。 次に,人間の脳の空間的対称性機構に動機づけられ,入力脳波チャネルデータを左右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳み,右折り畳みの5つの異なる対称戦略で折り畳み,提案ネットワークが脳波信号の空間的特徴情報をより効果的に抽出できるようにする。 最後に、3dcnnに基づくアンサンブル学習の空間的・時間的抽出とマルチ投票戦略を用いて新しいニューラルネットワークをモデル化する。 このネットワークにより、異なる対称折り畳み符号の空間的特徴を同時に抽出することが可能となり、特徴認識のロバスト性と精度が大幅に向上する。 DEAPとSEEDデータセットの実験結果から,提案アルゴリズムは認識精度の点で同等の性能を示した。

Emotion recognition based on EEG (electroencephalography) has been widely used in human-computer interaction, distance education and health care. However, the conventional methods ignore the adjacent and symmetrical characteristics of EEG signals, which also contain salient information related to emotion. In this paper, we present a spatial folding ensemble network (SFENet) for EEG feature extraction and emotion recognition. Firstly, for the undetected area between EEG electrodes, we employ an improved Bicubic-EEG interpolation algorithm for EEG channel information completion, which allows us to extract a wider range of adjacent space features. Then, motivated by the spatial symmetry mechanism of human brain, we fold the input EEG channel data with five different symmetrical strategies: the left-right folds, the right-left folds, the top-bottom folds, the bottom-top folds, and the entire double-sided brain folding, which enable the proposed network to extract the information of space features of EEG signals more effectively. Finally, 3DCNN based spatial and temporal extraction and multi voting strategy of ensemble Learning are employed to model a new neural network. With this network, the spatial features of different symmetric folding signlas can be extracted simultaneously, which greatly improves the robustness and accuracy of feature recognition. The experimental results on DEAP and SEED data sets show that the proposed algorithm has comparable performance in term of recognition accuracy.
翻訳日:2021-04-16 09:48:14 公開日:2021-04-09
# (参考訳) 時系列分類のための深層変圧器ネットワーク:NPP安全事例

Deep Transformer Networks for Time Series Classification: The NPP Safety Case ( http://arxiv.org/abs/2104.05448v1 )

ライセンス: CC0 1.0
Bing Zha, Alessandro Vanni, Yassin Hassan, Tunc Aldemir, Alper Yilmaz(参考訳) 原子力発電所の動的確率的リスクアセスメントの難点は、様々な発生事象とその後の応用において代表的特徴抽出が複雑になる分岐条件に対して、大量の時間的シミュレーションが必要であることである。 人工知能技術は、時間依存のシーケンシャルデータ処理において強力なツールであり、大規模データから複雑な特徴を自動的に抽出し得ることが示されている。 Transformerと呼ばれる高度な時間的ニューラルネットワークは、時間依存のNPPシミュレーションデータをモデル化し、与えられたイベントのシーケンスがコア損傷を引き起こすか否かを推測するために、教師付き学習方式で使用される。 変圧器のトレーニングおよびテストデータセットは、ravenソフトウェアから取得した変数のリストと共に10000 relap5-3d nppブラックアウトシミュレーションを実行して得られる。 各シミュレーションは、結果に基づいて「OK」または「CORE DAMAGE」に分類される。 その結果, 変圧器はシーケンシャルデータの特徴を学習し, 約99%の分類精度で有望な性能が得られることがわかった。

A challenging part of dynamic probabilistic risk assessment for nuclear power plants is the need for large amounts of temporal simulations given various initiating events and branching conditions from which representative feature extraction becomes complicated for subsequent applications. Artificial Intelligence techniques have been shown to be powerful tools in time-dependent sequential data processing to automatically extract and yield complex features from large data. An advanced temporal neural network referred to as the Transformer is used within a supervised learning fashion to model the time-dependent NPP simulation data and to infer whether a given sequence of events leads to core damage or not. The training and testing datasets for the Transformer are obtained by running 10,000 RELAP5-3D NPP blackout simulations with the list of variables obtained from the RAVEN software. Each simulation is classified as "OK" or "CORE DAMAGE" based on the consequence. The results show that the Transformer can learn the characteristics of the sequential data and yield promising performance with approximately 99% classification accuracy on the testing dataset.
翻訳日:2021-04-16 09:34:07 公開日:2021-04-09
# (参考訳) UPB at SemEval-2021 Task 8: Extracting Semantic Information on Measurements as Multi-Turn Question Answering

UPB at SemEval-2021 Task 8: Extracting Semantic Information on Measurements as Multi-Turn Question Answering ( http://arxiv.org/abs/2104.04549v1 )

ライセンス: CC BY 4.0
Andrei-Marius Avram, George-Eduard Zaharia, Dumitru-Clementin Cercel, Mihai Dascalu(参考訳) 計測とカウントに関する意味情報の抽出は、科学的な談話の分析において重要な話題である。 The 8th Task of SemEval-2021: Counts and Measurements (MeasEval)は、参加者が科学的テキストから測定に関する有意義な情報を抽出するためにモデルをトレーニングするデータセットを提供することによって、この方向の研究を促進することを目的としている。 競技は, 互いに上に構築される5つのサブタスクから構成される: (1) 定量範囲の識別, (2) 同定された量と値の修飾子分類からの単位抽出, (3) 測定された量と測定された特性の分割, (4) 等式範囲の識別, (5) 同定された量, 測定された量, 測定された特性, 等式間の関係抽出。 そこで我々は,まずこれらの課題にアプローチし,まず測定単位を抽出し,対応する修飾子で分類し,その後,最後の3つのサブタスクを多ターン質問応答方式で共同で解いた。 我々の最高のパフォーマンスモデルは、テストセットで36.91%の重なり合うF1スコアを得た。

Extracting semantic information on measurements and counts is an important topic in terms of analyzing scientific discourses. The 8th task of SemEval-2021: Counts and Measurements (MeasEval) aimed to boost research in this direction by providing a new dataset on which participants train their models to extract meaningful information on measurements from scientific texts. The competition is composed of five subtasks that build on top of each other: (1) quantity span identification, (2) unit extraction from the identified quantities and their value modifier classification, (3) span identification for measured entities and measured properties, (4) qualifier span identification, and (5) relation extraction between the identified quantities, measured entities, measured properties, and qualifiers. We approached these challenges by first identifying the quantities, extracting their units of measurement, classifying them with corresponding modifiers, and afterwards using them to jointly solve the last three subtasks in a multi-turn question answering manner. Our best performing model obtained an overlapping F1-score of 36.91% on the test set.
翻訳日:2021-04-16 09:27:41 公開日:2021-04-09
# (参考訳) text2chart:自然言語テキストからの多段チャート生成

Text2Chart: A Multi-Staged Chart Generator from Natural Language Text ( http://arxiv.org/abs/2104.04584v1 )

ライセンス: CC BY 4.0
Md. Mahinur Rashid, Hasin Kawsar Jahan, Annysha Huzzat, Riyasaat Ahmed Rahul, Tamim Bin Zakir, Farhana Meem, Md. Saddam Hossain Mukta and Swakkhar Shatabda(参考訳) 解析的自然言語テキストからの科学的可視化の生成は難しい課題である。 本論文では,多段チャート生成手法であるText2Chartを提案する。 Text2Chartは自然言語のテキストを入力として、二次元チャートとして視覚化する。 text2chartは3段階問題にアプローチする。 まず、チャートの軸要素を x と y のエンティティとして知られる与えられたテキストから識別する。 すると、対応する y-元数と x-元数の写像を見つける。 次に、与えられたテキスト(バー、ライン、パイ)に適したチャートタイプを生成する。 これら3つのステージの組み合わせは、与えられた分析テキストから可視化を生成することができる。 この問題に対するデータセットも構築しました。 実験の結果, Text2Chart はまず LSTM モデルを用いた BERT ベースの符号化において,x および y エンティティのラベル付け,マッピングステージの Random Forest 分類器,チャート型予測の fastText を LSTM に埋め込み,最高のパフォーマンスを実現していることがわかった。 本実験では, 解析文からのチャート作成を考慮し, 評価可能な総合的な性能を達成し, 良好な結果と有効性を示した。

Generation of scientific visualization from analytical natural language text is a challenging task. In this paper, we propose Text2Chart, a multi-staged chart generator method. Text2Chart takes natural language text as input and produce visualization as two-dimensional charts. Text2Chart approaches the problem in three stages. Firstly, it identifies the axis elements of a chart from the given text known as x and y entities. Then it finds a mapping of x-entities with its corresponding y-entities. Next, it generates a chart type suitable for the given text: bar, line or pie. Combination of these three stages is capable of generating visualization from the given analytical text. We have also constructed a dataset for this problem. Experiments show that Text2Chart achieves best performances with BERT based encodings with LSTM models in the first stage to label x and y entities, Random Forest classifier for the mapping stage and fastText embedding with LSTM for the chart type prediction. In our experiments, all the stages show satisfactory results and effectiveness considering formation of charts from analytical text, achieving a commendable overall performance.
翻訳日:2021-04-16 09:12:46 公開日:2021-04-09
# (参考訳) 形状と時間基準を用いた深部時系列予測

Deep Time Series Forecasting with Shape and Temporal Criteria ( http://arxiv.org/abs/2104.04610v1 )

ライセンス: CC BY 4.0
Vincent Le Guen, Nicolas Thome(参考訳) 本稿では,急激な変化を生じうる非定常信号の時系列予測の課題に対処する。 現在の最先端のディープラーニング予測手法は、しばしばMSEの変種で訓練されるが、決定論的および確率論的文脈において鋭い予測を提供する能力は欠如している。 これらの課題に対処するため,深層モデルの学習目的に形状と時間的基準を取り入れることを提案する。 我々は,動的時間ゆがみ(dtw)と時間歪み指数(tdi)の円滑な緩和に基づいて,形状と時間的類似性と相似性を定義し,微分可能な損失関数と正の半定値(psd)カーネルを構築する。 これらのツールを用いて、決定論的予測の新しい目的であるDILATE (Dstortion Loss including shApe and TimE)を導入し、正確な形状と時間変化検出をサポートする2つの用語を明示的に組み込んだ。 確率予測にはstripe++ (shape and time diverrsity in probabilistic forecasting) を導入する。これは、構造化された形状と時間の多様性を行列点プロセス(dpp)の多様性損失で強制する、鋭く多様な予測を提供するためのフレームワークである。 合成データと実世界のデータセットに関する広範な実験とアブレーションは、時系列予測における形状と時間の特徴を活用する利点を確認する。

This paper addresses the problem of multi-step time series forecasting for non-stationary signals that can present sudden changes. Current state-of-the-art deep learning forecasting methods, often trained with variants of the MSE, lack the ability to provide sharp predictions in deterministic and probabilistic contexts. To handle these challenges, we propose to incorporate shape and temporal criteria in the training objective of deep models. We define shape and temporal similarities and dissimilarities, based on a smooth relaxation of Dynamic Time Warping (DTW) and Temporal Distortion Index (TDI), that enable to build differentiable loss functions and positive semi-definite (PSD) kernels. With these tools, we introduce DILATE (DIstortion Loss including shApe and TimE), a new objective for deterministic forecasting, that explicitly incorporates two terms supporting precise shape and temporal change detection. For probabilistic forecasting, we introduce STRIPE++ (Shape and Time diverRsIty in Probabilistic forEcasting), a framework for providing a set of sharp and diverse forecasts, where the structured shape and time diversity is enforced with a determinantal point process (DPP) diversity loss. Extensive experiments and ablations studies on synthetic and real-world datasets confirm the benefits of leveraging shape and time features in time series forecasting.
翻訳日:2021-04-16 09:03:26 公開日:2021-04-09
# (参考訳) WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans

WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for Detecting Toxic Spans ( http://arxiv.org/abs/2104.04630v1 )

ライセンス: CC BY 4.0
Tharindu Ranasinghe, Diptanu Sarkar, Marcos Zampieri, Alex Ororbia(参考訳) 近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。 これに対し、ソーシャルメディアプラットフォームは、この攻撃的コンテンツの希薄化に対処するため、自動検出方法の開発とヒトモデレーターの活用に取り組んできた。 様々な最先端の統計モデルが有毒なポストの検出に応用されているが、攻撃的な単語や表現の検出に焦点を絞った研究はごくわずかである。 これはSemEval-2021 Task 5: Toxic Spans Detectionコンペティションの組織化を動機としている。 本稿では,SemEval-2021 Task 5のWLV-RITエントリを示す。 我々の最高性能のニューラルトランスモデルは0.68ドルF1スコアを達成する。 さらに,テキスト中の有害なスパンを検出するトランスフォーマーに基づく,攻撃的スパンの多言語検出のためのオープンソースのフレームワークを開発する。

In recent years, the widespread use of social media has led to an increase in the generation of toxic and offensive content on online platforms. In response, social media platforms have worked on developing automatic detection methods and employing human moderators to cope with this deluge of offensive content. While various state-of-the-art statistical models have been applied to detect toxic posts, there are only a few studies that focus on detecting the words or expressions that make a post offensive. This motivates the organization of the SemEval-2021 Task 5: Toxic Spans Detection competition, which has provided participants with a dataset containing toxic spans annotation in English posts. In this paper, we present the WLV-RIT entry for the SemEval-2021 Task 5. Our best performing neural transformer model achieves an $0.68$ F1-Score. Furthermore, we develop an open-source framework for multilingual detection of offensive spans, i.e., MUDES, based on transformers that detect toxic spans in texts.
翻訳日:2021-04-16 09:00:57 公開日:2021-04-09
# (参考訳) TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and cross-lingual Word-in-Context Disambiguation

TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and Cross-lingual Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.04632v1 )

ライセンス: CC BY 4.0
Hansi Hettiarachchi, Tharindu Ranasinghe(参考訳) ある単語が2つの文脈で同じ意味か異なる意味を持っているかを特定することは、自然言語処理において重要な研究領域であり、質問応答、文書要約、情報検索、情報抽出など多くの応用において重要な役割を果たす。 この分野における以前の研究のほとんどは言語固有のリソースに依存しており、言語をまたいだ一般化が難しい。 この制限を考慮すると、semeval-2021タスク2へのアプローチは、事前訓練されたトランスフォーマーモデルのみに基づいており、言語固有の処理やリソースを使用しない。 それにもかかわらず、我々の最良のモデルは英語のサブタスクに対して0.90の精度を達成する。 我々のアプローチは、他のモノリンガル言語と言語間のペアにおいても満足できる結果を得る。

Identifying whether a word carries the same meaning or different meaning in two contexts is an important research area in natural language processing which plays a significant role in many applications such as question answering, document summarisation, information retrieval and information extraction. Most of the previous work in this area rely on language-specific resources making it difficult to generalise across languages. Considering this limitation, our approach to SemEval-2021 Task 2 is based only on pretrained transformer models and does not use any language-specific processing and resources. Despite that, our best model achieves 0.90 accuracy for English-English subtask which is very compatible compared to the best result of the subtask; 0.93 accuracy. Our approach also achieves satisfactory results in other monolingual and cross-lingual language pairs as well.
翻訳日:2021-04-16 08:49:10 公開日:2021-04-09
# (参考訳) 学習歩行遷移による高速かつ効率的な移動

Fast and Efficient Locomotion via Learned Gait Transitions ( http://arxiv.org/abs/2104.04644v1 )

ライセンス: CC BY 4.0
Yuxiang Yang, Tingnan Zhang, Erwin Coumans, Jie Tan, Byron Boots(参考訳) 四足歩行ロボットのための効率的な制御器の開発に焦点をあてる。 動物はエネルギー消費を減らすために、異なる速度で積極的に歩行を切り替えることができる。 本稿では,エネルギー最小化の簡単な報酬を伴って,独特の移動歩行と自然歩行遷移が自動的に現れる階層型学習フレームワークを考案する。 ロボットが歩行パターンを用いて所望の速度で歩行できるように,低レベルモデル予測制御器(MPC)はモータトルクを最適化する。 我々は4足歩行ロボットで学習フレームワークをテストし,歩行からトロッティング,フライトローティングまで,最大2.5m/s(5体長/s)まで自動歩行遷移を実証した。 学習した階層型コントローラは,ベースラインコントローラよりも広い移動速度でエネルギーを消費することがわかった。

We focus on the problem of developing efficient controllers for quadrupedal robots. Animals can actively switch gaits at different speeds to lower their energy consumption. In this paper, we devise a hierarchical learning framework, in which distinctive locomotion gaits and natural gait transitions emerge automatically with a simple reward of energy minimization. We use reinforcement learning to train a high-level gait policy that specifies the contact schedules of each foot, while the low-level Model Predictive Controller (MPC) optimizes the motor torques so that the robot can walk at a desired velocity using that gait pattern. We test our learning framework on a quadruped robot and demonstrate automatic gait transitions, from walking to trotting and to fly-trotting, as the robot increases its speed up to 2.5m/s (5 body lengths/s). We show that the learned hierarchical controller consumes much less energy across a wide range of locomotion speed than baseline controllers.
翻訳日:2021-04-16 08:38:36 公開日:2021-04-09
# 小型低濃度蛍光センサと機械学習技術を用いたスペインのオリーブ油質の探索

Exploration of Spanish Olive Oil Quality with a Miniaturized Low-Cost Fluorescence Sensor and Machine Learning Techniques ( http://arxiv.org/abs/2104.06310v1 )

ライセンス: Link先を確認
Francesca Venturini and Michela Sperti and Umberto Michelucci and Ivo Herzig and Michael Baumgartner and Josep Palau Caballero and Arturo Jimenez and and Marco Agostino Deriu(参考訳) エクストラヴァージンオリーブオイル(EVOO)はオリーブ油の最高品質であり、栄養特性が高い。 誤用などによる消費と不正の増大は、新たな課題を生み出し、パフォーマンスが容易で安価な新しい品質評価手法の開発に対する需要が高まっている。 現在,オリーブ油質の定量は,化学分析と有機性評価によって行われている。 化学分析は認定研究所の高度な機器と化学知識を必要とするため、アクセス性は限られている。 本研究では, 極小でポータブルで低コストなセンサを提示し, 蛍光分光法を用いてオリーブ油質評価を行う。 提案技術の可能性は、evoo、virgin olive oil (voo)、lampante olive oil (loo)といった、品質レベルの異なるいくつかのオリーブオイルを分析して検討される。 スペクトルデータは、ニューラルネットワークを含む多数の機械学習手法を用いて分析された。 本研究は,オリーブ油を100$\%の精度で3種類の分類を行う可能性を示した。 これらの結果は、この極小の低コストセンサが、高価で複雑な化学分析を置換する可能性を証明している。

Extra virgin olive oil (EVOO) is the highest quality of olive oil and is characterized by highly beneficial nutritional properties. The large increase in both consumption and fraud, for example through adulteration, creates new challenges and an increasing demand for developing new quality assessment methodologies that are easier and cheaper to perform. As of today, the determination of olive oil quality is performed by producers through chemical analysis and organoleptic evaluation. The chemical analysis requires the advanced equipment and chemical knowledge of certified laboratories, and has therefore a limited accessibility. In this work a minimalist, portable and low-cost sensor is presented, which can perform olive oil quality assessment using fluorescence spectroscopy. The potential of the proposed technology is explored by analyzing several olive oils of different quality levels, EVOO, virgin olive oil (VOO), and lampante olive oil (LOO). The spectral data were analyzed using a large number of machine learning methods, including artificial neural networks. The analysis performed in this work demonstrates the possibility of performing classification of olive oil in the three mentioned classes with an accuracy of 100$\%$. These results confirm that this minimalist low-cost sensor has the potential of substituting expensive and complex chemical analysis.
翻訳日:2021-04-14 13:39:17 公開日:2021-04-09
# テラヘルツセンシングのための信号処理と機械学習技術:概要

Signal Processing and Machine Learning Techniques for Terahertz Sensing: An Overview ( http://arxiv.org/abs/2104.06309v1 )

ライセンス: Link先を確認
Sara Helal, Hadi Sarieddeen, Hayssam Dahrouj, Tareq Y. Al-Naffouri, Mohamed Slim Alouini(参考訳) テラヘルツ(thz)信号の発生と放射法の最近の進歩に続いて、thz通信とセンシングはワイヤレスシステムの未来を形作っている。 この目的に向けて、thzスペクトロスコピーは、材料やガス成分を識別するために、ユーザ機器デバイス上で実行されることが期待されている。 THz 固有の信号処理技術は、THz 帯域の効率的な利用のために、この THz センシングへの関心を補う必要がある。 本稿では,信号前処理(正規変量正規化,min-max正規化,Savitzky-Golayフィルタリング),特徴抽出(主成分分析,部分最小二乗,t分散確率的近傍埋め込み,非負行列分解),および分類技術(支持ベクトルマシン,k-nearest近傍,差別的分析,ナイーブベイズ)を中心に概説する。 また,THz帯で有望な知覚能力を探索し,深層学習の有効性についても検討した。 最後に,共同コミュニケーションとセンシングの文脈における研究手法の性能と複雑さのトレードオフについて検討し,それに対応するユースケースを動機付け,今後の研究の方向性を示す。

Following the recent progress in Terahertz (THz) signal generation and radiation methods, joint THz communications and sensing applications are shaping the future of wireless systems. Towards this end, THz spectroscopy is expected to be carried over user equipment devices to identify material and gaseous components of interest. THz-specific signal processing techniques should complement this re-surged interest in THz sensing for efficient utilization of the THz band. In this paper, we present an overview of these techniques, with an emphasis on signal pre-processing (standard normal variate normalization, min-max normalization, and Savitzky-Golay filtering), feature extraction (principal component analysis, partial least squares, t-distributed stochastic neighbor embedding, and nonnegative matrix factorization), and classification techniques (support vector machines, k-nearest neighbor, discriminant analysis, and naive Bayes). We also address the effectiveness of deep learning techniques by exploring their promising sensing capabilities at the THz band. Lastly, we investigate the performance and complexity trade-offs of the studied methods in the context of joint communications and sensing; we motivate the corresponding use-cases, and we present few future research directions in the field.
翻訳日:2021-04-14 13:21:35 公開日:2021-04-09
# 不確実性を有するスマートグリッドにおける定常偽データ注入検出:ディープトランスファー学習に基づくアプローチ

Stealthy False Data Injection Attack Detection in Smart Grids with Uncertainties: A Deep Transfer Learning Based Approach ( http://arxiv.org/abs/2104.06307v1 )

ライセンス: Link先を確認
Bowen Xu, Fanghong Guo, Changyun Wen, Wen-An Zhang(参考訳) 従来の偽データインジェクションアタック(fdia)検出手法のほとんどは、静的システムパラメータや動的アタックの1つの既知のスナップショットに依存する。 しかし、このような設定は、システムパラメータが動的であり、実用的なスマートグリッドに不確実性が存在するため、操作中に正確に知ることができないという事実に直面すると、これらのアプローチの実用性が著しく低下する。 本稿では,転送学習の観点からFDIA検出機構を提案する。 具体的には、既知の初期/近似系をソースドメインとして扱い、十分にシミュレーションされた正規および攻撃データを提供する。 現実の未知のランニングシステムは、最新のシステム状態を追跡するのに十分な実際の正規データを収集するターゲットドメインとして扱われる。 データの完全活用を目的とした転送戦略は,2つの最適化段階に分けられる。 第1段階では、シミュレーションデータと実データの両方で設計された複数の用語を同時に最適化してディープニューラルネットワーク(dnn)を構築し、第2段階では実データを介して微調整する。 IEEE 14バス電力システムに関するいくつかのケーススタディは、提案機構の有効性を検証する。

Most traditional false data injection attack (FDIA) detection approaches rely on static system parameters or a single known snapshot of dynamic ones. However, such a setting significantly weakens the practicality of these approaches when facing the fact that the system parameters are dynamic and cannot be accurately known during operation due to the presence of uncertainties in practical smart grids. In this paper, we propose an FDIA detection mechanism from the perspective of transfer learning. Specifically, the known initial/approximate system is treated as a source domain, which provides abundant simulated normal and attack data. The real world's unknown running system is taken as a target domain where sufficient real normal data are collected for tracking the latest system states online. The designed transfer strategy that aims at making full use of data in hand is divided into two optimization stages. In the first stage, a deep neural network (DNN) is built by simultaneously optimizing several well-designed terms with both simulated data and real data, and then it is fine-tuned via real data in the second stage. Several case studies on the IEEE 14-bus power system verify the effectiveness of the proposed mechanism.
翻訳日:2021-04-14 13:13:45 公開日:2021-04-09
# 不確かな知識グラフ推論のための確率的ボックス埋め込み

Probabilistic Box Embeddings for Uncertain Knowledge Graph Reasoning ( http://arxiv.org/abs/2104.04597v1 )

ライセンス: Link先を確認
Xuelu Chen, Michael Boratko, Muhao Chen, Shib Sankar Dasgupta, Xiang Lorraine Li, Andrew McCallum(参考訳) 知識ベースは、しばしば様々な情報源から得られた事実から成り、その多くが騒がしく、一部は矛盾し、それぞれの三つ組に不確実性のレベルをもたらす。 知識ベースもしばしば不完全であり、既知の事実から一般化するための埋め込みメソッドの使用を促すが、既存の埋め込みメソッドは3つのレベルの不確かさのみをモデル化し、推論の結果はグローバルな一貫性を欠いている。 そこで本研究では,確率的意味論を校正した新しい未知知識グラフ埋め込み手法であるburreを提案する。 BEUrREは各エンティティをボックスとしてモデル化する。 軸方向のハイパー矩形)と2つのエンティティ間の関係は、アフィンが頭と尾のエンティティボックスに変換される。 ボックスの幾何学は交差点と体積の効率的な計算を可能にし、キャリブレーションされた確率的意味論を持つモデルを提供し、関係制約の組み入れを容易にする。 2つのベンチマークデータセットの大規模な実験により、BEUrREは確率的キャリブレーションと事実間の高次依存関係をキャプチャする能力により、信頼性予測と事実ランキングのベースラインを一貫して上回っている。

Knowledge bases often consist of facts which are harvested from a variety of sources, many of which are noisy and some of which conflict, resulting in a level of uncertainty for each triple. Knowledge bases are also often incomplete, prompting the use of embedding methods to generalize from known facts, however, existing embedding methods only model triple-level uncertainty, and reasoning results lack global consistency. To address these shortcomings, we propose BEUrRE, a novel uncertain knowledge graph embedding method with calibrated probabilistic semantics. BEUrRE models each entity as a box (i.e. axis-aligned hyperrectangle) and relations between two entities as affine transforms on the head and tail entity boxes. The geometry of the boxes allows for efficient calculation of intersections and volumes, endowing the model with calibrated probabilistic semantics and facilitating the incorporation of relational constraints. Extensive experiments on two benchmark datasets show that BEUrRE consistently outperforms baselines on confidence prediction and fact ranking due to its probabilistic calibration and ability to capture high-order dependencies among facts.
翻訳日:2021-04-13 14:43:24 公開日:2021-04-09
# 衛星画像分類における分布外検出

Out-of-distribution detection in satellite image classification ( http://arxiv.org/abs/2104.05442v1 )

ライセンス: Link先を確認
Jakob Gawlikowski, Sudipan Saha, Anna Kruspe, Xiao Xiang Zhu(参考訳) 衛星画像解析では,テストデータの非認識クラスや地理的領域の違いなど,いくつかの理由から,トレーニングデータとテストデータの分布ミスマッチが発生する可能性がある。 ディープラーニングベースのモデルは、トレーニングデータからそのような分散シフトを持つテストデータ(out-of-distribution (OOD)例)に従えば、予期せず振る舞うことができる。 予測的不確実性分析は、衛星画像解析に関してあまり研究されていない研究トピックである。 そこで我々はディリクレ事前ネットワークモデルを用いて,リモートセンシングのためのディープラーニングモデルの分布不確かさを定量化する。 このアプローチは、テスト時に未知の例をよりよく識別するために、ドメイン内の例とOOD例の間の表現ギャップを最大化することを目指している。 3つの例による実験結果から,衛星画像解析におけるモデルの有効性が示された。

In satellite image analysis, distributional mismatch between the training and test data may arise due to several reasons, including unseen classes in the test data and differences in the geographic area. Deep learning based models may behave in unexpected manner when subjected to test data that has such distributional shifts from the training data, also called out-of-distribution (OOD) examples. Predictive uncertainly analysis is an emerging research topic which has not been explored much in context of satellite image analysis. Towards this, we adopt a Dirichlet Prior Network based model to quantify distributional uncertainty of deep learning models for remote sensing. The approach seeks to maximize the representation gap between the in-domain and OOD examples for a better identification of unknown examples at test time. Experimental results on three exemplary test scenarios show the efficacy of the model in satellite image analysis.
翻訳日:2021-04-13 14:31:13 公開日:2021-04-09
# 教師付き変更検出のための小さなトレーニングデータセットの信頼

Trusting small training dataset for supervised change detection ( http://arxiv.org/abs/2104.05443v1 )

ライセンス: Link先を確認
Sudipan Saha, Biplab Banerjee, Xiao Xiang Zhu(参考訳) 深層学習(DL)に基づく教師付き変化検出(CD)モデルは、大きなラベル付きトレーニングデータを必要とする。 ラベル付きマルチテンポラルデータの収集が困難であるため、CD文献では教師なしの手法が好まれる。 しかし、教師なし手法は、データ駆動型ディープラーニングの可能性を完全に活用できないため、教師付き手法の絶対的な代替にはならない。 これにより、教師付きDL手法を深く検討し、ラベル付きトレーニングデータの必要最小限にすることで、CDにどのようにインテリジェントに採用できるかを検討することができる。 これに対し,本研究では,地理的に多様なトレーニングデータセットが,同一サイズの少ないトレーニングデータセットに対して大きな改善をもたらすことを示す。 本稿では,小さなラベル付きデータセットで学習した教師付きモデルの信頼性・信頼性を検証するための簡易信頼度指標を提案する。 さらに, 教師付きCDモデルが信頼性・信頼性の低いテストケースでは, 教師なし手法の方が教師付き手法よりも優れた結果が得られた。

Deep learning (DL) based supervised change detection (CD) models require large labeled training data. Due to the difficulty of collecting labeled multi-temporal data, unsupervised methods are preferred in the CD literature. However, unsupervised methods cannot fully exploit the potentials of data-driven deep learning and thus they are not absolute alternative to the supervised methods. This motivates us to look deeper into the supervised DL methods and investigate how they can be adopted intelligently for CD by minimizing the requirement of labeled training data. Towards this, in this work we show that geographically diverse training dataset can yield significant improvement over less diverse training datasets of the same size. We propose a simple confidence indicator for verifying the trustworthiness/confidence of supervised models trained with small labeled dataset. Moreover, we show that for the test cases where supervised CD model is found to be less confident/trustworthy, unsupervised methods often produce better result than the supervised ones.
翻訳日:2021-04-13 14:31:00 公開日:2021-04-09
# 人間の知覚に触発されたアクセント音声認識

Accented Speech Recognition Inspired by Human Perception ( http://arxiv.org/abs/2104.04627v1 )

ライセンス: Link先を確認
Xiangyun Chu (1), Elizabeth Combs (1), Amber Wang (1), Michael Picheny (2) ((1) Center for Data Science, New York University, (2) Courant Computer Science and Center for Data Science, New York University)(参考訳) 過去数年間、自動音声認識の性能は改善されてきたが、機械は人間よりもアクセント付き音声の性能が著しく低下している。 さらに、アクセント付き音声の最も重要な改善は、主に数百時間から数千時間のデータで問題を克服することで生じる。 人間は通常、新しいアクセントに対応するためにずっと少ないデータを必要とする。 本稿では,アクセント付き音声の認識における性能改善の可能性を評価するために,人間の知覚にインスパイアされた手法について検討する。 私たちの実験は、研究コミュニティが利用可能な小さなアクセス可能なデータセット上で行われます。 複数アクセントへの事前露出、グラファイムと音素に基づく発音、(新しいアクセントへの一般化を改善するために)ドロップアウト、アクセントモデリングに特化して関連付けられるニューラルネットワークの層同定の4つの手法を探索する。 この結果から,人間の知覚に基づく手法は,WERの低減と,新しいアクセントのためのニューラルネットワークにおけるアクセント付き音声のモデル化に有望であることが示唆された。

While improvements have been made in automatic speech recognition performance over the last several years, machines continue to have significantly lower performance on accented speech than humans. In addition, the most significant improvements on accented speech primarily arise by overwhelming the problem with hundreds or even thousands of hours of data. Humans typically require much less data to adapt to a new accent. This paper explores methods that are inspired by human perception to evaluate possible performance improvements for recognition of accented speech, with a specific focus on recognizing speech with a novel accent relative to that of the training data. Our experiments are run on small, accessible datasets that are available to the research community. We explore four methodologies: pre-exposure to multiple accents, grapheme and phoneme-based pronunciations, dropout (to improve generalization to a novel accent), and the identification of the layers in the neural network that can specifically be associated with accent modeling. Our results indicate that methods based on human perception are promising in reducing WER and understanding how accented speech is modeled in neural networks for novel accents.
翻訳日:2021-04-13 14:29:21 公開日:2021-04-09
# ニューラルRGB-D表面再構成

Neural RGB-D Surface Reconstruction ( http://arxiv.org/abs/2104.04532v1 )

ライセンス: Link先を確認
Dejan Azinovi\'c, Ricardo Martin-Brualla, Dan B Goldman, Matthias Nie{\ss}ner, Justus Thies(参考訳) 本研究では,表面再構成のための暗黙の新規ビュー合成手法を成功させる方法について検討する。 神経放射場を学習する手法は驚くべき画像合成結果を示しているが、基礎となる幾何学表現は実際の幾何学の粗い近似にすぎない。 色と深度データのみに基づく手法よりも詳細な再現結果を得るため, 放射場定式化に深度測定をどのように組み込むことができるかを示す。 密度場を基盤とする幾何表現とは対照的に,符号付き距離場を格納するディープニューラルネットワークを学習することを提案する。 この表現を用いて,学習中の観察画像の色値を推定し,再現損失を計算するために,相変わらず可変ボリュームレンダリングを利用することができることを示す。 これは、深度測定の欠如のある地域で符号付き距離場を学ぶのに有用である。 さらに,カメラの誤調整誤差を補正し,全体の復元精度を向上する。 いくつかの実験で本手法を示し,従来のrgb-d融合と学習表現の比較を行った。

In this work, we explore how to leverage the success of implicit novel view synthesis methods for surface reconstruction. Methods which learn a neural radiance field have shown amazing image synthesis results, but the underlying geometry representation is only a coarse approximation of the real geometry. We demonstrate how depth measurements can be incorporated into the radiance field formulation to produce more detailed and complete reconstruction results than using methods based on either color or depth data alone. In contrast to a density field as the underlying geometry representation, we propose to learn a deep neural network which stores a truncated signed distance field. Using this representation, we show that one can still leverage differentiable volume rendering to estimate color values of the observed images during training to compute a reconstruction loss. This is beneficial for learning the signed distance field in regions with missing depth measurements. Furthermore, we correct misalignment errors of the camera, improving the overall reconstruction quality. In several experiments, we showcase our method and compare to existing works on classical RGB-D fusion and learned representations.
翻訳日:2021-04-13 14:17:56 公開日:2021-04-09
# RaidaR: 雨の街路シーンのリッチな注釈付き画像データセット

RaidaR: A Rich Annotated Image Dataset of Rainy Street Scenes ( http://arxiv.org/abs/2104.04606v1 )

ライセンス: Link先を確認
Jiongchao Jin, Arezou Fatemi, Wallace Lira, Fenggen Yu, Biao Leng, Rui Ma, Ali Mahdavi-Amiri, Hao Zhang(参考訳) raidarは、雨の街並みの豊かな注釈付き画像データセットで、自動運転研究を支援する。 新しいデータセットには、これまでで最大の雨画像(58,542枚)が含まれ、5,000枚がセマンティックセグメンテーション、3,658枚がオブジェクトインスタンスセグメンテーションを提供している。 RaidaRの画像は、霧、滴、道路の反射など、雨によって引き起こされる幅広い現実的な人工物をカバーしており、既存のストリートシーンのデータセットを効果的に増強し、雨天時のデータ駆動マシンの知覚を改善することができる。 大量の画像の効率的なアノテーションを容易にするために,手動セグメンテーションとクロスバリデーションに似た自動処理を組み合わせた半自動スキームを開発し,アノテーション時間で10~20倍の縮小を実現する。 raidarによるデータ拡張が既存のセグメンテーションアルゴリズムの精度をいかに高めるかを示すことによって,新しいデータセットの有用性を実証する。 また,RaidaRから直接雨の人工物を追加・削除するための,未ペア画像変換アルゴリズムを提案する。

We introduce RaidaR, a rich annotated image dataset of rainy street scenes, to support autonomous driving research. The new dataset contains the largest number of rainy images (58,542) to date, 5,000 of which provide semantic segmentations and 3,658 provide object instance segmentations. The RaidaR images cover a wide range of realistic rain-induced artifacts, including fog, droplets, and road reflections, which can effectively augment existing street scene datasets to improve data-driven machine perception during rainy weather. To facilitate efficient annotation of a large volume of images, we develop a semi-automatic scheme combining manual segmentation and an automated processing akin to cross validation, resulting in 10-20 fold reduction on annotation time. We demonstrate the utility of our new dataset by showing how data augmentation with RaidaR can elevate the accuracy of existing segmentation algorithms. We also present a novel unpaired image-to-image translation algorithm for adding/removing rain artifacts, which directly benefits from RaidaR.
翻訳日:2021-04-13 14:17:41 公開日:2021-04-09
# DexYCB: オブジェクトのハンドグレーピングをキャプチャするためのベンチマーク

DexYCB: A Benchmark for Capturing Hand Grasping of Objects ( http://arxiv.org/abs/2104.04631v1 )

ライセンス: Link先を確認
Yu-Wei Chao and Wei Yang and Yu Xiang and Pavlo Molchanov and Ankur Handa and Jonathan Tremblay and Yashraj S. Narang and Karl Van Wyk and Umar Iqbal and Stan Birchfield and Jan Kautz and Dieter Fox(参考訳) DexYCBは、オブジェクトのハンドグルーピングをキャプチャする新しいデータセットである。 最初に、DexYCBと関連するものを比較する。 次に,2次元オブジェクトとキーポイント検出,6次元オブジェクトのポーズ推定,3次元ハンドポーズ推定という3つの課題に対する最先端手法の詳細なベンチマークを示す。 最後に、人間とロボットのオブジェクトのハンドオーバにおいて、安全なロボットグリップを生成するという新しいロボット関連タスクを評価する。 データセットとコードはhttps://dex-ycb.github.ioで入手できる。

We introduce DexYCB, a new dataset for capturing hand grasping of objects. We first compare DexYCB with a related one through cross-dataset evaluation. We then present a thorough benchmark of state-of-the-art approaches on three relevant tasks: 2D object and keypoint detection, 6D object pose estimation, and 3D hand pose estimation. Finally, we evaluate a new robotics-relevant task: generating safe robot grasps in human-to-robot object handover. Dataset and code are available at https://dex-ycb.github.io.
翻訳日:2021-04-13 14:17:23 公開日:2021-04-09
# Pixel Codec アバター

Pixel Codec Avatars ( http://arxiv.org/abs/2104.04638v1 )

ライセンス: Link先を確認
Shugao Ma, Tomas Simon, Jason Saragih, Dawei Wang, Yuecheng Li, Fernando De La Torre, Yaser Sheikh(参考訳) 仮想または拡張現実におけるフォトリアリスティックアバターとの通信は、リモートの物理的距離を3dで真の対面通信を実現するための有望な経路である。 本稿では,Pixel Codec Avatars (PiCA) について述べる。これは3次元人間の顔の深部生成モデルであり,計算効率が高く,実行中のレンダリング条件に適応している。 本モデルでは,(1)空間的に異なる特徴をデコードするための完全な畳み込みアーキテクチャ,(2)レンダリング適応型ピクセル単位のデコーダの2つの基本概念を組み合わせる。 どちらのテクニックも、トレーニング画像上での低トポロジーメッシュトラッキングから弱い教師付き方法で学習される、密度の高い表面表現を介して統合される。 我々は、picaが、性別や肌のトーンが異なる人の表情や視点をテストすることで、既存の技術の再構築を改善できることを実証する。 重要なのは、picaモデルが最先端のベースラインモデルよりもずっと小さく、マルチパーソン・テレコムキャイトンを可能にすることだ。oculus quest 2モバイルvrヘッドセット1台で、同じシーンで5つのアバターがリアルタイムでレンダリングされる。

Telecommunication with photorealistic avatars in virtual or augmented reality is a promising path for achieving authentic face-to-face communication in 3D over remote physical distances. In this work, we present the Pixel Codec Avatars (PiCA): a deep generative model of 3D human faces that achieves state of the art reconstruction performance while being computationally efficient and adaptive to the rendering conditions during execution. Our model combines two core ideas: (1) a fully convolutional architecture for decoding spatially varying features, and (2) a rendering-adaptive per-pixel decoder. Both techniques are integrated via a dense surface representation that is learned in a weakly-supervised manner from low-topology mesh tracking over training images. We demonstrate that PiCA improves reconstruction over existing techniques across testing expressions and views on persons of different gender and skin tone. Importantly, we show that the PiCA model is much smaller than the state-of-art baseline model, and makes multi-person telecommunicaiton possible: on a single Oculus Quest 2 mobile VR headset, 5 avatars are rendered in realtime in the same scene.
翻訳日:2021-04-13 14:17:15 公開日:2021-04-09
# 患者コントラスト学習:心電図モデリングにおけるパフォーマンス・表現・実践的アプローチ

Patient Contrastive Learning: a Performant, Expressive, and Practical Approach to ECG Modeling ( http://arxiv.org/abs/2104.04569v1 )

ライセンス: Link先を確認
Nathaniel Diamant, Erik Reinertsen, Steven Song, Aaron Aguirre, Collin Stultz, Puneet Batra(参考訳) 医療における機械学習の応用は、ラベル付きトレーニングデータの不足により制限されることが多い。 サンプルサイズを小さくすることによるこの効果を軽減するために,多数の未ラベル例からECGの潜在表現を生成するPCLR (Patent Contrastive Learning of Representations) という事前学習手法を導入する。 結果として得られる表現は、幅広い臨床タスクにおいて、表現力、パフォーマンス、実用的なものである。 我々は,約320万個のECGを持つ大規模医療システムを用いてPCLRを開発し,5,000以上のラベルが存在する場合,複数の新しいタスクに対して大幅な改善が示された。 我々は、ECG表現をhttps://github.com/broadinstitute/ml4h/tree/master/model_zoo/PCLRで抽出するモデルをリリースする。

Supervised machine learning applications in health care are often limited due to a scarcity of labeled training data. To mitigate this effect of small sample size, we introduce a pre-training approach, Patient Contrastive Learning of Representations (PCLR), which creates latent representations of ECGs from a large number of unlabeled examples. The resulting representations are expressive, performant, and practical across a wide spectrum of clinical tasks. We develop PCLR using a large health care system with over 3.2 million 12-lead ECGs, and demonstrate substantial improvements across multiple new tasks when there are fewer than 5,000 labels. We release our model to extract ECG representations at https://github.com/broadinstitute/ml4h/tree/master/model_zoo/PCLR.
翻訳日:2021-04-13 14:02:29 公開日:2021-04-09
# deepsith: 時間スケールで何といつ分解するかによる効率的な学習

DeepSITH: Efficient Learning via Decomposition of What and When Across Time Scales ( http://arxiv.org/abs/2104.04646v1 )

ライセンス: Link先を確認
Brandon Jacques, Zoran Tiganj, Marc W. Howard, Per B. Sederberg(参考訳) さまざまなスケールにわたる時間的関係を抽出することは、人間の認識と認知の目印であり、現実世界の問題に適用される機械学習の重要な特徴である。 ニューラルネットワークは、リカレントニューラルネットワーク(RNN)における爆発的/消滅的な勾配問題に悩まされるか、関連する時間スケール(LSTMなど)を学ぶためにパラメータを調整する必要がある。 本稿では,生物にインスパイアされたスケール不変時史(SITH)モジュールを層間密接な接続で連続的に構成するネットワークであるDeepSITHを紹介する。 SITHモジュールは幾何学的に空間化された時間定数のセットで入力に応答し、DeepSITHネットワークは時間スケールの連続体に沿って問題を学ぶことができる。 我々は,複数の時系列予測および復号化タスクにおいて,DeepSITHとLSTMや他の最近のRNNを比較した。 DeepSITHはこれらの問題に対して最先端のパフォーマンスを達成する。

Extracting temporal relationships over a range of scales is a hallmark of human perception and cognition -- and thus it is a critical feature of machine learning applied to real-world problems. Neural networks are either plagued by the exploding/vanishing gradient problem in recurrent neural networks (RNNs) or must adjust their parameters to learn the relevant time scales (e.g., in LSTMs). This paper introduces DeepSITH, a network comprising biologically-inspired Scale-Invariant Temporal History (SITH) modules in series with dense connections between layers. SITH modules respond to their inputs with a geometrically-spaced set of time constants, enabling the DeepSITH network to learn problems along a continuum of time-scales. We compare DeepSITH to LSTMs and other recent RNNs on several time series prediction and decoding tasks. DeepSITH achieves state-of-the-art performance on these problems.
翻訳日:2021-04-13 14:02:16 公開日:2021-04-09
# ロングテール音声認識のためのルックアップテーブルリカレント言語モデル

Lookup-Table Recurrent Language Models for Long Tail Speech Recognition ( http://arxiv.org/abs/2104.04552v1 )

ライセンス: Link先を確認
W. Ronny Huang, Tara N. Sainath, Cal Peyser, Shankar Kumar, David Rybach, Trevor Strohman(参考訳) 埋め込みテーブルの表現性を高めて,浮動小数点演算を一定に増加させるRNN言語モデルのスケールアップ方法であるルックアップ・テーブル言語モデル(LookupLM)を紹介する。 特に、単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ(追加的な)埋め込みテーブルをインスタンス化する。 これにより、埋め込みテーブルは、トークンの語彙を変更することなく、任意にスケールし、パフォーマンスが上昇します。 埋め込みはルックアップによってテーブルからわずかに取得されるため、テーブルのサイズが大きくなると、各前方パスに余分な操作も、限られたGPU/TPUメモリに格納される必要のある余分なパラメータも追加されない。 約10億のパラメータにn-gramの埋め込みテーブルのスケーリングについて検討する。 3ビリオン文コーパスでトレーニングすると、LookupLMは標準RNN言語モデルベースライン上の下流音声認識タスクにおいて、長いテールログのパープレキシティを2.44倍、長いテールWERを23.4%改善し、ベースラインのスケールアップに匹敵する改善を浮動小数点演算の6.2倍改善することがわかった。

We introduce Lookup-Table Language Models (LookupLM), a method for scaling up the size of RNN language models with only a constant increase in the floating point operations, by increasing the expressivity of the embedding table. In particular, we instantiate an (additional) embedding table which embeds the previous n-gram token sequence, rather than a single token. This allows the embedding table to be scaled up arbitrarily -- with a commensurate increase in performance -- without changing the token vocabulary. Since embeddings are sparsely retrieved from the table via a lookup; increasing the size of the table adds neither extra operations to each forward pass nor extra parameters that need to be stored on limited GPU/TPU memory. We explore scaling n-gram embedding tables up to nearly a billion parameters. When trained on a 3-billion sentence corpus, we find that LookupLM improves long tail log perplexity by 2.44 and long tail WER by 23.4% on a downstream speech recognition task over a standard RNN language model baseline, an improvement comparable to a scaling up the baseline by 6.2x the number of floating point operations.
翻訳日:2021-04-13 13:58:41 公開日:2021-04-09
# ラスタ化形状の不規則なストリップ包装問題に対する座標降下ヒューリスティックス

Coordinate descent heuristics for the irregular strip packing problem of rasterized shapes ( http://arxiv.org/abs/2104.04525v1 )

ライセンス: Link先を確認
Shunji Umetani and Shohei Murakami(参考訳) 画素で表現された不規則な形状のセットを重なりなく長方形容器に配置するラスタライズ形状の不規則ストリップパッキング問題を考える。 ラスタ化された形状は、幾何学的な問題による特別な処理なしに重複をチェックできますが、高い解像度で多くのメモリと計算労力を必要とします。 本研究では,各列の連続画素を単位幅のストリップにマージすることにより,ラスタ化形状の複雑さを低減し,重ね合わせをチェックする効率的なアルゴリズムを開発した。 そこで我々は,水平方向と垂直方向の直線探索を交互に繰り返す座標降下ヒューリスティックを開発した。 テストインスタンスの計算結果から,提案アルゴリズムは合理的な計算時間内に高分解能のラスタ化形状を十分に高密度にレイアウトすることを示した。

We consider the irregular strip packing problem of rasterized shapes, where a given set of pieces of irregular shapes represented in pixels should be placed into a rectangular container without overlap. The rasterized shapes enable us to check overlap without any exceptional handling due to geometric issues, while they often require much memory and computational effort in high-resolution. We develop an efficient algorithm to check overlap using a pair of scanlines that reduces the complexity of rasterized shapes by merging consecutive pixels in each row and column into strips with unit width, respectively. Based on this, we develop coordinate descent heuristics that repeat a line search in the horizontal and vertical directions alternately. Computational results for test instances show that the proposed algorithm obtains sufficiently dense layouts of rasterized shapes in high-resolution within a reasonable computation time.
翻訳日:2021-04-13 13:57:12 公開日:2021-04-09
# AIによって実現されたスマートでセキュアなCAVネットワーク - インテリジェントな安全運転評価の次のフロンティア

Smart and Secure CAV Networks Empowered by AI-Enabled Blockchain: Next Frontier for Intelligent Safe-Driving Assessment ( http://arxiv.org/abs/2104.04572v1 )

ライセンス: Link先を確認
Le Xia, Yao Sun, Rafiq Swash, Lina Mohjazi, Lei Zhang, and Muhammad Ali Imran(参考訳) コネクテッド・自動運転車(CAV)の安全運転状況の確保は、車載デバイスに人工知能がもたらす様々な高度な機能にもかかわらず、広く懸念されている。 さらに、さまざまな悪意のあるネットワーク攻撃は、CAVネットワークでデータを管理するためのさまざまな信頼性とプライバシーの脅威を露呈するInternet of Vehiclesの世界的な実装とともに、ユビキタスなものになっている。 これにより、データセキュリティを損なうことなく自律運転安全性を保証するための効率的なアセスメントシステムを設計する必要性が高まっている。 この目的のために,本論文では,車両情報を保護しながら安全な運転監視を行うためのスマートで信頼性の高いアプローチとして,ブロックチェーン対応のintElligent Safe-Driving AssessmentmenT(BEST)を提案する。 具体的には、IntElligent Safe-driving AssessmentmenT (EST)スキームのために、長期記憶アルゴリズムを利用する有望なソリューションを最初に導入する。 estをさらに促進するために、分散型ブロックチェーンが、ビザンチンフォールトトレランスベースのデリゲートド・オブ・ステーク・コンセンサス機構を用いて、適切な効率、信頼性、レジリエンスを得る方法を示す。 さらに,このBESTアーキテクチャの今後の研究について,いくつかの課題と議論を行う。

Securing a safe-driving circumstance for connected and autonomous vehicles (CAVs) continues to be a widespread concern despite various sophisticated functions delivered by artificial intelligence for in-vehicle devices. Besides, diverse malicious network attacks become ubiquitous along with the worldwide implementation of the Internet of Vehicles, which exposes a range of reliability and privacy threats for managing data in CAV networks. Combined with another fact that CAVs are now limited in handling intensive computation tasks, it thus renders a pressing demand of designing an efficient assessment system to guarantee autonomous driving safety without compromising data security. To this end, we propose in this article a novel framework of Blockchain-enabled intElligent Safe-driving assessmenT (BEST) to offer a smart and reliable approach for conducting safe driving supervision while protecting vehicular information. Specifically, a promising solution of exploiting a long short-term memory algorithm is first introduced in detail for an intElligent Safe-driving assessmenT (EST) scheme. To further facilitate the EST, we demonstrate how a distributed blockchain obtains adequate efficiency, trustworthiness and resilience with an adopted byzantine fault tolerance-based delegated proof-of-stake consensus mechanism. Moreover, several challenges and discussions regarding the future research of this BEST architecture are presented.
翻訳日:2021-04-13 13:56:57 公開日:2021-04-09
# ウェアラブル脳波イベントモニタリングにおける1クラスオートエンコーダによる最適電極設定同定

One-class Autoencoder Approach for Optimal Electrode Set-up Identification in Wearable EEG Event Monitoring ( http://arxiv.org/abs/2104.04546v1 )

ライセンス: Link先を確認
Laura M. Ferrari, Guy Abi Hanna, Paolo Volpe, Esma Ismailova, Fran\c{c}ois Bremond, Maria A. Zuluaga(参考訳) 継続的医療モニタリングのためのウェアラブルデバイスの広範な日常的利用への制限要因は、その面倒で邪魔な性質である。 これは、頭皮と接触する複数の電極の配置を必要とする脳波(eeg)記録において特に当てはまる。 そこで本研究では,脳波によるイベント検出とモニタリングを行うため,最小限の電極数,快適な位置と性能の観点から,ウェアラブル脳波電極の最適セットアップを提案する。 提案手法は,高次元データから潜在表現を学習するために,オートエンコーダ(AE)ネットワークの実証的なパワーを頼りに,異なる電極セットを入力データとして一級分類でAEアーキテクチャを訓練する。 得られたモデルをFスコアを用いて評価し、確立された最適基準に従って最適な設定を選択する。 提案手法は,α波検出をユースケースとして,額と耳の後ろの電極からなる最適なセットアップから,平均f-score 0.78のアルファ状態を検出できることを実証する。 以上の結果から,実生活の医療モニタリングに最適なウェアラブルデバイスの設計と実装を可能にするために,学習に基づくアプローチが有効であることが示唆された。

A limiting factor towards the wide routine use of wearables devices for continuous healthcare monitoring is their cumbersome and obtrusive nature. This is particularly true for electroencephalography (EEG) recordings, which require the placement of multiple electrodes in contact with the scalp. In this work, we propose to identify the optimal wearable EEG electrode set-up, in terms of minimal number of electrodes, comfortable location and performance, for EEG-based event detection and monitoring. By relying on the demonstrated power of autoencoder (AE) networks to learn latent representations from high-dimensional data, our proposed strategy trains an AE architecture in a one-class classification setup with different electrode set-ups as input data. The resulting models are assessed using the F-score and the best set-up is chosen according to the established optimal criteria. Using alpha wave detection as use case, we demonstrate that the proposed method allows to detect an alpha state from an optimal set-up consisting of electrodes in the forehead and behind the ear, with an average F-score of 0.78. Our results suggest that a learning-based approach can be used to enable the design and implementation of optimized wearable devices for real-life healthcare monitoring.
翻訳日:2021-04-13 13:52:16 公開日:2021-04-09
# 深部核融合モデルによるSARS-CoV-2タンパク質標的用小分子インヒビターの高速仮想スクリーニング

High-Throughput Virtual Screening of Small Molecule Inhibitors for SARS-CoV-2 Protein Targets with Deep Fusion Models ( http://arxiv.org/abs/2104.04547v1 )

ライセンス: Link先を確認
Garrett A. Stevenson, Derek Jones, Hyojin Kim, W. F. Drew Bennett, Brian J. Bennion, Monica Borucki, Feliza Bourguet, Aidan Epstein, Magdalena Franco, Brooke Harmon, Stewart He, Max P. Katz, Daniel Kirshner, Victoria Lao, Edmond Y. Lau, Jacky Lo, Kevin McLoughlin, Richard Mosesso, Deepa K. Murugesh, Oscar A. Negrete, Edwin A. Saada, Brent Segelke, Maxwell Stefan, Marisa W. Torres, Dina Weilhammer, Sergio Wong, Yue Yang, Adam Zemla, Xiaohua Zhang, Fangqiang Zhu, Felice C. Lightstone, Jonathan E. Allen(参考訳) 近年、構造に基づくDeep Fusionモデルは、いくつかの物理および機械学習ベースのタンパク質-リガンド結合親和性予測法より優れていることが示されている。 新型コロナウイルス(COVID-19)の感染拡大を受け、5億以上の小さな分子が、新型コロナウイルス(SARS-CoV-2)の4つのタンパク質構造に対してコンピューターでスクリーニングされた。 ディープフュージョンの3つの拡張は、SARS-CoV-2タンパク質標的に対する50億以上のドッキングポーズを評価するために行われた。 第一に、ディープフュージョンの概念は、結合親和性予測精度を改善するために、アーキテクチャを1つに定式化した。 第二に、このモデルは分散型の遺伝的ハイパーパラメータ最適化を用いて訓練された。 最後に, リガンド数を最大化し, 実験評価への道筋を早めるために, スケーラブルで高スループットなスクリーニング機能を開発した。 本研究では,機械学習を用いたハイスループットスクリーニングのための手法と,計算パイプラインを用いてSARS-CoV-2インヒビターの探索を行った。

Structure-based Deep Fusion models were recently shown to outperform several physics- and machine learning-based protein-ligand binding affinity prediction methods. As part of a multi-institutional COVID-19 pandemic response, over 500 million small molecules were computationally screened against four protein structures from the novel coronavirus (SARS-CoV-2), which causes COVID-19. Three enhancements to Deep Fusion were made in order to evaluate more than 5 billion docked poses on SARS-CoV-2 protein targets. First, the Deep Fusion concept was refined by formulating the architecture as one, coherently backpropagated model (Coherent Fusion) to improve binding-affinity prediction accuracy. Secondly, the model was trained using a distributed, genetic hyper-parameter optimization. Finally, a scalable, high-throughput screening capability was developed to maximize the number of ligands evaluated and expedite the path to experimental evaluation. In this work, we present both the methods developed for machine learning-based high-throughput screening and results from using our computational pipeline to find SARS-CoV-2 inhibitors.
翻訳日:2021-04-13 13:51:56 公開日:2021-04-09
# カオス時空間力学の深部強化学習能動制御のための対称性の低減

Symmetry reduction for deep reinforcement learning active control of chaotic spatiotemporal dynamics ( http://arxiv.org/abs/2104.05437v1 )

ライセンス: Link先を確認
Kevin Zeng, Michael D. Graham(参考訳) 深部強化学習(英: Deep reinforcement learning, RL)は、高次元システムにおけるマクロ目的のための複雑な制御戦略を発見するためのデータ駆動型モデルフリー手法である。 フロー制御利害の多くのシステムは、無視された場合、単純な深いRLアプローチの学習と性能を著しく阻害する対称性を持っている。 倉本・シヴァシンスキー方程式 (KSE) と等間隔アクチュエータからなるテストベッドと、散逸と電力コストの最小化を目標とし、深いRL問題を対称性還元空間に移動させることにより、深いRLのナイーブな応用に固有の制限を緩和できることを示した。 我々は, 対称性を低減した深部RLは, ナイーブ深部RLよりもデータ効率が向上し, 制御ポリシの有効性が向上することを示した。 興味深いことに、対称性認識制御剤によって学習されたポリシーは、その存在について明確な情報が与えられていないにもかかわらず、無力KSEの平衡に連続して連結された強制KSEの平衡状態に向かってシステムを駆動する。 目的を達成するために、RLアルゴリズムはシステムの平衡状態を発見し、安定化する。 最後に, 対称性低減制御ポリシは, 観測やアクティベーション信号ノイズに対して頑健であり, これまでに観測されなかったシステムパラメータにも頑健であることを示す。

Deep reinforcement learning (RL) is a data-driven, model-free method capable of discovering complex control strategies for macroscopic objectives in high-dimensional systems, making its application towards flow control promising. Many systems of flow control interest possess symmetries that, when neglected, can significantly inhibit the learning and performance of a naive deep RL approach. Using a test-bed consisting of the Kuramoto-Sivashinsky Equation (KSE), equally spaced actuators, and a goal of minimizing dissipation and power cost, we demonstrate that by moving the deep RL problem to a symmetry-reduced space, we can alleviate limitations inherent in the naive application of deep RL. We demonstrate that symmetry-reduced deep RL yields improved data efficiency as well as improved control policy efficacy compared to policies found by naive deep RL. Interestingly, the policy learned by the the symmetry aware control agent drives the system toward an equilibrium state of the forced KSE that is connected by continuation to an equilibrium of the unforced KSE, despite having been given no explicit information regarding its existence. I.e., to achieve its goal, the RL algorithm discovers and stabilizes an equilibrium state of the system. Finally, we demonstrate that the symmetry-reduced control policy is robust to observation and actuation signal noise, as well as to system parameters it has not observed before.
翻訳日:2021-04-13 13:49:00 公開日:2021-04-09
# 有限温度における教師付き学習のためのテンソルネットワーク

Tensor Network for Supervised Learning at Finite Temperature ( http://arxiv.org/abs/2104.05439v1 )

ライセンス: Link先を確認
Haoxiang Lin, Shuqian Ye, Xi Zhu(参考訳) データセットの大きなバリエーションは、画像分類タスクの大きな障壁である。 本稿では,この観察を取り入れた有限温度テンソルネットワーク(fttn)について紹介する。これはエネルギーベースの学習と同様に,すべての画像を一定温度の環境に配置することで,熱摂動を行列積状態フレームワークにインポートするものである。 テンソルネットワークは熱揺らぎを導入するのに最適なプラットフォームであるため選択される。 個々の損失を損失関数として直接集計する従来のネットワーク構造とは異なり、FTTNはそれを環境との絡み合いから計算した熱平均損失と見なしている。 温度のようなパラメータは自動的に最適化され、各データベースに個別の温度を与える。 FTTNは、複数のデータセットでテスト精度と収束速度の両方を改善する。 非ゼロ温度は、同様の機能を自動的に分離し、以前のアーキテクチャの誤った分類を避ける。 熱ゆらぎは他のフレームワークで改善される可能性があり、トレーニング効果を改善するためにデータベースの温度を実装することもできる。

The large variation of datasets is a huge barrier for image classification tasks. In this paper, we embraced this observation and introduce the finite temperature tensor network (FTTN), which imports the thermal perturbation into the matrix product states framework by placing all images in an environment with constant temperature, in analog to energy-based learning. Tensor network is chosen since it is the best platform to introduce thermal fluctuation. Different from traditional network structure which directly takes the summation of individual losses as its loss function, FTTN regards it as thermal average loss computed from the entanglement with the environment. The temperature-like parameter can be automatically optimized, which gives each database an individual temperature. FTTN obtains improvement in both test accuracy and convergence speed in several datasets. The non-zero temperature automatically separates similar features, avoiding the wrong classification in previous architecture. The thermal fluctuation may give a better improvement in other frameworks, and we may also implement the temperature of database to improve the training effect.
翻訳日:2021-04-13 13:48:34 公開日:2021-04-09
# 非公式都市における商業活動の解明

Uncovering commercial activity in informal cities ( http://arxiv.org/abs/2104.04545v1 )

ライセンス: Link先を確認
Daniel Straulino, Juan C. Saldarriaga, Jairo A. G\'omez, Juan C. Duque, Neave O'Clery(参考訳) 都市内の経済活動の空間的組織に関する知識は、政策上の懸念の鍵となる。 しかし、高水準の非公式性を持つ発展途上国では、この情報はしばしば利用できない。 機械学習の最近の進歩とストリートイメージの可用性は、安価で簡単に自動化できるソリューションを提供する。 本稿では、ストリートビュー画像を用いて、私たちが「見える企業」と呼ぶものを検出するアルゴリズムを提案する。 コロンビアのメデル・イン(Medell\'in)をケーススタディとして、これまで目に見えない経済活動を明らかにするためにこのアプローチをどのように利用できるかを説明する。 データセットに空間分析を適用することで、確立された中心領域と周辺領域の両方に5つの異なるクラスターを持つ多中心構造を検出する。 可視・登録企業の密度を比較すると、非公式な活動は貧しいが人口密度の高い地域に集中していることが分かる。 我々の発見は、公式データと地上の現実との間の大きなギャップを浮き彫りにしている。

Knowledge of the spatial organisation of economic activity within a city is key to policy concerns. However, in developing cities with high levels of informality, this information is often unavailable. Recent progress in machine learning together with the availability of street imagery offers an affordable and easily automated solution. Here we propose an algorithm that can detect what we call 'visible firms' using street view imagery. Using Medell\'in, Colombia as a case study, we illustrate how this approach can be used to uncover previously unseen economic activity. Applying spatial analysis to our dataset we detect a polycentric structure with five distinct clusters located in both the established centre and peripheral areas. Comparing the density of visible and registered firms, we find that informal activity concentrates in poor but densely populated areas. Our findings highlight the large gap between what is captured in official data and the reality on the ground.
翻訳日:2021-04-13 13:47:23 公開日:2021-04-09
# codedstereo: 大きなフィールドステレオのための学習位相マスク

CodedStereo: Learned Phase Masks for Large Depth-of-field Stereo ( http://arxiv.org/abs/2104.04641v1 )

ライセンス: Link先を確認
Shiyu Tan, Yicheng Wu, Shoou-I Yu, Ashok Veeraraghavan(参考訳) 従来のステレオは、画像ボリュームとsnr(signal-to-noise ratio)との根本的なトレードオフに苦しんでいる。 フィールドカメラの奥行きに着想を得て,ステレオイメージングシステムにおいて,カメラの開口面に位相マスクを導入することにより,この制限を克服する新たなエンドツーエンド学習手法を提案する。 位相マスクは深度依存のポイントスプレッド関数を生成し、従来のステレオよりもシャープな画像テクスチャとステレオ対応をかなり拡張した視野深度(edof)で復元できる。 位相マスクパターン、edof画像再構成、ステレオ不一致推定は全て、エンドツーエンドの学習深層ニューラルネットワークを用いて訓練される。 提案手法の理論的解析と特性評価を行い,シミュレーションで画像化できる体積の6倍の増大を示す。 また,このプロトタイプシステムを用いて得られた実世界結果を用いて,実験的なプロトタイプを構築し,そのアプローチを検証する。

Conventional stereo suffers from a fundamental trade-off between imaging volume and signal-to-noise ratio (SNR) -- due to the conflicting impact of aperture size on both these variables. Inspired by the extended depth of field cameras, we propose a novel end-to-end learning-based technique to overcome this limitation, by introducing a phase mask at the aperture plane of the cameras in a stereo imaging system. The phase mask creates a depth-dependent point spread function, allowing us to recover sharp image texture and stereo correspondence over a significantly extended depth of field (EDOF) than conventional stereo. The phase mask pattern, the EDOF image reconstruction, and the stereo disparity estimation are all trained together using an end-to-end learned deep neural network. We perform theoretical analysis and characterization of the proposed approach and show a 6x increase in volume that can be imaged in simulation. We also build an experimental prototype and validate the approach using real-world results acquired using this prototype system.
翻訳日:2021-04-13 13:47:09 公開日:2021-04-09
# 新型コロナウイルスが貿易に与える影響を評価する: 機械学習の対実分析

Assessing the Impact of COVID-19 on Trade: a Machine Learning Counterfactual Analysis ( http://arxiv.org/abs/2104.04570v1 )

ライセンス: Link先を確認
Marco Due\~nas and V\'ictor Ortiz and Massimo Riccaboni and Francesco Serti(参考訳) 本論文は、輸出業者のダイナミクスを複雑な学習プロセスとして解釈することにより、企業の取引状況予測における異なる機械学習(ml)技術の有効性を検討する最初の試みである。 我々は、新型コロナウイルスの設定と非現実的な状況という2つの異なるシナリオの下で、輸出市場で生き残るコロンビア企業の可能性に焦点を当てる。 その結果を比較した結果,covid-19ショックの個別治療効果が企業業績に与える影響を推定した。 最後に, 再帰的パーティショニング法を用いて, 異なる治療効果を有するサブグループを同定する。 時間的次元の他に、治療の不均一性を予測する主な要因は、ファームサイズと産業間の相互作用である。

By interpreting exporters' dynamics as a complex learning process, this paper constitutes the first attempt to investigate the effectiveness of different Machine Learning (ML) techniques in predicting firms' trade status. We focus on the probability of Colombian firms surviving in the export market under two different scenarios: a COVID-19 setting and a non-COVID-19 counterfactual situation. By comparing the resulting predictions, we estimate the individual treatment effect of the COVID-19 shock on firms' outcomes. Finally, we use recursive partitioning methods to identify subgroups with differential treatment effects. We find that, besides the temporal dimension, the main factors predicting treatment heterogeneity are interactions between firm size and industry.
翻訳日:2021-04-13 13:46:35 公開日:2021-04-09
# 単一勾配ステップがランダム二層ニューラルネットワークの逆例を見つける

A single gradient step finds adversarial examples on random two-layers neural networks ( http://arxiv.org/abs/2104.03863v2 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Yeshwanth Cherapanamjeri, Gauthier Gidel and R\'emi Tachet des Combes(参考訳) Daniely と Schacham は先日、ランダム不完全な2層 ReLU ニューラルネットワーク上で勾配降下が逆例となることを示した。 アンダーコンプリート」という用語は、ニューロンの数が周囲の次元の消失分数である場合にのみその証明が成り立つという事実を指す。 それらの結果は、ニューロンの数が次元よりも大きい(また、次元における部分指数)オーバーコンプリートの場合にまで拡大する。 実際、勾配降下の1つのステップが十分であることを示す。 また,スムースなアクティベーション関数を持つ任意のサブ指数幅ランダムニューラルネットワークに対して,この結果を示す。

Daniely and Schacham recently showed that gradient descent finds adversarial examples on random undercomplete two-layers ReLU neural networks. The term "undercomplete" refers to the fact that their proof only holds when the number of neurons is a vanishing fraction of the ambient dimension. We extend their result to the overcomplete case, where the number of neurons is larger than the dimension (yet also subexponential in the dimension). In fact we prove that a single step of gradient descent suffices. We also show this result for any subexponential width random neural network with smooth activation function.
翻訳日:2021-04-13 10:34:32 公開日:2021-04-09
# ORDisCo:半教師付き連続学習におけるインクリメンタル・アンラベルデータの有用性と有効利用

ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for Semi-supervised Continual Learning ( http://arxiv.org/abs/2101.00407v2 )

ライセンス: Link先を確認
Liyuan Wang, Kuo Yang, Chongxuan Li, Lanqing Hong, Zhenguo Li, Jun Zhu(参考訳) 継続的な学習は通常、受信したデータが完全にラベル付けされていると仮定する。 本研究では,部分ラベル付きデータから漸進的に学習する半教師付き連続学習(SSCL)について考察する。 既存の連続学習手法では、ラベルのないデータを継続的に活用する能力がないことを確認し、学習したデータ分布を連続的に分類器に渡す条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するための、識別器の深いオンライン再生(ORDisCo)を提案する。 特にORDisCoは、条件付きジェネレータからサンプリングされたデータをオンラインの方法でリプレイし、ラベルのないデータを時間とストレージ効率で活用する。 さらに、ラベルなしデータの破滅的な忘れを明示的に克服するため、分類器によって予測される古いラベルなしデータのペアと擬ラベルの識別に重要な識別器のパラメータを選択的に安定化する。 我々は、SSCLの各種半教師付き学習ベンチマークデータセット上でORDisCoを広範囲に評価し、強力なベースラインと比較して、SVHN、CIFAR10、Tiny-ImageNetにおいてORDisCoが大幅な性能向上を実現していることを示す。

Continual learning usually assumes the incoming data are fully labeled, which might not be applicable in real applications. In this work, we consider semi-supervised continual learning (SSCL) that incrementally learns from partially labeled data. Observing that existing continual learning methods lack the ability to continually exploit the unlabeled data, we propose deep Online Replay with Discriminator Consistency (ORDisCo) to interdependently learn a classifier with a conditional generative adversarial network (GAN), which continually passes the learned data distribution to the classifier. In particular, ORDisCo replays data sampled from the conditional generator to the classifier in an online manner, exploiting unlabeled data in a time- and storage-efficient way. Further, to explicitly overcome the catastrophic forgetting of unlabeled data, we selectively stabilize parameters of the discriminator that are important for discriminating the pairs of old unlabeled data and their pseudo-labels predicted by the classifier. We extensively evaluate ORDisCo on various semi-supervised learning benchmark datasets for SSCL, and show that ORDisCo achieves significant performance improvement on SVHN, CIFAR10 and Tiny-ImageNet, compared to strong baselines.
翻訳日:2021-04-13 07:23:25 公開日:2021-04-09
# (参考訳) アグロボットに向けて:タイプ2ファジィ論理制御を用いた自律トラクタの軌道制御

Towards Agrobots: Trajectory Control of an Autonomous Tractor Using Type-2 Fuzzy Logic Controllers ( http://arxiv.org/abs/2104.04123v1 )

ライセンス: CC BY 4.0
Erdal Kayacan, Erkan Kayacan, Herman Ramon, Okyay Kaynak and Wouter Saeys(参考訳) 農業用車両にいくつかの自律的な機能を設けると、オペレーターの仕事が軽くなるが、その場合、最適な収量を得るために正確さを失うべきではない。 農業車両の自律航法には、ヨー角力学や縦速度力学など、様々な動的サブシステムの制御が含まれる。 本研究では、トラクタの長手速度を制御するために比例積分微分制御器を用いる。 yaw角ダイナミクスの制御には、比例導出制御器がタイプ2ファジィニューラルネットワークと並行して動作する。 このような配置では、前者は関連するサブシステムの安定性を保証し、後者はシステムのダイナミクスを学習し、先頭のコントローラとなる。 このように,モデルベース制御の設計に先立ってサブシステム間のインタラクションをモデル化する代わりに,測定したフィードバックエラーからインタラクションをオンラインで学習する制御アルゴリズムを開発した。 規定されたサブシステムの制御に加えて、トラクタの軌道追従問題に対するx軸とy軸の誤差を修正するためにキネマティックコントローラが必要である。 提案方式のリアルタイム性を示すため,自律トラクタには,合理的な価格のセンサとアクチュエータが組み込まれている。 実験の結果,提案アルゴリズムの有効性と有効性を示した。

Provision of some autonomous functions to an agricultural vehicle would lighten the job of the operator but in doing so, the accuracy should not be lost to still obtain an optimal yield. Autonomous navigation of an agricultural vehicle involves the control of different dynamic subsystems, such as the yaw angle dynamics and the longitudinal speed dynamics. In this study, a proportional-integral-derivative controller is used to control the longitudinal velocity of the tractor. For the control of the yaw angle dynamics, a proportional-derivative controller works in parallel with a type-2 fuzzy neural network. In such an arrangement, the former ensures the stability of the related subsystem, while the latter learns the system dynamics and becomes the leading controller. In this way, instead of modeling the interactions between the subsystems prior to the design of model-based control, we develop a control algorithm which learns the interactions online from the measured feedback error. In addition to the control of the stated subsystems, a kinematic controller is needed to correct the errors in both the x- and the y- axis for the trajectory tracking problem of the tractor. To demonstrate the real-time abilities of the proposed control scheme, an autonomous tractor is equipped with the use of reasonably priced sensors and actuators. Experimental results show the efficacy and efficiency of the proposed learning algorithm.
翻訳日:2021-04-12 20:36:22 公開日:2021-04-09
# (参考訳) C-SSRSを用いたRedditの時間変化と時間不変性の評価

Characterization of Time-variant and Time-invariant Assessment of Suicidality on Reddit using C-SSRS ( http://arxiv.org/abs/2104.04140v1 )

ライセンス: CC BY 4.0
Manas Gaur, Vamsi Aribandi, Amanuel Alambo, Ugur Kursuncu, Krishnaprasad Thirunarayan, Jonanthan Beich, Jyotishman Pathak, Amit Sheth(参考訳) 自殺は米国で10番目に多い死因である(1999-2019)。 しかし、自殺未遂の時期の予測はほぼ不可能である。 現代の世界では、精神疾患に苦しむ多くの人々が、redditのような有名で簡単にアクセスできるソーシャルメディアプラットフォーム上で、感情的なサポートとアドバイスを求めています。 従来の人工知能研究は、自殺の考えや行動についてソーシャルメディアから貴重な情報を抽出する能力を示しているが、これらの取り組みはリスクの深刻さと時間性の両方を考慮していない。 このようなデータへのアクセスによって可能になった洞察は、大きな臨床的可能性を持ち、人生を救うために、タイムリーで目標とする介入(自発的で自発的な精神病院化)を採用する引き金として、最も劇的に想定されている。 本研究では,コロンビア自殺重大度評価尺度(c-ssrs)に基づくredditデータから,自殺リスクを評価するための深層学習アルゴリズムを開発することで,この知識のギャップを解決する。 特に,ユーザレベルの自殺リスクアセスメントのための時間変化と時間不変モデリングの2つのディープラーニングアプローチを採用し,c-ssrに基づいてアノテートされた臨床医によるゴールド標準redditコーパスに対するパフォーマンス評価を行った。 以上の結果から, 時変アプローチは自殺関連観念・支援行動の評価において時間不変法よりも優れており, 時間不変モデルは自殺関連行動・自殺未遂の予測に優れていたことが示唆された。 提案手法は臨床診断面接と統合して自殺リスク評価を改善することができる。

Suicide is the 10th leading cause of death in the U.S (1999-2019). However, predicting when someone will attempt suicide has been nearly impossible. In the modern world, many individuals suffering from mental illness seek emotional support and advice on well-known and easily-accessible social media platforms such as Reddit. While prior artificial intelligence research has demonstrated the ability to extract valuable information from social media on suicidal thoughts and behaviors, these efforts have not considered both severity and temporality of risk. The insights made possible by access to such data have enormous clinical potential - most dramatically envisioned as a trigger to employ timely and targeted interventions (i.e., voluntary and involuntary psychiatric hospitalization) to save lives. In this work, we address this knowledge gap by developing deep learning algorithms to assess suicide risk in terms of severity and temporality from Reddit data based on the Columbia Suicide Severity Rating Scale (C-SSRS). In particular, we employ two deep learning approaches: time-variant and time-invariant modeling, for user-level suicide risk assessment, and evaluate their performance against a clinician-adjudicated gold standard Reddit corpus annotated based on the C-SSRS. Our results suggest that the time-variant approach outperforms the time-invariant method in the assessment of suicide-related ideations and supportive behaviors (AUC:0.78), while the time-invariant model performed better in predicting suicide-related behaviors and suicide attempt (AUC:0.64). The proposed approach can be integrated with clinical diagnostic interviews for improving suicide risk assessments.
翻訳日:2021-04-12 19:56:47 公開日:2021-04-09
# (参考訳) 機械学習モデルにおける個別説明:実践者に対する調査

Individual Explanations in MachineLearning Models: A Survey for Practitioners ( http://arxiv.org/abs/2104.04144v1 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u and Alejandro Noriega(参考訳) 近年、社会的関連性の高い領域における決定に影響を与える洗練された統計モデルの利用が増えている。 これらのモデルはしばしば組織の正確性と効率を大幅に改善するが、多くの政府、機関、企業は、その成果を人間の解釈可能な方法で説明することが難しいため、採用に消極的である。 したがって、これらのモデルは、内部メカニズムが人間の監査に不透明であるという意味で、しばしばブラックボックスと見なされる。 実世界のアプリケーションでは、特に、刑事司法、信用スコアの推定、保険リスク、健康リスクなど、決定に敏感な影響がある領域において、モデル解釈が望まれる。 近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。 この調査は、機械学習における個々のインスタンスを説明する特定の問題に対処するための最先端技術を形成する最も重要で斬新な手法についてレビューする。 データサイエンスと機械学習の実践者が、問題領域に適切な方法を探すためのガイドとなる簡潔なレビューを提供することを目指している。

In recent years, the use of sophisticated statistical models that influence decisions in domains of high societal relevance is on the rise. Although these models can often bring substantial improvements in the accuracy and efficiency of organizations, many governments, institutions, and companies are reluctant to their adoption as their output is often difficult to explain in human-interpretable ways. Hence, these models are often regarded as black-boxes, in the sense that their internal mechanisms can be opaque to human audit. In real-world applications, particularly in domains where decisions can have a sensitive impact--e.g., criminal justice, estimating credit scores, insurance risk, health risks, etc.--model interpretability is desired. Recently, the academic literature has proposed a substantial amount of methods for providing interpretable explanations to machine learning models. This survey reviews the most relevant and novel methods that form the state-of-the-art for addressing the particular problem of explaining individual instances in machine learning. It seeks to provide a succinct review that can guide data science and machine learning practitioners in the search for appropriate methods to their problem domain.
翻訳日:2021-04-12 19:32:40 公開日:2021-04-09
# (参考訳) 機械学習モデルにおける個人説明:貧困推定を事例として

Individual Explanations in Machine Learning Models: A Case Study on Poverty Estimation ( http://arxiv.org/abs/2104.04148v1 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u, Luis Tejerina and Alejandro Noriega(参考訳) 機械学習の手法は、決定が人間の生活に影響を与える繊細な社会状況にますます適用されている。 したがって、モデルの予測を簡単に解釈可能な説明を提供する能力を構築する必要がある。 近年の学術文献では、多くの説明方法が提案されている。 残念ながら、私たちの知る限りでは、機械学習の実践者が現実のシナリオに適用する際に直面する課題についてはほとんど文書化されていません。 例えば、機能工学のような典型的な手順は、いくつかの方法論をもはや適用できなくなる。 本研究の主な目的は2つある。 まず、これらの課題とそれらが関連する新しい説明方法の使用に与える影響を明らかにする。 第二に、関連するアプリケーションドメインで説明手法を実装する際に直面するような課題を緩和する一連の戦略を示す。

Machine learning methods are being increasingly applied in sensitive societal contexts, where decisions impact human lives. Hence it has become necessary to build capabilities for providing easily-interpretable explanations of models' predictions. Recently in academic literature, a vast number of explanations methods have been proposed. Unfortunately, to our knowledge, little has been documented about the challenges machine learning practitioners most often face when applying them in real-world scenarios. For example, a typical procedure such as feature engineering can make some methodologies no longer applicable. The present case study has two main objectives. First, to expose these challenges and how they affect the use of relevant and novel explanations methods. And second, to present a set of strategies that mitigate such challenges, as faced when implementing explanation methods in a relevant application domain -- poverty estimation and its use for prioritizing access to social policies.
翻訳日:2021-04-12 19:20:00 公開日:2021-04-09
# (参考訳) 多眼視の自己スーパービジョンによるステレオマッチング

Stereo Matching by Self-supervision of Multiscopic Vision ( http://arxiv.org/abs/2104.04170v1 )

ライセンス: CC BY 4.0
Weihao Yuan, Yazhan Zhang, Bingkun Wu, Siyu Zhu, Ping Tan, Michael Yu Wang, Qifeng Chen(参考訳) 深さ推定のための自己教師あり学習は教師あり学習よりもいくつかの利点がある。 地底深度の不要な利点、オンラインの微調整、無制限のデータによるより良い一般化により、研究者は自己管理的なソリューションを求めることができる。 本研究では,カメラ位置で撮影した複数の画像を利用したステレオマッチングのための自己教師型フレームワークを提案する。 地中深度情報のないエンドツーエンドマップの学習において, クロス測光損失, 不確実性を考慮した相互スーパービジョン損失, 新たな滑らかさ損失を導入し, ネットワークを最適化する。 このフレームワークをトレーニングするために、3Dエンジンでレンダリングされた合成画像と、実際のカメラでキャプチャされた実画像からなる新しいマルチスコープデータセットを構築した。 合成画像のみをトレーニングした後、我々のネットワークは見知らぬ屋外シーンでよく機能する。 実験の結果,本モデルでは,従来のKITTIデータセットの教師なし手法よりも精度の良い不均一性マップが得られた。 私たちのソースコードとデータセットは公開され、さらに多くの結果がサプリメントで提供されます。

Self-supervised learning for depth estimation possesses several advantages over supervised learning. The benefits of no need for ground-truth depth, online fine-tuning, and better generalization with unlimited data attract researchers to seek self-supervised solutions. In this work, we propose a new self-supervised framework for stereo matching utilizing multiple images captured at aligned camera positions. A cross photometric loss, an uncertainty-aware mutual-supervision loss, and a new smoothness loss are introduced to optimize the network in learning disparity maps end-to-end without ground-truth depth information. To train this framework, we build a new multiscopic dataset consisting of synthetic images rendered by 3D engines and real images captured by real cameras. After being trained with only the synthetic images, our network can perform well in unseen outdoor scenes. Our experiment shows that our model obtains better disparity maps than previous unsupervised methods on the KITTI dataset and is comparable to supervised methods when generalized to unseen data. Our source code and dataset will be made public, and more results are provided in the supplement.
翻訳日:2021-04-12 19:04:44 公開日:2021-04-09
# (参考訳) モデルベース強化学習のための仮想遷移の重み付けのための学習

Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2104.04174v1 )

ライセンス: CC BY 4.0
Wenzhen Huang, Qiyue Yin, Junge Zhang, Kaiqi Huang(参考訳) モデルベース強化学習(RL)は、学習力学モデルによって生成された想像軌道を用いて、モデルフリーRLよりも効率的なサンプルである。 モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。 このような問題を緩和するため, 虚構遷移を適応的に再重み付けし, 未生成軌道の負の効果を低減することを提案する。 より具体的には、実際のサンプルで計算された損失の変化を、アクション値とポリシー関数のトレーニングに使用する際に計算し、虚数遷移の効果を評価する。 この評価基準に基づき、よく設計されたメタグラディエントアルゴリズムにより、各虚構遷移を再重み付けするアイデアを構築する。 実験の結果,提案手法は複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムよりも優れていた。 変化する重みの可視化は、再重み付けスキームを利用する必要性をさらに検証する。

Model-based reinforcement learning (RL) is more sample efficient than model-free RL by using imaginary trajectories generated by the learned dynamics model. When the model is inaccurate or biased, imaginary trajectories may be deleterious for training the action-value and policy functions. To alleviate such problem, this paper proposes to adaptively reweight the imaginary transitions, so as to reduce the negative effects of poorly generated trajectories. More specifically, we evaluate the effect of an imaginary transition by calculating the change of the loss computed on the real samples when we use the transition to train the action-value and policy functions. Based on this evaluation criterion, we construct the idea of reweighting each imaginary transition by a well-designed meta-gradient algorithm. Extensive experimental results demonstrate that our method outperforms state-of-the-art model-based and model-free RL algorithms on multiple tasks. Visualization of our changing weights further validates the necessity of utilizing reweight scheme.
翻訳日:2021-04-12 19:02:52 公開日:2021-04-09
# (参考訳) inode: エンドツーエンドのデータ探索システムの構築 [extended vision]

INODE: Building an End-to-End Data Exploration System in Practice [Extended Vision] ( http://arxiv.org/abs/2104.04194v1 )

ライセンス: CC BY 4.0
Sihem Amer-Yahia (2), Georgia Koutrika (1), Frederic Bastian (7), Theofilos Belmpas (1), Martin Braschler (9), Ursin Brunner (9), Diego Calvanese (8), Maximilian Fabricius (5), Orest Gkini (1), Catherine Kosten (9), Davide Lanti (8), Antonis Litke (6), Hendrik L\"ucke-Tieke (3), Francesco Alessandro Massucci (6), Tarcisio Mendes de Farias (7), Alessandro Mosca (8), Francesco Multari (6), Nikolaos Papadakis (4), Dimitris Papadopoulos (4), Yogendra Patil (2), Aur\'elien Personnaz (2), Guillem Rull (6), Ana Sima (7), Ellery Smith (9), Dimitrios Skoutas (1), Srividya Subramanian (5), Guohui Xiao (8), Kurt Stockinger (9) ((1) Athena Research Center, Greece, (2) CNRS, University Grenoble Alpes, France, (3) Fraunhofer IGD, Germany, (4) Infili, Greece, (5) Max Planck Institute, Germany, (6) SIRIS Academic, Spain, (7) SIB Swiss Institute of Bioinformatics, Switzerland, (8) Free University of Bozen-Bolzano, Italy, (9) ZHAW Zurich University of Applied Sciences, Switzerland)(参考訳) 本格的なデータ探索システムは、異なるアクセスモダリティと、データディスカバリとデータリンクの両方に対してリアクティブで予測可能な、探索プロセスのユーザを導く強力な概念を組み合わせる必要がある。 このようなシステムは、私たちのコミュニティにとって、異なるドメインとデータサイエンスの専門知識を持つユーザに届ける本当の機会です。 我々は、エンドツーエンドのデータ探索システムであるinodeを紹介し、一方、機械学習と、他方で、データ管理(dm)の目的のためのセマンティクスを活用する。 私たちのビジョンは、オープンデータセットへの広範なアクセスを提供する古典的な統一的で包括的なプラットフォームを開発することです。 inodeは、(a)データモデリングとリンク、(b)自然言語を使った統合クエリ処理、(c)ガイダンス、および(d)視覚化によるデータ探索において持続可能なサービスを提供する。 我々は,我々のシステムが,より大きな科学コミュニティから一般市民まで,幅広いユーザに対してユニークなアクセス性を持つことを実証する。 最後に、この研究がDMの新しい研究機会の道のりをいかに拓くかを簡単に説明する。

A full-fledged data exploration system must combine different access modalities with a powerful concept of guiding the user in the exploration process, by being reactive and anticipative both for data discovery and for data linking. Such systems are a real opportunity for our community to cater to users with different domain and data science expertise. We introduce INODE -- an end-to-end data exploration system -- that leverages, on the one hand, Machine Learning and, on the other hand, semantics for the purpose of Data Management (DM). Our vision is to develop a classic unified, comprehensive platform that provides extensive access to open datasets, and we demonstrate it in three significant use cases in the fields of Cancer Biomarker Reearch, Research and Innovation Policy Making, and Astrophysics. INODE offers sustainable services in (a) data modeling and linking, (b) integrated query processing using natural language, (c) guidance, and (d) data exploration through visualization, thus facilitating the user in discovering new insights. We demonstrate that our system is uniquely accessible to a wide range of users from larger scientific communities to the public. Finally, we briefly illustrate how this work paves the way for new research opportunities in DM.
翻訳日:2021-04-12 18:48:20 公開日:2021-04-09
# (参考訳) taylormade vdd:非凸円筒金属オブジェクトの高混合低体積生成のためのドメイン適応視覚欠陥検出器

TaylorMade VDD: Domain-adaptive Visual Defect Detector for High-mix Low-volume Production of Non-convex Cylindrical Metal Objects ( http://arxiv.org/abs/2104.04203v1 )

ライセンス: CC BY 4.0
Kyosuke Tashiro, Koji Takeda, Kanji Tanaka, Tomoe Hiroki(参考訳) 高圧筒状配管継手部(VDD-HPPPs)などの非凸金属オブジェクトの高混合低体積化のための視覚欠陥検出(VDD)は、ドメインの微妙な違い(例えば、金属オブジェクト、撮像装置、視点、照明)が個々の金属オブジェクトの反射特性に大きく影響するため、困難である。 本稿では,新しいドメインに自動的に適応可能なカスタマイズ可能なVDDフレームワークを導入することで,この問題に対処する。 具体的には、ネットワークアーキテクチャを強化学習により探索するディープオブジェクト検出ネットワークにおけるネットワークアーキテクチャ探索(NAS)問題として、この適応タスクを定式化する。 本稿では,VDD-HPPPsタスクをファクトリケーススタディとして用いたフレームワークの有効性を示す。 実験結果から,提案手法は,非凸HPPPに対して異なるトレーニング/テスト領域を持つデータに対して,特に領域シフトの影響を受けやすいベースライン法と比較して,バー検出精度が高いことがわかった。

Visual defect detection (VDD) for high-mix low-volume production of non-convex metal objects, such as high-pressure cylindrical piping joint parts (VDD-HPPPs), is challenging because subtle difference in domain (e.g., metal objects, imaging device, viewpoints, lighting) significantly affects the specular reflection characteristics of individual metal object types. In this paper, we address this issue by introducing a tailor-made VDD framework that can be automatically adapted to a new domain. Specifically, we formulate this adaptation task as the problem of network architecture search (NAS) on a deep object-detection network, in which the network architecture is searched via reinforcement learning. We demonstrate the effectiveness of the proposed framework using the VDD-HPPPs task as a factory case study. Experimental results show that the proposed method achieved higher burr detection accuracy compared with the baseline method for data with different training/test domains for the non-convex HPPPs, which are particularly affected by domain shifts.
翻訳日:2021-04-12 18:32:40 公開日:2021-04-09
# (参考訳) 語彙推論を促進するための外部知識の導入

Incorporating External Knowledge to Enhance Tabular Reasoning ( http://arxiv.org/abs/2104.04243v1 )

ライセンス: CC BY 4.0
J. Neeraja, Vivek Gupta, Vivek Srikumar(参考訳) 表形式の情報に関する推論は、学習済みの文脈化されたテキストの埋め込みに依存する現代のNLPアプローチに固有の課題をもたらす。 本稿では,これらの課題を,表型自然言語推論の問題を通して考察する。 本稿では,このタスクのモデルに情報がどのように提示されるか,容易かつ効果的な修正を提案する。 本研究では,これらの手法が表層推論性能を大幅に向上させることを示す。

Reasoning about tabular information presents unique challenges to modern NLP approaches which largely rely on pre-trained contextualized embeddings of text. In this paper, we study these challenges through the problem of tabular natural language inference. We propose easy and effective modifications to how information is presented to a model for this task. We show via systematic experiments that these strategies substantially improve tabular inference performance.
翻訳日:2021-04-12 18:25:18 公開日:2021-04-09
# (参考訳) Batch Monte Carlo Tree Search

Batch Monte Carlo Tree Search ( http://arxiv.org/abs/2104.04278v1 )

ライセンス: CC BY 4.0
Tristan Cazenave(参考訳) 一連の状態におけるディープニューラルネットワークによる推論は、別の状態に対する推論よりもGPUの方がはるかに高速である。 この性質に基づいて,バッチ推論を用いたモンテカルロ木探索アルゴリズムを提案する。 探索木や転置テーブルを使う代わりに、同じアルゴリズムで両方を使うように提案する。 変換テーブルは推論の結果を含み、探索木はモンテカルロ木探索の統計を含む。 また、検索を改善する複数のヒューリスティック($\mu$ FPU, the Virtual Mean, the Last Iteration, the Second Move Heuristics)を分析することを提案する。 それらはMobileNetニューラルネットワークを使用してGoのゲームで評価される。

Making inferences with a deep neural network on a batch of states is much faster with a GPU than making inferences on one state after another. We build on this property to propose Monte Carlo Tree Search algorithms using batched inferences. Instead of using either a search tree or a transposition table we propose to use both in the same algorithm. The transposition table contains the results of the inferences while the search tree contains the statistics of Monte Carlo Tree Search. We also propose to analyze multiple heuristics that improve the search: the $\mu$ FPU, the Virtual Mean, the Last Iteration and the Second Move heuristics. They are evaluated for the game of Go using a MobileNet neural network.
翻訳日:2021-04-12 18:10:55 公開日:2021-04-09
# (参考訳) 機械学習モデル解釈のための特徴空間変換

Transforming Feature Space to Interpret Machine Learning Models ( http://arxiv.org/abs/2104.04295v1 )

ライセンス: CC BY-SA 4.0
Alexander Brenning(参考訳) 機械学習モデルを解釈するためのモデルに依存しないツールは、高次元の特徴空間における強い依存的特徴の結合効果を要約するのに苦労する。 この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。 非条件と、部分的依存プロット、蓄積された局所効果プロット、置換特徴重要評価を含む条件付きポストホック診断ツールの強化に使用できる。 このアプローチは非線形変換にも適用できるが、主成分分析(PCA)や部分直交化技術を含む線形変換に着目する。 構造化PCAとパスに沿った診断は、ドメイン知識を表現する機会を提供する。 新しいアプローチは、既存の説明可能な機械学習パッケージと組み合わせることができるRパッケージ `wiml` に実装されている。 46の特徴を有するリモートセンシング土地被覆分類のケーススタディを用いて、ドメインエキスパートによるモデル解釈のための提案手法の可能性を示す。

Model-agnostic tools for interpreting machine-learning models struggle to summarize the joint effects of strongly dependent features in high-dimensional feature spaces, which play an important role in pattern recognition, for example in remote sensing of landcover. This contribution proposes a novel approach that interprets machine-learning models through the lens of feature space transformations. It can be used to enhance unconditional as well as conditional post-hoc diagnostic tools including partial dependence plots, accumulated local effects plots, or permutation feature importance assessments. While the approach can also be applied to nonlinear transformations, we focus on linear ones, including principal component analysis (PCA) and a partial orthogonalization technique. Structured PCA and diagnostics along paths offer opportunities for representing domain knowledge. The new approach is implemented in the R package `wiml`, which can be combined with existing explainable machine-learning packages. A case study on remote-sensing landcover classification with 46 features is used to demonstrate the potential of the proposed approach for model interpretation by domain experts.
翻訳日:2021-04-12 17:57:06 公開日:2021-04-09
# (参考訳) 作物型セマンティックセグメンテーションのための文脈自己コントラスト事前学習

Context-self contrastive pretraining for crop type semantic segmentation ( http://arxiv.org/abs/2104.04310v1 )

ライセンス: CC BY 4.0
Michail Tarasiou, Riza Alp Guler, Stefanos Zafeiriou(参考訳) 本稿では,特に密な分類タスクに適したコントラスト学習に基づく,教師付き事前学習方式を提案する。 提案するコンテキスト自己コントラスト損失(cscl)は、トレーニングサンプル内の各場所とそのローカルコンテキスト間の類似度メトリックを用いて意味境界をポップアップする埋め込み空間を学習する。 衛星画像からの作物型セマンティックセマンティックセグメンテーションでは、サテライト境界における性能が重要なボトルネックとなり、CSCLがその問題の根本原因に取り組む方法を説明し、このタスクにおける最先端のパフォーマンスを改善する。 さらに、Sentinel-2(S2)衛星ミッションの画像を用いて、我々の知る限り、作物のタイプとパーセルのアイデンティティによって高度にアノテートされた衛星画像のデータセットをコンパイルし、データ生成パイプラインと共に公開する。 このデータを用いて、CSCLは最小限の事前学習でも、すべてのベースラインを改善し、より粒度の細かい作物のクラスを得るための超解像でのセマンティックセグメンテーションのプロセスを示す。 提案手法は,2次元および3次元ボリューム画像における意味的セグメンテーションの課題に基づいて,競合ベースラインにおける一貫した性能向上を示す。

In this paper we propose a fully-supervised pretraining scheme based on contrastive learning particularly tailored to dense classification tasks. The proposed Context-Self Contrastive Loss (CSCL) learns an embedding space that makes semantic boundaries pop-up by use of a similarity metric between every location in an training sample and its local context. For crop type semantic segmentation from satellite images we find performance at parcel boundaries to be a critical bottleneck and explain how CSCL tackles the underlying cause of that problem, improving the state-of-the-art performance in this task. Additionally, using images from the Sentinel-2 (S2) satellite missions we compile the largest, to our knowledge, dataset of satellite image timeseries densely annotated by crop type and parcel identities, which we make publicly available together with the data generation pipeline. Using that data we find CSCL, even with minimal pretraining, to improve all respective baselines and present a process for semantic segmentation at super-resolution for obtaining crop classes at a more granular level. The proposed method is further validated on the task of semantic segmentation on 2D and 3D volumetric images showing consistent performance improvements upon competitive baselines.
翻訳日:2021-04-12 17:45:37 公開日:2021-04-09
# (参考訳) 信頼度推定を用いた雑音ラベルNER

Noisy-Labeled NER with Confidence Estimation ( http://arxiv.org/abs/2104.04318v1 )

ライセンス: CC BY 4.0
Kun Liu, Yao Fu, Chuanqi Tan, Mosha Chen, Ningyu Zhang, Songfang Huang, Sheng Gao(参考訳) 深層学習における最近の研究は、名前付き実体認識(NER)において大きな進歩を示している。 既存の作品の多くはクリーンなデータアノテーションを前提としているが、現実世界のシナリオにおける基本的な課題は、様々なソース(例えば、疑似、弱、遠方のアノテーション)からの大量のノイズである。 本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。 ノイズラベルとクリーンラベルの異なるトレーニングダイナミクスに関する経験的観察に基づいて,局所的およびグローバル的独立性仮定に基づく信頼度スコアの推定手法を提案する。 信頼性の低いラベルをCRFモデルで部分的にマージする。 さらに,エンティティラベルの構造に基づく信頼度スコアの校正手法を提案する。 当社のアプローチを,パフォーマンス向上のための自己学習フレームワークに統合しています。 4言語と遠隔ラベル付き設定を用いた一般雑音環境実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/liukun95/Noisy-NER-Confidence-Estimationにある。

Recent studies in deep learning have shown significant progress in named entity recognition (NER). Most existing works assume clean data annotation, yet a fundamental challenge in real-world scenarios is the large amount of noise from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method. Our code can be found at https://github.com/liukun95/Noisy-NER-Confidence-Estimation
翻訳日:2021-04-12 17:26:59 公開日:2021-04-09
# (参考訳) コントラスト学習と画像再構成とアテンション重み付きプールの併用によるきめ細かい視覚表現に向けて

Towards Fine-grained Visual Representations by Combining Contrastive Learning with Image Reconstruction and Attention-weighted Pooling ( http://arxiv.org/abs/2104.04323v1 )

ライセンス: CC BY 4.0
Jonas Dippel, Steffen Dippel, Johannes H\"ohne(参考訳) 本稿では,コントラストと自己再構成損失を併用して画像表現を最適化する自己教師型学習アルゴリズムConRecを提案する。 最先端のコントラスト学習手法(例)を紹介する。 SimCLR)は、表現の細かい視覚的特徴を捉えるのに欠点がある。 ConRecは,(1)自己再構成タスク,(2)コントラスト学習タスク内の注意機構を追加することで,SimCLRフレームワークを拡張した。 これは2つの頭を持つ単純なエンコーダ・デコーダアーキテクチャを適用することで実現される。 両拡張は,細かな視覚的特徴を持つ画像に対するベクトル表現の改善に寄与することを示す。 これらの概念を組み合わせることで、ConRecはSimCLRとSimCLRを、きめ細かい分類データセットのアテンションポーリングで上回ります。

This paper presents Contrastive Reconstruction, ConRec - a self-supervised learning algorithm that obtains image representations by jointly optimizing a contrastive and a self-reconstruction loss. We showcase that state-of-the-art contrastive learning methods (e.g. SimCLR) have shortcomings to capture fine-grained visual features in their representations. ConRec extends the SimCLR framework by adding (1) a self-reconstruction task and (2) an attention mechanism within the contrastive learning task. This is accomplished by applying a simple encoder-decoder architecture with two heads. We show that both extensions contribute towards an improved vector representation for images with fine-grained visual features. Combining those concepts, ConRec outperforms SimCLR and SimCLR with Attention-Pooling on fine-grained classification datasets.
翻訳日:2021-04-12 17:16:17 公開日:2021-04-09
# (参考訳) CropGym: 作物管理のための強化学習環境

CropGym: a Reinforcement Learning Environment for Crop Management ( http://arxiv.org/abs/2104.04326v1 )

ライセンス: CC BY 4.0
Hiske Overweg, Herman N.C. Berghuijs, Ioannis N. Athanasiadis(参考訳) 窒素肥料は環境に有害な影響を及ぼし、肥料管理戦略を最適化することで削減することができる。 強化学習エージェントがプロセスベースの作物生育モデルを用いて受精管理方針を学習し、環境影響を低減した政策を識別できる、openaiジム環境を実現する。 我々の環境において, 近似政策最適化アルゴリズムを用いて訓練したエージェントは, 提案する他のベースラインエージェントよりも環境への影響を低減することに成功している。

Nitrogen fertilizers have a detrimental effect on the environment, which can be reduced by optimizing fertilizer management strategies. We implement an OpenAI Gym environment where a reinforcement learning agent can learn fertilization management policies using process-based crop growth models and identify policies with reduced environmental impact. In our environment, an agent trained with the Proximal Policy Optimization algorithm is more successful at reducing environmental impacts than the other baseline agents we present.
翻訳日:2021-04-12 17:05:10 公開日:2021-04-09
# (参考訳) グラフvaeとグラフトランスフォーマの分子グラフ生成への応用

A Graph VAE and Graph Transformer Approach to Generating Molecular Graphs ( http://arxiv.org/abs/2104.04345v1 )

ライセンス: CC BY 4.0
Joshua Mitton, Hans M. Senn, Klaas Wynne, Roderick Murray-Smith(参考訳) 本稿では,グラフの畳み込み層とグラフプーリング層をフル活用し,グラフ上で直接動作する変分オートエンコーダと変分トランスフォーマーモデルの組み合わせを提案する。 トランスモデルは新しいノード符号化層を実装し、変圧器で典型的に使用される位置符号化を置き換え、グラフ上で動く位置情報を持たない変圧器を作成し、隣接するノード特性をエッジ生成プロセスに符号化する。 提案モデルでは,エッジ機能を備えたグラフ上でのグラフ生成作業に基づいて構築し,グラフ内のノード数によるスケーラビリティの向上を実現する。 さらに,このモデルは,潜在変数とグラフプロパティのマッピングを通じてグラフ特性を表現する,不連続で解釈可能な潜在空間を学習することができる。 実験では、生成ノードとエッジの両方の重要性を考慮して、分子生成のベンチマークタスクを選択しました。 QM9データセットを用いて、有効な、ユニークな、新しい分子を生成するタスクにおいて、我々のモデルが強く機能することを示した。 最後に,分子特性によって制御される分子を生成することによってモデルが解釈可能であることを示す。

We propose a combination of a variational autoencoder and a transformer based model which fully utilises graph convolutional and graph pooling layers to operate directly on graphs. The transformer model implements a novel node encoding layer, replacing the position encoding typically used in transformers, to create a transformer with no position information that operates on graphs, encoding adjacent node properties into the edge generation process. The proposed model builds on graph generative work operating on graphs with edge features, creating a model that offers improved scalability with the number of nodes in a graph. In addition, our model is capable of learning a disentangled, interpretable latent space that represents graph properties through a mapping between latent variables and graph properties. In experiments we chose a benchmark task of molecular generation, given the importance of both generated node and edge features. Using the QM9 dataset we demonstrate that our model performs strongly across the task of generating valid, unique and novel molecules. Finally, we demonstrate that the model is interpretable by generating molecules controlled by molecular properties, and we then analyse and visualise the learned latent representation.
翻訳日:2021-04-12 16:58:30 公開日:2021-04-09
# (参考訳) 火星のマシンビジョンでロックハンティング

Rock Hunting With Martian Machine Vision ( http://arxiv.org/abs/2104.04359v1 )

ライセンス: CC BY-SA 4.0
David Noever, Samantha E. Miller Noever(参考訳) Mars Perseveranceローバーは、ナビゲーションとハザード回避にコンピュータビジョンを適用している。 オンボードオブジェクト認識の課題は、低消費電力でカスタマイズされたトレーニングの必要性を強調している。 火星岩石の分類と検出のための深層学習法について検討した。 2値分類(rock vs. rover)の精度は97%以上である。 我々は、岩を数えながら位置決めされた境界箱をレンダリングする検出器を微調整する。 これらのモデルがマイクロコントローラ上で動作するために、ニューラルネットワークの重みを縮小して定量化し、より高速なフレームレート(1フレーム/秒)で精度が低いロックハンター(37%)を示す。

The Mars Perseverance rover applies computer vision for navigation and hazard avoidance. The challenge to do onboard object recognition highlights the need for low-power, customized training, often including low-contrast backgrounds. We investigate deep learning methods for the classification and detection of Martian rocks. We report greater than 97% accuracy for binary classifications (rock vs. rover). We fine-tune a detector to render geo-located bounding boxes while counting rocks. For these models to run on microcontrollers, we shrink and quantize the neural networks' weights and demonstrate a low-power rock hunter with faster frame rates (1 frame per second) but lower accuracy (37%).
翻訳日:2021-04-12 16:49:54 公開日:2021-04-09
# (参考訳) 高速デリバティブ自由最適化のための学習サンプリングポリシー

Learning Sampling Policy for Faster Derivative Free Optimization ( http://arxiv.org/abs/2104.04405v1 )

ライセンス: CC BY 4.0
Zhou Zhai, Bin Gu, and Heng Huang(参考訳) 2つの関数評価によってのみ勾配を推定するゼロ階数法(ZO, derivative-free)は、機械学習コミュニティに広く応用されているため、近年注目を集めている。 2つの関数の評価は通常、標準ガウス分布からランダムな摂動で生成される。 ZO法を高速化するために、確率的ZO勾配の分散化や適応的なガウス分布の学習など多くの手法が最近提案され、ZO勾配の分散の低減が図られている。 しかし、ZO法の収束をさらに改善する空間が存在するかどうかはまだ未解決の問題である。 そこで本研究では,ZO最適化における摂動をランダムサンプリングの代わりに生成するためのサンプリングポリシを学習する,新しい強化学習ベースのZOアルゴリズムを提案する。 最適ポリシーを見つけるために、2つのニューラルネットワーク関数近似器を用いたディープ決定性ポリシー勾配 (DDPG) と呼ばれるアクタークリティカルなRLアルゴリズムを採用する。 学習されたサンプリングポリシーはパラメータ空間の摂動点をガイドし、より正確なZO勾配を推定する。 我々の知る限り、ZO-RLは既存の手法と平行なZO最適化のための強化学習を用いてサンプリングポリシーを学習する最初のアルゴリズムである。 特に、我々のZO-RLは、アルゴリズムをさらに高速化できる既存のZOアルゴリズムと組み合わせることができる。 異なるZO最適化問題に対する実験結果から,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示された。

Zeroth-order (ZO, also known as derivative-free) methods, which estimate the gradient only by two function evaluations, have attracted much attention recently because of its broad applications in machine learning community. The two function evaluations are normally generated with random perturbations from standard Gaussian distribution. To speed up ZO methods, many methods, such as variance reduced stochastic ZO gradients and learning an adaptive Gaussian distribution, have recently been proposed to reduce the variances of ZO gradients. However, it is still an open problem whether there is a space to further improve the convergence of ZO methods. To explore this problem, in this paper, we propose a new reinforcement learning based ZO algorithm (ZO-RL) with learning the sampling policy for generating the perturbations in ZO optimization instead of using random sampling. To find the optimal policy, an actor-critic RL algorithm called deep deterministic policy gradient (DDPG) with two neural network function approximators is adopted. The learned sampling policy guides the perturbed points in the parameter space to estimate a more accurate ZO gradient. To the best of our knowledge, our ZO-RL is the first algorithm to learn the sampling policy using reinforcement learning for ZO optimization which is parallel to the existing methods. Especially, our ZO-RL can be combined with existing ZO algorithms that could further accelerate the algorithms. Experimental results for different ZO optimization problems show that our ZO-RL algorithm can effectively reduce the variances of ZO gradient by learning a sampling policy, and converge faster than existing ZO algorithms in different scenarios.
翻訳日:2021-04-12 16:43:25 公開日:2021-04-09
# (参考訳) 混乱を通した教師なし授業実践学習

Unsupervised Class-Incremental Learning Through Confusion ( http://arxiv.org/abs/2104.04450v1 )

ライセンス: CC BY 4.0
Shivam Khare, Kun Cao, James Rehg(参考訳) 連続学習に関する多くの研究は、破滅的な忘れを緩和する有望な結果を示しているが、彼らは教師付きトレーニングに依存している。 ラベルに依存しないインクリメンタルな設定でうまく学習するには、学習クラスと新しいクラスを区別して、トレーニングのためのサンプルを適切に含む必要がある。 入力データを新しいクラスとして訓練することによるネットワークの混乱を利用した新規性検出手法を提案する。 この検出方法中にクラス不均衡を組み込むことで性能が大幅に向上することがわかった。 提案手法の有効性は,MNIST,SVHN,CIFAR-10,CIFAR-100,CRIBの3種類の画像分類ベンチマークで実証された。

While many works on Continual Learning have shown promising results for mitigating catastrophic forgetting, they have relied on supervised training. To successfully learn in a label-agnostic incremental setting, a model must distinguish between learned and novel classes to properly include samples for training. We introduce a novelty detection method that leverages network confusion caused by training incoming data as a new class. We found that incorporating a class-imbalance during this detection method substantially enhances performance. The effectiveness of our approach is demonstrated across a set of image classification benchmarks: MNIST, SVHN, CIFAR-10, CIFAR-100, and CRIB.
翻訳日:2021-04-12 16:29:15 公開日:2021-04-09
# (参考訳) 地域コントラストを用いたブートストラップセマンティックセマンティックセグメンテーション

Bootstrapping Semantic Segmentation with Regional Contrast ( http://arxiv.org/abs/2104.04465v1 )

ライセンス: CC BY 4.0
Shikun Liu, Shuaifeng Zhi, Edward Johns, Andrew J. Davison(参考訳) 本稿では,セマンティックセグメンテーションの学習を支援するため,地域レベルで設計されたコントラスト学習フレームワークrecoを提案する。 ReCoは、半教師付きまたは教師付きピクセルレベルのコントラスト学習を、最小限のメモリフットプリントで、ハードネガティブピクセルのスパースセットで実行する。 ReCoは実装が容易で、既製のセグメンテーションネットワーク上に構築されており、半教師付きセグメンテーションと教師付きセグメンテーションの両方のパフォーマンスを一貫して改善し、スムーズなセグメンテーション境界とより高速な収束を実現している。 最も強い効果は、ほとんどラベルのない半教師付き学習である。 ReCoでは、CityScapesデータセットで50% mIoUを達成していますが、ラベル付きイメージは20しか必要ありません。 コードは \url{https://github.com/lorenmt/reco} で入手できる。

We present ReCo, a contrastive learning framework designed at a regional level to assist learning in semantic segmentation. ReCo performs semi-supervised or supervised pixel-level contrastive learning on a sparse set of hard negative pixels, with minimal additional memory footprint. ReCo is easy to implement, being built on top of off-the-shelf segmentation networks, and consistently improves performance in both semi-supervised and supervised semantic segmentation methods, achieving smoother segmentation boundaries and faster convergence. The strongest effect is in semi-supervised learning with very few labels. With ReCo, we achieve 50% mIoU in the CityScapes dataset, whilst requiring only 20 labelled images, improving by 10% relative to the previous state-of-the-art. Code is available at \url{https://github.com/lorenmt/reco}.
翻訳日:2021-04-12 16:17:34 公開日:2021-04-09
# (参考訳) 答えは? 会話談話における主観的行為と意図

Did they answer? Subjective acts and intents in conversational discourse ( http://arxiv.org/abs/2104.04470v1 )

ライセンス: CC BY 4.0
Elisa Ferracane, Greg Durrett, Junyi Jessy Li and Katrin Erk(参考訳) 談話信号はしばしば暗黙的であり、必要な推論を引き出すためにインタプリタに委ねられる。 同時に、談話は社会的文脈に埋め込まれており、解釈を解く際に解釈者が自身の仮定や信念を適用し、複数の有効な解釈をもたらす。 しかし、現在の談話データとフレームワークは社会的な側面を無視し、一つの根拠だけを期待している。 本稿では,英語会話の多元的・主観的解釈を主観的に表現した最初の談話データセットについて述べる。 我々はデータセットを注意深く分析し,(1)インタプリタのバイアスを考慮すれば解釈の予測がより良くなるという仮説を検証し,(2)不一致はニュアンスであり,異なる文脈要因の深い理解を必要とすることを示した。 私たちはデータセットとコードをhttp://github.com/elisaf/subjective_discourseで共有しています。

Discourse signals are often implicit, leaving it up to the interpreter to draw the required inferences. At the same time, discourse is embedded in a social context, meaning that interpreters apply their own assumptions and beliefs when resolving these inferences, leading to multiple, valid interpretations. However, current discourse data and frameworks ignore the social aspect, expecting only a single ground truth. We present the first discourse dataset with multiple and subjective interpretations of English conversation in the form of perceived conversation acts and intents. We carefully analyze our dataset and create computational models to (1) confirm our hypothesis that taking into account the bias of the interpreters leads to better predictions of the interpretations, (2) and show disagreements are nuanced and require a deeper understanding of the different contextual factors. We share our dataset and code at http://github.com/elisaF/subjective_discourse.
翻訳日:2021-04-12 16:01:01 公開日:2021-04-09
# (参考訳) 深部強化学習による複数UAVのジャミング耐性経路計画

Jamming-Resilient Path Planning for Multiple UAVs via Deep Reinforcement Learning ( http://arxiv.org/abs/2104.04477v1 )

ライセンス: CC BY 4.0
Xueyuan Wang, M. Cenk Gursoy, Tugba Erpek and Yalin E. Sagduyu(参考訳) 無人航空機(UAV)は無線ネットワークの不可欠な部分であると期待されている。 本稿では,複数のセル接続型UAVに対して,動的ジャマの存在下での地上基地局(GBS)との接続要件を満たしつつ,衝突のない経路を見つけることを目的とする。 まず,接続性,衝突回避性,運動的制約を伴う離散領域における逐次的意思決定問題として問題を定式化する。 そこで本研究では,オンライン信号対干渉比(sinr)マッピングを用いたオフライン時間差(td)学習アルゴリズムを提案する。 より具体的には、UAV間の相互作用とUAVと環境の間の相互作用を符号化するTD法で、オフラインでバリューネットワークを構築し、トレーニングし、オンラインSINRマッピングディープニューラルネットワーク(DNN)を教師付き学習によって設計、訓練し、ジャマーによる影響と変化を符号化する。 数値計算の結果,提案アルゴリズムは,ジャマーに関する情報がなければ,理想的なSINRマップを用いて,理想的なシナリオに近い性能レベルを達成できることがわかった。 複数UAVのリアルタイムナビゲーションを高い成功率で効率的に行うことができ、衝突を避けることができる。

Unmanned aerial vehicles (UAVs) are expected to be an integral part of wireless networks. In this paper, we aim to find collision-free paths for multiple cellular-connected UAVs, while satisfying requirements of connectivity with ground base stations (GBSs) in the presence of a dynamic jammer. We first formulate the problem as a sequential decision making problem in discrete domain, with connectivity, collision avoidance, and kinematic constraints. We, then, propose an offline temporal difference (TD) learning algorithm with online signal-to-interference-plus-noise ratio (SINR) mapping to solve the problem. More specifically, a value network is constructed and trained offline by TD method to encode the interactions among the UAVs and between the UAVs and the environment; and an online SINR mapping deep neural network (DNN) is designed and trained by supervised learning, to encode the influence and changes due to the jammer. Numerical results show that, without any information on the jammer, the proposed algorithm can achieve performance levels close to that of the ideal scenario with the perfect SINR-map. Real-time navigation for multi-UAVs can be efficiently performed with high success rates, and collisions are avoided.
翻訳日:2021-04-12 15:40:41 公開日:2021-04-09
# (参考訳) 精密幾何特徴を用いたディープフェイク検出の効率とロバスト性の向上

Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features ( http://arxiv.org/abs/2104.04480v1 )

ライセンス: CC BY 4.0
Zekun Sun and Yujie Han and Zeyu Hua and Na Ruan and Weijia Jia(参考訳) ディープフェイクス(Deepfakes)は、ビデオでターゲットの顔を元の顔に移植する悪意ある技法の1つで、著作権侵害、情報の混乱、さらにはパニックなど深刻な問題を引き起こす。 これまでのdeepfakesビデオ検出の取り組みは主に外観機能に焦点を当てており、高度な操作によってバイパスされるリスクがあり、モデルの複雑さとノイズに対する敏感さも高まっている。 さらに、操作されたビデオの時間的特徴を掘り起こし、それらを悪用する方法はまだ未解決の問題だ。 本稿では,正確な幾何学的特徴の時間的モデリングにより,Deepfakesビデオを検出するために,LRNetという効率的で堅牢なフレームワークを提案する。 幾何学的特徴の精度を高めるために新しいキャリブレーションモジュールを考案し、より識別しやすくし、時間的特徴を十分に活用するために2ストリームリカレントニューラルネットワーク(RNN)を構築した。 従来の手法と比較して,提案手法は軽量で訓練が容易である。 さらに,本手法は,高圧縮・ノイズ劣化ビデオの検出において頑健性を示した。 われわれのモデルはFaceForensics++データセットで0.999 AUCを達成した。 一方、高度に圧縮されたビデオに直面するとパフォーマンスが低下する(-0.042 auc)。

Deepfakes is a branch of malicious techniques that transplant a target face to the original one in videos, resulting in serious problems such as infringement of copyright, confusion of information, or even public panic. Previous efforts for Deepfakes videos detection mainly focused on appearance features, which have a risk of being bypassed by sophisticated manipulation, also resulting in high model complexity and sensitiveness to noise. Besides, how to mine the temporal features of manipulated videos and exploit them is still an open question. We propose an efficient and robust framework named LRNet for detecting Deepfakes videos through temporal modeling on precise geometric features. A novel calibration module is devised to enhance the precision of geometric features, making it more discriminative, and a two-stream Recurrent Neural Network (RNN) is constructed for sufficient exploitation of temporal features. Compared to previous methods, our proposed method is lighter-weighted and easier to train. Moreover, our method has shown robustness in detecting highly compressed or noise corrupted videos. Our model achieved 0.999 AUC on FaceForensics++ dataset. Meanwhile, it has a graceful decline in performance (-0.042 AUC) when faced with highly compressed videos.
翻訳日:2021-04-12 15:27:37 公開日:2021-04-09
# (参考訳) エンド・エンド音声認識のための言語モデル融合

Language model fusion for streaming end to end speech recognition ( http://arxiv.org/abs/2104.04487v1 )

ライセンス: CC BY 4.0
Rodrigo Cabrera, Xiaofeng Liu, Mohammadreza Ghodsi, Zebulun Matteson, Eugene Weinstein, Anjuli Kannan(参考訳) 音声のストリーム処理は多くの現代的な音声認識タスクに必要である。 今日手書き音声データの大規模なコーパスが利用可能であるにもかかわらず、そのようなコーパスは、オープン・エンド・ディクテーションや音声検索といったタスクにおいて重要な言語内容の長い尾を適切にカバーすることは不可能である。 我々は,非ペアテキストデータにトレーニングされた言語モデル(lm)を用いて,エンドツーエンド(e2e)モデルを強化することで,ストリーミングとテール認識の両方の課題に対処しようとする。 我々は,ストリーミング・リカレントニューラルネットワークトランスデューサ (rnnt) への浅層核融合法と低温核融合法を拡張し,rnntアーキテクチャをさらに強化する2つの新しい競合核融合法を提案する。 異なるトレーニングセットサイズを持つ複数の言語に対する実験結果から,これらの融合手法は言語的特徴を付加することにより,RNNTのストリーミング性能を向上させることが示された。 cold fusionはストリーミングrnntで一貫して機能し、最大8.5%改善されている。

Streaming processing of speech audio is required for many contemporary practical speech recognition tasks. Even with the large corpora of manually transcribed speech data available today, it is impossible for such corpora to cover adequately the long tail of linguistic content that's important for tasks such as open-ended dictation and voice search. We seek to address both the streaming and the tail recognition challenges by using a language model (LM) trained on unpaired text data to enhance the end-to-end (E2E) model. We extend shallow fusion and cold fusion approaches to streaming Recurrent Neural Network Transducer (RNNT), and also propose two new competitive fusion approaches that further enhance the RNNT architecture. Our results on multiple languages with varying training set sizes show that these fusion methods improve streaming RNNT performance through introducing extra linguistic features. Cold fusion works consistently better on streaming RNNT with up to a 8.5% WER improvement.
翻訳日:2021-04-12 15:15:42 公開日:2021-04-09
# (参考訳) ハイパースペクトル画像特徴抽出のためのクラスワイズ主成分分析

Class-Wise Principal Component Analysis for hyperspectral image feature extraction ( http://arxiv.org/abs/2104.04496v1 )

ライセンス: CC BY 4.0
Dimitra Koumoutsou, Eleni Charou, Georgios Siolas, Giorgos Stamou(参考訳) 本稿では,ハイパースペクトルデータの教師付き特徴抽出法であるクラスワイド主成分分析を提案する。 ハイパースペクトルイメージング(HSI)は,近年,リモートセンシングなど様々な分野に登場している。 ハイパースペクトル画像の情報抽出タスクがデータ固有の問題に負担されることを認識し,2つの大きな問題を特定し,対処する。 これらは、データキューブの大量発生と、超スペクトルデータセットで一般的なクラス不均衡問題によって生じる次元の呪いである。 次元削減は超スペクトル画像分類タスクを補完する重要な前処理ステップである。 そこで本研究では,主成分分析(PCA)に基づく次元削減のための特徴抽出アルゴリズムを提案する。 インドパインズデータセット上で評価を行い、分類タスクで削減されたデータを使用する場合、大幅な改善が達成されることを示す。

This paper introduces the Class-wise Principal Component Analysis, a supervised feature extraction method for hyperspectral data. Hyperspectral Imaging (HSI) has appeared in various fields in recent years, including Remote Sensing. Realizing that information extraction tasks for hyperspectral images are burdened by data-specific issues, we identify and address two major problems. Those are the Curse of Dimensionality which occurs due to the high-volume of the data cube and the class imbalance problem which is common in hyperspectral datasets. Dimensionality reduction is an essential preprocessing step to complement a hyperspectral image classification task. Therefore, we propose a feature extraction algorithm for dimensionality reduction, based on Principal Component Analysis (PCA). Evaluations are carried out on the Indian Pines dataset to demonstrate that significant improvements are achieved when using the reduced data in a classification task.
翻訳日:2021-04-12 15:04:58 公開日:2021-04-09
# (参考訳) マルチワード表現を用いたニューラルMTの漢字分解

Chinese Character Decomposition for Neural MT with Multi-Word Expressions ( http://arxiv.org/abs/2104.04497v1 )

ライセンス: CC BY 4.0
Lifeng Han, Gareth J. F. Jones, Alan F. Smeaton and Paolo Bolzoni(参考訳) 漢字分解は機械翻訳(mt)モデルを強化する機能として用いられており、文字レベルと単語レベルのモデルにラジカルを組み合わせる。 近年の研究ではイデオグラフや脳卒中レベルの埋め込みが研究されている。 しかし、MTに最も適した漢字表現の分解レベル、急進的、ストロークに関する疑問が残る。 本研究は,中国の分解埋め込みの影響,すなわちラジカル,脳卒中,中間レベル,およびこれらの分解がいかに元の文字配列の意味を表わすかを明らかにするために,mtの自動評価と人的評価の両方を用いて分析を行う。 さらに,分解型マルチワード表現(MWE)の組み合わせがモデル学習を促進できるかどうかを検討した。 MTへのMWE統合は10年以上にわたって調査されてきた。 しかし、mwesの分解は未だ検討されていない。

Chinese character decomposition has been used as a feature to enhance Machine Translation (MT) models, combining radicals into character and word level models. Recent work has investigated ideograph or stroke level embedding. However, questions remain about different decomposition levels of Chinese character representations, radical and strokes, best suited for MT. To investigate the impact of Chinese decomposition embedding in detail, i.e., radical, stroke, and intermediate levels, and how well these decompositions represent the meaning of the original character sequences, we carry out analysis with both automated and human evaluation of MT. Furthermore, we investigate if the combination of decomposed Multiword Expressions (MWEs) can enhance the model learning. MWE integration into MT has seen more than a decade of exploration. However, decomposed MWEs has not previously been explored.
翻訳日:2021-04-12 14:58:15 公開日:2021-04-09
# (参考訳) AdCOFE:感情分類のための会話における高度な文脈特徴抽出

AdCOFE: Advanced Contextual Feature Extraction in Conversations for emotion classification ( http://arxiv.org/abs/2104.04517v1 )

ライセンス: CC BY 4.0
Vaibhav Bhat, Anita Yadav, Sonal Yadav, Dhivya Chandrasekran, Vijay Mago(参考訳) 会話における感情認識は、ソーシャルメディアスレッドやオンラインサポートなど、意見に基づくフィードバックを必要とする様々な仮想チャットボットにおいて重要なステップである。 Current Emotion recognition in conversations models face issues like (a) loss of contextual information in between two dialogues of a conversation, (b) failure to give appropriate importance to significant tokens in each utterance and (c) inability to pass on the emotional information from previous utterances.The proposed model of Advanced Contextual Feature Extraction (AdCOFE) addresses these issues by performing unique feature extraction using knowledge graphs, sentiment lexicons and phrases of natural language at all levels (word and position embedding) of the utterances. 会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情を捉えるのに有用であることを示している。

Emotion recognition in conversations is an important step in various virtual chat bots which require opinion-based feedback, like in social media threads, online support and many more applications. Current Emotion recognition in conversations models face issues like (a) loss of contextual information in between two dialogues of a conversation, (b) failure to give appropriate importance to significant tokens in each utterance and (c) inability to pass on the emotional information from previous utterances.The proposed model of Advanced Contextual Feature Extraction (AdCOFE) addresses these issues by performing unique feature extraction using knowledge graphs, sentiment lexicons and phrases of natural language at all levels (word and position embedding) of the utterances. Experiments on the Emotion recognition in conversations dataset show that AdCOFE is beneficial in capturing emotions in conversations.
翻訳日:2021-04-12 14:47:10 公開日:2021-04-09
# (参考訳) eGAN:トランスファーラーニングを用いたクラス不均衡に対する教師なしアプローチ

eGAN: Unsupervised approach to class imbalance using transfer learning ( http://arxiv.org/abs/2104.04162v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Lior Shamir and William Hsu and Tom Theis and Nasik Nafi(参考訳) クラス不均衡は多くの機械学習分類タスクにおいて固有の問題である。 これはしばしば、実用的な目的のために使用できない訓練されたモデルにつながる。 本研究では,事前学習された画像分類モデルからエンコーダ型生成逆ネットワーク(egan)への転送学習を活用し,これらの不均衡に対処するための教師なし手法を検討する。 我々の知る限りでは、合成された偽画像の強化を必要とせずに、GANを使ってこの問題に対処する最初の試みである。 提案手法では,識別器ネットワークを用いて負あるいは正のスコアを出力する。 我々は少数派と負のスコアを持つサンプルと、正のスコアを持つサンプルを分類する。 p(minority) + p(majority) は 1 にまとめる必要はないため、モデル予測における認識論的不確実性を排除する。 また, トランスファー学習と, 各種事前学習画像分類モデルの組み合わせが, ジェネレータと判別器に与える影響についても検討した。 069 f1-scoreの最良の結果は、不均衡比1:2500のcifar-10分類タスクで得られた。 このアプローチは、機械学習システムの特異性や感度をしきい値化するメカニズムも提供します。 キーワード:クラス不均衡、転送学習、gan、nash均衡

Class imbalance is an inherent problem in many machine learning classification tasks. This often leads to trained models that are unusable for any practical purpose. In this study we explore an unsupervised approach to address these imbalances by leveraging transfer learning from pre-trained image classification models to encoder-based Generative Adversarial Network (eGAN). To the best of our knowledge, this is the first work to tackle this problem using GAN without needing to augment with synthesized fake images. In the proposed approach we use the discriminator network to output a negative or positive score. We classify as minority, test samples with negative scores and as majority those with positive scores. Our approach eliminates epistemic uncertainty in model predictions, as the P(minority) + P(majority) need not sum up to 1. The impact of transfer learning and combinations of different pre-trained image classification models at the generator and discriminator is also explored. Best result of 0.69 F1-score was obtained on CIFAR-10 classification task with imbalance ratio of 1:2500. Our approach also provides a mechanism of thresholding the specificity or sensitivity of our machine learning system. Keywords: Class imbalance, Transfer Learning, GAN, nash equilibrium
翻訳日:2021-04-12 14:22:00 公開日:2021-04-09
# 大規模行動クローンによる逆ストライクデスマッチ

Counter-Strike Deathmatch with Large-Scale Behavioural Cloning ( http://arxiv.org/abs/2104.04258v1 )

ライセンス: Link先を確認
Tim Pearce, Jun Zhu(参考訳) 本稿では,fps(first-person-shooter)ゲーム「counter-strike; global offensive」(csgo)をピクセル入力からプレイするaiエージェントについて述べる。 ディープニューラルネットワークであるエージェントは、デスマッチゲームモードにおける中難度aiのパフォーマンスに匹敵し、人間的なプレイスタイルを採用する。 ゲームにおける多くの以前の作業とは異なり、csgoのapiは使用できないため、アルゴリズムはリアルタイムでトレーニングおよび実行する必要がある。 これにより、多くの強化学習アルゴリズムを前提として、生成可能なオンポリシーデータの量を制限することができる。 私たちのソリューションでは,オンラインサーバ上の人間プレイ(イメージネットに匹敵する400万フレーム)から抽出した,大きなノイズの多いデータセットのトレーニングと,高品質な専門家によるデモンストレーションの小さなデータセットを使用しています。 このスケールは、fpsゲームにおける模倣学習の以前の作業よりも桁違いに大きい。

This paper describes an AI agent that plays the popular first-person-shooter (FPS) video game `Counter-Strike; Global Offensive' (CSGO) from pixel input. The agent, a deep neural network, matches the performance of the medium difficulty built-in AI on the deathmatch game mode, whilst adopting a humanlike play style. Unlike much prior work in games, no API is available for CSGO, so algorithms must train and run in real-time. This limits the quantity of on-policy data that can be generated, precluding many reinforcement learning algorithms. Our solution uses behavioural cloning - training on a large noisy dataset scraped from human play on online servers (4 million frames, comparable in size to ImageNet), and a smaller dataset of high-quality expert demonstrations. This scale is an order of magnitude larger than prior work on imitation learning in FPS games.
翻訳日:2021-04-12 14:15:15 公開日:2021-04-09
# SIスコア:物体の位置、回転、サイズに対するロバスト性のきめ細かい分析のための画像データセット

SI-Score: An image dataset for fine-grained analysis of robustness to object location, rotation and size ( http://arxiv.org/abs/2104.04191v1 )

ライセンス: Link先を確認
Jessica Yung, Rob Romijnders, Alexander Kolesnikov, Lucas Beyer, Josip Djolonga, Neil Houlsby, Sylvain Gelly, Mario Lucic, Xiaohua Zhai(参考訳) 機械学習モデルをデプロイする前に、その堅牢性を評価することが重要である。 画像理解のためのディープニューラルネットワークの文脈では、オブジェクトの位置、回転、サイズを変えることは、非自明な方法で予測に影響を与える可能性がある。 本研究では,合成データセットSI-Scoreを用いて,これらの変動要因に対するロバストネスのきめ細かい解析を行う。 特に,リネット,視覚トランスフォーマー,クリップを調査し,それら間の興味深い質的違いを明らかにする。

Before deploying machine learning models it is critical to assess their robustness. In the context of deep neural networks for image understanding, changing the object location, rotation and size may affect the predictions in non-trivial ways. In this work we perform a fine-grained analysis of robustness with respect to these factors of variation using SI-Score, a synthetic dataset. In particular, we investigate ResNets, Vision Transformers and CLIP, and identify interesting qualitative differences between these.
翻訳日:2021-04-12 14:14:41 公開日:2021-04-09
# 逆ロバスト一般化とフラットミニマの関係

Relating Adversarially Robust Generalization to Flat Minima ( http://arxiv.org/abs/2104.04448v1 )

ライセンス: Link先を確認
David Stutz, Matthias Hein, Bernt Schiele(参考訳) 対戦訓練(AT)は、敵の例に対して堅牢なモデルを得るためのデファクトスタンダードとなっている。 しかし、atは厳しい強固な過剰フィッティングを示しており、対向例におけるクロスエントロピー損失、いわゆる強固な損失はトレーニング例で連続的に減少し、最終的にはテスト例で増加する。 実際には、これは不十分なロバストな一般化、すなわち、逆のロバスト性は、新しい例にうまく一般化しない。 本稿では,重み空間におけるロバスト一般化とロバスト損失景観の平坦性との関係,すなわち,ロバスト損失が重みを摂動するときに著しく変化するかどうかについて検討する。 そこで本研究では,ロバストなロスランドスケープにおける平坦性を測定するための平均値と最悪値の指標を提案し,ロバストな一般化と平坦性との関係を示す。 例えば、トレーニングを通じて、オーバーフィッティング中に平坦性が著しく低下し、早期停止がロバストなロスランドスケープにおいて、より平坦なミニマを効果的に見つける。 同様に、高い対向ロバスト性を達成するAT変種も平坦なミニマに対応する。 これはAT-AWP、TRADES、MART、ATなど多くの一般的な選択肢に当てはまり、自己スーパービジョンや追加のラベル付けされていない例や、AutoAugment、ウェイト崩壊、ラベルノイズといった単純な正規化技術がある。 これらのアプローチを公平に比較するために、我々の平坦性尺度は、スケール不変であるように特別に設計され、発見を検証するために広範囲な実験を行う。

Adversarial training (AT) has become the de-facto standard to obtain models robust against adversarial examples. However, AT exhibits severe robust overfitting: cross-entropy loss on adversarial examples, so-called robust loss, decreases continuously on training examples, while eventually increasing on test examples. In practice, this leads to poor robust generalization, i.e., adversarial robustness does not generalize well to new examples. In this paper, we study the relationship between robust generalization and flatness of the robust loss landscape in weight space, i.e., whether robust loss changes significantly when perturbing weights. To this end, we propose average- and worst-case metrics to measure flatness in the robust loss landscape and show a correlation between good robust generalization and flatness. For example, throughout training, flatness reduces significantly during overfitting such that early stopping effectively finds flatter minima in the robust loss landscape. Similarly, AT variants achieving higher adversarial robustness also correspond to flatter minima. This holds for many popular choices, e.g., AT-AWP, TRADES, MART, AT with self-supervision or additional unlabeled examples, as well as simple regularization techniques, e.g., AutoAugment, weight decay or label noise. For fair comparison across these approaches, our flatness measures are specifically designed to be scale-invariant and we conduct extensive experiments to validate our findings.
翻訳日:2021-04-12 14:14:33 公開日:2021-04-09
# 新しい損失関数を持つ緊急ドメインに対するbert型中国語テキスト分類

BERT-based Chinese Text Classification for Emergency Domain with a Novel Loss Function ( http://arxiv.org/abs/2104.04197v1 )

ライセンス: Link先を確認
Zhongju Wang, Long Wang, Chao Huang, Xiong Luo(参考訳) 本稿では,緊急事態報告分類問題を解決するための中国語テキストの自動分類手法を提案する。 トランスフォーマ (bert) からの双方向エンコーダ表現は自然言語処理領域で大きな成功を収めているため, 緊急テキストの特徴を導出するために用いられる。 緊急イベントカテゴリの分布におけるデータ不均衡問題を解決するため,BERTモデルの性能向上を目的とした新たな損失関数を提案する。 一方、極端な学習率の影響を避けるため、Adam から SGD への段階的な滑らかな遷移を実現する Adabound 最適化アルゴリズムを用いてモデルのパラメータを学習する。 提案手法の有効性と有効性を検証するために,インターネットから収集した中国緊急テキストデータセットを用いる。 ベンチマーク法と比較して,提案手法は,精度,重み付け精度,重み付けリコール,重み付けf1値の点で最高の性能を得た。 そのため,スマート緊急管理システムにおいて,提案手法を実運用に活用することが期待されている。

This paper proposes an automatic Chinese text categorization method for solving the emergency event report classification problem. Since bidirectional encoder representations from transformers (BERT) has achieved great success in natural language processing domain, it is employed to derive emergency text features in this study. To overcome the data imbalance problem in the distribution of emergency event categories, a novel loss function is proposed to improve the performance of the BERT-based model. Meanwhile, to avoid the impact of the extreme learning rate, the Adabound optimization algorithm that achieves a gradual smooth transition from Adam to SGD is employed to learn parameters of the model. To verify the feasibility and effectiveness of the proposed method, a Chinese emergency text dataset collected from the Internet is employed. Compared with benchmarking methods, the proposed method has achieved the best performance in terms of accuracy, weighted-precision, weighted-recall, and weighted-F1 values. Therefore, it is promising to employ the proposed method for real applications in smart emergency management systems.
翻訳日:2021-04-12 14:14:06 公開日:2021-04-09
# what and know where: a object-and-room informed bert for indoor vision-language navigation

Know What and Know Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation ( http://arxiv.org/abs/2104.04167v1 )

ライセンス: Link先を確認
Yuankai Qi, Zizheng Pan, Yicong Hong, Ming-Hsuan Yang, Anton van den Hengel, Qi Wu(参考訳) VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアルパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。 既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。 しかし、これには異なるテキストのランドマーク(例えば、テレビ、テーブル)を同じビュー機能とマッチさせるモデルが必要となる。 本研究では,視覚的知覚と言語的指示,すなわちオブジェクトと単語を同一の粒度レベルで符号化し,視覚的実体とテキスト的実体のマッチングを容易にし,したがって「何を知る」ためのオブジェクトインフォームドシーケンシャルBERTを提案する。 我々のシーケンシャルBERTは、複数のVLNタスクに欠かせない時間的文脈に照らして、視覚的・テキスト的手がかりを解釈することができる。 さらに,各ナビゲーション可能な位置の相対方向(例えば,左/右/フロント/バック)と,現在および最終ナビゲーション目標のルームタイプ(例えば,寝室,キッチン),すなわち"know where"を識別することができる。 3つの室内VLNタスク(REVERIE, NDH, R2R)における最先端手法との比較実験を行った。

Vision-and-Language Navigation (VLN) requires an agent to navigate to a remote location on the basis of natural-language instructions and a set of photo-realistic panoramas. Most existing methods take words in instructions and discrete views of each panorama as the minimal unit of encoding. However, this requires a model to match different textual landmarks in instructions (e.g., TV, table) against the same view feature. In this work, we propose an object-informed sequential BERT to encode visual perceptions and linguistic instructions at the same fine-grained level, namely objects and words, to facilitate the matching between visual and textual entities and hence "know what". Our sequential BERT enables the visual-textual clues to be interpreted in light of the temporal context, which is crucial to multi-round VLN tasks. Additionally, we enable the model to identify the relative direction (e.g., left/right/front/back) of each navigable location and the room type (e.g., bedroom, kitchen) of its current and final navigation goal, namely "know where", as such information is widely mentioned in instructions implying the desired next and final locations. Extensive experiments demonstrate the effectiveness compared against several state-of-the-art methods on three indoor VLN tasks: REVERIE, NDH, and R2R.
翻訳日:2021-04-12 14:13:49 公開日:2021-04-09
# ビデオ支援非教師なし文法インダクション

Video-aided Unsupervised Grammar Induction ( http://arxiv.org/abs/2104.04369v1 )

ライセンス: Link先を確認
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu, Jiebo Luo(参考訳) 本研究では,未ラベルテキストとその対応映像から構成構文解析を学習するビデオ支援文法インダクションについて検討する。 既存のマルチモーダル文法帰納法は,テキストイメージ対から構文文法を学ぶことに集中しており,静的画像からの情報が帰属に有用であることを示す有望な結果である。 しかし、ビデオは静的なオブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態変化を含む、より豊かな情報を提供する。 本稿では,リッチな特徴(例えば)を探求する。 アクション、オブジェクト、シーン、オーディオ、顔、OCR、スピーチ) ビデオから、最近の複合PCFGモデルをベースラインとします。 さらに,これらのリッチな特徴を異なるモダリティから効果的に集約するマルチモーダル複合pcfgモデル(mmc-pcfg)を提案する。 提案したMCC-PCFGは、エンドツーエンドで訓練され、3つのベンチマークで個々のモダリティと従来の最先端システムよりも優れています。 DiDeMo, YouCook2, MSRVTT は教師なし文法誘導における映像情報の活用の有効性を確認した。

We investigate video-aided grammar induction, which learns a constituency parser from both unlabeled text and its corresponding video. Existing methods of multi-modal grammar induction focus on learning syntactic grammars from text-image pairs, with promising results showing that the information from static images is useful in induction. However, videos provide even richer information, including not only static objects but also actions and state changes useful for inducing verb phrases. In this paper, we explore rich features (e.g. action, object, scene, audio, face, OCR and speech) from videos, taking the recent Compound PCFG model as the baseline. We further propose a Multi-Modal Compound PCFG model (MMC-PCFG) to effectively aggregate these rich features from different modalities. Our proposed MMC-PCFG is trained end-to-end and outperforms each individual modality and previous state-of-the-art systems on three benchmarks, i.e. DiDeMo, YouCook2 and MSRVTT, confirming the effectiveness of leveraging video information for unsupervised grammar induction.
翻訳日:2021-04-12 14:13:24 公開日:2021-04-09
# NLPにおけるインスタンス属性手法の実証的比較

An Empirical Comparison of Instance Attribution Methods for NLP ( http://arxiv.org/abs/2104.04128v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour, Sarthak Jain, Byron C. Wallace and Sameer Singh(参考訳) ディープモデルの普及により、ネットワーク出力を解釈し、モデルデバッグを容易にするアプローチの必要性が高まっている。 インスタンス属性メソッドは、(おそらく)特定の予測に導いたトレーニングインスタンスを取得することで、これらの目標を達成するための1つの手段である。 影響関数(IF; Koh and Liang 2017)は、個々の列車インスタンスの摂動が特定のテスト予測に与える影響を定量化することで、これを行うための機械を提供する。 しかし、IFを近似することでさえ計算コストが高く、多くの場合は禁じられる可能性がある。 より単純なアプローチ(例えば、与えられたテストポイントと最もよく似た列車の例を検索する)は相容れないだろうか? 本研究では,学習サンプルの重要性について,異なる潜在的インスタンスの帰属が一致する程度を評価する。 簡単な検索手法は,勾配に基づく手法(IFsなど)と異なる訓練インスタンスを生成するが,しかしながら,より複雑な帰属法と類似した望ましい特徴を示す。 本論文のすべてのメソッドと実験のコードは、https://github.com/successar/instance_attributions_NLPで公開されている。

Widespread adoption of deep models has motivated a pressing need for approaches to interpret network outputs and to facilitate model debugging. Instance attribution methods constitute one means of accomplishing these goals by retrieving training instances that (may have) led to a particular prediction. Influence functions (IF; Koh and Liang 2017) provide machinery for doing this by quantifying the effect that perturbing individual train instances would have on a specific test prediction. However, even approximating the IF is computationally expensive, to the degree that may be prohibitive in many cases. Might simpler approaches (e.g., retrieving train examples most similar to a given test point) perform comparably? In this work, we evaluate the degree to which different potential instance attribution agree with respect to the importance of training samples. We find that simple retrieval methods yield training instances that differ from those identified via gradient-based methods (such as IFs), but that nonetheless exhibit desirable characteristics similar to more complex attribution methods. Code for all methods and experiments in this paper is available at: https://github.com/successar/instance_attributions_NLP.
翻訳日:2021-04-12 14:13:06 公開日:2021-04-09
# 対話状態追跡のための知識対応グラフ強化GPT-2

Knowledge-Aware Graph-Enhanced GPT-2 for Dialogue State Tracking ( http://arxiv.org/abs/2104.04466v1 )

ライセンス: Link先を確認
Weizhe Lin, Bo-Hsian Tseng, Bill Byrne(参考訳) 対話状態追跡は多ドメインタスク指向対話システムにおいて重要な部分であり、ユーザの発話から情報を抽出する役割を担う。 本稿では,強力な生成モデルgpt-2を用いて1つずつのスロット値を生成し,同時にグラフアテンションネットワークを用いて相関関係などのスロット間関係を利用したスロット間情報交換を実現する新しいアーキテクチャを提案する。 私たちのモデルは、multiwoz 2.0で54.86.%$のジョイント精度を達成し、セッションレベルのアノテーション(全トレーニングセットのうち14.3.%$)のみを使用する、スパース監督トレーニングにおいて最大50.43.%のパフォーマンスを保ちます。 本研究は,本課題におけるグラフモデルの有用性を示すための詳細な解析を行い,提案したグラフモジュールがスロット間関係の獲得に役立つことを示す。

Dialogue State Tracking is a crucial part of multi-domain task-oriented dialogue systems, responsible for extracting information from user utterances. We present a novel architecture that utilizes the powerful generative model GPT-2 to generate slot values one by one causally, and at the same time utilizes Graph Attention Networks to enable inter-slot information exchanges, which exploits the inter-slot relations such as correlations. Our model achieves $54.86\%$ joint accuracy in MultiWOZ 2.0, and it retains a performance of up to $50.43\%$ in sparse supervision training, where only session-level annotations ($14.3\%$ of the full training set) are used. We conduct detailed analyses to demonstrate the significance of using graph models in this task, and show by experiments that the proposed graph modules indeed help to capture more inter-slot relations.
翻訳日:2021-04-12 14:12:47 公開日:2021-04-09
# 実世界で公平な回帰を実現する

Implementing Fair Regression In The Real World ( http://arxiv.org/abs/2104.04353v1 )

ライセンス: Link先を確認
Boris Ruf, Marcin Detyniecki(参考訳) ほとんどの公正回帰アルゴリズムは、敏感なサブ集団に対する偏見を緩和し、したがってグループレベルでの公平性を改善する。 本稿では,このような公平な回帰が個人に与える影響について検討する。 より正確には、ベースラインアルゴリズムと同一データポイントに対する公正回帰アルゴリズムの結果を比較することにより、制約なしから公正なアルゴリズムへの連続予測の進化を評価する。 そこで本研究では,既存の公正回帰手法の実用性を改善するためのポストプロセッシングアルゴリズムを提案する。

Most fair regression algorithms mitigate bias towards sensitive sub populations and therefore improve fairness at group level. In this paper, we investigate the impact of such implementation of fair regression on the individual. More precisely, we assess the evolution of continuous predictions from an unconstrained to a fair algorithm by comparing results from baseline algorithms with fair regression algorithms for the same data points. Based on our findings, we propose a set of post-processing algorithms to improve the utility of the existing fair regression approaches.
翻訳日:2021-04-12 14:12:31 公開日:2021-04-09
# 行動指導型アクター批判:深層強化学習のための学習政策行動表現による探索の改善

Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy Behavior Representation for Deep Reinforcement Learning ( http://arxiv.org/abs/2104.04424v1 )

ライセンス: Link先を確認
Ammar Fayad and Majd Ibrahim(参考訳) 本研究では,オフポリシー・アクタ-クリティック深層rlアルゴリズムであるbehavior-guided actor-critic (bac)を提案する。 BACは、政策が生み出す軌道を決定する上で重要な役割を果たす状態力学を考慮に入れながら、各状態-行動ペアの訪問頻度を正確に見積もることで、政策の挙動を数学的に定式化する。 エージェントは、期待された報酬の合計を最大化することで良好な性能を実現しつつ、訪問の少ない状態と行動のペアに対して一貫して行動を変えることを奨励され、その結果、環境の効率的な探索と、すべての高報酬領域の良好な活用に繋がる。 我々のアプローチの顕著な側面は、最大エントロピー深層強化学習アルゴリズムとは対照的に、確率的および決定論的アクターの両方に適用可能であることである。 その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。

In this work, we propose Behavior-Guided Actor-Critic (BAC), an off-policy actor-critic deep RL algorithm. BAC mathematically formulates the behavior of the policy through autoencoders by providing an accurate estimation of how frequently each state-action pair was visited while taking into consideration state dynamics that play a crucial role in determining the trajectories produced by the policy. The agent is encouraged to change its behavior consistently towards less-visited state-action pairs while attaining good performance by maximizing the expected discounted sum of rewards, resulting in an efficient exploration of the environment and good exploitation of all high reward regions. One prominent aspect of our approach is that it is applicable to both stochastic and deterministic actors in contrast to maximum entropy deep reinforcement learning algorithms. Results show considerably better performances of BAC when compared to several cutting-edge learning algorithms.
翻訳日:2021-04-12 14:12:24 公開日:2021-04-09
# 直接微分可能拡張探索

Direct Differentiable Augmentation Search ( http://arxiv.org/abs/2104.04282v1 )

ライセンス: Link先を確認
Aoming Liu, Zehao Huang, Zhiwu Huang, Naiyan Wang(参考訳) データ拡張はディープニューラルネットワークのパフォーマンスを改善するために必須のツールであるが、拡張は異なるタスクやデータセット間ではほとんど転送できない。 その結果、手作りの広範囲なチューニングを伴わずに、適切な拡張ポリシーを学ぶためにAutoML技術を採用する傾向がある。 本稿では,DDAS (Direct Differentiable Augmentation Search) という,効率的な微分可能探索アルゴリズムを提案する。 1ステップの勾配更新と連続リラクゼーションでメタラーニングを活用し、期待されるトレーニング損失を有効活用し、効率的な検索を行う。 我々のDDASは,Gumbel Softmaxや2次勾配近似などの近似に頼ることなく,効率的な拡張探索を実現することができる。 さらに,不適切な増補の悪影響を低減するため,探索空間を2段階階層に整理し,まず増補を適用すべきか否かを判断し,その具体的な増補方針を決定する。 標準的な画像分類ベンチマークでは、DDASは検索コストを劇的に削減しつつ、最先端の性能と効率のトレードオフを達成する。 CIFAR-10の0.15GPU時間。 さらに、オブジェクト検出タスクの強化を検索するためにddasを使用し、1000倍高速で、autoaugmentと同等のパフォーマンスを実現しています。

Data augmentation has been an indispensable tool to improve the performance of deep neural networks, however the augmentation can hardly transfer among different tasks and datasets. Consequently, a recent trend is to adopt AutoML technique to learn proper augmentation policy without extensive hand-crafted tuning. In this paper, we propose an efficient differentiable search algorithm called Direct Differentiable Augmentation Search (DDAS). It exploits meta-learning with one-step gradient update and continuous relaxation to the expected training loss for efficient search. Our DDAS can achieve efficient augmentation search without relying on approximations such as Gumbel Softmax or second order gradient approximation. To further reduce the adverse effect of improper augmentations, we organize the search space into a two level hierarchy, in which we first decide whether to apply augmentation, and then determine the specific augmentation policy. On standard image classification benchmarks, our DDAS achieves state-of-the-art performance and efficiency tradeoff while reducing the search cost dramatically, e.g. 0.15 GPU hours for CIFAR-10. In addition, we also use DDAS to search augmentation for object detection task and achieve comparable performance with AutoAugment, while being 1000x faster.
翻訳日:2021-04-12 14:12:09 公開日:2021-04-09
# mlf-sc: 異常検出のためのスパース符号化にマルチレイヤー機能を組み込む

MLF-SC: Incorporating multi-layer features to sparse coding for anomaly detection ( http://arxiv.org/abs/2104.04289v1 )

ライセンス: Link先を確認
Ryuji Imamura, Kohei Azuma, Atsushi Hanamoto, and Atsunori Kanemura(参考訳) 画像の異常は、カーペットの上の小さな穴から大きな汚れまで、様々なスケールで発生する。 しかしながら、広く使用されている異常検出手法の一つであるスパース符号化に基づく異常検出は、画像のスパース表現に使用されるパッチサイズ外である異常を扱う際に問題となる。 大規模な異常は、小さなスケールで見ると正常と見なすことができるが、全ての画像でうまく機能する単一のスケール(パッチサイズ)を決定することは容易ではない。 そこで本研究では,符号化のスパース化と異常検出性能の向上を目的としたマルチスケール機能を提案する。 提案手法である多層特徴スパース符号化(mlf-sc)は,ニューラルネットワークを用いて特徴抽出を行い,ネットワークの中間層からの特徴マップをスパース符号化に適用する。 MLF-SCは深層学習を含む最先端の異常検出手法より優れていることを示す。 我々の目標は、現実世界の画像からなる最新のベンチマークデータセットであるMVTec Anomaly Detection (MVTec AD)データセットのテクスチャカテゴリである。 私たちのアイデアは、実用的なデータを扱うためのシンプルで実用的な選択肢です。

Anomalies in images occur in various scales from a small hole on a carpet to a large stain. However, anomaly detection based on sparse coding, one of the widely used anomaly detection methods, has an issue in dealing with anomalies that are out of the patch size employed to sparsely represent images. A large anomaly can be considered normal if seen in a small scale, but it is not easy to determine a single scale (patch size) that works well for all images. Then, we propose to incorporate multi-scale features to sparse coding and improve the performance of anomaly detection. The proposed method, multi-layer feature sparse coding (MLF-SC), employs a neural network for feature extraction, and feature maps from intermediate layers of the network are given to sparse coding, whereas the standard sparse-coding-based anomaly detection method directly works on given images. We show that MLF-SC outperforms state-of-the-art anomaly detection methods including those employing deep learning. Our target data are the texture categories of the MVTec Anomaly Detection (MVTec AD) dataset, which is a modern benchmark dataset consisting of images from the real world. Our idea can be a simple and practical option to deal with practical data.
翻訳日:2021-04-12 14:11:50 公開日:2021-04-09
# ハイブリッドasrシステムのための機能置換と組み合わせ

Feature Replacement and Combination for Hybrid ASR Systems ( http://arxiv.org/abs/2104.04298v1 )

ライセンス: Link先を確認
Peter Vieting, Christoph L\"uscher, Wilfried Michel, Ralf Schl\"uter, Hermann Ney(参考訳) ニューラルネットワーク分類器の一部としての生波形と学習特徴抽出器の音響モデリングは、自動音声認識(ASR)分野における多くの研究の目標となっている。 最近、ある研究は、教師なしの方法で音声のみのデータに事前学習できるフレームワークに焦点を合わせ、下流のASRタスクの改善を目指している。 本研究では,これらのフロントエンドフレームワーク,すなわちwav2vecのハイブリッドASRシステムへの応用について検討する。 事前学習した特徴抽出器の展開に加えて,同一タスクで訓練された既存の音響モデル(AM)の活用方法についても検討する。 教師付きasr損失と従来のガンマトーン特徴とを併用して訓練された別の神経フロントエンドが比較に適用される。 さらに,話者適応のためのiベクターをAMに組み込むことができることを示した。 最後に、上記特徴を組み合わせることで、さらなる性能向上を図る。 最終最良のシステムでは、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善が得られる。

Acoustic modeling of raw waveform and learning feature extractors as part of the neural network classifier has been the goal of many studies in the area of automatic speech recognition (ASR). Recently, one line of research has focused on frameworks that can be pre-trained on audio-only data in an unsupervised fashion and aim at improving downstream ASR tasks. In this work, we investigate the usefulness of one of these front-end frameworks, namely wav2vec, for hybrid ASR systems. In addition to deploying a pre-trained feature extractor, we explore how to make use of an existing acoustic model (AM) trained on the same task with different features as well. Another neural front-end which is only trained together with the supervised ASR loss as well as traditional Gammatone features are applied for comparison. Moreover, it is shown that the AM can be retrofitted with i-vectors for speaker adaptation. Finally, the described features are combined in order to further advance the performance. With the final best system, we obtain a relative improvement of 4% and 6% over our previous best model on the LibriSpeech test-clean and test-other sets.
翻訳日:2021-04-12 14:10:27 公開日:2021-04-09
# 共有核の回転不変性が高次元の一般化を防ぐ方法

How rotational invariance of common kernels prevents generalization in high dimensions ( http://arxiv.org/abs/2104.04244v1 )

ライセンス: Link先を確認
Konstantin Donhauser, Mingqi Wu and Fanny Yang(参考訳) カーネルリッジ回帰は、低次元設定で最小の最適速度を達成するためによく知られている。 しかし、高次元におけるその挙動は、あまり理解されていない。 最近の研究は、基底真理関数と入力データの分布を仮定して、カーネル回帰の一貫性を確立する。 本稿では,よく研究されている核(rbf,内積核,奥行きの完全連結ntkなど)の回転不変性が,高次元の低次多項式に対するバイアスを生じさせることを示した。 この結果は、幅広い分布の一般化誤差と、異なる固有値崩壊を持つカーネルのスケーリングの様々な選択に対する低い境界を示唆している。 この下界は、高次元の核リッジ回帰に対する一般的な一貫性の結果は、固有値の崩壊を超える核の構造に依存するより洗練された解析を必要とすることを示唆している。

Kernel ridge regression is well-known to achieve minimax optimal rates in low-dimensional settings. However, its behavior in high dimensions is much less understood. Recent work establishes consistency for kernel regression under certain assumptions on the ground truth function and the distribution of the input data. In this paper, we show that the rotational invariance property of commonly studied kernels (such as RBF, inner product kernels and fully-connected NTK of any depth) induces a bias towards low-degree polynomials in high dimensions. Our result implies a lower bound on the generalization error for a wide range of distributions and various choices of the scaling for kernels with different eigenvalue decays. This lower bound suggests that general consistency results for kernel ridge regression in high dimensions require a more refined analysis that depends on the structure of the kernel beyond its eigenvalue decay.
翻訳日:2021-04-12 14:09:49 公開日:2021-04-09
# 深部生成モデルを用いたタンパク質配列設計

Protein sequence design with deep generative models ( http://arxiv.org/abs/2104.04457v1 )

ライセンス: Link先を確認
Zachary Wu, Kadina E. Johnston, Frances H. Arnold, Kevin K. Yang(参考訳) タンパク質工学は、最適化された性質を持つタンパク質配列を同定しようとする。 機械学習によって導かれると、タンパク質配列生成法は、このプロセスを改善するための事前の知識と実験的な努力を引き出すことができる。 本稿では, タンパク質配列生成における機械学習の最近の応用を取り上げ, 深層生成手法の新たな分野に焦点をあてる。

Protein engineering seeks to identify protein sequences with optimized properties. When guided by machine learning, protein sequence generation methods can draw on prior knowledge and experimental efforts to improve this process. In this review, we highlight recent applications of machine learning to generate protein sequences, focusing on the emerging field of deep generative methods.
翻訳日:2021-04-12 14:09:34 公開日:2021-04-09
# x2ct-flow:flow-based generative modelを用いた一平面胸部x線画像からの多変量胸部ct画像の再構成

X2CT-FLOW: Reconstruction of multiple volumetric chest computed tomography images with different likelihoods from a uni- or biplanar chest X-ray image using a flow-based generative model ( http://arxiv.org/abs/2104.04179v1 )

ライセンス: Link先を確認
Hisaichi Shibata, Shouhei Hanaoka, Yukihiro Nomura, Takahiro Nakao, Tomomi Takenaga, Naoto Hayashi, Osamu Abe(参考訳) 本研究では,フローベースディープジェネティブ(FDG)モデルに基づいて,一次元または二次元デジタル再構成ラジオグラフィ(DRR)または胸部X線(CXR)画像からCT画像の再構成を行うX2CT-FLOWを提案する。 X2CT-FLOWの導入により、再構成された胸部CT画像は、各平面に投影された各画像が各入力DRRまたはCXR画像と一致する条件を満たす。 さらに、X2CT-FLOWは、複数の胸部CT画像を異なる可能性で再構成することができる。 両平面drから再構成した胸部ct画像は, 構造的類似度指標 (0.931) において, 基底像と良好な一致を示した。 また,X2CT-FLOWはDRRから複数の胸部CT像を再構成できることを示した。 最後に、X2CT-FLOWは、実際の単平面CXR画像から複数の胸部CT画像を再構成できることを示す。

We propose X2CT-FLOW for the reconstruction of volumetric chest computed tomography (CT) images from uni- or biplanar digitally reconstructed radiographs (DRRs) or chest X-ray (CXR) images on the basis of a flow-based deep generative (FDG) model. With the adoption of X2CT-FLOW, all the reconstructed volumetric chest CT images satisfy the condition that each of those projected onto each plane coincides with each input DRR or CXR image. Moreover, X2CT-FLOW can reconstruct multiple volumetric chest CT images with different likelihoods. The volumetric chest CT images reconstructed from biplanar DRRs showed good agreement with ground truth images in terms of the structural similarity index (0.931 on average). Moreover, we show that X2CT-FLOW can actually reconstruct such multiple volumetric chest CT images from DRRs. Finally, we demonstrate that X2CT-FLOW can reconstruct multiple volumetric chest CT images from a real uniplanar CXR image.
翻訳日:2021-04-12 14:09:29 公開日:2021-04-09
# リアルタイム災害対応のためのソーシャルメディア画像分類モデル

Social Media Images Classification Models for Real-time Disaster Response ( http://arxiv.org/abs/2104.04184v1 )

ライセンス: Link先を確認
Firoj Alam, Tanvirul Alam, Ferda Ofli, Muhammad Imran(参考訳) ソーシャルメディアで共有されている画像は、危機管理担当者が状況認識を得て、発生した損害を評価するのに役立つ。 このようなコンテンツのボリュームと速度が本当に高いため、より高速な応答を実現するために、リアルタイム画像分類が緊急必要となった。 コンピュータビジョンとディープニューラルネットワークの最近の進歩により、危機事故の検出、無関係な画像のフィルタリング、特定の人道的カテゴリへの分類、損傷の深刻度の評価など、様々なタスクのリアルタイム画像分類モデルの開発が可能になった。 リアルタイムのロバストなモデルを開発するためには,これらのタスクに対して利用可能な事前学習モデルの有効性を理解する必要がある。 現在の危機情報学の現状では、未調査である。 本研究では,このような制限について論じる。 これら4つのタスクに対する10の異なるアーキテクチャを,これらのタスクのための最大公用データセットを用いて検討する。 また、データ拡張、半教師付き技術、マルチタスク設定についても検討する。 大規模な実験では、有望な結果が得られる。

Images shared on social media help crisis managers in terms of gaining situational awareness and assessing incurred damages, among other response tasks. As the volume and velocity of such content are really high, therefore, real-time image classification became an urgent need in order to take a faster response. Recent advances in computer vision and deep neural networks have enabled the development of models for real-time image classification for a number of tasks, including detecting crisis incidents, filtering irrelevant images, classifying images into specific humanitarian categories, and assessing the severity of the damage. For developing real-time robust models, it is necessary to understand the capability of the publicly available pretrained models for these tasks. In the current state-of-art of crisis informatics, it is under-explored. In this study, we address such limitations. We investigate ten different architectures for four different tasks using the largest publicly available datasets for these tasks. We also explore the data augmentation, semi-supervised techniques, and a multitask setup. In our extensive experiments, we achieve promising results.
翻訳日:2021-04-12 14:09:07 公開日:2021-04-09
# GATSBI:生成エージェント中心の時空間オブジェクト間相互作用

GATSBI: Generative Agent-centric Spatio-temporal Object Interaction ( http://arxiv.org/abs/2104.04275v1 )

ライセンス: Link先を確認
Cheol-Hui Min, Jinseok Bae, Junho Lee and Young Min Kim(参考訳) GATSBIは、生の観察の順序を、エージェントの行動の時空間的文脈を完全に捉えた構造化潜在表現に変換することができる生成モデルである。 視覚に基づく意思決定シナリオでは、エージェントは複数のエンティティが相互に相互作用する複雑な高次元の観察に直面します。 エージェントは、必須成分を識別し、時間軸に沿って一貫して伝播する視覚観察のよいシーン表現を必要とする。 提案手法であるgatsbiは,教師なしのオブジェクト中心のシーン表現学習を用いて,アクティブエージェント,静的背景,受動的オブジェクトを分離する。 GATSBIは、分解された実体間の因果関係を反映した相互作用をモデル化し、物理的に妥当な将来の状態を予測する。 我々のモデルは様々な種類のロボットや物体が動的に相互作用する様々な環境に一般化する。 GATSBIはシーン分解と映像予測において,最先端技術と比較して優れた性能を示す。

We present GATSBI, a generative model that can transform a sequence of raw observations into a structured latent representation that fully captures the spatio-temporal context of the agent's actions. In vision-based decision-making scenarios, an agent faces complex high-dimensional observations where multiple entities interact with each other. The agent requires a good scene representation of the visual observation that discerns essential components and consistently propagates along the time horizon. Our method, GATSBI, utilizes unsupervised object-centric scene representation learning to separate an active agent, static background, and passive objects. GATSBI then models the interactions reflecting the causal relationships among decomposed entities and predicts physically plausible future states. Our model generalizes to a variety of environments where different types of robots and objects dynamically interact with each other. We show GATSBI achieves superior performance on scene decomposition and video prediction compared to its state-of-the-art counterparts.
翻訳日:2021-04-12 14:08:51 公開日:2021-04-09
# 符号付き距離マップを用いたセグメンテーションネットワークに基づくMRI画像からの脳表面再構成

Brain Surface Reconstruction from MRI Images Based on Segmentation Networks Applying Signed Distance Maps ( http://arxiv.org/abs/2104.04291v1 )

ライセンス: Link先を確認
Heng Fang, Xi Yang, Taichi Kin, Takeo Igarashi(参考訳) 全脳表面の抽出は、手術計画と異常検出の幅広い視点で神経外科医を提供する医療画像システムにおいて重要なトピックである。 先行形状情報を持たない現在のディープラーニング頭蓋骨ストリッピング法で直面する課題を解決するために,符号付き距離場に関する知識を取り入れ,さらにラプラシアン損失を導入し,予測結果が形状情報を保持することを保証する新しいネットワークアーキテクチャを提案する。 脳磁気共鳴画像データセット(111例)で実験を行い,本手法の有効性を検証した。 評価結果は,本手法が同等のダイススコアを達成し,ハウスドルフ距離と平均対称表面距離を低減し,より安定で滑らかな脳表面異方体を生成することを示した。

Whole-brain surface extraction is an essential topic in medical imaging systems as it provides neurosurgeons with a broader view of surgical planning and abnormality detection. To solve the problem confronted in current deep learning skull stripping methods lacking prior shape information, we propose a new network architecture that incorporates knowledge of signed distance fields and introduce an additional Laplacian loss to ensure that the prediction results retain shape information. We validated our newly proposed method by conducting experiments on our brain magnetic resonance imaging dataset (111 patients). The evaluation results demonstrate that our approach achieves comparable dice scores and also reduces the Hausdorff distance and average symmetric surface distance, thus producing more stable and smooth brain isosurfaces.
翻訳日:2021-04-12 14:08:37 公開日:2021-04-09
# 英語 to yoruba 動詞句機械翻訳システムの設計と実装

Design and Implementation of English To Yoruba Verb Phrase Machine Translation System ( http://arxiv.org/abs/2104.04125v1 )

ライセンス: Link先を確認
Safiriyu Eludiora, Benjamin Ajibade(参考訳) We aim to develop an English to Yoruba machine translation system which can translate English verb phrase text to its Yoruba equivalent.Words from both languages Source Language and Target Language were collected for the verb phrase group in the home domain.The lexical translation is done by assigning values of the matching word in the dictionary.The syntax of the two languages was realized using Context-Free Grammar,we validated the rewrite rules with finite state automata.The human evaluation method was used and expert fluency scored.The evaluation shows the system performed better than that of sampled Google translation with over 70 percent of the response matching that of the system's output.

We aim to develop an English to Yoruba machine translation system which can translate English verb phrase text to its Yoruba equivalent.Words from both languages Source Language and Target Language were collected for the verb phrase group in the home domain.The lexical translation is done by assigning values of the matching word in the dictionary.The syntax of the two languages was realized using Context-Free Grammar,we validated the rewrite rules with finite state automata.The human evaluation method was used and expert fluency scored.The evaluation shows the system performed better than that of sampled Google translation with over 70 percent of the response matching that of the system's output.
翻訳日:2021-04-12 14:08:22 公開日:2021-04-09
# 要約における微細なファクチュアリティの注釈とモデル化

Annotating and Modeling Fine-grained Factuality in Summarization ( http://arxiv.org/abs/2104.04302v1 )

ライセンス: Link先を確認
Tanya Goyal and Greg Durrett(参考訳) 近年、訓練済みの抽象要約システムは信頼性の高い性能を達成し始めているが、実際に使用する上での大きな障壁は、入力に忠実で事実的誤りを含む要約を出力する確率である。 事実性を評価するための注釈付きデータセットや統計モデルが数多く検討されているが、ターゲットにとって何のエラーが最も重要か、現在のテクニックが成功し、失敗しているかを明確に示していない。 学習モデルのための合成データと人間ラベルデータの両方を調査し,要約の誤りを識別し,単語・係り受け・文レベルでの事実性について検討する。 私たちの観察は3倍です。 一般的に使われている単純な合成エラーのトレーニングセットは、XSumのような抽象データセット上のエラーを反映しない。 第二に、微粒度アノテーション付き人間ラベルデータは、文レベルのアノテーションや合成データよりも効果的なトレーニング信号を提供する。 最後に,我々の最良事実検出モデルにより,トレーニングデータ中の非実物トークンを識別することにより,より実物的なXSum要約モデルのトレーニングが可能になることを示す。

Recent pre-trained abstractive summarization systems have started to achieve credible performance, but a major barrier to their use in practice is their propensity to output summaries that are not faithful to the input and that contain factual errors. While a number of annotated datasets and statistical models for assessing factuality have been explored, there is no clear picture of what errors are most important to target or where current techniques are succeeding and failing. We explore both synthetic and human-labeled data sources for training models to identify factual errors in summarization, and study factuality at the word-, dependency-, and sentence-level. Our observations are threefold. First, exhibited factual errors differ significantly across datasets, and commonly-used training sets of simple synthetic errors do not reflect errors made on abstractive datasets like XSum. Second, human-labeled data with fine-grained annotations provides a more effective training signal than sentence-level annotations or synthetic data. Finally, we show that our best factuality detection model enables training of more factual XSum summarization models by allowing us to identify non-factual tokens in the training data.
翻訳日:2021-04-12 14:08:14 公開日:2021-04-09
# ポスト編集によるコンサルテーションノートの評価に関する予備的検討

A preliminary study on evaluating Consultation Notes with Post-Editing ( http://arxiv.org/abs/2104.04402v1 )

ライセンス: Link先を確認
Francesco Moramarco, Alex Papadopoulos Korfiatis, Aleksandar Savkov, Ehud Reiter(参考訳) 自動要約は、ノートテイキングのような事務作業を合理化する医師を助ける可能性がある。 しかし、これらのシステムを評価して、臨床現場での使用が安全であることを実証することは、非常に難しい。 この問題を回避するために,医師が論文を編集後作成して提出する半自動手法を提案する。 編集後,自動生成したコンサルテーションノートの時間節約に関する予備研究を行う。 評価者は、モック・コンサルティングの聴取と、3つの生成されたノートの編集を依頼される。 これを時間をかけて、スクラッチからメモを書くより速いことに気付きます。 この実験から学んだ知見と教訓を提示する。

Automatic summarisation has the potential to aid physicians in streamlining clerical tasks such as note taking. But it is notoriously difficult to evaluate these systems and demonstrate that they are safe to be used in a clinical setting. To circumvent this issue, we propose a semi-automatic approach whereby physicians post-edit generated notes before submitting them. We conduct a preliminary study on the time saving of automatically generated consultation notes with post-editing. Our evaluators are asked to listen to mock consultations and to post-edit three generated notes. We time this and find that it is faster than writing the note from scratch. We present insights and lessons learnt from this experiment.
翻訳日:2021-04-12 14:07:57 公開日:2021-04-09
# 医療用サマリーの品質を客観的に評価する

Towards objectively evaluating the quality of generated medical summaries ( http://arxiv.org/abs/2104.04412v1 )

ライセンス: Link先を確認
Francesco Moramarco, Damir Juric, Aleksandar Savkov, Ehud Reiter(参考訳) 本研究では,エミュレータに事実のカウントを依頼し,生数から精度,リコール,fスコア,精度を算出し,生成テキストの品質を評価する手法を提案する。 このアプローチは、より客観的で、評価を再現しやすくなると信じています。 本研究は,主観的品質と精度の測定が最重要事項である医療報告要約の課題に適用する。

We propose a method for evaluating the quality of generated text by asking evaluators to count facts, and computing precision, recall, f-score, and accuracy from the raw counts. We believe this approach leads to a more objective and easier to reproduce evaluation. We apply this to the task of medical report summarisation, where measuring objective quality and accuracy is of paramount importance.
翻訳日:2021-04-12 14:07:46 公開日:2021-04-09
# 大きなコンテキストタグ: いつ、なぜ機能するのか?

Larger-Context Tagging: When and Why Does It Work? ( http://arxiv.org/abs/2104.04434v1 )

ライセンス: Link先を確認
Jinlan Fu, Liangjing Feng, Qi Zhang, Xuanjing Huang and Pengfei Liu(参考訳) ニューラルネットワークと事前学習技術の開発は、典型的なベンチマークで優れたパフォーマンスを達成する多くの文レベルのタグ付けシステムを生み出した。 しかし、議論の少ないトピックは、現在のトップスコアタグシステムにより多くのコンテキスト情報が導入された場合である。 既存のいくつかの研究は、タグシステムの文レベルから文書レベルへのシフトを試みているが、いつ、なぜそれが機能するのかについての結論は得られていない。 本稿では,アーキテクチャ探査による最先端のタグ付けシステムを追求する代わりに,汎用的な戦略として,大規模コンテキストトレーニングがいつ,なぜ機能するのかを検討することに焦点を当てる。 そこで本稿では,コンテキスト情報収集のための4つのアグリゲータについて,より大規模なコンテキスト学習による改善を解釈するための属性支援評価手法を提案する。 実験では,4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設置した。 願わくば、我々の予備観測は、より大きなコンテキストトレーニングの理解を深め、文脈情報の使用に関するより深いフォローアップ作業を実現することができる。

The development of neural networks and pretraining techniques has spawned many sentence-level tagging systems that achieved superior performance on typical benchmarks. However, a relatively less discussed topic is what if more context information is introduced into current top-scoring tagging systems. Although several existing works have attempted to shift tagging systems from sentence-level to document-level, there is still no consensus conclusion about when and why it works, which limits the applicability of the larger-context approach in tagging tasks. In this paper, instead of pursuing a state-of-the-art tagging system by architectural exploration, we focus on investigating when and why the larger-context training, as a general strategy, can work. To this end, we conduct a thorough comparative study on four proposed aggregators for context information collecting and present an attribute-aided evaluation method to interpret the improvement brought by larger-context training. Experimentally, we set up a testbed based on four tagging tasks and thirteen datasets. Hopefully, our preliminary observations can deepen the understanding of larger-context training and enlighten more follow-up works on the use of contextual information.
翻訳日:2021-04-12 14:07:39 公開日:2021-04-09
# 単語群マスク学習による文ペアのニューラルネットワーク予測

Explaining Neural Network Predictions on Sentence Pairs via Learning Word-Group Masks ( http://arxiv.org/abs/2104.04488v1 )

ライセンス: Link先を確認
Hanjie Chen, Song Feng, Jatin Ganhotra, Hui Wan, Chulaka Gunasekara, Sachindra Joshi, Yangfeng Ji(参考訳) ニューラルネットワークモデルの説明は、現実世界のアプリケーションにおける信頼性を高める上で重要である。 既存のほとんどの方法は、個々の特徴属性を特定したり、隣接する特徴間の相互作用を検出することによって、ニューラルネットワークモデルに対するポストホックな説明を生成する。 しかし、入力としてテキストペアを持つモデル(例えばパラフレーズ識別)では、既存の手法は2つのテキスト間の特徴的相互作用を捉えるのに十分ではなく、2つのテキスト間の全てのワードペア相互作用を計算的に非効率に計算することができる。 本研究では,入力テキストペアから相関単語をグループ化し,対応するnlpタスク全体への寄与度を測定するグループマスク(gmask)手法を提案する。 提案手法は4つのデータセットにまたがる2つの異なるモデルアーキテクチャ (decomposable attention model と bert) を用いて,自然言語推論とparaphrase識別タスクを含む評価を行う。 実験はGMASKがこれらのモデルに忠実な説明を提供することの有効性を示す。

Explaining neural network models is important for increasing their trustworthiness in real-world applications. Most existing methods generate post-hoc explanations for neural network models by identifying individual feature attributions or detecting interactions between adjacent features. However, for models with text pairs as inputs (e.g., paraphrase identification), existing methods are not sufficient to capture feature interactions between two texts and their simple extension of computing all word-pair interactions between two texts is computationally inefficient. In this work, we propose the Group Mask (GMASK) method to implicitly detect word correlations by grouping correlated words from the input text pair together and measure their contribution to the corresponding NLP tasks as a whole. The proposed method is evaluated with two different model architectures (decomposable attention model and BERT) across four datasets, including natural language inference and paraphrase identification tasks. Experiments show the effectiveness of GMASK in providing faithful explanations to these models.
翻訳日:2021-04-12 14:07:20 公開日:2021-04-09
# 現実的カウンターファクチャリティーを用いた読解記述の評価

Evaluating Explanations for Reading Comprehension with Realistic Counterfactuals ( http://arxiv.org/abs/2104.04515v1 )

ライセンス: Link先を確認
Xi Ye, Rohan Nair, Greg Durrett(参考訳) NLPにおける幅広い分類タスク(例えば感情分析)のモデル予測を説明するために、トークンレベルの属性が広く研究されているが、そのような説明手法は機械読解(RC)タスクでは研究されていない。 ここで使用される変圧器ベースのモデルは分類に使用されるモデルと同一であるが、これらのモデルが実行する根本的な理由は非常に異なり、異なるタイプの説明が必要である。 そこで本研究では,RCモデルの高レベルな動作を現実的な反現実的な入力シナリオの集合に関して理解するための説明手法を提案する。 これらの反事実をいくつかのrc設定で定義し,説明手法の出力を高レベルモデル動作に結びつけることで,様々な説明がいかに有用であるかを評価できる。 分析から,ペアワイズによる説明手法はトークンレベルの帰属よりもrcに適していることが示唆された。 さらに,注意に基づく帰属手法の改良を提案し,モデル行動を明らかにするための説明を行った。

Token-level attributions have been extensively studied to explain model predictions for a wide range of classification tasks in NLP (e.g., sentiment analysis), but such explanation techniques are less explored for machine reading comprehension (RC) tasks. Although the transformer-based models used here are identical to those used for classification, the underlying reasoning these models perform is very different and different types of explanations are required. We propose a methodology to evaluate explanations: an explanation should allow us to understand the RC model's high-level behavior with respect to a set of realistic counterfactual input scenarios. We define these counterfactuals for several RC settings, and by connecting explanation techniques' outputs to high-level model behavior, we can evaluate how useful different explanations really are. Our analysis suggests that pairwise explanation techniques are better suited to RC than token-level attributions, which are often unfaithful in the scenarios we consider. We additionally propose an improvement to an attention-based attribution technique, resulting in explanations which better reveal the model's behavior.
翻訳日:2021-04-12 14:07:03 公開日:2021-04-09
# 信頼性に基づく個人モデルの影響調整のための自己重み付けアンサンブル法

Self-Weighted Ensemble Method to Adjust the Influence of Individual Models based on Reliability ( http://arxiv.org/abs/2104.04120v1 )

ライセンス: Link先を確認
YeongHyeon Park, JoonSung Lee, Wonseok Park(参考訳) ディープラーニングに基づく画像分類技術と性能はすでに高い水準に達している。 それでも、アンサンブルによる分類の安定性向上に多くの努力がなされている。 しかし,既存のアンサンブル法では,各モデル出力の重み付けに要する時間を含む余分な労力が制限されている。 本稿では,各モデルの重みを検証信頼性により配置する自己重み付けアンサンブル (swe) を用いた簡易で改良されたアンサンブル法を提案する。 提案手法である swe は, 分類器を多用した分類システムを構築するための総合的な努力を減少させる。 SWEによる性能は従来のアンサンブル法よりも0.033%高い。 また、前モデルに比べてパフォーマンス上の優位性は73.333%(比8:22)である。

Image classification technology and performance based on Deep Learning have already achieved high standards. Nevertheless, many efforts have conducted to improve the stability of classification via ensembling. However, the existing ensemble method has a limitation in that it requires extra effort including time consumption to find the weight for each model output. In this paper, we propose a simple but improved ensemble method, naming with Self-Weighted Ensemble (SWE), that places the weight of each model via its verification reliability. The proposed ensemble method, SWE, reduces overall efforts for constructing a classification system with varied classifiers. The performance using SWE is 0.033% higher than the conventional ensemble method. Also, the percent of performance superiority to the previous model is up to 73.333% (ratio of 8:22).
翻訳日:2021-04-12 14:06:10 公開日:2021-04-09
# 内因性に基づく屋外照明の空間変動推定

Spatially-Varying Outdoor Lighting Estimation from Intrinsics ( http://arxiv.org/abs/2104.04160v1 )

ライセンス: Link先を確認
Yongjie Zhu, Yinda Zhang, Si Li, Boxin Shi(参考訳) 本研究では,任意の2次元画素位置の屋外画像から屋外照明推定を行うためのニューラルネットワークであるsolid-netを提案する。 以前の作業では、屋外照明を表すために統合された空環境マップを使用していた。 代わりに,グローバルスカイ環境マップと,固有情報から推定される幾何学的情報に照らし合わせて,空間変動する局所照明環境マップを生成する。 画像と局所照明の真理を持つ屋外データセットは容易に利用できないため、物理的にレンダリングされた画像とその固有および照明情報を含むソリッドimgデータセットを導入する。 深層ニューラルネットワークをトレーニングして,物理的に制約のある内在的手がかりを回避し,グローバルおよび局所的な照明推定を行う。 合成データと実データの両方の実験により、SOLID-Netは従来の手法よりも大幅に優れていることが示された。

We present SOLID-Net, a neural network for spatially-varying outdoor lighting estimation from a single outdoor image for any 2D pixel location. Previous work has used a unified sky environment map to represent outdoor lighting. Instead, we generate spatially-varying local lighting environment maps by combining global sky environment map with warped image information according to geometric information estimated from intrinsics. As no outdoor dataset with image and local lighting ground truth is readily available, we introduce the SOLID-Img dataset with physically-based rendered images and their corresponding intrinsic and lighting information. We train a deep neural network to regress intrinsic cues with physically-based constraints and use them to conduct global and local lightings estimation. Experiments on both synthetic and real datasets show that SOLID-Net significantly outperforms previous methods.
翻訳日:2021-04-12 14:06:00 公開日:2021-04-09
# 個人再識別のための深度空間に基づくアーキテクチャ検索

Combined Depth Space based Architecture Search For Person Re-identification ( http://arxiv.org/abs/2104.04163v1 )

ライセンス: Link先を確認
Hanjun Li, Gaojie Wu, Wei-Shi Zheng(参考訳) 人物再識別(ReID)に関する研究の多くは、ReIDの代わりに画像分類用に設計されたResNetのような大きなバックボーンネットワークを利用して特徴抽出を行う。 しかし、これらのバックボーンは計算効率が良くなかったり、ReIDに適したアーキテクチャであったりする。 本研究では,ReIDのための軽量で適切なネットワークを設計することを目的とする。 我々は,CDNetと呼ばれる効率的なネットワークアーキテクチャを,微分可能なアーキテクチャ探索アルゴリズムを用いて探索する,Combined Depth Space (CDS) と呼ばれる新しい検索空間を提案する。 CDSの基本的なビルディングブロックの組み合わせにより、CDNetは一般的に歩行者の画像に見られる複合パターン情報に集中する傾向にある。 そこで我々はTop-k Sample Search戦略という低コストの検索戦略を提案し、検索空間をフル活用し、局所的な最適結果のトラップを避ける。 さらに、推定時に取り外し可能な効果的な粒度バランスネック(fblneck)を提示し、トレーニング過程における三重項損失とソフトマックス損失の効果のバランスをとる。 大規模な実験により、我々のCDNet(~1.8Mパラメータ)は最先端の軽量ネットワークと同等の性能を示した。

Most works on person re-identification (ReID) take advantage of large backbone networks such as ResNet, which are designed for image classification instead of ReID, for feature extraction. However, these backbones may not be computationally efficient or the most suitable architectures for ReID. In this work, we aim to design a lightweight and suitable network for ReID. We propose a novel search space called Combined Depth Space (CDS), based on which we search for an efficient network architecture, which we call CDNet, via a differentiable architecture search algorithm. Through the use of the combined basic building blocks in CDS, CDNet tends to focus on combined pattern information that is typically found in images of pedestrians. We then propose a low-cost search strategy named the Top-k Sample Search strategy to make full use of the search space and avoid trapping in local optimal result. Furthermore, an effective Fine-grained Balance Neck (FBLNeck), which is removable at the inference time, is presented to balance the effects of triplet loss and softmax loss during the training process. Extensive experiments show that our CDNet (~1.8M parameters) has comparable performance with state-of-the-art lightweight networks.
翻訳日:2021-04-12 14:05:46 公開日:2021-04-09
# 挑戦的映像理解評価フレームワークとしてのfill-in-the-blank

Fill-in-the-blank as a Challenging Video Understanding Evaluation Framework ( http://arxiv.org/abs/2104.04182v1 )

ライセンス: Link先を確認
Santiago Castro, Ruoyao Wang, Pingxuan Huang, Ian Stewart, Nan Liu, Jonathan Stroud, Rada Mihalcea(参考訳) 言語非定型ビデオ理解に関する作業は,(1)多段質問によるビデオ質問応答,(2)候補回答の入手が容易であるという事実を生かして,モデルが比較的良好に機能する,(2)システム応答が根拠真理と異なると誤認識される可能性があるため,不正確であることが多いオープンエンド評価フレームワークに依存するビデオキャプション,の2つの課題を主に扱っている。 本稿では,従来の評価の欠点に対処し,複数の選択肢が与えられていない実生活環境を反映した映像理解評価フレームワークとして,Fil-in-the-Blanksを提案する。 タスクは、ビデオのキャプション内のマスク付き名詞句を予測するために、ビデオとその周辺のテキストをモデルに要求することで、ビデオのシステム理解をテストする。 28,000の動画と補足テストからなる新しいデータセットを導入する。 マルチモーダルモデルと強力な言語モデルの両方が人間のパフォーマンスと大きな差があることを示し、現在のビデオ理解ベンチマークよりもタスクが難しいことを示唆する。

Work to date on language-informed video understanding has primarily addressed two tasks: (1) video question answering using multiple-choice questions, where models perform relatively well because they exploit the fact that candidate answers are readily available; and (2) video captioning, which relies on an open-ended evaluation framework that is often inaccurate because system answers may be perceived as incorrect if they differ in form from the ground truth. In this paper, we propose fill-in-the-blanks as a video understanding evaluation framework that addresses these previous evaluation drawbacks, and more closely reflects real-life settings where no multiple choices are given. The task tests a system understanding of a video by requiring the model to predict a masked noun phrase in the caption of the video, given the video and the surrounding text. We introduce a novel dataset consisting of 28,000 videos and fill-in-the-blank tests. We show that both a multimodal model and a strong language model have a large gap with human performance, thus suggesting that the task is more challenging than current video understanding benchmarks.
翻訳日:2021-04-12 14:05:27 公開日:2021-04-09
# ファウショット学習とそれ以上の強化注意

Reinforced Attention for Few-Shot Learning and Beyond ( http://arxiv.org/abs/2104.04192v1 )

ライセンス: Link先を確認
Jie Hong, Pengfei Fang, Weihao Li, Tong Zhang, Christian Simon, Mehrtash Harandi and Lars Petersson(参考訳) 少ないショットラーニングは、サポートサンプルの数が限られているため、不明なクラスからのクエリサンプルを正しく認識することを目的としている。 本稿では,強化学習によって訓練された注目エージェントをバックボーンネットワークに装備することを提案する。 ポリシー勾配アルゴリズムは、時間とともに特徴地図上の代表領域を適応的にローカライズするためにエージェントを訓練する。 さらに,保留データの予測に基づいて報奨関数を設計すれば,注意機構が未知のクラスをまたいでより汎用化することができる。 大規模な実験は、強化された注意の助けを借りて、我々の埋め込みネットワークは、数ショットの学習において、より差別的な表現を徐々に生成する能力を持っていることを示している。 また,画像分類の課題に対する実験により,提案手法の有効性が示された。

Few-shot learning aims to correctly recognize query samples from unseen classes given a limited number of support samples, often by relying on global embeddings of images. In this paper, we propose to equip the backbone network with an attention agent, which is trained by reinforcement learning. The policy gradient algorithm is employed to train the agent towards adaptively localizing the representative regions on feature maps over time. We further design a reward function based on the prediction of the held-out data, thus helping the attention mechanism to generalize better across the unseen classes. The extensive experiments show, with the help of the reinforced attention, that our embedding network has the capability to progressively generate a more discriminative representation in few-shot learning. Moreover, experiments on the task of image classification also show the effectiveness of the proposed design.
翻訳日:2021-04-12 14:05:07 公開日:2021-04-09
# 軽量グラフ畳み込みネットワークを用いた骨格型手指認識

Skeleton-based Hand-Gesture Recognition with Lightweight Graph Convolutional Networks ( http://arxiv.org/abs/2104.04255v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) グラフ畳み込みネットワーク(GCN)は、ディープラーニングを任意の不規則領域、すなわちグラフに拡張することを目的としている。 それらの成功は、入力グラフのトポロジをどのように定義するかに大きく依存しており、既存のGCNアーキテクチャのほとんどは、事前に定義されたまたは手作りのグラフ構造に依存している。 本稿では,GCN設計の一環として入力グラフのトポロジ(あるいは接続性)を学習する新しい手法を提案する。 提案手法の主な貢献は, 畳み込みを実現する前に, ノードをその近傍から最適に集約する直交接続基盤を構築することである。 また,本手法では,学習ベースと基礎となるgcnを軽量にしつつも高い有効性を持つ正則化として機能する確率性基準も検討する。 スケルトンベースハンドジェスチャ認識の課題に関する実験により,学習したgcns w.r.t.の有効性が示された。 関連作品。

Graph convolutional networks (GCNs) aim at extending deep learning to arbitrary irregular domains, namely graphs. Their success is highly dependent on how the topology of input graphs is defined and most of the existing GCN architectures rely on predefined or handcrafted graph structures. In this paper, we introduce a novel method that learns the topology (or connectivity) of input graphs as a part of GCN design. The main contribution of our method resides in building an orthogonal connectivity basis that optimally aggregates nodes, through their neighborhood, prior to achieve convolution. Our method also considers a stochasticity criterion which acts as a regularizer that makes the learned basis and the underlying GCNs lightweight while still being highly effective. Experiments conducted on the challenging task of skeleton-based hand-gesture recognition show the high effectiveness of the learned GCNs w.r.t. the related work.
翻訳日:2021-04-12 14:04:51 公開日:2021-04-09
# CFNet:ロバストステレオマッチングのためのカスケードと融合コストボリューム

CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching ( http://arxiv.org/abs/2104.04314v1 )

ライセンス: Link先を確認
Zhelun Shen, Yuchao Dai, Zhibo Rao(参考訳) 近年,大規模アノテートデータセットの容量の増大がステレオマッチングの大幅な進歩につながった。 しかし、これらの成功の大部分は特定のデータセットに限られており、他のデータセットにうまく当てはまらない。 主な課題は、さまざまなデータセットにわたる大きなドメイン差と不均衡な分散であり、現在のディープステレオマッチングモデルの現実的な適用性を著しく制限している。 本稿では,カスケードとフューズドのコストボリュームに基づくネットワークであるCFNetを提案し,ステレオマッチングネットワークのロバスト性を改善する。 まず、大きなドメイン差に対処するために、コストボリュームの融合表現を提案する。 複数の低分解能密度コスト体積を融合して受容場を拡大することにより、初期差分推定のための頑健な構造表現を抽出できる。 第2に,不均衡分布を緩和するカスケードコスト容積表現を提案する。 具体的には、分散に基づく不確実性推定を用いて、次の段階の不一致探索空間を適応的に調整し、この方法でネットワークを段階的に不一致の空間から逸脱させる。 相違探索空間を反復的に絞り込み、コスト容積分解能を向上させることにより、相違推定を粗大な方法で徐々に洗練する。 同じトレーニングイメージでトレーニングを行い、固定モデルパラメータとハイパーパラメータを用いて、KITTI、ETH3D、ミドルベリーデータセットで評価すると、提案手法は、最先端の全体的な性能を達成し、ロバストビジョンチャレンジ2020のステレオタスクにおける第1位を得る。 コードはhttps://github.com/gallenszl/CFNetで入手できる。

Recently, the ever-increasing capacity of large-scale annotated datasets has led to profound progress in stereo matching. However, most of these successes are limited to a specific dataset and cannot generalize well to other datasets. The main difficulties lie in the large domain differences and unbalanced disparity distribution across a variety of datasets, which greatly limit the real-world applicability of current deep stereo matching models. In this paper, we propose CFNet, a Cascade and Fused cost volume based network to improve the robustness of the stereo matching network. First, we propose a fused cost volume representation to deal with the large domain difference. By fusing multiple low-resolution dense cost volumes to enlarge the receptive field, we can extract robust structural representations for initial disparity estimation. Second, we propose a cascade cost volume representation to alleviate the unbalanced disparity distribution. Specifically, we employ a variance-based uncertainty estimation to adaptively adjust the next stage disparity search space, in this way driving the network progressively prune out the space of unlikely correspondences. By iteratively narrowing down the disparity search space and improving the cost volume resolution, the disparity estimation is gradually refined in a coarse-to-fine manner. When trained on the same training images and evaluated on KITTI, ETH3D, and Middlebury datasets with the fixed model parameters and hyperparameters, our proposed method achieves the state-of-the-art overall performance and obtains the 1st place on the stereo task of Robust Vision Challenge 2020. The code will be available at https://github.com/gallenszl/CFNet.
翻訳日:2021-04-12 14:04:36 公開日:2021-04-09
# メモリベース映像オブジェクトセグメンテーションにおける学習位置と目標整合性

Learning Position and Target Consistency for Memory-based Video Object Segmentation ( http://arxiv.org/abs/2104.04329v1 )

ライセンス: Link先を確認
Li Hu, Peng Zhang, Bang Zhang, Pan Pan, Yinghui Xu, Rong Jin(参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)の問題について検討する。 複数の研究が、メモリベースのアプローチがビデオオブジェクトのセグメンテーションに有効であることを示した。 主に、空間的にも時間的にもピクセルレベルのマッチングに基づいている。 メモリベースのアプローチの主な欠点は、フレーム間のシーケンシャルな順序を考慮せず、ターゲットからのオブジェクトレベルの知識を活用しないことである。 この制限に対処するために,lcmと呼ばれるメモリベースビデオオブジェクトセグメンテーションの位置と目標整合性フレームワークを学習することを提案する。 メモリ機構を適用してピクセルをグローバルに取得し、一方、より信頼性の高いセグメンテーションのための位置一貫性を学習する。 学習された位置応答は、ターゲットとイントラクタのより良い識別を促進する。 さらに、LCMは目標からのオブジェクトレベルの関係を導入して、目標の一貫性を維持する。 実験の結果,DAVISとYoutube-VOSベンチマークの両方において,LCMが最先端の性能を達成することがわかった。 DAVIS 2020の準教師付きVOSタスクでは、第1位にランク付けします。

This paper studies the problem of semi-supervised video object segmentation(VOS). Multiple works have shown that memory-based approaches can be effective for video object segmentation. They are mostly based on pixel-level matching, both spatially and temporally. The main shortcoming of memory-based approaches is that they do not take into account the sequential order among frames and do not exploit object-level knowledge from the target. To address this limitation, we propose to Learn position and target Consistency framework for Memory-based video object segmentation, termed as LCM. It applies the memory mechanism to retrieve pixels globally, and meanwhile learns position consistency for more reliable segmentation. The learned location response promotes a better discrimination between target and distractors. Besides, LCM introduces an object-level relationship from the target to maintain target consistency, making LCM more robust to error drifting. Experiments show that our LCM achieves state-of-the-art performance on both DAVIS and Youtube-VOS benchmark. And we rank the 1st in the DAVIS 2020 challenge semi-supervised VOS task.
翻訳日:2021-04-12 14:04:09 公開日:2021-04-09
# 視覚属性からのマルチモーダル顔合成

Multimodal Face Synthesis from Visual Attributes ( http://arxiv.org/abs/2104.04362v1 )

ライセンス: Link先を確認
Xing Di, Vishal M. Patel(参考訳) 視覚特性からの顔画像の合成は、その法執行や娯楽への応用により、コンピュータビジョンとバイオメトリックスにおいて重要な問題である。 近年の深層生成ネットワークの進歩により,視覚特性から高品質な顔画像の合成が可能になった。 しかし、既存の手法は属性から単眼画像(すなわち可視顔)を生成するために特別に設計されている。 本稿では,マルチモーダル顔画像を保存するアイデンティティを同時に合成する,新たな生成対向ネットワークを提案する。 可視性、スケッチ、熱性など ネットワークをトレーニングするために異なるドメインのペアデータを必要としない視覚的属性から。 本稿では,マルチモーダル顔画像を同時に合成するマルチモーダルストレッチアウトモジュールを備えた新しいジェネレータを提案する。 さらに、実画像と偽画像の識別を行う識別器にマルチモーダルストレッチインモジュールを導入する。 提案する属性に基づくマルチモーダル合成法の有効性を検証するため,いくつかの最先端手法との比較実験を行った。

Synthesis of face images from visual attributes is an important problem in computer vision and biometrics due to its applications in law enforcement and entertainment. Recent advances in deep generative networks have made it possible to synthesize high-quality face images from visual attributes. However, existing methods are specifically designed for generating unimodal images (i.e visible faces) from attributes. In this paper, we propose a novel generative adversarial network that simultaneously synthesizes identity preserving multimodal face images (i.e. visible, sketch, thermal, etc.) from visual attributes without requiring paired data in different domains for training the network. We introduce a novel generator with multimodal stretch-out modules to simultaneously synthesize multimodal face images. Additionally, multimodal stretch-in modules are introduced in the discriminator which discriminates between real and fake images. Extensive experiments and comparisons with several state-of-the-art methods are performed to verify the effectiveness of the proposed attribute-based multimodal synthesis method.
翻訳日:2021-04-12 14:03:55 公開日:2021-04-09
# CondenseNet V2: ディープネットワークのためのスパース機能更新

CondenseNet V2: Sparse Feature Reactivation for Deep Networks ( http://arxiv.org/abs/2104.04382v1 )

ライセンス: Link先を確認
Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tian(参考訳) 高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。 先日提案されたCondenseNetは、冗長な機能を削除すれば、このメカニズムをさらに改善できることを示した。 本稿では,スパース機能再活性化(SFR)という代替手法を提案する。 提案するネットワークであるCondenseNetV2では,1)先行層から最も重要な機能の集合を選択的に再利用し,2)先行層を積極的に更新し,後続層に対する有効性を向上する。 提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。

Reusing features in deep networks through dense connectivity is an effective way to achieve high computational efficiency. The recent proposed CondenseNet has shown that this mechanism can be further improved if redundant features are removed. In this paper, we propose an alternative approach named sparse feature reactivation (SFR), aiming at actively increasing the utility of features for reusing. In the proposed network, named CondenseNetV2, each layer can simultaneously learn to 1) selectively reuse a set of most important features from preceding layers; and 2) actively update a set of preceding features to increase their utility for later layers. Our experiments show that the proposed models achieve promising performance on image classification (ImageNet and CIFAR) and object detection (MS COCO) in terms of both theoretical efficiency and practical speed.
翻訳日:2021-04-12 14:03:44 公開日:2021-04-09
# look before you leap: ワンステージのビジュアルグラウンドのためのランドマーク機能を学ぶ

Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding ( http://arxiv.org/abs/2104.04386v1 )

ライセンス: Link先を確認
Binbin Huang, Dongze Lian, Weixin Luo, Shenghua Gao(参考訳) LBYL(`Look Before You Leap')ネットワークは、エンドツーエンドのトレーニング可能なワンステージ視覚グラウンドとして提案されている。 LBYL-Netの背景にある考え方は直感的かつ直感的であり、対象対象を「ランドマーク」と相対的な空間的関係に基づいてローカライズする言語の記述に従う。 LBYL-Netの中核は目覚ましい特徴畳み込みモジュールであり、異なる方向の言語記述のガイダンスで視覚的特徴を伝達する。 したがって、そのようなモジュールは、現在のオブジェクトとそのコンテキスト間の相対的な空間的位置関係を符号化する。 次に、ランドマーク特徴畳み込みモジュールのコンテキスト情報と、対象の視覚特徴とを結合して接地を行う。 この特徴量畳み込み軽量化のために,我々は動的プログラミングアルゴリズム(動的マックスプーリングと呼ばれる)を導入し,その特徴量を抽出する。 目立った機能畳み込みモジュールのおかげで、コンテキスト情報を完全に考慮したLBYL-Netを設計するために、'Look Before You Leap'の人間の振る舞いを模倣する。 4つのグラウンドリングデータセットにおいて,本手法の有効性を示す実験を行った。 具体的には、LBYL-NetはReferitGameの最先端の2段階および1段階の手法よりも優れています。 RefCOCOとRefCOCO+では、我々のLBYL-Netは既存のワンステージ手法よりも同等の結果またはさらに良い結果を得る。

An LBYL (`Look Before You Leap') Network is proposed for end-to-end trainable one-stage visual grounding. The idea behind LBYL-Net is intuitive and straightforward: we follow a language's description to localize the target object based on its relative spatial relation to `Landmarks', which is characterized by some spatial positional words and some descriptive words about the object. The core of our LBYL-Net is a landmark feature convolution module that transmits the visual features with the guidance of linguistic description along with different directions. Consequently, such a module encodes the relative spatial positional relations between the current object and its context. Then we combine the contextual information from the landmark feature convolution module with the target's visual features for grounding. To make this landmark feature convolution light-weight, we introduce a dynamic programming algorithm (termed dynamic max pooling) with low complexity to extract the landmark feature. Thanks to the landmark feature convolution module, we mimic the human behavior of `Look Before You Leap' to design an LBYL-Net, which takes full consideration of contextual information. Extensive experiments show our method's effectiveness in four grounding datasets. Specifically, our LBYL-Net outperforms all state-of-the-art two-stage and one-stage methods on ReferitGame. On RefCOCO and RefCOCO+, Our LBYL-Net also achieves comparable results or even better results than existing one-stage methods.
翻訳日:2021-04-12 14:03:28 公開日:2021-04-09
# フローに基づく人体運動の自己回帰構造予測

Flow-based Autoregressive Structured Prediction of Human Motion ( http://arxiv.org/abs/2104.04391v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, and Michael Greenspan(参考訳) エンド・ツー・エンドのディープニューラルネットワークにおいて,時間的および空間的依存性を学習し,人間の運動前兆に対する新しい手法を提案する。 連接接続はフローベース生成モデルに基づく新しい自己回帰構造予測表現を用いて明確にモデル化される。 我々は、高次元構造入力シーケンスに基づいて、連続的なフレームで複雑な体のポーズの潜時空間を学習する。 各潜伏変数を構成するためには, 条件付き正規化流を用いた生成過程において, 関節位置の局所的滑らかさを考慮する。 結果として、シーケンス内のすべてのフレームレベルおよびジョイントレベル連続性がモデルに保存される。 これにより、フレーム間およびフレーム内関係とジョイント接続をパラメータ化し、ロバストな長期予測と短期予測を可能にする。 我々はHuman3.6MとAMASSの2つの挑戦的なベンチマークデータセットの実験を行い、提案手法が動き予測のためのシーケンス情報を効果的にモデル化し、48の総合実験シナリオのうち42の他の手法より優れていることを示した。

A new method is proposed for human motion predition by learning temporal and spatial dependencies in an end-to-end deep neural network. The joint connectivity is explicitly modeled using a novel autoregressive structured prediction representation based on flow-based generative models. We learn a latent space of complex body poses in consecutive frames which is conditioned on the high-dimensional structure input sequence. To construct each latent variable, the general and local smoothness of the joint positions are considered in a generative process using conditional normalizing flows. As a result, all frame-level and joint-level continuities in the sequence are preserved in the model. This enables us to parameterize the inter-frame and intra-frame relationships and joint connectivity for robust long-term predictions as well as short-term prediction. Our experiments on two challenging benchmark datasets of Human3.6M and AMASS demonstrate that our proposed method is able to effectively model the sequence information for motion prediction and outperform other techniques in 42 of the 48 total experiment scenarios to set a new state-of-the-art.
翻訳日:2021-04-12 14:03:06 公開日:2021-04-09
# デヴァナガリー、テルグ、マラヤラムにおけるテキスト認識のベンチマーク

Benchmarking Scene Text Recognition in Devanagari, Telugu and Malayalam ( http://arxiv.org/abs/2104.04437v1 )

ライセンス: Link先を確認
Minesh Mathew, Mohit Jain and CV Jawahar(参考訳) Deep Learningベースの英語シーンテキスト認識の成功に触発されて、Devanagari、Telugu、Malayalamの3つのIndicスクリプトに対して、シーンテキスト認識をポーズし、ベンチマークする。 Unicodeフォントから描画された合成語画像は、認識システムの訓練に使用される。 そして、上記のスクリプトにテキストを含む数百の実シーン画像からなる新しいIIIT-ILSTデータセットに、パフォーマンスをベンチマークする。 我々は、単語イメージを対応するテキストに書き起こすために、セグメンテーションフリーでハイブリッドだがエンドツーエンドのトレーニング可能なCNN-RNNディープニューラルネットワークを使用する。 切り抜いた単語画像は、サブワード単位に区分される必要がなく、その誤りを算出し、所定の単語画像に対して同時にバックプロパゲーションする。 ネットワークはCTC損失を用いて訓練されており、シーケンス対シーケンスの転写タスクに非常に効果的であることが証明されている。 ネットワーク内のCNN層は、単語画像から堅牢な特徴表現を抽出することを学ぶ。 畳み込みブロックによって学習された特徴のシーケンスは、RNN+CTCブロックによってラベルのシーケンスに転写される。 文字は単語の長さや語彙に縛られず、高い屈折率を持つインドの言語に理想的である。 IIIT-ILSTデータセット、合成語画像データセット、合成画像のレンダリングに使われるスクリプトはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/iiit-ilstで入手できる。

Inspired by the success of Deep Learning based approaches to English scene text recognition, we pose and benchmark scene text recognition for three Indic scripts - Devanagari, Telugu and Malayalam. Synthetic word images rendered from Unicode fonts are used for training the recognition system. And the performance is bench-marked on a new IIIT-ILST dataset comprising of hundreds of real scene images containing text in the above mentioned scripts. We use a segmentation free, hybrid but end-to-end trainable CNN-RNN deep neural network for transcribing the word images to the corresponding texts. The cropped word images need not be segmented into the sub-word units and the error is calculated and backpropagated for the the given word image at once. The network is trained using CTC loss, which is proven quite effective for sequence-to-sequence transcription tasks. The CNN layers in the network learn to extract robust feature representations from word images. The sequence of features learnt by the convolutional block is transcribed to a sequence of labels by the RNN+CTC block. The transcription is not bound by word length or a lexicon and is ideal for Indian languages which are highly inflectional. IIIT-ILST dataset, synthetic word images dataset and the script used to render synthetic images are available at http://cvit.iiit.ac.in/research/projects/cvit-projects/iiit-ilst
翻訳日:2021-04-12 14:02:44 公開日:2021-04-09
# マルチタスクビデオ分析パイプラインのための強化学習型エネルギー効率フレームワーク

A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline ( http://arxiv.org/abs/2104.04443v1 )

ライセンス: Link先を確認
Yingying Zhao, Mingzhi Dong, Yujiang Wang, Da Feng, Qin Lv, Robert Dick, Dongsheng Li, Tun Lu, Ning Gu, Li Shang(参考訳) 近年,深層学習に基づくビデオ処理により,映像の変換が進んでいる。 しかし、ビデオ分析パイプラインは高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的であり、エネルギー制約のあるアプリケーションでは採用が制限されている。 映像データストリームにおける空間冗長性と時間変動の観測を動機とし,マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応分解能最適化フレームワークの設計と評価を行った。 我々のフレームワークは、個々のタスクの入力データ解像度をヒューリスティックに調整する代わりに、深い強化学習を利用して、ビデオ分析パイプライン全体の入力解像度と計算を動的に制御する。 高次元映像分析機能の品質に対する様々な解像度の影響をモニタリングすることにより、映像解析結果の精度を高めることにより、提案するエンドツーエンド最適化フレームワークは、入力された映像ストリームの解像度を動的に制御する最適な非光学的ポリシーを学習し、エネルギー効率を劇的に最適化する。 強化学習によって制御される光フローは、精度を維持しつつ再計算につながる不要な時空間冗長性を最小化するためにフレームワークに組み込まれる。 提案フレームワークは,最も困難なマシンビジョンタスクの一つであるビデオインスタンスセグメンテーションに適用され,提案フレームワークのエネルギー消費効率は,youtube-visデータセットにおける類似精度の基準手法をはるかに上回っている。

Deep-learning-based video processing has yielded transformative results in recent years. However, the video analytics pipeline is energy-intensive due to high data rates and reliance on complex inference algorithms, which limits its adoption in energy-constrained applications. Motivated by the observation of high and variable spatial redundancy and temporal dynamics in video data streams, we design and evaluate an adaptive-resolution optimization framework to minimize the energy use of multi-task video analytics pipelines. Instead of heuristically tuning the input data resolution of individual tasks, our framework utilizes deep reinforcement learning to dynamically govern the input resolution and computation of the entire video analytics pipeline. By monitoring the impact of varying resolution on the quality of high-dimensional video analytics features, hence the accuracy of video analytics results, the proposed end-to-end optimization framework learns the best non-myopic policy for dynamically controlling the resolution of input video streams to achieve globally optimize energy efficiency. Governed by reinforcement learning, optical flow is incorporated into the framework to minimize unnecessary spatio-temporal redundancy that leads to re-computation, while preserving accuracy. The proposed framework is applied to video instance segmentation which is one of the most challenging machine vision tasks, and the energy consumption efficiency of the proposed framework has significantly surpassed all baseline methods of similar accuracy on the YouTube-VIS dataset.
翻訳日:2021-04-12 14:02:24 公開日:2021-04-09
# 自動的手法による自発音声のアライメントの研究:協調学習を成功させるために、子どもはタスク固有のレファレントをどのように利用するか?

Studying Alignment in Spontaneous Speech via Automatic Methods: How Do Children Use Task-specific Referents to Succeed in a Collaborative Learning Activity? ( http://arxiv.org/abs/2104.04429v1 )

ライセンス: Link先を確認
Utku Norman, Tanvi Dinkar, Barbara Bruno, Chlo\'e Clavel(参考訳) 異なる言語レベルにおいて、話者間のアライメントがある場合、対話は成功する。 本研究では,協調学習課題に携わる対話者間の対話を考察し,パフォーマンスと学習(すなわち,学習)について考察する。 タスク成功) 対話のアライメントプロセスに関連する。 本研究の主な貢献は、アライメントを自動学習する新しい手段を提案することであり、協調学習活動の文脈において、子ども間の完全に自発的な対話を考えることである。 本研究は, 子どもが目指す課題に関連する表現の使用, これらの表現のフォローアップ行動, 課題成功との関連について考察する。 タスクに関連する表現に焦点を当てることで、子どもがタスクに関連する(潜在的に未知の)用語を使用する方法に関する洞察が得られる。 この研究の最初の発見は、我々が提案する尺度がそのような文脈で語彙的アライメントの要素を捉えることができることの発見である。 これらの測定を通じて、パフォーマンスの悪いチームは、タスク成功を達成するために対話で遅すぎたり、アクションでお互いの指示に従うのが遅かったりすることが分かりました。 また, インターロカクタはタスクに関連する表現を導入する際に, ヘシテーション現象(フィラーを見ることで測定する)を示さないが, 表現を受け入れる前にヘシテーションを呈することが明らかとなった。 最後に、情報管理マーカー(談話マーカー「oh」によって測定される)が、(自動的に)推定された指示からのフォローアップ動作の一般付近で発生することを示す。 しかし、優れたパフォーマーはこれらのアクションに近いマーカーを持つ傾向がある。 我々の尺度は、たとえ総合的に学習の最終的な尺度に結びついていると結論付けることができなくても、対話における学習の細かな側面を反映している。

A dialogue is successful when there is alignment between the speakers, at different linguistic levels. In this work, we consider the dialogue occurring between interlocutors engaged in a collaborative learning task, and explore how performance and learning (i.e. task success) relate to dialogue alignment processes. The main contribution of this work is to propose new measures to automatically study alignment, to consider completely spontaneous spoken dialogues among children in the context of a collaborative learning activity. Our measures of alignment consider the children's use of expressions that are related to the task at hand, their follow-up actions of these expressions, and how it links to task success. Focusing on expressions related to the task gives us insight into the way children use (potentially unfamiliar) terminology related to the task. A first finding of this work is the discovery that the measures we propose can capture elements of lexical alignment in such a context. Through these measures, we find that teams with bad performance often aligned too late in the dialogue to achieve task success, and that they were late to follow up each other's instructions with actions. We also found that while interlocutors do not exhibit hesitation phenomena (which we measure by looking at fillers) in introducing expressions pertaining to the task, they do exhibit hesitation before accepting the expression, in the role of clarification. Lastly, we show that information management markers (measured by the discourse marker 'oh') occur in the general vicinity of the follow up actions from (automatically) inferred instructions. However, good performers tend to have this marker closer to these actions. Our measures still reflect some fine-grained aspects of learning in the dialogue, even if we cannot conclude that overall they are linked to the final measure of learning.
翻訳日:2021-04-12 14:01:38 公開日:2021-04-09
# GPUクラスタによる大規模言語モデルの効率的な学習

Efficient Large-Scale Language Model Training on GPU Clusters ( http://arxiv.org/abs/2104.04473v1 )

ライセンス: Link先を確認
Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley, Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, Matei Zaharia(参考訳) 大規模な言語モデルは様々なタスクに最先端の精度をもたらす。 しかし、これらの大きなモデルを効率的にトレーニングすることは、2つの理由により困難である。a) GPUメモリ容量が限られており、単一のGPUやマルチGPUサーバに大規模なモデルを適合させることが不可能である。 テンソルやパイプラインの並列化といった新しいモデル並列化手法がこれらの課題に対処するために提案されているが、残念なことに、単純な使用法は、高価なクロスノード通信や、他のデバイスで待機するアイドル時間といった様々な理由により、数千のGPUにおいて基本的なスケーリング問題を引き起こす。 本稿では、異なる種類の並列処理手法(テンソル、パイプライン、データパラレル)を何千ものgpuに拡張し、既存のシステムと比較して効率的にトレーニングできるモデルのサイズを2桁増加させる方法を示す。 本稿では,パイプライン並列化の様々な実装について検討し,従来の手法と比較して,メモリフットプリントに匹敵するスループットを10%以上向上できる新しいスケジュールを提案する。 テンソル,パイプライン,データ並列性のトレードオフを定量的に検討し,大規模モデルの分散トレーニングの設定方法に関する直観を提供する。 これらの手法の合成により、3072GPU上で502ペタFLOP/sで1兆個のパラメータを持つモデル上で、GPU当たりのスループットがピークの52%に達した場合、同様のサイズのモデルをトレーニングする以前の取り組みは、より低いスループット(理論ピークの36%)を達成することができる。 私たちのコードはhttps://github.com/nvidia/megatron-lmでオープンソース化されました。

Large language models have led to state-of-the-art accuracies across a range of tasks. However, training these large models efficiently is challenging for two reasons: a) GPU memory capacity is limited, making it impossible to fit large models on a single GPU or even on a multi-GPU server; and b) the number of compute operations required to train these models can result in unrealistically long training times. New methods of model parallelism such as tensor and pipeline parallelism have been proposed to address these challenges; unfortunately, naive usage leads to fundamental scaling issues at thousands of GPUs due to various reasons, e.g., expensive cross-node communication or idle periods waiting on other devices. In this work, we show how to compose different types of parallelism methods (tensor, pipeline, and data paralleism) to scale to thousands of GPUs, achieving a two-order-of-magnitude increase in the sizes of models we can efficiently train compared to existing systems. We discuss various implementations of pipeline parallelism and propose a novel schedule that can improve throughput by more than 10% with comparable memory footprint compared to previously-proposed approaches. We quantitatively study the trade-offs between tensor, pipeline, and data parallelism, and provide intuition as to how to configure distributed training of a large model. The composition of these techniques allows us to perform training iterations on a model with 1 trillion parameters at 502 petaFLOP/s on 3072 GPUs with achieved per-GPU throughput of 52% of peak; previous efforts to train similar-sized models achieve much lower throughput (36% of theoretical peak). Our code has been open-sourced at https://github.com/nvidia/megatron-lm.
翻訳日:2021-04-12 14:01:06 公開日:2021-04-09
# 粒界因果関係に基づく階層的時系列クラスタリングによる状態推定

Granger Causality Based Hierarchical Time Series Clustering for State Estimation ( http://arxiv.org/abs/2104.04206v1 )

ライセンス: Link先を確認
Sin Yong Tan, Homagni Saha, Margarite Jacoby, Gregor P. Henze, Soumik Sarkar(参考訳) クラスタリングは教師なしの学習テクニックであり、大量のラベルなしデータを処理するのに役立ちます。 実生活における複雑な力学系は、しばしば大量のソースからのデータストリーミングを伴う。 すべてのソース変数を使って正確な状態推定を行うのが望ましいが、計算能力の要求が大きいため、しばしば非現実的であり、これらのケースを扱うための十分に堅牢なアルゴリズムは一般的ではない。 本研究では,シンボリック動的フィルタリングとグレンジャー因果関係に基づく階層的時系列クラスタリング手法を提案する。 提案手法は,多変量時系列における変数階層を形成し,関連する変数を各レベルにクラスタリングすることにより,ノイズや関連変数を分離する。 グランジャー因果関係に基づく新しい距離指標を提案し,時系列クラスタリングや経験的データセットを用いた検証に用いた。 占有検知および建築温度推定タスクによる実験結果は,データ次元を著しく低減した状態予測精度を維持しつつ,経験的データセットに対する忠実度を示す。

Clustering is an unsupervised learning technique that is useful when working with a large volume of unlabeled data. Complex dynamical systems in real life often entail data streaming from a large number of sources. Although it is desirable to use all source variables to form accurate state estimates, it is often impractical due to large computational power requirements, and sufficiently robust algorithms to handle these cases are not common. We propose a hierarchical time series clustering technique based on symbolic dynamic filtering and Granger causality, which serves as a dimensionality reduction and noise-rejection tool. Our process forms a hierarchy of variables in the multivariate time series with clustering of relevant variables at each level, thus separating out noise and less relevant variables. A new distance metric based on Granger causality is proposed and used for the time series clustering, as well as validated on empirical data sets. Experimental results from occupancy detection and building temperature estimation tasks show fidelity to the empirical data sets while maintaining state-prediction accuracy with substantially reduced data dimensionality.
翻訳日:2021-04-12 13:59:55 公開日:2021-04-09
# 病院退院時の有害事象予測のためのディープリカレントネットワークのブレンド知識

Blending Knowledge in Deep Recurrent Networks for Adverse Event Prediction at Hospital Discharge ( http://arxiv.org/abs/2104.04377v1 )

ライセンス: Link先を確認
Prithwish Chakraborty, James Codella, Piyush Madan, Ying Li, Hu Huang, Yoonyoung Park, Chao Yan, Ziqi Zhang, Cheng Gao, Steve Nyemba, Xu Min, Sanjib Basak, Mohamed Ghalwash, Zach Shahn, Parthasararathy Suryanarayanan, Italo Buleje, Shannon Harrer, Sarah Miller, Amol Rajmane, Colin Walsh, Jonathan Wanderer, Gigi Yuen Reed, Kenney Ng, Daby Sow, Bradley A. Malin(参考訳) ディープラーニングアーキテクチャは、さまざまなドメインで複雑なデータをモデリングするのに非常に高い能力を持っています。 しかし、これらのアーキテクチャは、主にデータ疎結合の問題により、30日間の可読性などの保険請求データを用いて、複雑な予測問題を支援する能力に制限されている。 その結果、古典的な機械学習手法、特にドメイン知識を手作りの機能に組み込む手法は、しばしばディープラーニングのアプローチに匹敵し、時として優れています。 本稿では,深層学習アーキテクチャにドメイン知識をブレンドして病院退院時の有害事象を予測することで,深層学習の可能性を実現する方法について述べる。 より具体的には、自己注意に基づくリカレントニューラルネットワークによって計算される患者データの表現を、臨床的に関連する特徴とともに融合する学習アーキテクチャを導入する。 我々は,大規模なクレームデータセットについて広範な実験を行い,ブレンド手法が標準的な機械学習手法よりも優れていることを示す。

Deep learning architectures have an extremely high-capacity for modeling complex data in a wide variety of domains. However, these architectures have been limited in their ability to support complex prediction problems using insurance claims data, such as readmission at 30 days, mainly due to data sparsity issue. Consequently, classical machine learning methods, especially those that embed domain knowledge in handcrafted features, are often on par with, and sometimes outperform, deep learning approaches. In this paper, we illustrate how the potential of deep learning can be achieved by blending domain knowledge within deep learning architectures to predict adverse events at hospital discharge, including readmissions. More specifically, we introduce a learning architecture that fuses a representation of patient data computed by a self-attention based recurrent neural network, with clinically relevant features. We conduct extensive experiments on a large claims dataset and show that the blended method outperforms the standard machine learning approaches.
翻訳日:2021-04-12 13:59:37 公開日:2021-04-09
# 深部ニューラルネットワークの確率的修復

Provable Repair of Deep Neural Networks ( http://arxiv.org/abs/2104.04413v1 )

ライセンス: Link先を確認
Matthew Sotoudeh and Aditya V. Thakur(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、過去10年間で人気が高まり、航空機の衝突回避などの安全上重要な領域で使われている。 これは、DNNで安全でない振る舞いを見つけるための多くのテクニックを動機付けている。 一方,本稿では,安全でない動作が見つかるとDNNの修正に対処する。 本稿では,ネットワークNを修復して,所定の仕様を満たす新しいネットワークN'を構築することの課題である,証明可能な修復問題を紹介する。 安全仕様が有限個の点を超える場合、我々の証明可能な点修復アルゴリズムは、使用するアクティベーション関数に関係なく、仕様を満足する最小限の修正を見つけることができる。 無限に多くの点を含む凸ポリトープに対処する安全仕様について,提案アルゴリズムは,DNNの仕様を満たす最小限の修復を,片方向線形活性化関数を用いて行うことができる。 これら2つのアルゴリズムの背後にある重要な洞察は、線形プログラミング問題に対する証明可能な修復を削減できるデカップリングDNNアーキテクチャの導入である。 実験の結果,様々な課題に対して,Provable repairアルゴリズムの有効性と有効性を示した。

Deep Neural Networks (DNNs) have grown in popularity over the past decade and are now being used in safety-critical domains such as aircraft collision avoidance. This has motivated a large number of techniques for finding unsafe behavior in DNNs. In contrast, this paper tackles the problem of correcting a DNN once unsafe behavior is found. We introduce the provable repair problem, which is the problem of repairing a network N to construct a new network N' that satisfies a given specification. If the safety specification is over a finite set of points, our Provable Point Repair algorithm can find a provably minimal repair satisfying the specification, regardless of the activation functions used. For safety specifications addressing convex polytopes containing infinitely many points, our Provable Polytope Repair algorithm can find a provably minimal repair satisfying the specification for DNNs using piecewise-linear activation functions. The key insight behind both of these algorithms is the introduction of a Decoupled DNN architecture, which allows us to reduce provable repair to a linear programming problem. Our experimental results demonstrate the efficiency and effectiveness of our Provable Repair algorithms on a variety of challenging tasks.
翻訳日:2021-04-12 13:59:21 公開日:2021-04-09
# 深層学習による組織依存複合材料のフルフィールド損傷と破壊パターン予測のためのデータ駆動アプローチ

A Data-Driven Approach to Full-Field Damage and Failure Pattern Prediction in Microstructure-Dependent Composites using Deep Learning ( http://arxiv.org/abs/2104.04485v1 )

ライセンス: Link先を確認
Reza Sepasdar, Anuj Karpatne, Maryam Shakiba(参考訳) 本稿では, 組織依存複合材料の損傷と破壊を予測するため, 画像ベースのディープラーニングフレームワークを開発した。 この研究は、そのような材料の高忠実度シミュレーションの複雑さと計算コストに動機づけられている。 提案する深層学習フレームワークは, 組織形状に基づく複合材の二次元表現における破壊後の全応力分布とひび割れパターンを予測する。 関心材料は、高性能な一方向炭素繊維強化ポリマー複合材料として選択される。 ディープラーニングフレームワークには、2つのスタックされた完全な畳み込みネットワーク、すなわちGenerator 1とGenerator 2が含まれている。 まず、ジェネレータ1は、ミクロ構造図をフルフィールド後応力分布に変換することを学習する。 そして、ジェネレータ2は、ジェネレータ1の出力を障害パターンに変換することを学習する。 物理インフォームド・ロス関数も設計・組み込まれ,提案フレームワークの性能向上と検証プロセスの促進が図られている。 ディープラーニングフレームワークを訓練し、検証するための十分大きなデータセットを提供するため、効率的な有限要素フレームワークで4500の微細構造表現を合成してシミュレーションする。 提案手法は, 計算ソリッド・メカニクスにおいてシミュレーションする最も複雑な現象の2つである, 破壊後の全応力分布と故障パターンを効果的に予測できることを示す。

An image-based deep learning framework is developed in this paper to predict damage and failure in microstructure-dependent composite materials. The work is motivated by the complexity and computational cost of high-fidelity simulations of such materials. The proposed deep learning framework predicts the post-failure full-field stress distribution and crack pattern in two-dimensional representations of the composites based on the geometry of microstructures. The material of interest is selected to be a high-performance unidirectional carbon fiber-reinforced polymer composite. The deep learning framework contains two stacked fully-convolutional networks, namely, Generator 1 and Generator 2, trained sequentially. First, Generator 1 learns to translate the microstructural geometry to the full-field post-failure stress distribution. Then, Generator 2 learns to translate the output of Generator 1 to the failure pattern. A physics-informed loss function is also designed and incorporated to further improve the performance of the proposed framework and facilitate the validation process. In order to provide a sufficiently large data set for training and validating the deep learning framework, 4500 microstructural representations are synthetically generated and simulated in an efficient finite element framework. It is shown that the proposed deep learning approach can effectively predict the composites' post-failure full-field stress distribution and failure pattern, two of the most complex phenomena to simulate in computational solid mechanics.
翻訳日:2021-04-12 13:59:02 公開日:2021-04-09
# 異種ネットワークと混合符号化に基づく高速・スマートニューロモルフィックセンサ

Fast, Smart Neuromorphic Sensors Based on Heterogeneous Networks and Mixed Encodings ( http://arxiv.org/abs/2104.04121v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil(参考訳) ニューロモルフィックアーキテクチャは、変化する環境に反応、学習、応答できるスマートセンサーの実装に理想的に適している。 我々の研究は、昆虫の脳をモデルとして、異なる種類のニューロンやエンコーディングを組み込んだ異質なアーキテクチャをどのように利用して、入力処理、評価、応答を統合するシステムを構築することができるのかを理解する。 ここでは、時間とレートのエンコーディングの組み合わせが、わずか数サイクルで入力の仮説を生成し、その仮説を二次入力としてより詳細な分析に活用できる高速なセンサにどのようにつながるかを示す。

Neuromorphic architectures are ideally suited for the implementation of smart sensors able to react, learn, and respond to a changing environment. Our work uses the insect brain as a model to understand how heterogeneous architectures, incorporating different types of neurons and encodings, can be leveraged to create systems integrating input processing, evaluation, and response. Here we show how the combination of time and rate encodings can lead to fast sensors that are able to generate a hypothesis on the input in only a few cycles and then use that hypothesis as secondary input for more detailed analysis.
翻訳日:2021-04-12 13:58:26 公開日:2021-04-09
# Model LineUpper: AutoMLの複数のレベルでの対話型モデル比較をサポートする

Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML ( http://arxiv.org/abs/2104.04375v1 )

ライセンス: Link先を確認
Shweta Narkar, Yunfeng Zhang, Q. Vera Liao, Dakuo Wang, Justin D Weisz(参考訳) Automated Machine Learning (AutoML)は、モデル空間を探索し、候補モデルを生成することによって、モデル開発パイプラインを自動化する技術群である。 AutoMLの致命的な最終ステップは、数十の候補から最終モデルを選択することだ。 現在のAutoMLシステムでは、選択はパフォーマンスメトリクスによってのみサポートされる。 これまでの研究では、モデルが予測を行う方法など、追加の基準に基づいてMLモデルを評価することが示されていた。 比較は、エラーの種類から重要な機能、モデルが特定のインスタンスの予測を行う方法に至るまで、複数のレベルで起こりうる。 我々は,複数の説明可能なAI(XAI)と可視化技術を統合することで,AutoMLの対話型モデル比較を支援するために,‘tool{}’を開発した。 そこで我々は,システム評価を行い,AutoMLシステムにおいて,ユーザがモデル比較を行う方法を理解するための技術調査として利用した。 本稿では,モデル比較におけるXAI技術の利用と,AutoMLモデルの比較におけるデータ科学者のユニークなニーズのサポートについて論じる。

Automated Machine Learning (AutoML) is a rapidly growing set of technologies that automate the model development pipeline by searching model space and generating candidate models. A critical, final step of AutoML is human selection of a final model from dozens of candidates. In current AutoML systems, selection is supported only by performance metrics. Prior work has shown that in practice, people evaluate ML models based on additional criteria, such as the way a model makes predictions. Comparison may happen at multiple levels, from types of errors, to feature importance, to how the model makes predictions of specific instances. We developed \tool{} to support interactive model comparison for AutoML by integrating multiple Explainable AI (XAI) and visualization techniques. We conducted a user study in which we both evaluated the system and used it as a technology probe to understand how users perform model comparison in an AutoML system. We discuss design implications for utilizing XAI techniques for model comparison and supporting the unique needs of data scientists in comparing AutoML models.
翻訳日:2021-04-12 13:58:15 公開日:2021-04-09
# 自動車事故発生のための連続オンライン選択部門

Sequential Online Chore Division for Autonomous Vehicle Convoy Formation ( http://arxiv.org/abs/2104.04159v1 )

ライセンス: Link先を確認
Harel Yedidsion, Shani Alkoby, Peter Stone(参考訳) 選択分割(英: Chore division)とは、望ましくない「資源」を参加者の集合間で共有しなければならない公平な分割問題のクラスである。 通常、参加者の集合は最初から固定され、知られている。 本報告では, 参加者の総数と到着・出発時刻が不明である間, 参加者がオンラインで到着・出発する「シーケンシャル・オンライン・ショア・ディビジョン(SOCD)」という, 新たなバリエーションを紹介する。 SOCDでは、正確に一つのエージェントが任意の時間(例えば)に雑用を行う必要がある。 注意)と、パフォーマーを切り替えることにはコストがかかります。 本稿では,soddのメカニズムとして,側方支払いを用いた1つの集中型メカニズムと,参加者の負荷のバランスを図る2つの分散メカニズムを提案する。 分析と結果が自律的な車両輸送隊形成に動機づけられた領域で提示され、そこでは雑踏が護送隊を率いており、すべての支持者が風の抵抗を減らし、楽しむことができる。

Chore division is a class of fair division problems in which some undesirable "resource" must be shared among a set of participants, with each participant wanting to get as little as possible. Typically the set of participants is fixed and known at the outset. This paper introduces a novel variant, called sequential online chore division (SOCD), in which participants arrive and depart online, while the chore is being performed: both the total number of participants and their arrival/departure times are initially unknown. In SOCD, exactly one agent must be performing the chore at any give time (e.g. keeping lookout), and switching the performer incurs a cost. In this paper, we propose and analyze three mechanisms for SOCD: one centralized mechanism using side payments, and two distributed ones that seek to balance the participants' loads. Analysis and results are presented in a domain motivated by autonomous vehicle convoy formation, where the chore is leading the convoy so that all followers can enjoy reduced wind resistance.
翻訳日:2021-04-12 13:57:59 公開日:2021-04-09
# 継承機構としてのコントローラアーカイブを用いた学習によるモルフォ進化

Morpho-evolution with learning using a controller archive as an inheritance mechanism ( http://arxiv.org/abs/2104.04269v1 )

ライセンス: Link先を確認
L\'eni K. Le Goff, Edgar Buchanan, Emma Hart, Agoston E. Eiben, Wei Li, Matteo De Carlo, Alan F. Winfield, Matthew F. Hale, Robert Woolley, Mike Angus, Jon Timmis, Andy M. Tyrrell(参考訳) 進化ロボティクスでは、進化のみを利用するか、進化と学習を組み合わせることによって、ボディプランとコントローラを共同最適化できるいくつかのアプローチが示されている。 リッチな形態空間で働く場合、親のどちらとも非常に異なるボディプランを持つことが一般的であり、適切なコントローラを継承することに関して困難を引き起こす可能性がある。 そこで本研究では,身体計画を生成する進化的アルゴリズムと学習アルゴリズムを組み合わせて,それぞれの身体計画が生成されると,そのトポロジが生成されるニューラルコントローラのパラメータを最適化するフレームワークを提案する。 このアプローチの目新しいところは、学習したコントローラを格納するための外部アーカイブを追加することで、ロボットの明示的な「型」にマッピングする(これはボディプランの特徴に関して定義されている)。 ランダムに初期化したものから学習するのではなく,アーカイブから適切なコントローラを継承することにより,スクラッチから始まるアプローチと比較して,学習の速度と規模が時間とともに増加することを示す。 このフレームワークはまた、進化と学習の複雑な相互作用と、ロボット設計における形態的知性の役割に関する新しい洞察を提供する。

In evolutionary robotics, several approaches have been shown to be capable of the joint optimisation of body-plans and controllers by either using only evolution or combining evolution and learning. When working in rich morphological spaces, it is common for offspring to have body-plans that are very different from either of their parents, which can cause difficulties with respect to inheriting a suitable controller. To address this, we propose a framework that combines an evolutionary algorithm to generate body-plans and a learning algorithm to optimise the parameters of a neural controller where the topology of this controller is created once the body-plan of each offspring body-plan is generated. The key novelty of the approach is to add an external archive for storing learned controllers that map to explicit `types' of robots (where this is defined with respect the features of the body-plan). By inheriting an appropriate controller from the archive rather than learning from a randomly initialised one, we show that both the speed and magnitude of learning increases over time when compared to an approach that starts from scratch, using three different test-beds. The framework also provides new insights into the complex interactions between evolution and learning, and the role of morphological intelligence in robot design.
翻訳日:2021-04-12 13:57:39 公開日:2021-04-09
# 深層畳み込みニューラルネットワークの完全性認証のための可逆的透かし

Reversible Watermarking in Deep Convolutional Neural Networks for Integrity Authentication ( http://arxiv.org/abs/2104.04268v1 )

ライセンス: Link先を確認
Xiquan Guan, Huamin Feng, Weiming Zhang, Hang Zhou, Jie Zhang, and Nenghai Yu(参考訳) 深層畳み込みニューラルネットワークは過去数年間、コンピュータビジョンなど多くの分野で優れた貢献をしており、多くの研究者がよく訓練されたダウンロードネットワークを公開している。 しかし最近の研究では、モデル再利用攻撃とバックドア攻撃による整合性に関する深刻な懸念が示されている。 これらのオープンソースネットワークを保護するため、透かしなど多くのアルゴリズムが提案されている。 しかし、これらの既存のアルゴリズムは、ネットワークの内容を恒久的に修正し、整合性認証には適さない。 本稿では,整合性認証のための可逆な透かしアルゴリズムを提案する。 具体的には,深層畳み込みニューラルネットワークの可逆的透かし問題を示し,モデル圧縮技術のプルーニング理論を用いて,ヒストグラムシフトによる透かし情報の埋め込みに用いるホストシーケンスを構築する。 実験で示されるように, 可逆的透かしが分類性能に及ぼす影響は0.5%以下であり, 透かし抽出後, モデルのパラメータを完全に復元できる。 同時に、可逆な透かしを適用してモデルの完全性を検証することができ、モデルが違法に修正された場合、元のモデルによって生成された認証情報は抽出された透かし情報とは全く異なる。

Deep convolutional neural networks have made outstanding contributions in many fields such as computer vision in the past few years and many researchers published well-trained network for downloading. But recent studies have shown serious concerns about integrity due to model-reuse attacks and backdoor attacks. In order to protect these open-source networks, many algorithms have been proposed such as watermarking. However, these existing algorithms modify the contents of the network permanently and are not suitable for integrity authentication. In this paper, we propose a reversible watermarking algorithm for integrity authentication. Specifically, we present the reversible watermarking problem of deep convolutional neural networks and utilize the pruning theory of model compression technology to construct a host sequence used for embedding watermarking information by histogram shift. As shown in the experiments, the influence of embedding reversible watermarking on the classification performance is less than 0.5% and the parameters of the model can be fully recovered after extracting the watermarking. At the same time, the integrity of the model can be verified by applying the reversible watermarking: if the model is modified illegally, the authentication information generated by original model will be absolutely different from the extracted watermarking information.
翻訳日:2021-04-12 13:56:44 公開日:2021-04-09
# svdistnet: サラウンドビュー魚眼カメラによる近距離自己監視推定

SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround View Fisheye Cameras ( http://arxiv.org/abs/2104.04420v1 )

ライセンス: Link先を確認
Varun Ravi Kumar, Marvin Klingner, Senthil Yogamani, Markus Bach, Stefan Milz, Tim Fingscheidt and Patrick M\"ader(参考訳) 360{\deg}のシーン形状の知覚は、特にパーキングや都市運転のシナリオにおいて、自動走行に不可欠である。 通常はサラウンドビューの魚眼カメラで実現され、車両周辺の近距離領域に焦点を合わせている。 現在の深度推定手法の大半は、複数のカメラに簡単に一般化できない単一のカメラを採用することに焦点を当てている。 深度推定モデルは、カメラジオメトリが異なる数百万台の車に搭載された様々なカメラでテストする必要がある。 1台の車の中でも、内在性は製造耐久性によって異なる。 ディープラーニングモデルはこれらの変化に敏感であり、各カメラのバリエーションをトレーニングし、テストすることは事実上不可能である。 その結果,カメラパラメータを条件入力として用いた新しいカメラ幾何学適応型マルチスケールコンボリューションを提案する。 さらに、ペアワイズおよびパッチワイズベクトルベースの自己アテンションエンコーダネットワークによる距離推定を改善する。 魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。 また、異なるカメラ視角にまたがるアプローチの一般化を示し、コントリビューションを支援するために広範な実験を行う。 他の手法と比較して、KITTIデータセット(ピンホールカメラ画像)のフロントカメラデータを評価し、自己監督単分子法における最先端性能を実現する。 質的な結果を含む概要ビデオはhttps://youtu.be/bmX0UcU9wtAで公開されている。 ベースラインコードとデータセットが公開される。

A 360{\deg} perception of scene geometry is essential for automated driving, notably for parking and urban driving scenarios. Typically, it is achieved using surround-view fisheye cameras, focusing on the near-field area around the vehicle. The majority of current depth estimation approaches focus on employing just a single camera, which cannot be straightforwardly generalized to multiple cameras. The depth estimation model must be tested on a variety of cameras equipped to millions of cars with varying camera geometries. Even within a single car, intrinsics vary due to manufacturing tolerances. Deep learning models are sensitive to these changes, and it is practically infeasible to train and test on each camera variant. As a result, we present novel camera-geometry adaptive multi-scale convolutions which utilize the camera parameters as a conditional input, enabling the model to generalize to previously unseen fisheye cameras. Additionally, we improve the distance estimation by pairwise and patchwise vector-based self-attention encoder networks. We evaluate our approach on the Fisheye WoodScape surround-view dataset, significantly improving over previous approaches. We also show a generalization of our approach across different camera viewing angles and perform extensive experiments to support our contributions. To enable comparison with other approaches, we evaluate the front camera data on the KITTI dataset (pinhole camera images) and achieve state-of-the-art performance among self-supervised monocular methods. An overview video with qualitative results is provided at https://youtu.be/bmX0UcU9wtA. Baseline code and dataset will be made public.
翻訳日:2021-04-12 13:56:25 公開日:2021-04-09
# ice core scienceがコンピュータビジョンを満たす - 挑戦と展望

Ice Core Science Meets Computer Vision: Challenges and Perspectives ( http://arxiv.org/abs/2104.04430v1 )

ライセンス: Link先を確認
P. Bohleber, M. Roman, C. Barbante, S. Vascon, K. Siddiqi, M. Pelillo(参考訳) 極氷コアは、自然のアーカイブを通じて地球の気候システムの研究において中心的な役割を果たす。 圧力のかかる問題は、古気候の信号の識別が特に難しい、最も古く、非常に薄い氷コアの断面の分析である。 このために、レーザーアブレーション誘導結合プラズマ質量分析法(LA-ICP-MS)による最先端のイメージングは、ミクロンスケールの2D化学情報と視覚的特徴の組み合わせによって革命的になる可能性がある。 しかし, 化学画像における記録保存の定量的研究は, コンピュータビジョンコミュニティの専門知識を求める新たな疑問を提起する。 この新たな学際的フロンティアを説明するために、選択された重要な質問の集合を記述する。 1つの重要な課題は、主核軸に沿った単線プロファイルの古気候的意義を評価することである。 もう一つの重要な問題は、化学画像が豊富な情報を提供する堆積後層変化の評価である。 そのため、コンピュータビジョンとアイスコアサイエンスの2つの科学コミュニティの間で、より強固な交流が始まっている。 自動画像解析技術を用いた高分解能化学画像調査のための新しい枠組みの構築は、地球科学におけるla-icp-msケミカルイメージングの応用に既に広く貢献している。

Polar ice cores play a central role in studies of the earth's climate system through natural archives. A pressing issue is the analysis of the oldest, highly thinned ice core sections, where the identification of paleoclimate signals is particularly challenging. For this, state-of-the-art imaging by laser-ablation inductively-coupled plasma mass spectrometry (LA-ICP-MS) has the potential to be revolutionary due to its combination of micron-scale 2D chemical information with visual features. However, the quantitative study of record preservation in chemical images raises new questions that call for the expertise of the computer vision community. To illustrate this new inter-disciplinary frontier, we describe a selected set of key questions. One critical task is to assess the paleoclimate significance of single line profiles along the main core axis, which we show is a scale-dependent problem for which advanced image analysis methods are critical. Another important issue is the evaluation of post-depositional layer changes, for which the chemical images provide rich information. Accordingly, the time is ripe to begin an intensified exchange among the two scientific communities of computer vision and ice core science. The collaborative building of a new framework for investigating high-resolution chemical images with automated image analysis techniques will also benefit the already wide-spread application of LA-ICP-MS chemical imaging in the geosciences.
翻訳日:2021-04-12 13:56:01 公開日:2021-04-09
# 骨抑制胸部x線写真によるtb分類の改善

Improved TB classification using bone-suppressed chest radiographs ( http://arxiv.org/abs/2104.04518v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Ghada Zamzmi, Les Folio, Philip Alderson and Sameer Antani(参考訳) 胸部X線検査 (CXRs) は心肺異常を検出する最も一般的な診断である。 しかし、リブや鎖骨のような骨構造の存在は、診断ミスをもたらす微妙な異常を引き起こす可能性がある。 本研究の目的は, 結核 (tb) にともなう症状の検出に関連するdlワークフローを含む放射線学的解釈の誤りを軽減するために, 前頭骨cxrの骨構造を同定し除去する, 深層学習(dl)に基づく骨抑制モデルの構築である。 各種の深層構造を有する骨抑制モデルを訓練し,その性能を施設間試験で評価した。 ベストパフォーマンスモデル(ResNet-BS)は深センとモンゴメリーのCXRコレクションの骨の抑制に用いられる。 VGG-16モデルは、公開されているCXRの大規模なコレクションで事前訓練されている。 CXR抑制モデルは、深センとモンゴメリーのCXRコレクションの非骨抑制および骨抑制のCXRに対して個別に微調整され、正常な肺またはTBの徴候を示すものとして分類される。 これらのモデルの性能はいくつかのパフォーマンス指標を用いて比較され、統計的重要性を解析し、それらの予測はクラス選択関連マップ(CRM)を通して質的に解釈される。 深セン, モンゴメリー TB コレクションの非骨抑制 CXR (p<0.05) で個別に訓練したモデルでは, 骨抑制 CXR で訓練したモデルの方が有意に優れていた。 骨抑制CXRをトレーニングしたモデルでは, TB含有所見の検出が向上し, 特徴空間におけるデータポイントのクラスタリングが小型化され, 骨の抑制により, TB分類に対するモデル感度が向上した。

Chest X-rays (CXRs) are the most commonly performed diagnostic examination to detect cardiopulmonary abnormalities. However, the presence of bony structures such as ribs and clavicles can obscure subtle abnormalities resulting in diagnostic errors. This study aims to build a deep learning (DL)-based bone suppression model that identifies and removes these occluding bony structures in frontal CXRs to assist in reducing errors in radiological interpretation, including DL workflows, related to detecting manifestations consistent with Tuberculosis (TB). Several bone suppression models with various deep architectures are trained and their performances are evaluated in a cross-institutional test setting. The best-performing model (ResNet-BS) is used to suppress bones in the Shenzhen and Montgomery TB CXR collections. A VGG-16 model is pretrained on a large collection of publicly available CXRs. The CXR-pretrained model is then fine-tuned individually on the non-bone-suppressed and bone-suppressed CXRs of Shenzhen and Montgomery TB CXR collections to classify them as showing normal lungs or TB manifestations. The performances of these models are compared using several performance metrics, analyzed for statistical significance, and their predictions are qualitatively interpreted through class-selective relevance maps (CRM). It is observed that the models trained on bone-suppressed CXRs significantly outperformed the models trained individually on the non-bone-suppressed CXRs (p<0.05) in the Shenzhen and Montgomery TB collections. Models trained on bone-suppressed CXRs improved detection of TB-consistent findings and resulted in compact clustering of the data points in the feature space signifying that bone suppression improved the model sensitivity toward TB classification.
翻訳日:2021-04-12 13:55:36 公開日:2021-04-09
# FL-AGCNS:グラフ畳み込みネットワーク検索のためのフェデレーション学習フレームワーク

FL-AGCNS: Federated Learning Framework for Automatic Graph Convolutional Network Search ( http://arxiv.org/abs/2104.04141v1 )

ライセンス: Link先を確認
Chunnan Wang, Bozhou Chen, Geng Li, Hongzhi Wang(参考訳) 近年,グラフ畳み込みネットワーク (gcn) アーキテクチャの自動設計のためのニューラルネットワーク探索 (nas) 手法が提案されている。 それらはGCNの使用に非常に便利であるが、アプリケーションを制限する分散データセットとプライベートデータセットを備えたフェデレートラーニング(FL)のシナリオには、ほとんど適用できなかった。 さらに、多くの候補GCNモデルをスクラッチからトレーニングする必要がある。 FLシナリオに適したGCN NASアルゴリズムであるFL-AGCNSを提案する。 fl-agcnsは、分散エージェントがローカルデバイス上で個人情報を保持しながら強力なgcnモデルを協調的に設計できるように、連合進化最適化戦略を設計する。 さらに、GCN SuperNetと重み共有戦略を適用して、GCNモデルの評価を高速化する。 実験の結果,FL-AGCNSは,最先端NAS法やGCNモデルよりも早く,短時間で優れたGCNモデルを見出すことができた。

Recently, some Neural Architecture Search (NAS) techniques are proposed for the automatic design of Graph Convolutional Network (GCN) architectures. They bring great convenience to the use of GCN, but could hardly apply to the Federated Learning (FL) scenarios with distributed and private datasets, which limit their applications. Moreover, they need to train many candidate GCN models from scratch, which is inefficient for FL. To address these challenges, we propose FL-AGCNS, an efficient GCN NAS algorithm suitable for FL scenarios. FL-AGCNS designs a federated evolutionary optimization strategy to enable distributed agents to cooperatively design powerful GCN models while keeping personal information on local devices. Besides, it applies the GCN SuperNet and a weight sharing strategy to speed up the evaluation of GCN models. Experimental results show that FL-AGCNS can find better GCN models in short time under the FL framework, surpassing the state-of-the-arts NAS methods and GCN models.
翻訳日:2021-04-12 13:53:56 公開日:2021-04-09
# 多段階拡張CNN-LSTMモデルを用いた音声による抑うつレベル分類

Speech based Depression Severity Level Classification Using a Multi-Stage Dilated CNN-LSTM Model ( http://arxiv.org/abs/2104.04195v1 )

ライセンス: Link先を確認
Nadee Seneviratne, Carol Espy-Wilson(参考訳) 近年,発話に基づく抑うつ分類が盛んに普及している。 しかしながら、ほとんどの分類研究は、うつ病の被験者と非うつ病の被験者を区別する二分分類に焦点を当てている。 本稿では, うつ病分類課題を重度レベル分類問題として定式化し, 分類結果により粒度を付与する。 重度抑うつ障害の必要特徴である精神運動器の減速の結果起こる神経運動の協調の変化を捉えるために開発された調音調整機能(acfs)を用いる。 声道変数(TV)から派生したACFを用いて,拡張畳み込みニューラルネットワークに基づく抑うつ分類モデルを訓練し,セグメントレベルの予測を行う。 そこで我々は,セグメントレベルの予測からセッションレベルの予測を得るために,リカレントニューラルネットワークに基づくアプローチを提案する。 セグメントワイズ分類器の強度は、セッションワイズ分類器がそこから得られる埋め込みに基づいて訓練されたときに増幅されることを示す。 テレビから派生したACFをトレーニングしたモデルは、Mel Frequency Cepstral Coefficients (MFCCs) から派生したACFと比較して、セッションレベルの分類タスクにおけるUnweighted Average Recall (UAR)の27.47%の相対的な改善を示している。

Speech based depression classification has gained immense popularity over the recent years. However, most of the classification studies have focused on binary classification to distinguish depressed subjects from non-depressed subjects. In this paper, we formulate the depression classification task as a severity level classification problem to provide more granularity to the classification outcomes. We use articulatory coordination features (ACFs) developed to capture the changes of neuromotor coordination that happens as a result of psychomotor slowing, a necessary feature of Major Depressive Disorder. The ACFs derived from the vocal tract variables (TVs) are used to train a dilated Convolutional Neural Network based depression classification model to obtain segment-level predictions. Then, we propose a Recurrent Neural Network based approach to obtain session-level predictions from segment-level predictions. We show that strengths of the segment-wise classifier are amplified when a session-wise classifier is trained on embeddings obtained from it. The model trained on ACFs derived from TVs show relative improvement of 27.47% in Unweighted Average Recall (UAR) at the session-level classification task, compared to the ACFs derived from Mel Frequency Cepstral Coefficients (MFCCs).
翻訳日:2021-04-12 13:53:39 公開日:2021-04-09
# 協調操作のための分散ベイズオンライン学習

Distributed Bayesian Online Learning for Cooperative Manipulation ( http://arxiv.org/abs/2104.04342v1 )

ライセンス: Link先を確認
Pablo Budde gen. Dohmann, Armin Lederer, Marcel Di{\ss}emond, Sandra Hirche(参考訳) 複数のエージェントが物理的に結合しているタスク、例えば協調操作では、個々のエージェント間の協調が重要となり、相互作用のダイナミクスの正確な知識が必要になる。 この問題は一般に、システム全体の柔軟性と堅牢性に悪影響を及ぼす集中型推定器を用いて対処される。 この欠点を克服するために,ベイズ原理を用いた協調操作の模範的タスクのための分散学習フレームワークを提案する。 局所状態情報のみを使用して、各エージェントはオブジェクトのダイナミクスの見積もりを取得し、キネマティックスを把握します。 これらの局所的な推定は動的平均コンセンサスを用いて合成される。 この手法の強い確率的基礎のため、対象のダイナミクスと把握キネマティクスの各々の推定には不確実性の尺度が伴うので、高い確率で有界な予測誤差を保証できる。 さらに、ベイズ原理は、定常的な複雑性を持つ反復学習を直接可能とし、提案する学習方法は、リアルタイムアプリケーションでオンラインで使用できる。 本手法の有効性は, 模擬協調操作作業において実証される。

For tasks where the dynamics of multiple agents are physically coupled, e.g., in cooperative manipulation, the coordination between the individual agents becomes crucial, which requires exact knowledge of the interaction dynamics. This problem is typically addressed using centralized estimators, which can negatively impact the flexibility and robustness of the overall system. To overcome this shortcoming, we propose a novel distributed learning framework for the exemplary task of cooperative manipulation using Bayesian principles. Using only local state information each agent obtains an estimate of the object dynamics and grasp kinematics. These local estimates are combined using dynamic average consensus. Due to the strong probabilistic foundation of the method, each estimate of the object dynamics and grasp kinematics is accompanied by a measure of uncertainty, which allows to guarantee a bounded prediction error with high probability. Moreover, the Bayesian principles directly allow iterative learning with constant complexity, such that the proposed learning method can be used online in real-time applications. The effectiveness of the approach is demonstrated in a simulated cooperative manipulation task.
翻訳日:2021-04-12 13:53:15 公開日:2021-04-09
# 秘密鍵を用いたブロック幅画像変換による海賊耐性DNN透かし

Piracy-Resistant DNN Watermarking by Block-Wise Image Transformation with Secret Key ( http://arxiv.org/abs/2104.04241v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本稿では,秘密鍵を用いた学習可能な画像変換手法を用いた新しいDNN透かし手法を提案する。 提案手法では,学習可能な変換画像を用いて,モデルに透かしパターンを組み込むことにより,モデルの所有権を遠隔で検証できる。 その結果、海賊行為に耐性があるため、元の透かしを海賊の透かしで上書きすることはできず、新しい透かしを追加すると、既存のDNN透かし法とは異なり、モデルの精度が低下する。 さらに、特別な事前定義されたトレーニングセットやトリガーセットは不要である。 提案手法をCIFAR-10データセット上で実証的に評価した。 その結果,高い透かし検出精度を維持しつつ,微調整や刈り込み攻撃に対して弾力性を示した。

In this paper, we propose a novel DNN watermarking method that utilizes a learnable image transformation method with a secret key. The proposed method embeds a watermark pattern in a model by using learnable transformed images and allows us to remotely verify the ownership of the model. As a result, it is piracy-resistant, so the original watermark cannot be overwritten by a pirated watermark, and adding a new watermark decreases the model accuracy unlike most of the existing DNN watermarking methods. In addition, it does not require a special pre-defined training set or trigger set. We empirically evaluated the proposed method on the CIFAR-10 dataset. The results show that it was resilient against fine-tuning and pruning attacks while maintaining a high watermark-detection accuracy.
翻訳日:2021-04-12 13:52:57 公開日:2021-04-09
# 制御リアプノフ法による逆強化学習

Inverse Reinforcement Learning a Control Lyapunov Approach ( http://arxiv.org/abs/2104.04483v1 )

ライセンス: Link先を確認
Samuel Tesfazgi, Armin Lederer and Sandra Hirche(参考訳) 知的なエージェントの意図をデモンストレーションから推測し、その後行動を予測することは、多くの協調的な環境で重要なタスクである。 この問題を解決するための一般的なアプローチは逆強化学習(IRL)の枠組みであり、観察されたエージェント、例えば人間のデモレーターは、その意図を反映し制御行動を通知する本質的なコスト関数に従って振る舞うと仮定される。 本研究では,任意のclfが有意値関数であることを示す逆最適性を利用して,実演から学習制御リアプノフ関数(clf)へirl推論問題を再構成する。 さらに、導出されたCLF定式化は、推論制御ポリシーの安定性を直接保証する。 提案手法の柔軟性は,連続環境における目標指向運動のデモンストレーションから学ぶことで示される。

Inferring the intent of an intelligent agent from demonstrations and subsequently predicting its behavior, is a critical task in many collaborative settings. A common approach to solve this problem is the framework of inverse reinforcement learning (IRL), where the observed agent, e.g., a human demonstrator, is assumed to behave according to an intrinsic cost function that reflects its intent and informs its control actions. In this work, we reformulate the IRL inference problem to learning control Lyapunov functions (CLF) from demonstrations by exploiting the inverse optimality property, which states that every CLF is also a meaningful value function. Moreover, the derived CLF formulation directly guarantees stability of inferred control policies. We show the flexibility of our proposed method by learning from goal-directed movement demonstrations in a continuous environment.
翻訳日:2021-04-12 13:52:44 公開日:2021-04-09
# 部分多様体上の非リプシッツ最適化のためのリーマンスムージング急降下法

A Riemannian smoothing steepest descent method for non-Lipschitz optimization on submanifolds ( http://arxiv.org/abs/2104.04199v1 )

ライセンス: Link先を確認
Chao Zhang, Xiaojun Chen, Shiqian Ma(参考訳) 本稿では,部分多様体上の非凸および非リプシッツ関数を最小化するリーマン滑らかな最急降下法を提案する。 リーマン多様体上の一般化された部分微分とリーマン勾配部分矛盾を定義・議論する。 リーマンスムージング・急勾配法によって生成される列の任意の累積点が、元の非リプシッツ問題の局所最適性に必要となる手法で用いられる滑らか化関数に付随する定常点であることを証明した。 リーマン勾配部分矛盾条件の下では、任意の集積点が元の非リプシッツ問題のリーマン極限定常点であることも証明する。 提案手法の有効性を実証するために数値実験を行った。

In this paper, we propose a Riemannian smoothing steepest descent method to minimize a nonconvex and non-Lipschitz function on submanifolds. The generalized subdifferentials on Riemannian manifold and the Riemannian gradient sub-consistency are defined and discussed. We prove that any accumulation point of the sequence generated by the Riemannian smoothing steepest descent method is a stationary point associated with the smoothing function employed in the method, which is necessary for the local optimality of the original non-Lipschitz problem. Under the Riemannian gradient sub-consistency condition, we also prove that any accumulation point is a Riemannian limiting stationary point of the original non-Lipschitz problem. Numerical experiments are conducted to demonstrate the efficiency of the proposed method.
翻訳日:2021-04-12 13:52:30 公開日:2021-04-09
# (参考訳) uppsala nlp at semeval-2021 task 2: word-in-context disambiguationにおける微調整と特徴抽出のための多言語モデル

Uppsala NLP at SemEval-2021 Task 2: Multilingual Language Models for Fine-tuning and Feature Extraction in Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.03767v2 )

ライセンス: CC BY 4.0
Huiling You, Xingran Zhu and Sara Stymne(参考訳) 本論文では,多言語・多言語・言語間の単語間曖昧化に関するSemEval-2021タスク2へのUppsala NLPの提出について述べる。 XLM-RoBERTa(XLMR)、Multilingual BERT(mBERT)、Multilingual distilled BERT(mDistilBERT)の3つの事前学習言語モデルの有用性を検討した。 これら3つのモデルを微調整と特徴抽出の2つの設定で比較した。 2つ目のケースでは、依存性ベースの情報を使う実験も行います。 微調整は特徴抽出よりも優れている。 XLMRは細調整と特徴抽出の両方でmBERTよりも優れているが、これらの2つのモデルは多言語設定で同様の性能を示す。 mDistilBERTは微調整では性能が良くないが、特徴抽出器として使用する場合、他のモデルと同様の結果が得られる。 我々はXLMRとmBERTで微調整した2つの最良のシステムを提出した。

We describe the Uppsala NLP submission to SemEval-2021 Task 2 on multilingual and cross-lingual word-in-context disambiguation. We explore the usefulness of three pre-trained multilingual language models, XLM-RoBERTa (XLMR), Multilingual BERT (mBERT) and multilingual distilled BERT (mDistilBERT). We compare these three models in two setups, fine-tuning and as feature extractors. In the second case we also experiment with using dependency-based information. We find that fine-tuning is better than feature extraction. XLMR performs better than mBERT in the cross-lingual setting both with fine-tuning and feature extraction, whereas these two models give a similar performance in the multilingual setting. mDistilBERT performs poorly with fine-tuning but gives similar results to the other models when used as a feature extractor. We submitted our two best systems, fine-tuned with XLMR and mBERT.
翻訳日:2021-04-12 13:14:40 公開日:2021-04-09
# (参考訳) ORBIT:Teachable Object Recognitionのための実世界のFew-Shotデータセット

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition ( http://arxiv.org/abs/2104.03841v2 )

ライセンス: CC BY 4.0
Daniela Massiceti, Luisa Zintgraf, John Bronskill, Lida Theodorou, Matthew Tobias Harris, Edward Cutrell, Cecily Morrison, Katja Hofmann, Simone Stumpf(参考訳) オブジェクト認識は過去10年で大きな進歩を遂げてきたが、依然としてオブジェクトカテゴリごとに多くの高品質なトレーニング例に依存している。 対照的に、いくつかの例から新しいオブジェクトを学ぶことで、ロボット工学からユーザパーソナライズまで、多くのインパクトのあるアプリケーションが可能になる。 しかし、ほとんどの少数の機械学習研究は、現実世界にデプロイする際、これらのアプリケーションが直面する高いばらつきに欠けるベンチマークデータセットによって推進されている。 このギャップを埋めるため,我々は,視覚障害者を対象とした実世界の教示可能な物体認識システムとして,orbit datasetとbenchmarkを紹介する。 このデータセットには、携帯電話で視覚障害者が記録した486のオブジェクトの3,822本のビデオが含まれており、このベンチマークは現実的で非常に困難な認識問題を反映している。 我々は、ベンチマークで最初の最先端技術を設定し、さらなるイノベーションのための大きなスコープがあることを示し、ブラインド/ロービジョンコミュニティのためのツールを含む、幅広い現実世界のビジョンアプリケーションに影響を与える可能性を秘めている。 データセットはhttps://bit.ly/2OyElCjで、ベンチマークを実行するコードはhttps://bit.ly/39YgiUWで入手できる。

Object recognition has made great advances in the last decade, but predominately still relies on many high-quality training examples per object category. In contrast, learning new objects from only a few examples could enable many impactful applications from robotics to user personalization. Most few-shot learning research, however, has been driven by benchmark datasets that lack the high variation that these applications will face when deployed in the real-world. To close this gap, we present the ORBIT dataset and benchmark, grounded in a real-world application of teachable object recognizers for people who are blind/low vision. The dataset contains 3,822 videos of 486 objects recorded by people who are blind/low-vision on their mobile phones, and the benchmark reflects a realistic, highly challenging recognition problem, providing a rich playground to drive research in robustness to few-shot, high-variation conditions. We set the first state-of-the-art on the benchmark and show that there is massive scope for further innovation, holding the potential to impact a broad range of real-world vision applications including tools for the blind/low-vision community. The dataset is available at https://bit.ly/2OyElCj and the code to run the benchmark at https://bit.ly/39YgiUW.
翻訳日:2021-04-12 13:06:15 公開日:2021-04-09
# risk-conditioned distributional soft actor-critic for risk-sensitive navigation

Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive Navigation ( http://arxiv.org/abs/2104.03111v2 )

ライセンス: Link先を確認
Jinyoung Choi, Christopher R. Dance, Jung-eun Kim, Seulbin Hwang, Kyung-sik Park(参考訳) 深部強化学習(RL)に基づく現代のナビゲーションアルゴリズムは、有望な効率性と堅牢性を示す。 しかし、ほとんどの深いrlアルゴリズムはリスク中立な方法で動作し、たとえそのような遮蔽が性能の低下をほとんど起こさないとしても、ユーザーを比較的稀だが深刻な結果から守る特別な試みはしない。 さらに、そのようなアルゴリズムは訓練中のモデルの不正確さを確実にするために、訓練中にコスト・オブ・コリジョン(英語版)といくつかのドメイン・ランダム化を加える以外に、訓練対象の環境がひどく複雑であるにもかかわらず、規定を作らない。 本稿では,不確実性を認識したポリシを学習するだけでなく,コストのかかる微調整や再訓練を伴わずにリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。 本手法は,部分的に観測されたナビゲーションタスクにおいて,ベースラインよりも優れた性能と安全性を示す。 また,本手法を用いて訓練したエージェントが,実行時に幅広いリスク対策に適応できることを実証した。

Modern navigation algorithms based on deep reinforcement learning (RL) show promising efficiency and robustness. However, most deep RL algorithms operate in a risk-neutral manner, making no special attempt to shield users from relatively rare but serious outcomes, even if such shielding might cause little loss of performance. Furthermore, such algorithms typically make no provisions to ensure safety in the presence of inaccuracies in the models on which they were trained, beyond adding a cost-of-collision and some domain randomization while training, in spite of the formidable complexity of the environments in which they operate. In this paper, we present a novel distributional RL algorithm that not only learns an uncertainty-aware policy, but can also change its risk measure without expensive fine-tuning or retraining. Our method shows superior performance and safety over baselines in partially-observed navigation tasks. We also demonstrate that agents trained using our method can adapt their policies to a wide range of risk measures at run-time.
翻訳日:2021-04-12 11:33:10 公開日:2021-04-09
# BSTC: 大規模中国語-英語音声翻訳データセット

BSTC: A Large-Scale Chinese-English Speech Translation Dataset ( http://arxiv.org/abs/2104.03575v2 )

ライセンス: Link先を確認
Ruiqing Zhang, Xiyang Wang, Chuanqiang Zhang, Zhongjun He, Hua Wu, Zhi Li, Haifeng Wang, Ying Chen, Qinfei Li(参考訳) 本稿では,中国語と英語の大規模翻訳データセットであるBSTC(Baidu Speech Translation Corpus)を提案する。 このデータセットは、約68時間のマンダリンデータ、手作業による書き起こしと英語への翻訳、自動音声認識(asr)モデルによる自動書き起こしを含む、講演や講義のライセンスビデオのコレクションに基づいて構築されている。 さらに,3人の経験豊富なインタプリタに対して,モックカンファレンスの設定でテスト講演を同時に解釈するように依頼しました。 このコーパスは,自動同時翻訳の研究と実用システムの開発を促進することが期待されている。 同時翻訳タスクを整理し,このコーパスを用いて同時翻訳システムの評価を行った。

This paper presents BSTC (Baidu Speech Translation Corpus), a large-scale Chinese-English speech translation dataset. This dataset is constructed based on a collection of licensed videos of talks or lectures, including about 68 hours of Mandarin data, their manual transcripts and translations into English, as well as automated transcripts by an automatic speech recognition (ASR) model. We have further asked three experienced interpreters to simultaneously interpret the testing talks in a mock conference setting. This corpus is expected to promote the research of automatic simultaneous translation as well as the development of practical systems. We have organized simultaneous translation tasks and used this corpus to evaluate automatic simultaneous translation systems.
翻訳日:2021-04-12 11:32:53 公開日:2021-04-09
# OpenGAN: オープンデータ生成によるオープンセット認識

OpenGAN: Open-Set Recognition via Open Data Generation ( http://arxiv.org/abs/2104.02939v2 )

ライセンス: Link先を確認
Shu Kong, Deva Ramanan(参考訳) 実世界の機械学習システムは、トレーニングデータとは異なる新しいテストデータを分析する必要がある。 K-ウェイ分類において、これは開集合認識(英語版)(open-set recognition)として鮮明に定式化され、その中核はK閉集合クラス以外の開集合データを識別する能力である。 オープンセット識別のための概念的にエレガントな2つのアイデアは、1) 外部データをオープンセットとして活用することにより、オープンvs閉鎖二分判別器を識別的に学習し、2) 閉セットデータ分布をGANを用いて教師なし学習し、その識別器をオープンセット確率関数として利用する。 しかしながら、前者はトレーニングのアウトレーヤに過度に適合するため、様々なオープンテストデータに対して不完全な一般化を行う。 後者は、おそらくGANの不安定な訓練のため、うまく機能しない。 そこで我々はopenganを提案する。openganは複数の技術的洞察を組み合わせることで,それぞれのアプローチの限界に対処している。 まず,ある実データに対して慎重に選択されたgan判別器が,既に最先端の成果を実現できることを示す。 第2に、逆合成された「フェイク」データを用いて、実際のオープントレーニングのサンプルセットを拡大する。 第三に、私たちはクローズドワールドのKウェイネットワークによって計算される機能に対して、識別器を構築します。 大規模な実験により、OpenGANは以前のオープンセット法よりも大幅に優れていた。

Real-world machine learning systems need to analyze novel testing data that differs from the training data. In K-way classification, this is crisply formulated as open-set recognition, core to which is the ability to discriminate open-set data outside the K closed-set classes. Two conceptually elegant ideas for open-set discrimination are: 1) discriminatively learning an open-vs-closed binary discriminator by exploiting some outlier data as the open-set, and 2) unsupervised learning the closed-set data distribution with a GAN and using its discriminator as the open-set likelihood function. However, the former generalizes poorly to diverse open test data due to overfitting to the training outliers, which unlikely exhaustively span the open-world. The latter does not work well, presumably due to the instable training of GANs. Motivated by the above, we propose OpenGAN, which addresses the limitation of each approach by combining them with several technical insights. First, we show that a carefully selected GAN-discriminator on some real outlier data already achieves the state-of-the-art. Second, we augment the available set of real open training examples with adversarially synthesized "fake" data. Third and most importantly, we build the discriminator over the features computed by the closed-world K-way networks. Extensive experiments show that OpenGAN significantly outperforms prior open-set methods.
翻訳日:2021-04-12 11:32:42 公開日:2021-04-09
# SOLD2: 自己管理オクルージョン対応ライン記述と検出

SOLD2: Self-supervised Occlusion-aware Line Description and Detection ( http://arxiv.org/abs/2104.03362v2 )

ライセンス: Link先を確認
R\'emi Pautrat, Juan-Ting Lin, Viktor Larsson, Martin R. Oswald, Marc Pollefeys(参考訳) 特徴点の検出と記述と比較すると、ラインセグメントの検出とマッチングにはさらなる課題がある。 しかし、行機能はマルチビュータスクのポイントを補完する有望な機能である。 線は画像勾配によって明確に定義されており、テクスチャの悪い地域でもしばしば現れ、頑丈な構造的手がかりを提供する。 そこで本研究では,1つのディープネットワークにおいて,ラインセグメントの最初の共同検出と記述を導入する。 自己教師型トレーニングのおかげで、アノテーション付き行ラベルを必要としないため、任意のデータセットに一般化できる。 この検出器は、ワイヤフレーム解析アプローチから外れた画像中の線分を再現可能かつ正確な位置決めを提供する。 近年のディスクリプタ学習の進歩を生かして,提案した行記述子は非常に差別的であり,視点の変化や閉塞に頑健なままである。 我々は,ホモグラフィックワープと実世界の視点変化を用いた複数のマルチビューデータセットに対して,従来の線検出と記述手法に対するアプローチを評価する。 私たちの全パイプラインは、高い再現性、ローカライゼーションの正確さ、メトリクスのマッチングを実現し、学習した機能ポイントメソッドでギャップを埋めるための第一歩を示しています。 コードはhttps://github.com/cvg/SOLD2.comで入手できる。

Compared to feature point detection and description, detecting and matching line segments offer additional challenges. Yet, line features represent a promising complement to points for multi-view tasks. Lines are indeed well-defined by the image gradient, frequently appear even in poorly textured areas and offer robust structural cues. We thus hereby introduce the first joint detection and description of line segments in a single deep network. Thanks to a self-supervised training, our method does not require any annotated line labels and can therefore generalize to any dataset. Our detector offers repeatable and accurate localization of line segments in images, departing from the wireframe parsing approach. Leveraging the recent progresses in descriptor learning, our proposed line descriptor is highly discriminative, while remaining robust to viewpoint changes and occlusions. We evaluate our approach against previous line detection and description methods on several multi-view datasets created with homographic warps as well as real-world viewpoint changes. Our full pipeline yields higher repeatability, localization accuracy and matching metrics, and thus represents a first step to bridge the gap with learned feature points methods. Code and trained weights are available at https://github.com/cvg/SOLD2.
翻訳日:2021-04-12 11:32:17 公開日:2021-04-09
# TokenPose: 人間の視点推定のためのキーポイントトークンの学習

TokenPose: Learning Keypoint Tokens for Human Pose Estimation ( http://arxiv.org/abs/2104.03516v2 )

ライセンス: Link先を確認
Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, Erjin Zhou(参考訳) 人間のポーズ推定は、キーポイントを見つけるために部品間の視覚的手がかりと解剖学的制約に深く依存する。 しかし、既存のcnnベースのメソッドの多くは視覚的表現に優れており、キーポイント間の制約関係を明示的に学習する能力が欠けている。 本稿では,人間のポーズ推定のためのトークン表現(tokenpose)に基づく新しい手法を提案する。 詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。 広範な実験により、小規模および大規模のトークンポスモデルは、より軽量である一方で、最先端のcnnベースのモデルと同等であることが示された。 具体的には、私たちのTokenPose-SとTokenPose-Lはそれぞれ、COCO検証データセット上で72.5 APと75.8 APを達成し、パラメータ(\downarrow 80.6\%$; $\downarrow$56.8\%$)とGFLOPs$(\downarrow$ 75.3\%$; $\downarrow$24.7\%$)が大幅に削減される。

Human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing CNN-based methods do well in visual representation, however, lacking in the ability to explicitly learn the constraint relationships between keypoints. In this paper, we propose a novel approach based on Token representation for human Pose estimation~(TokenPose). In detail, each keypoint is explicitly embedded as a token to simultaneously learn constraint relationships and appearance cues from images. Extensive experiments show that the small and large TokenPose models are on par with state-of-the-art CNN-based counterparts while being more lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and 75.8 AP on COCO validation dataset respectively, with significant reduction in parameters ($\downarrow80.6\%$ ; $\downarrow$ $56.8\%$) and GFLOPs ($\downarrow$$ 75.3\%$; $\downarrow$ $24.7\%$).
翻訳日:2021-04-12 11:31:59 公開日:2021-04-09
# 複数の劣化を伴うブラインド超解法のための条件付きメタネットワーク

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations ( http://arxiv.org/abs/2104.03926v2 )

ライセンス: Link先を確認
Guanghao Yin, Wei Wang, Zehuan Yuan, Dongdong Yu, Shouqian Sun, Changhu Wang(参考訳) 単一画像の超解像法(SISR)は単一劣化において大きな成功を収めているが、実際のシナリオでは複数の劣化効果で性能低下を被っている。 近年,複数の劣化に対する盲目および非盲目モデルが検討されている。 しかし、これらの手法は通常、トレーニングデータとテストデータの間の分散シフトに対して著しく劣化する。 この目的に向けて,SRフレームワークが入力分布の変化に適応する方法を学ぶのに役立つ条件付きメタネットワークフレームワーク(CMDSR)を初めて提案する。 本稿では,基本SRネットワーク(BaseNet)のパラメータの適応に使用する条件ネットを用いて,タスクレベルでの劣化を抽出する。 具体的には、我々のフレームワークのConditionNetは、最初に、同じタスクから一連の劣化したイメージパッチで構成されたサポートセットから劣化を学習する。 そして、適応的なBaseNetは条件の特徴に応じてパラメータを素早くシフトします。 さらに, 劣化を早期に抽出するために, 内部タスク間距離を減少させ, タスクレベルの機能間のタスク間距離を増加させるタスクコントラスト損失を提案する。 劣化マップを事前に定義しなければ、我々のブラインドフレームワークは1つのパラメータを更新して、かなりのSR結果を得ることができる。 広範囲にわたる実験は、様々な盲目、さらには盲目の方法に対するCMDSRの有効性を示す。 柔軟なBaseNet構造は、CMDSRが大規模なSISRモデルの一般的なフレームワークであることを明らかにする。

Although single-image super-resolution (SISR) methods have achieved great success on single degradation, they still suffer performance drop with multiple degrading effects in real scenarios. Recently, some blind and non-blind models for multiple degradations have been explored. However, those methods usually degrade significantly for distribution shifts between the training and test data. Towards this end, we propose a conditional meta-network framework (named CMDSR) for the first time, which helps SR framework learn how to adapt to changes in input distribution. We extract degradation prior at task-level with the proposed ConditionNet, which will be used to adapt the parameters of the basic SR network (BaseNet). Specifically, the ConditionNet of our framework first learns the degradation prior from a support set, which is composed of a series of degraded image patches from the same task. Then the adaptive BaseNet rapidly shifts its parameters according to the conditional features. Moreover, in order to better extract degradation prior, we propose a task contrastive loss to decrease the inner-task distance and increase the cross-task distance between task-level features. Without predefining degradation maps, our blind framework can conduct one single parameter update to yield considerable SR results. Extensive experiments demonstrate the effectiveness of CMDSR over various blind, even non-blind methods. The flexible BaseNet structure also reveals that CMDSR can be a general framework for large series of SISR models.
翻訳日:2021-04-12 11:31:31 公開日:2021-04-09