このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210412となっている論文です。

PDF登録状況(公開日: 20210412)

TitleAuthorsAbstract論文公表日・翻訳日
# ベイズネットワークの量子回路表現

Quantum circuit representation of Bayesian networks ( http://arxiv.org/abs/2004.14803v2 )

ライセンス: Link先を確認
Sima E. Borujeni, Saideep Nannapaneni, Nam H. Nguyen, Elizabeth C. Behrman, James E. Steck(参考訳) ベイジアンネットワークのような確率的グラフィカルモデルは、確率的予測、リスク分析、システムヘルスモニタリングなどの様々な分析を行うために確率的システムをモデル化するために広く用いられている。 真の量子超越性の実証はいまだに稀だが、振幅増幅の利点を生かした量子コンピューティングアプリケーションは、古典的なものと比較すると大きな計算上の利点を示している。 本研究では、2つ以上の状態を持つノードを複数のキュービットにマッピングするノードを持つ、一般的な離散ベイズネットワークを表現するために、量子回路を設計する体系的手法を開発する。 根ノード(親ノードのないノード)に関連する限界確率を回転ゲートを用いて表現し、非根ノードに関連する条件付き確率テーブルを制御回転ゲートを用いて表現する。 複数の制御キュービットを有する制御された回転ゲートは、アンシラキュービットを用いて表現される。 提案手法は,4ノードの石油会社の株価予測,流動性リスク評価のための10ノードネットワーク,破産予測のための9ノードのネイブベイズ分類器の3例に対して実証された。 回路は量子コンピューティングプラットフォームであるQiskitを使って設計、シミュレーションされ、実際の量子ハードウェア上で動作することができる。 結果は、古典的ベイズネットワークの実装から得られたものに対して検証された。

Probabilistic graphical models such as Bayesian networks are widely used to model stochastic systems to perform various types of analysis such as probabilistic prediction, risk analysis, and system health monitoring, which can become computationally expensive in large-scale systems. While demonstrations of true quantum supremacy remain rare, quantum computing applications managing to exploit the advantages of amplitude amplification have shown significant computational benefits when compared against their classical counterparts. We develop a systematic method for designing a quantum circuit to represent a generic discrete Bayesian network with nodes that may have two or more states, where nodes with more than two states are mapped to multiple qubits. The marginal probabilities associated with root nodes (nodes without any parent nodes) are represented using rotation gates, and the conditional probability tables associated with non-root nodes are represented using controlled rotation gates. The controlled rotation gates with more than one control qubit are represented using ancilla qubits. The proposed approach is demonstrated for three examples: a 4-node oil company stock prediction, a 10-node network for liquidity risk assessment, and a 9-node naive Bayes classifier for bankruptcy prediction. The circuits were designed and simulated using Qiskit, a quantum computing platform that enables simulations and also has the capability to run on real quantum hardware. The results were validated against those obtained from classical Bayesian network implementations.
翻訳日:2023-05-21 19:18:49 公開日:2021-04-12
# 非局所分散補償によるQKDの実験的最適化

Experimentally optimizing QKD rates via nonlocal dispersion compensation ( http://arxiv.org/abs/2007.00362v3 )

ライセンス: Link先を確認
Sebastian Philipp Neumann, Domenico Ribezzo, Martin Bohmann and Rupert Ursin(参考訳) 量子鍵分布(QKD)は物理学の法則によって保証される無条件で安全な通信を可能にする。 過去数十年は、この技術を現実の条件下で実現可能にするために多大な努力をしてきた。 容易なガラスファイバー接続は、qkdに必要な単一光子を都市内および都市間リンクで分配するのに自然な選択である。 しかしながら、繊維ベースの実装は、時間的検出精度を劣化させる色分散を経験する。 これにより、qkdシステムの最大距離と達成可能な鍵レートが最終的に制限される。 本研究では,この限界を最大距離と鍵レートの両方に満たし,色分散効果を克服する有効な実装法を提案する。 絡み合った光子の周波数相関を利用して、非局所分散補償を用いて光子の時間相関を改善する。 本実験は,qkdに対する非局所分散補償の量子力学的効果を利用した最初の実装である。 実験により6.1ビットから228.3ビット/sまでのキーレートが6.46km以上で増加した。 提案手法は任意の繊維長と分散値に拡張可能であり,キーレートが大幅に増加し,QKDを強い分散がキー抽出を全くフラストレーションしない場所で有効にすることができる。

Quantum key distribution (QKD) enables unconditionally secure communication guaranteed by the laws of physics. The last decades have seen tremendous efforts in making this technology feasible under real-life conditions, with implementations bridging ever longer distances and creating ever higher secure key rates. Readily deployed glass fiber connections are a natural choice for distributing the single photons necessary for QKD both in intra- and intercity links. Any fiber-based implementation however experiences chromatic dispersion which deteriorates temporal detection precision. This ultimately limits maximum distance and achievable key rate of such QKD systems. In this work, we address this limitation to both maximum distance and key rate and present an effective and easy-to-implement method to overcome chromatic dispersion effects. By exploiting the entangled photons' frequency correlations, we make use of nonlocal dispersion compensation to improve the photons' temporal correlations. Our experiment is the first implementation utilizing the inherently quantum-mechanical effect of nonlocal dispersion compensation for QKD in this way. We experimentally show an increase in key rate from 6.1 to 228.3 bits/s over 6.46 km of telecom fiber. Our approach is extendable to arbitrary fiber lengths and dispersion values, resulting in substantially increased key rates and even enabling QKD in the first place where strong dispersion would otherwise frustrate key extraction at all.
翻訳日:2023-05-11 23:20:25 公開日:2021-04-12
# 量子絡み合い認識

Quantum entanglement recognition ( http://arxiv.org/abs/2007.14397v2 )

ライセンス: Link先を確認
Jun Yong Khoo and Markus Heyl(参考訳) 絡み合いは量子物質の重要な特徴である。 しかし、検出は依然として大きな課題に直面している。 本稿では,機械学習手法に基づく絡み合い検出のための枠組みを定式化する。 中心要素は、畳み込みニューラルネットワークを用いて画像分類を行う量子多体状態からの統計的画像生成のためのプロトコルである。 その結果、量子エンタングルメント認識タスクは正確であり、幅広い量子状態にわたってよく制御された誤差を割り当てることができる。 実験における量子エンタングルメントを定量化する手法の可能性について論じる。 本手法は、平衡および非平衡量子物質における量子絡み合い認識に広く適用可能な戦略を提供する。

Entanglement constitutes a key characteristic feature of quantum matter. Its detection, however, still faces major challenges. In this letter, we formulate a framework for probing entanglement based on machine learning techniques. The central element is a protocol for the generation of statistical images from quantum many-body states, with which we perform image classification by means of convolutional neural networks. We show that the resulting quantum entanglement recognition task is accurate and can be assigned a well-controlled error across a wide range of quantum states. We discuss the potential use of our scheme to quantify quantum entanglement in experiments. Our developed scheme provides a generally applicable strategy for quantum entanglement recognition in both equilibrium and nonequilibrium quantum matter.
翻訳日:2023-05-07 23:08:33 公開日:2021-04-12
# 非対称CHSH不等式を持つデバイス独立量子鍵分布

Device-independent quantum key distribution with asymmetric CHSH inequalities ( http://arxiv.org/abs/2007.16146v3 )

ライセンス: Link先を確認
Erik Woodhead, Antonio Ac\'in, and Stefano Pironio(参考訳) 最も単純なデバイスに依存しない量子鍵分散プロトコルは、chshベル不等式に基づいており、アリスとボブの2人のユーザーが十分な強い相関関係を観測すれば秘密鍵を生成することができる。 しかし、鍵を生成するのにアリスの測定値の1つしか使われていないプロトコルと、アリスの2つの測定値に対して対称なCHSH式との間にはミスマッチがある。 そこで我々は,Aliceの測定値に異なる重みを与えるベル表現の拡張系を用いることによる影響について検討した。 この非対称ベル表現の族を用いることで、特定の実験関連相関に対する鍵分布プロトコルのロバスト性が向上する。 一例として、許容誤差率は7.15%から7.42%に改善されている。 後処理の前にアリスの鍵にランダムノイズを加えると、しきい値はさらに8.34%を超える。 我々の研究の主な技術的成果は、非対称CHSH表現の族に対する量子盗聴器上で条件付けられたアリスの測定結果の1つであるフォン・ノイマンエントロピーの厳密な束縛であり、任意の量のノイズ前処理を可能にしている。

The simplest device-independent quantum key distribution protocol is based on the Clauser-Horne-Shimony-Holt (CHSH) Bell inequality and allows two users, Alice and Bob, to generate a secret key if they observe sufficiently strong correlations. There is, however, a mismatch between the protocol, in which only one of Alice's measurements is used to generate the key, and the CHSH expression, which is symmetric with respect to Alice's two measurements. We therefore investigate the impact of using an extended family of Bell expressions where we give different weights to Alice's measurements. Using this family of asymmetric Bell expressions improves the robustness of the key distribution protocol for certain experimentally-relevant correlations. As an example, the tolerable error rate improves from 7.15% to about 7.42% for the depolarising channel. Adding random noise to Alice's key before the postprocessing pushes the threshold further to more than 8.34%. The main technical result of our work is a tight bound on the von Neumann entropy of one of Alice's measurement outcomes conditioned on a quantum eavesdropper for the family of asymmetric CHSH expressions we consider and allowing for an arbitrary amount of noise preprocessing.
翻訳日:2023-05-07 12:32:49 公開日:2021-04-12
# コヒーレント駆動永久双極子系によるマイクロ波多重光子変換

Microwave multiphoton conversion via coherently driven permanent dipole systems ( http://arxiv.org/abs/2008.05419v2 )

ライセンス: Link先を確認
Alexandra Mirzac, Sergiu Carlig and Mihai A. Macovei(参考訳) 単一モード量子化キャビティフィールドと永久双極子を持つ共振駆動2レベル系の多光子量子力学について検討した。 相互作用するサブシステムの周波数は、例えば空洞のマイクロ波範囲と、2レベルエミッターの周波数の光学領域とは大きく異なると考えられている。 このように、エミッタは対角双極子モーメントのみを介して共振器モードに結合する。 さらに、2レベルサブシステムの外部コヒーレント駆動を形成する一般化rabi周波数は、共振器の周波数またはその倍数と大きく異なると仮定する。 その結果、この非常に分散した相互作用機構は、キャビティの多光子量子ダイナミクスと光からマイクロ波への光子変換にそれぞれ責任を負う。

We investigate the multiphoton quantum dynamics of a leaking single-mode quantized cavity field coupled with a resonantly driven two-level system possessing permanent dipoles. The frequencies of the interacting subsystems are being considered very different, e.g., microwave ranges for the cavity and optical domains for the frequency of the two-level emitter, respectively. In this way, the emitter couples to the resonator mode via its diagonal dipole moments only. Furthermore, the generalized Rabi frequency resulting form the external coherent driving of the two-level subsystem is assumed as well different from the resonator's frequency or its multiples. As a consequence, this highly dispersive interaction regime is responsible for the cavity multiphoton quantum dynamics and photon conversion from optical to microwave ranges, respectively.
翻訳日:2023-05-06 11:38:39 公開日:2021-04-12
# 量子力学における位相空間軌道

Phase space trajectories in quantum mechanics ( http://arxiv.org/abs/2008.11934v2 )

ライセンス: Link先を確認
Christoph N\"olle(参考訳) 量子力学の適応的な表現は、量子状態と古典状態の関係に新しい光を放つ。 このアプローチでは、量子状態の空間は古典力学とヒルベルト空間の状態空間の積に分裂し、観測可能な状態の期待値は古典的な値と量子補正に分解される。 分裂は特定の仮定の下でシュリンガー方程式の時間発展の下で保存され、量子状態の古典的な部分の時間進化はハミルトン方程式によって制御される。 新しい表現は、時間依存のユニタリ変換においてゲージ自由度を導入し、続いて非伝統的なゲージ固定条件を導入することで、通常の量子力学のヒルベルト空間表現から得られる。

An adapted representation of quantum mechanics sheds new light on the relationship between quantum states and classical states. In this approach the space of quantum states splits into a product of the state space of classical mechanics and a Hilbert space, and expectation values of observables decompose into their classical value plus a quantum correction. The splitting is preserved under time evolution of the Schr\"odinger equation under certain assumptions, and the time evolution of the classical part of a quantum state is governed by Hamilton's equation. The new representation is obtained from the usual Hilbert space representation of quantum mechanics by introducing a gauge degree of freedom in a time-dependent unitary transformation, followed by a non-conventional gauge fixing condition.
翻訳日:2023-05-04 19:46:01 公開日:2021-04-12
# ボゾン量子ビットを用いた回路QEDにおける量子情報処理

Quantum information processing with bosonic qubits in circuit QED ( http://arxiv.org/abs/2008.13471v3 )

ライセンス: Link先を確認
Atharv Joshi, Kyungjoo Noh, Yvonne Y. Gao(参考訳) 量子論のユニークな特徴は、情報処理の強力な新しいパラダイムを提供する。 これらの数学的抽象化を有用なアルゴリズムや応用に変換するには、かなりの複雑さと十分なエラー率を持つ量子システムが必要である。 このような量子システムは、コヒーレントに格納、処理、抽出できる堅牢なハードウェアから作られ、エラーを検出し、修正するための効果的な量子エラー訂正(QEC)プロトコルを持つ必要がある。 回路量子電磁力学(cQED)は、堅牢な量子デバイスを実装するための有望なハードウェアプラットフォームを提供する。 特に、超伝導キャビティの多光子状態を用いて情報を符号化するcQEDのボゾン符号化は、ハードウェア効率の良いQECの実現に成功している。 本稿では, ボソニック符号を用いた量子誤り訂正の理論と実装の最近の展開を概観し, cQEDデバイスによるフォールトトレラントな量子情報処理の実現に向けた進展を報告する。

The unique features of quantum theory offer a powerful new paradigm for information processing. Translating these mathematical abstractions into useful algorithms and applications requires quantum systems with significant complexity and sufficiently low error rates. Such quantum systems must be made from robust hardware that can coherently store, process, and extract the encoded information, as well as possess effective quantum error correction (QEC) protocols to detect and correct errors. Circuit quantum electrodynamics (cQED) provides a promising hardware platform for implementing robust quantum devices. In particular, bosonic encodings in cQED that use multi-photon states of superconducting cavities to encode information have shown success in realizing hardware-efficient QEC. Here, we review recent developments in the theory and implementation of quantum error correction with bosonic codes and report the progress made towards realizing fault-tolerant quantum information processing with cQED devices.
翻訳日:2023-05-04 05:43:45 公開日:2021-04-12
# 偏波量子ビットをもつシュウィンガーハミルトンの変分シミュレーション

Variational Simulation of Schwinger's Hamiltonian with Polarisation Qubits ( http://arxiv.org/abs/2009.09551v3 )

ライセンス: Link先を確認
O. V. Borzenkova (1), G. I. Struchalin (2), A. S. Kardashin (1), V. V. Krasnikov (2), N. N. Skryabin (2), S. S. Straupe (2), S. P. Kulik (2), J. D. Biamonte (1) ((1) Skolkovo Institute of Science and Technology, (2) Quantum Technology Centre and Faculty of Physics M. V. Lomonosov Moscow State University)(参考訳) 量子物理学と量子化学の数値的なエミュレーションは、しばしば難解な数の自由を伴い、一般に知られている近似は認めない。 実際、利用可能な数値法を用いて量子力学的状態を表現することは、システムのサイズを増やすことで指数関数的に困難になる。 近年,このようなシミュレーションを高速化するために,変分モデルとして実装された量子アルゴリズムが提案されている。 本稿では,シュウィンガーモデルの量子相転移に対する雑音の影響について,変分的枠組みを用いて検討する。 実験は、自由空間光学的スキームを用いて、一対の偏光量子ビットを実現し、任意の2量子状態が機械の耐久性に実験的に準備できるようにする。 特に,分極量子ビットのノイズとデコヒーレンスを設計できる可能性を利用して,ノイズ量子ビットを用いた量子相転移の同定と定量化において,nisqアーキテクチャの変分アルゴリズムの限界を探索する。 雑音が存在するにもかかわらず、変分量子アルゴリズムを用いて2量子ビット系においてもシュウィンガーハミルトニアンの相転移を検出できることがわかった。

The numerical emulation of quantum physics and quantum chemistry often involves an intractable number of degrees of freedom and admits no known approximation in general form. In practice, representing quantum-mechanical states using available numerical methods becomes exponentially more challenging with increasing system size. Recently quantum algorithms implemented as variational models, have been proposed to accelerate such simulations. Here we study the effect of noise on the quantum phase transition in the Schwinger model, within a variational framework. The experiments are built using a free space optical scheme to realize a pair of polarization qubits and enable any two-qubit state to be experimentally prepared up to machine tolerance. We specifically exploit the possibility to engineer noise and decoherence for polarization qubits to explore the limits of variational algorithms for NISQ architectures in identifying and quantifying quantum phase transitions with noisy qubits. We find that despite the presence of noise one can detect the phase transition of the Schwinger Hamiltonian even for a two-qubit system using variational quantum algorithms.
翻訳日:2023-05-01 11:28:04 公開日:2021-04-12
# 電磁界の量子分布

Quantum Distributions for the Electromagnetic Field ( http://arxiv.org/abs/2010.05790v3 )

ライセンス: Link先を確認
M. Grigorescu(参考訳) 古典波のコヒーレンス特性は、波動方程式のコーシー問題とハミルトン系のアンサンブルによる離散表現の観点から議論される。 波動量子は特定の「作用場」と関連しており、フォノンと光子の位相空間分布はウィグナー変換によって得られる。 熱環境における光子に対しては、提案するウィグナー関数はプランク平衡分布へと発展する。 自由電磁場は、複素ベクトルポテンシャルによって記述された一定のヘリシティの状態でも見られることが示されている。

The coherence properties of the classical waves are discussed in terms of the Cauchy problem for the wave equation, and of a discrete representation by an ensemble of Hamiltonian systems. Wave quanta are related to specific "action fields", and phase-space distributions of phonons and photons are obtained by Wigner transform. For photons in a thermal environment, the proposed Wigner function evolves towards the Planck equilibrium distribution. It is shown that the free electromagnetic field can also be found in states of definite helicity, described by a complex vector potential.
翻訳日:2023-04-29 07:19:21 公開日:2021-04-12
# 長距離ホッピングによる障害増強・障害非依存輸送:光学キャビティにおける分子鎖への応用

Disorder-Enhanced and Disorder-Independent Transport with Long-Range Hopping: Application to Molecular Chains in Optical Cavities ( http://arxiv.org/abs/2010.08060v2 )

ライセンス: Link先を確認
Nahum C. Ch\'avez, Francesco Mattiotti, J. A. M\'endez-Berm\'udez, Fausto Borgonovi, and G. Luca Celardo(参考訳) ナノスケールにおける障害の有害な影響を克服することは、障害が局在を誘導し、輸送効率を指数的に抑制するため非常に難しい。 ここでは、長距離ホッピングを利用してナノシステムで実現可能な、新規で堅牢な量子輸送機構を紹介する。 長距離ホッピングの存在下での1次元無秩序ナノ構造において,最初は障害とともに指数関数的に減少し,その後,障害(不整合輸送(disorder-enhanced transport, DET)体制)によって増強され,逆に非依存輸送(disorder-independent transport, DIT)体制に達することが実証された。 この結果の妥当性を明らかにするため,キャビティ内のエミッタのアンサンブルを有効長距離ハミルトニアンによって記述できることを実証する。 光キャビティに不規則な分子線を配置した特定のケースについて論じ、DITとDETは最先端の実験装置で到達可能であることを示した。

Overcoming the detrimental effect of disorder at the nanoscale is very hard since disorder induces localization and an exponential suppression of transport efficiency. Here we unveil novel and robust quantum transport regimes achievable in nanosystems by exploiting long-range hopping. We demonstrate that in a 1D disordered nanostructure in the presence of long-range hopping, transport efficiency, after decreasing exponentially with disorder at first, is then enhanced by disorder [disorder-enhanced transport (DET) regime] until, counterintuitively, it reaches a disorder-independent transport (DIT) regime, persisting over several orders of disorder magnitude in realistic systems. To enlighten the relevance of our results, we demonstrate that an ensemble of emitters in a cavity can be described by an effective long-range Hamiltonian. The specific case of a disordered molecular wire placed in an optical cavity is discussed, showing that the DIT and DET regimes can be reached with state-of-the-art experimental setups.
翻訳日:2023-04-29 00:07:52 公開日:2021-04-12
# SIC-POVMとMUMのエントロピー不確実性関係

Entropic uncertainty relations for SIC-POVMs and MUMs ( http://arxiv.org/abs/2011.00808v3 )

ライセンス: Link先を確認
Shan Huang, Zeng-Bing Chen, and Shengjun Wu(参考訳) 我々はR\'{e}nyi エントロピーと確率分布の一致の指標との間に不等式を構築し、有限次元系における一般対称情報完全正値測度(SIC-POVM)と相互非偏差測度(MUM)に対する状態依存エントロピー不確実性関係を改善する。 一般SIC-POVMとMUM間の不確実性関係は、十分に混合された状態に対して厳密であり、さらに、数値的に最適な結果との比較は情報ダイアグラムを用いて行われる。

We construct inequalities between R\'{e}nyi entropy and the indexes of coincidence of probability distributions, based on which we obtain improved state-dependent entropic uncertainty relations for general symmetric informationally complete positive operator-valued measures (SIC-POVM) and mutually unbiased measurements (MUM) on finite dimensional systems. We show that our uncertainty relations for general SIC-POVMs and MUMs can be tight for sufficiently mixed states, and moreover, comparisons to the numerically optimal results are made via information diagrams.
翻訳日:2023-04-26 01:59:27 公開日:2021-04-12
# 非単位ランクプロジェクタによる状態独立量子文脈性

State-independent quantum contextuality with projectors of nonunit rank ( http://arxiv.org/abs/2011.04048v2 )

ライセンス: Link先を確認
Zhen-Peng Xu, Xiao-Dong Yu, Matthias Kleinmann(参考訳) 量子的文脈性の分析の全ては、事象がランクワンプロジェクタによって表現される場合に限られる。 この制限は任意であり、物理的な考慮によって動機づけられない。 ここでは、階数制約を緩めることで、量子的文脈性の新たな領域が開き、状態非依存的文脈性は非単位階数プロジェクタさえ必要であることを示す。 これにより、13プロジェクタ未満の状態独立な文脈性が可能となり、これはランク1の場合の確立された最小値である。 任意のランクに対して、少なくとも9つのプロジェクタが必要であることを証明します。 さらに、徹底的な数値探索では、全てのプロジェクターがランク2のときやランク3のときも、13のプロジェクターは最小である。

Virtually all of the analysis of quantum contextuality is restricted to the case where events are represented by rank-one projectors. This restriction is arbitrary and not motivated by physical considerations. We show here that loosening the rank constraint opens a new realm of quantum contextuality and we demonstrate that state-independent contextuality can even require projectors of nonunit rank. This enables the possibility of state-independent contextuality with less than 13 projectors, which is the established minimum for the case of rank one. We prove that for any rank, at least 9 projectors are required. Furthermore, in an exhaustive numerical search we find that 13 projectors are also minimal for the cases where all projectors are uniformly of rank two or uniformly of rank three.
翻訳日:2023-04-24 23:18:59 公開日:2021-04-12
# ハイブリッド量子コンピューティング-分割問題に対するタブ探索アルゴリズム-トラベリングセールスマン問題に関する予備的検討

Hybrid Quantum Computing -- Tabu Search Algorithm for Partitioning Problems: preliminary study on the Traveling Salesman Problem ( http://arxiv.org/abs/2012.04984v2 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Aitor Moreno-Fernandez-de-Leceta(参考訳) 量子コンピューティングはコンピューティングの次のフロンティアと見なされており、現在の科学コミュニティから多くの注目を集めている。 この種の計算は、複雑な最適化問題に対処するための革新的なパラダイムを研究者に与え、大幅な高速化と効率的な検索能力を提供する。 いずれにせよ、量子コンピューティングはまだ開発の初期段階にある。 このため,本論文の実施を動機づけた,一定の制約を示すアーキテクチャが提案されている。 本稿では, ハイブリッド量子コンピューティング (hybrid quantum computing, tabu search algorithm) という新しい解法を提案する。 提案手法の主な運用柱は、量子資源へのアクセスの制御の強化と、収益性のないアクセスの大幅な削減である。 提案手法の質を評価するため、7種類のトラベリングセールスマン問題をベンチマークセットとして使用した。 得られた結果は,本アルゴリズムが量子コンピューティング資源へのアクセスを大幅に削減しつつ,分割問題の解決に有望な結果をもたらすという予備的な結論を支持する。 また,初期化手法として進化的マルチフォームマルチタスクアルゴリズムを開発することにより,転送最適化の分野に寄与する。

Quantum Computing is considered as the next frontier in computing, and it is attracting a lot of attention from the current scientific community. This kind of computation provides to researchers with a revolutionary paradigm for addressing complex optimization problems, offering a significant speed advantage and an efficient search ability. Anyway, Quantum Computing is still in an incipient stage of development. For this reason, present architectures show certain limitations, which have motivated the carrying out of this paper. In this paper, we introduce a novel solving scheme coined as hybrid Quantum Computing - Tabu Search Algorithm. Main pillars of operation of the proposed method are a greater control over the access to quantum resources, and a considerable reduction of non-profitable accesses. To assess the quality of our method, we have used 7 different Traveling Salesman Problem instances as benchmarking set. The obtained outcomes support the preliminary conclusion that our algorithm is an approach which offers promising results for solving partitioning problems while it drastically reduces the access to quantum computing resources. We also contribute to the field of Transfer Optimization by developing an evolutionary multiform multitasking algorithm as initialization method.
翻訳日:2023-04-21 08:18:35 公開日:2021-04-12
# 自己放電における2レベル電池の量子利用

Quantum advantage of two-level batteries in self-discharging process ( http://arxiv.org/abs/2012.11996v2 )

ライセンス: Link先を確認
Alan C. Santos(参考訳) 量子システムの自由度でエネルギーを保存するのに量子アドバンテージを使用するデバイスは、量子電池として働く特性のために注目を集めている。 しかし、これらのデバイスの実際の製造プロセスの前に適切に解決する必要がある多くの問題を特定できる。 特に、消費中心が接続されていない場合のエネルギー保存における量子電池の能力に注意を払うことが重要である。 本稿では,外部の充電場と消費センタから切り離された量子電池を考えることで,周辺環境への電荷リークにつながるデコヒーレンス効果について検討する。 この現象をQBの自己放電とみなし、従来の古典電池の蓄積電荷が開回路構成で本質的に減衰するのと類似している。 古典的相反する量子的優位性は、単セルおよび多セル量子電池において強調される。

Devices that use quantum advantages for storing energy in the degree of freedom of quantum systems have drawn attention due to their properties of working as quantum batteries. However, one can identify a number of problems that need to be adequately solved before a real manufacturing process of these devices. In particular, it is important paying attention to the ability of quantum batteries in storing energy when no consumption center is connected to them. In this paper, by considering quantum batteries disconnected from external charging fields and consumption center, we study the decoherence effects that lead to charge leakage to the surrounding environment. We identify this phenomena as a self-discharging of QBs, in analogy to the inherent decay of the stored charge of conventional classical batteries in a open-circuit configuration. The quantum advantage concerning the classical counterpart is highlighted for single- and multi-cell quantum batteries.
翻訳日:2023-04-19 22:04:37 公開日:2021-04-12
# 数体限界における相互作用するボソンの動的局在

Dynamical localization of interacting bosons in the few-body limit ( http://arxiv.org/abs/2012.14339v2 )

ライセンス: Link先を確認
Radu Chicireanu and Adam Ran\c{c}on(参考訳) 量子キックローターは、非相互作用極限における動的局在を示すことがよく知られている。 相互作用の場合、平均場(Gross-Pitaevskii)近似は動的局在の破壊を示すが、その運命は平均場を超えて議論されている。 ここでは、蹴り上げられたリーブ・ライニガー模型を小体極限で研究する。 いずれの相互作用強度においても、2つの相互作用するボソンは常に動的に局所化され、系のエネルギーは長時間飽和する。 しかし、相互作用しない極限とは対照的に、ボソンの運動量分布$\Pi(k)$は指数関数的に局所化されないが、相互作用する量子粒子に対して予想される$\mathcal C/k^4$として崩壊する。 我々は,この結果が,蹴りと相互作用するボソンの実験的研究に与える影響について論じる。

The quantum kicked rotor is well-known to display dynamical localization in the non-interacting limit. In the interacting case, while the mean-field (Gross-Pitaevskii) approximation displays a destruction of dynamical localization, its fate remains debated beyond mean-field. Here we study the kicked Lieb-Liniger model in the few-body limit. We show that for any interaction strength, two kicked interacting bosons always dynamically localize, in the sense that the energy of the system saturates at long time. However, contrary to the non-interacting limit, the momentum distribution $\Pi(k)$ of the bosons is not exponentially localized, but decays as $\mathcal C/k^4$, as expected for interacting quantum particles, with Tan's contact $\mathcal C$ which remains finite at long time. We discuss how our results will impact the experimental study of kicked interacting bosons.
翻訳日:2023-04-19 01:49:31 公開日:2021-04-12
# 動的感受性の教育的導出

A pedagogical derivation of dynamical susceptibilities ( http://arxiv.org/abs/2101.05170v3 )

ライセンス: Link先を確認
R.D. Nesselrodt, J.K. Freericks(参考訳) 動的二粒子サセプティビライトは、凝縮物質物理学など様々な実験において重要である。 それにもかかわらず、ほとんどの教科書はそのような応答関数を導出する方法の説明を避けている。 文献では、ほとんどの導出はより一般的であるがより複雑な層を必要とする一般的な感受性を扱う。 本研究では,不純物モデルに直接写像できるモデルハミルトニアンの文脈において,より直接的な導出を示す。 また,falicov-kimballモデルの文脈における既約頂点の代替導出についても述べる。

Dynamical two-particle susceptibilites are important for a wide range of different experiments in condensed-matter physics and beyond. Nevertheless, most textbooks avoid describing how to derive such response functions, perhaps because they are viewed as too complex. In the literature, most derivations work with generalized susceptibilities, which are more general, but require an even higher layer of complexity. In this work, we show a more direct derivation in the context of model Hamiltonians which can be mapped directly onto an impurity model. We also present an alternative derivation for the irreducible vertex in the context of the Falicov-Kimball model.
翻訳日:2023-04-15 17:30:48 公開日:2021-04-12
# 導波路に沿って閉じ込められた原子配列の単一集団励起-異なる原子鎖構成のための協調放出の研究

Single collective excitation of an atomic array trapped along a waveguide: a study of cooperative emission for different atomic chain configurations ( http://arxiv.org/abs/2101.05398v2 )

ライセンス: Link先を確認
V. A. Pivovarov, L. V. Gerasimov, J. Berroir, T. Ray, J. Laurat, A. Urvoy and D. V. Kupriyanov(参考訳) ナノスケールの導波路の近くに閉じ込められた秩序原子配列は、量子情報や量子非線形光学への応用を含む、オリジナルの光マッターインタフェースを提供する。 ここでは,導波路に結合した単一集合原子励起の減衰ダイナミクスを異なる構成で研究する。 原子は線形配列として配列され、その一部だけが超ラジカルモードに励起され、導波路に光を放出する。 一方または両側に付加された原子鎖は、この放出を反射または吸収する受動的役割を果たす。 形状が変化すると、そのような1次元の原子系が放出された光をリダイレクトし、方向を小さくしたり、強化したりすることができ、場合によっては、系を囲む原子鏡によって形成された空洞に局在させることが示される。

Ordered atomic arrays trapped in the vicinity of nanoscale waveguides offer original light-matter interfaces, with applications to quantum information and quantum non-linear optics. Here, we study the decay dynamics of a single collective atomic excitation coupled to a waveguide in different configurations. The atoms are arranged as a linear array and only a segment of them is excited to a superradiant mode and emits light into the waveguide. Additional atomic chains placed on one or both sides play a passive role, either reflecting or absorbing this emission. We show that when varying the geometry, such a one-dimensional atomic system could be able to redirect the emitted light, to directionally reduce or enhance it, and in some cases to localize it in a cavity formed by the atomic mirrors bounding the system.
翻訳日:2023-04-15 05:28:48 公開日:2021-04-12
# 1+1)-進化戦略の収束速度と凸二次関数上のステップサイズ適応

Convergence Rate of the (1+1)-Evolution Strategy with Success-Based Step-Size Adaptation on Convex Quadratic Functions ( http://arxiv.org/abs/2103.01578v2 )

ライセンス: Link先を確認
Daiki Morinaga, Kazuto Fukuchi, Jun Sakuma, and Youhei Akimoto(参考訳) 1+1)-進化戦略 (es) は、一般凸二次関数とその単調変換、すなわち、$f(x) = g((x - x^*)^\mathrm{t} h (x - x^*))$, ここで $g:\mathbb{r}\to\mathbb{r}$ は厳密に増加する関数であり、$h$ は正定値対称行列であり、$x^* \in \mathbb{r}^d$ は$f$の最適解である。 収束率、すなわち、探索点 $m_t$ から最適解 $x^*$ への距離の減少率は、$O(\exp( - L / \mathrm{Tr}(H) )$ で証明され、$L$ は$H$ の最小固有値であり、$\mathrm{Tr}(H)$ は$H$ のトレースである。 この結果は、$H = I_{d}$$$(\exp(- 1/d ))$(I_d$ is the identity matrix of dimension $d$)と$O(\exp(- 1/ (d\cdot\xi) )$ for the case of $H = \mathrm{diag}(\xi \cdot I_{d/2}, I_{d/2})$の既知レートを一般化する。 我々の知る限り、これは (1+1)-ES の収束速度が一般凸二次函数上で明示的に厳密に導出される最初の研究であり、これはHessian $H$ における固有値の分布が最適化に与える影響だけでなく、条件数$H$ の影響も表すものである。

The (1+1)-evolution strategy (ES) with success-based step-size adaptation is analyzed on a general convex quadratic function and its monotone transformation, that is, $f(x) = g((x - x^*)^\mathrm{T} H (x - x^*))$, where $g:\mathbb{R}\to\mathbb{R}$ is a strictly increasing function, $H$ is a positive-definite symmetric matrix, and $x^* \in \mathbb{R}^d$ is the optimal solution of $f$. The convergence rate, that is, the decrease rate of the distance from a search point $m_t$ to the optimal solution $x^*$, is proven to be in $O(\exp( - L / \mathrm{Tr}(H) ))$, where $L$ is the smallest eigenvalue of $H$ and $\mathrm{Tr}(H)$ is the trace of $H$. This result generalizes the known rate of $O(\exp(- 1/d ))$ for the case of $H = I_{d}$ ($I_d$ is the identity matrix of dimension $d$) and $O(\exp(- 1/ (d\cdot\xi) ))$ for the case of $H = \mathrm{diag}(\xi \cdot I_{d/2}, I_{d/2})$. To the best of our knowledge, this is the first study in which the convergence rate of the (1+1)-ES is derived explicitly and rigorously on a general convex quadratic function, which depicts the impact of the distribution of the eigenvalues in the Hessian $H$ on the optimization and not only the impact of the condition number of $H$.
翻訳日:2023-04-09 12:22:21 公開日:2021-04-12
# ディリクレ超球面点とノイマン超球面点の量子情報測度

Quantum information measures of the Dirichlet and Neumann hyperspherical dots ( http://arxiv.org/abs/2103.13094v2 )

ライセンス: Link先を確認
O. Olendski(参考訳) ディリクレあるいはノイマン境界条件(英語版)(bcs)を持つ超球面量子ドット(英語版)$\mathtt{d}$-dimensional hyperspherical quantum dot)は位置空間におけるschr\"{o}dinger方程式の解析解を可能とし、対応する波動関数のフーリエ変換も運動量に対応する解析形式へと導く。 これはシャノン、r\'{e}nyi、tsallis entropies、onicescu energies、fisher informationのいずれの空間においても効率的な計算への道を開く。 量子情報測度に対するエッジ要求の影響の比較研究は、1パラメータの運動量エントロピーが存在する次元のない r\'{e}nyi/tsallis 係数の半無限範囲の閾値がディリクレ超球に対して $\mathtt{d}/(\mathtt{d}+3)$ であり、ノイマン測度に対して $\mathtt{d}/(\mathtt{d}+1)$ であることを示している。 同時に、これは、位置 $r_\rho(\alpha)$ と波動ベクトル $r_\gamma\left(\frac{\alpha}{2\alpha-1}\right)$ の和に対する r\'{e}nyi の不確かさ関係が内側にある区間 $[1/2,\alpha_r)$ の上限を課す: $\alpha_r$ はディリクレ幾何学において $\matht{d}/(\matht{d}-3)$ であり、ノイマン bc に対して $\matht{d}/(\matht{d}-1)$ となる。 他の性質は、数学的および物理的観点から議論される。 水素原子の対応する性質に平行に描画され、関連する波動関数の解析に基づいて類似性や相違が説明される。

$\mathtt{d}$-dimensional hyperspherical quantum dot with either Dirichlet or Neumann boundary conditions (BCs) allows analytic solution of the Schr\"{o}dinger equation in position space and the Fourier transform of the corresponding wave function leads to the analytic form of its momentum counterpart too. This paves the way to an efficient computation in either space of Shannon, R\'{e}nyi and Tsallis entropies, Onicescu energies and Fisher informations; for example, for the latter measure, some particular orbitals exhibit simple expressions in either space at any BC type. A comparative study of the influence of the edge requirement on the quantum information measures proves that the lower threshold of the semi-infinite range of the dimensionless R\'{e}nyi/Tsallis coefficient where one-parameter momentum entropies exist is equal to $\mathtt{d}/(\mathtt{d}+3)$ for the Dirichlet hyperball and $\mathtt{d}/(\mathtt{d}+1)$ for the Neumann one what means that at the unrestricted growth of the dimensionality both measures have their Shannon fellow as the lower verge. Simultaneously, this imposes the restriction on the upper value of the interval $[1/2,\alpha_R)$ inside which the R\'{e}nyi uncertainty relation for the sum of the position $R_\rho(\alpha)$ and wave vector $R_\gamma\left(\frac{\alpha}{2\alpha-1}\right)$ components is defined: $\alpha_R$ is equal to $\mathtt{d}/(\mathtt{d}-3)$ for the Dirichlet geometry and to $\mathtt{d}/(\mathtt{d}-1)$ for the Neumann BC. Some other properties are discussed from mathematical and physical points of view. Parallels are drawn to the corresponding properties of the hydrogen atom and similarities and differences are explained based on the analysis of the associated wave functions.
翻訳日:2023-04-06 23:52:41 公開日:2021-04-12
# ファラデーケージアングルエッチング法による全ダイヤモンド走査プローブの開発

Development of All-Diamond Scanning Probes Based on Faraday Cage Angled Etching Techniques ( http://arxiv.org/abs/2104.03680v2 )

ライセンス: Link先を確認
C. Giese, P. Quellmalz and P. Knittel(参考訳) 本研究では,Faraday cage angled etching (FCAE) 法を利用した単結晶ダイヤモンド走査プローブの創製法を提案する。 電子ビームリソグラフィー (EBL) と誘導結合プラズマ (ICP) エッチングは、しばしば達成可能なダイヤモンド構造のジオメトリーをアスペクト比と複雑さで制限する。 これは窒素空孔(NV)中心磁束走査プローブの実現など、課題を提起する。 平面設計とFCAEを組み合わせることで、ナノオプトメカニカルダイヤモンドデバイスの確立した製造技術に対していくつかの利点がある。 本稿では,両手法の直接比較と,走査型プローブ応用のための最初の概念実証FCAEプロトタイプについて報告する。

We are proposing a novel fabrication method for single crystal diamond scanning probes, exploiting the method of Faraday cage angled etching (FCAE). Electron-beam lithography (EBL) and inductively coupled plasma (ICP) etching as state-of-the-art method is often limiting the achievable diamond structure geometries in aspect ratio and complexity. This poses challenges, e.g., for realizing nitrogen vacancy (NV) centre magnetometry scanning probes. Combining a planar design with FCAE offers several advantages over the established fabrication technology of nano-opto-mechanical diamond devices. Here, we report on the direct comparison of both approaches and present first proof-of-concept FCAE-prototypes for scanning probe applications.
翻訳日:2023-04-04 12:16:05 公開日:2021-04-12
# アダマール量子ウォークを出生・死亡過程の特異な事例にマッピングする

Mapping a Hadamard Quantum Walk to a Unique Case of a Birth and Death Process ( http://arxiv.org/abs/2104.04286v2 )

ライセンス: Link先を確認
Arie Bar-Haim(参考訳) 新しいモデルは、ハダマール作用素によって記述された量子ランダムウォークを、生死過程の特定のケースにマップする。 このモデルは、確率行列を持つ2次元マルコフ連鎖、すなわち全ての遷移速度は正であるが、ハダマール作用素は負のエントリを含む(これは系の次元を増加させることによって可能である)。 ウォーカー人口の確率分布はマルコフ的性質を用いて保存される。 ランダムウォークの集団分布に適切な変換を適用することにより、量子状態 |0>, 1> の確率分布を明らかにする。 量子状態の確率分布をユニタリ系として明らかにし、ランダムウォーカーの集団分布をマルコフ系として保存する。

A new model maps a quantum random walk described by a Hadamard operator to a particular case of a birth and death process. The model is represented by a 2D Markov chain with a stochastic matrix, i.e., all the transition rates are positive, although the Hadamard operator contains negative entries (this is possible by increasing the dimensionality of the system). The probability distribution of the walker population is preserved using the Markovian property. By applying a proper transformation to the population distribution of the random walk, the probability distributions of the quantum states |0>, 1> are revealed. Thus, the new model has two unique properties: it reveals the probability distribution of the quantum states as a unitary system and preserves the population distribution of the random walker as a Markovian system.
翻訳日:2023-04-04 07:52:32 公開日:2021-04-12
# 基底状態と1次元数値のウィグナー関数

The Wigner Function of Ground State and One-Dimensional Numerics ( http://arxiv.org/abs/2104.05161v1 )

ライセンス: Link先を確認
Hongfei Zhan, Zhenning Cai, Guanghui Hu(参考訳) 本論文では,多体系の基底状態ウィグナー関数を理論的・数値的に検討する。 まず、系のエネルギー演算子に基づいてウィグナー関数の固有値問題を導出する。 この固有値問題を解くことによって基底状態を見つける妥当性は、その解と定常シュリンガー方程式の解との対応性を構築することによって得られる。 そして, 1次元の場合において, 簡単な記述が可能な固有値問題を解くために, 数値計算法を設計する。 i) 量子力学モデル(Z. Cai et al, J. Math. Chem., 2013)に基づいて, 単純化されたモデルが導出され, 問題の次元が減少する。 二 このモデルを解くための想像時間伝搬法を考案し、その実現可能性について、解法再構成等の数値的手法を提案する。 いくつかの数値実験の結果,本手法の大規模システムへの応用の可能性について,密度汎関数理論の例で検証した。

In this paper, the ground state Wigner function of a many-body system is explored theoretically and numerically. First, an eigenvalue problem for Wigner function is derived based on the energy operator of the system. The validity of finding the ground state through solving this eigenvalue problem is obtained by building a correspondence between its solution and the solution of stationary Schr\"odinger equation. Then, a numerical method is designed for solving proposed eigenvalue problem in one dimensional case, which can be briefly described by i) a simplified model is derived based on a quantum hydrodynamic model [Z. Cai et al, J. Math. Chem., 2013] to reduce the dimension of the problem, ii) an imaginary time propagation method is designed for solving the model, and numerical techniques such as solution reconstruction are proposed for the feasibility of the method. Results of several numerical experiments verify our method, in which the potential application of the method for large scale system is demonstrated by examples with density functional theory.
翻訳日:2023-04-04 02:06:11 公開日:2021-04-12
# 保守派はリベラル派と話をするが、リベラル派は保守派と話さない

Cross-Partisan Discussions on YouTube: Conservatives Talk to Liberals but Liberals Don't Talk to Conservatives ( http://arxiv.org/abs/2104.05365v1 )

ライセンス: Link先を確認
Siqi Wu, Paul Resnick(参考訳) 自由党と保守党の討論会をyoutube上で行った最初の大規模調査を,米国のパルチザンメディア973チャンネルの274,241本の政治ビデオと,2020年の8ヶ月にわたる9.3億人のユーザからのコメント134万件のデータセットに基づいて行った。 エコーチャンバーの単純な物語とは対照的に、驚くほど多くのクロストークがある。少なくとも10人のコメントを持つほとんどのユーザーは、左利きのYouTubeチャンネルと右利きのYouTubeチャンネルに少なくとも1回投稿している。 しかし、クロストークは対称ではなかった。 階層的注意モデルによって予測されるユーザの傾きに基づき、保守派は右寄りの動画のリベラル派よりも左寄りの動画にコメントする傾向が強いことがわかった。 第二に、YouTubeのコメントソートアルゴリズムは、政党間のコメントを控えめに見えなくした。例えば、保守派からのコメントは、左派ビデオに対するコメントの26.3%を占めていたが、20%以上のコメントがトップ20にあった。 最後に、 perspective api の毒性スコアを品質指標として使用することで、ビデオのコンテンツにユーザーが直接コメントした際、保守派はリベラル派よりも有毒ではないことが分かりました。 しかし、ユーザーが他のユーザーからのコメントに答えると、左派と右派の両方で共同党派からの反応よりも党派間の反応の方が有毒であることが判明した。

We present the first large-scale measurement study of cross-partisan discussions between liberals and conservatives on YouTube, based on a dataset of 274,241 political videos from 973 channels of US partisan media and 134M comments from 9.3M users over eight months in 2020. Contrary to a simple narrative of echo chambers, we find a surprising amount of cross-talk: most users with at least 10 comments posted at least once on both left-leaning and right-leaning YouTube channels. Cross-talk, however, was not symmetric. Based on the user leaning predicted by a hierarchical attention model, we find that conservatives were much more likely to comment on left-leaning videos than liberals on right-leaning videos. Secondly, YouTube's comment sorting algorithm made cross-partisan comments modestly less visible; for example, comments from conservatives made up 26.3% of all comments on left-leaning videos but just over 20% of the comments were in the top 20 positions. Lastly, using Perspective API's toxicity score as a measure of quality, we find that conservatives were not significantly more toxic than liberals when users directly commented on the content of videos. However, when users replied to comments from other users, we find that cross-partisan replies were more toxic than co-partisan replies on both left-leaning and right-leaning videos, with cross-partisan replies being especially toxic on the replier's home turf.
翻訳日:2023-04-04 02:03:48 公開日:2021-04-12
# 熱浴に結合した有限量子系の確率的熱力学

Stochastic thermodynamics of a finite quantum system coupled to a heat bath ( http://arxiv.org/abs/2104.05350v1 )

ライセンス: Link先を確認
Heinz-J\"urgen Schmidt, J\"urgen Schnack and Jochen Gemmer(参考訳) 我々は,n$-level system (nls) が熱処理されることなく熱浴に結合される状況を考える。 この状況に対して、一般的なジャルジンスキー型方程式を導出し、熱とエントロピーが熱浴から冷NLSへ流れ、その逆も熱NLSから冷NLSへ流れていると結論付ける。 適切な温度で分割された熱の移動とエントロピーの増加の間のクラウシウスの関係は、文献で既に考慮されている2つの不等式の形を仮定する。 我々のアプローチは分析的な例によって示される。

We consider a situation where an $N$-level system (NLS) is coupled to a heat bath without being necessarily thermalized. For this situation we derive general Jarzinski-type equations and conclude that heat and entropy is flowing from the hot bath to the cold NLS and, vice versa, from the hot NLS to the cold bath. The Clausius relation between increase of entropy and transfer of heat divided by a suitable temperature assumes the form of two inequalities which have already been considered in the literature. Our approach is illustrated by an analytical example.
翻訳日:2023-04-04 02:03:15 公開日:2021-04-12
# SYK鎖モデルにおける固有状態熱化について

On eigenstate thermalization in the SYK chain model ( http://arxiv.org/abs/2104.05291v1 )

ライセンス: Link先を確認
Seyyed M.H. Halataei(参考訳) 固有状態熱化仮説(ETH)は、純粋な状態における個々の孤立量子系の一般的な観測可能が、どのようにして熱挙動を示すかを説明する。 eth ansatzは通常、量子カオス系において真である。 本稿では,SYK連鎖モデルであるMajorana fermionsの空間的局所ランダム相互作用を用いたSachdev-Ye-Kitaevモデルの1次元格子一般化について検討する。 モデルは最大カオス的であるが、R'enyiエンタングルメントエントロピーの研究は、モデルは急速に熱化しないことを示している。 しかし、従来の2つの小体作用素に対して、SYK連鎖モデルのアンサンブル平均理論はETH条件を厳密に満たしていることを示す。 また、アンサンブルのすべての実現において、演算子はETHを緩やかに満足し、結果として急速に熱化するが、大きな揺らぎを伴う。 個々のシステムに対するETHの適用と,アンサンブル平均値の違いについてコメントする。 また、この結果を用いて固有状態相関関数と重力双対理論の影響について述べる。

Eigenstate thermalization hypothesis (ETH) explains how generic observables of individual isolated quantum systems in pure states can exhibit thermal behaviors. ETH ansatz usually holds true in quantum chaotic systems. In this paper, we examine a one-dimensional lattice generalization of the Sachdev-Ye-Kitaev model with spatial local random interaction of Majorana fermions, the so-called SYK chain model. The model is maximally chaotic but its R\'enyi entanglement entropy study suggests that the model does not rapidly thermalize. We show, however, that for two conventional few-body operators, the ensemble-averaged theory of the SYK chain model strictly satisfies ETH conditions. We also demonstrate that for every single realization of the ensemble, the operators loosely satisfy ETH, and consequently rapidly thermalize, albeit, with larger fluctuations. We comment on the difference between the application of ETH for individual systems and ensemble-averaged ones. We also use our results to comment on the implications for eigenstate correlation functions and a putative gravitational dual theory.
翻訳日:2023-04-04 02:02:56 公開日:2021-04-12
# デジタル農業システムのレジリエンスに関する考察

Consideration of resilience for digital farming systems ( http://arxiv.org/abs/2104.05287v1 )

ライセンス: Link先を確認
Sebastian Boekle, Leon Koenn, David Reiser, Dimitris S. Paraforos, Hans W. Griepentrog(参考訳) 最近の農業技術産業の革新は、デジタル技術によってますます推進されている。 これらのデジタル農業ソリューションは、農家にとって魅力的な利点を提供する。 このトレンドは、取得したデータをクラウドに直接送信するデバイスとセンサーに向けられている。 また、クラウドベースのソリューションに関する科学論文の数は、この発展に続くものである。 一方、あらゆる危機における継続的な農業生産の必要性を考えると、新しいクラウドベースのデジタルシステムとアプリケーションは、インターネットの供給とは独立して信頼性が求められる。 この概念的な研究では、必要なレジリエンスが定義され、これはアグテック産業の革新によって考慮されている。 Web ベースの農業システムによる開発課題を特定し,議論する。 デジタル農業システムでは、農家の個々のレジリエンスのニーズは5つのレベルに分類される。 これにより、ソフト機器及びハードウェア機器の提案が作成される。 これには、ファームサーバ、ローカルファームネットワークのインストール、オフラインアプリケーション、エッジコンピューティングの考慮が含まれており、新しいデジタル農業コンポーネントの高いレベルのレジリエンスを確保することができる。

Latest and current innovations of agricultural tech industry are increasingly driven by digital technologies. These digital farming solutions provide attractive advantages for farmers. The trend is going to devices and sensors, which send the acquired data directly to the cloud. Also the number of scientific publications on cloud based solutions follows this development. Considering on the other hand the necessity of continuous agricultural production in any kind of crises, new cloud-based digital systems and applications need to be reliable, independent of internet supply. In this conceptual study the necessary resilience is defined, which is marginally taken into account by agtech industry innovations. Problems of development using web-based farming systems are identified and discussed. For digital farming systems the farmers individual needs of resilience are classified into five levels. Consequently, suggestions for soft- and hardware equipment are made. This includes the installation of a farm server, a local farm network, offline applications and consideration of edge computing, which can ensure a high level of resilience of new digital farming components.
翻訳日:2023-04-04 02:02:36 公開日:2021-04-12
# ニューロモルフィックプロセッサと互換性のあるエラー伝搬スパイクニューラルネットワーク

An error-propagation spiking neural network compatible with neuromorphic processors ( http://arxiv.org/abs/2104.05241v1 )

ライセンス: Link先を確認
Matteo Cartiglia, Germain Haessig, Giacomo Indiveri(参考訳) スパイクニューラルネットワークは、低消費電力の感覚処理とエッジコンピューティングハードウェアプラットフォームの設計に非常に有望である。 しかし、そのようなアーキテクチャにオンチップ学習アルゴリズムを実装することは、特にバックプロパゲーションアルゴリズムに依存するマルチレイヤネットワークにとって、依然としてオープンな課題である。 本稿では,局所的な重み更新機構を用いてバックプロパゲーションを近似し,混合信号アナログ/デジタルニューロモルフィック回路と互換性のあるスパイクに基づく学習手法を提案する。 本稿では,層間の誤り信号をバックプロパゲートするシナプス重み更新機構を実現するネットワークアーキテクチャを導入し,同じ平均発火率を持つ2つのスパイクベースのパターンを識別する訓練を行うネットワークを提案する。 この研究は、異なるスパイキング活動の時空間パターン(例えば、イベントベースの視覚や聴覚センサー)を認識できるようにトレーニングできるオンチップ学習回路を備えた超低消費電力混合信号ニューロモルフィック処理システムの設計に向けた第一歩である。

Spiking neural networks have shown great promise for the design of low-power sensory-processing and edge-computing hardware platforms. However, implementing on-chip learning algorithms on such architectures is still an open challenge, especially for multi-layer networks that rely on the back-propagation algorithm. In this paper, we present a spike-based learning method that approximates back-propagation using local weight update mechanisms and which is compatible with mixed-signal analog/digital neuromorphic circuits. We introduce a network architecture that enables synaptic weight update mechanisms to back-propagate error signals across layers and present a network that can be trained to distinguish between two spike-based patterns that have identical mean firing rates, but different spike-timings. This work represents a first step towards the design of ultra-low power mixed-signal neuromorphic processing systems with on-chip learning circuits that can be trained to recognize different spatio-temporal patterns of spiking activity (e.g. produced by event-based vision or auditory sensors).
翻訳日:2023-04-04 02:02:23 公開日:2021-04-12
# 代数モデルの枠組みにおける非可換超選択規則の存在下での量子プロトコル

Quantum protocols at presence of non-abelian superselection rules in the framework of algebraic model ( http://arxiv.org/abs/2104.05238v1 )

ライセンス: Link先を確認
A.S. Sitdikov, A.S. Nikitin(参考訳) 本稿では,非可換超選択規則が量子情報転送に与える影響を,代数モデルの基底に対する量子ビットの助けを借りて検討し,量子プロトコルを定式化する。 We pay the main attention to the superselection structure of the algebra of observables OG defined by the Cuntz algebra Od (a field algebra) that contains OG as a pointwise fixed subalgebra with respect to the action of the gauge group G. We prove that it is possible to code information only with the help of states such that projectors on them belong to the algebra of observables and, owing to their commutativity with elements of the representation of the group G, they allow the recipient to restore the obtained information

In this paper, we study the influence of non-abelian superselection rules on the transfer of quantum information with the help of qubits on the base of an algebraic model and formulate quantum protocols. We pay the main attention to the superselection structure of the algebra of observables OG defined by the Cuntz algebra Od (a field algebra) that contains OG as a pointwise fixed subalgebra with respect to the action of the gauge group G. We prove that it is possible to code information only with the help of states such that projectors on them belong to the algebra of observables and, owing to their commutativity with elements of the representation of the group G, they allow the recipient to restore the obtained information
翻訳日:2023-04-04 02:02:04 公開日:2021-04-12
# 超伝導量子ビットの大規模配列における宇宙線による壊滅的エラーバーストの解法

Resolving catastrophic error bursts from cosmic rays in large arrays of superconducting qubits ( http://arxiv.org/abs/2104.05219v1 )

ライセンス: Link先を確認
Matt McEwen, Lara Faoro, Kunal Arya, Andrew Dunsworth, Trent Huang, Seon Kim, Brian Burkett, Austin Fowler, Frank Arute, Joseph C. Bardin, Andreas Bengtsson, Alexander Bilmes, Bob B. Buckley, Nicholas Bushnell, Zijun Chen, Roberto Collins, Sean Demura, Alan R. Derk, Catherine Erickson, Marissa Giustina, Sean D. Harrington, Sabrina Hong, Evan Jeffrey, Julian Kelly, Paul V. Klimov, Fedor Kostritsa, Pavel Laptev, Aditya Locharla, Xiao Mi, Kevin C. Miao, Shirin Montazeri, Josh Mutus, Ofer Naaman, Matthew Neeley, Charles Neill, Alex Opremcak, Chris Quintana, Nicholas Redd, Pedram Roushan, Daniel Sank, Kevin J. Satzinger, Vladimir Shvarts, Theodore White, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Yu Chen, Vadim Smelyanskiy, John M. Martinis, Hartmut Neven, Anthony Megrant, Lev Ioffe, Rami Barends(参考訳) スケーラブルな量子コンピューティングは誤り訂正によって現実になり、コヒーレントな量子ビットは大きな配列で構築できる。 鍵となる前提は、物理的エラーはデバイススケールと十分に関連付けられていないため、論理的エラー率を指数関数的に抑制できるということである。 しかし、宇宙線と潜伏放射能によるエネルギー的影響はこれらの仮定の両方に反する。 衝突粒子は基板を電離し、準粒子のバーストを誘発する高エネルギーフォノンを放射し、デバイス全体のクビットコヒーレンスを破壊する。 高エネルギー放射線は、パイロット超伝導量子デバイスにおけるエラーの原因として特定されているが、単一の事象を詳細に解決できる測定技術が欠如しているため、大規模なアルゴリズムやエラー訂正の影響は未解決のままである。 関連する物理学の解明には、エラー訂正と同じ時間スケールで大量の量子ビットを動作させ、時間の経過と空間の広がりを露呈する必要がある。 ここでは、大規模量子プロセッサに影響を及ぼす高エネルギー光を直接観測する。 高速空間および時間多重計測法を導入し,全量子ビットのエネルギーコヒーレンスを最大かつ厳しく制限し,チップ全体の故障を引き起こす準粒子の大バーストを同定する。 イベントを、最初のローカライズされた影響からチップ全体の高いエラー率まで追跡する。 本研究は,大規模デバイスにおけるこれらの損傷的エラーバーストのスケールとダイナミクスを直接把握し,量子コンピューティングのスケールアップを実現するための緩和の必要性を浮き彫りにする。

Scalable quantum computing can become a reality with error correction, provided coherent qubits can be constructed in large arrays. The key premise is that physical errors can remain both small and sufficiently uncorrelated as devices scale, so that logical error rates can be exponentially suppressed. However, energetic impacts from cosmic rays and latent radioactivity violate both of these assumptions. An impinging particle ionizes the substrate, radiating high energy phonons that induce a burst of quasiparticles, destroying qubit coherence throughout the device. High-energy radiation has been identified as a source of error in pilot superconducting quantum devices, but lacking a measurement technique able to resolve a single event in detail, the effect on large scale algorithms and error correction in particular remains an open question. Elucidating the physics involved requires operating large numbers of qubits at the same rapid timescales as in error correction, exposing the event's evolution in time and spread in space. Here, we directly observe high-energy rays impacting a large-scale quantum processor. We introduce a rapid space and time-multiplexed measurement method and identify large bursts of quasiparticles that simultaneously and severely limit the energy coherence of all qubits, causing chip-wide failure. We track the events from their initial localised impact to high error rates across the chip. Our results provide direct insights into the scale and dynamics of these damaging error bursts in large-scale devices, and highlight the necessity of mitigation to enable quantum computing to scale.
翻訳日:2023-04-04 02:01:53 公開日:2021-04-12
# 乱れのない有限スピンチェーンにおける離散時間結晶の寿命延長経路

Route to Extend the Lifetime of a Discrete Time Crystal in a Finite Spin Chain Without Disorder ( http://arxiv.org/abs/2104.05201v1 )

ライセンス: Link先を確認
Sayan Choudhury(参考訳) 周期駆動(フロッケ)系は離散時間翻訳対称性を持つ時間依存ハミルトニアンによって記述される。 この対称性の自発的崩壊は、物質の新しい非平衡相である離散時間結晶(dtc)の出現に繋がる。 本稿では,周波数$$\frac{2 \pi}{T}$の逆磁場による周期的キックを条件に,近接相互作用を最も近い$J$で翻訳不変なIsingスピンチェーンを,パラダイムモデルでDTCの寿命を延長する手法を提案する。 このシステムは、広いパラメータ状態に対して、周波数$\frac{\pi}{T}$のDTC-持続的サブハーモニック振動のホールマークシグネチャを示す。 解析的議論と正確な対角化計算の両方を用いて、相互作用強度が最適値である$JT = \pi$に調整されると、DTCの寿命が最大になることを示す。 本提案は、励起の発生を抑制する相互作用誘起量子干渉機構に本質的に依存し、dtc寿命を増加させる。 興味深いことに、振動の2倍の周期は、等サイズのシステムで永遠に続く可能性がある。 この異常に長い寿命は、JT=\pi$で現れる時間反射対称性に起因する。 我々の研究は、様々な量子エミュレータプラットフォームで堅牢なDTCを実現するための有望な道を提供する。

Periodically driven (Floquet) systems are described by time dependent Hamiltonians that possess discrete time translation symmetry. The spontaneous breaking of this symmetry leads to the emergence of a novel non-equilibrium phase of matter - the Discrete Time Crystal (DTC). In this paper, we propose a scheme to extend the lifetime of a DTC in a paradigmatic model - a translation invariant Ising spin chain with nearest-neighbor interaction $J$, subjected to a periodic kick by a transverse magnetic field with frequency $\frac{2 \pi}{T}$. This system exhibits the hallmark signature of a DTC - persistent subharmonic oscillations with frequency $\frac{\pi}{T}$ - for a wide parameter regime. Employing both analytical arguments as well as exact diagonalization calculations, we demonstrate that the lifetime of the DTC is maximized, when the interaction strength is tuned to an optimal value, $JT = \pi$. Our proposal essentially relies on an interaction induced quantum interference mechanism that suppresses the creation of excitations, and thereby enhances the DTC lifetime. Intriguingly, we find that the period doubling oscillations can last eternally in even size systems. This anomalously long lifetime can be attributed to a time reflection symmetry that emerges at $JT=\pi$. Our work provides a promising avenue for realizing a robust DTC in various quantum emulator platforms.
翻訳日:2023-04-04 02:01:13 公開日:2021-04-12
# 量子ネットワークにおけるイオン-フォトニック周波数量子相関

Ion-Photonic Frequency Qubit Correlations for Quantum Networks ( http://arxiv.org/abs/2104.05189v1 )

ライセンス: Link先を確認
Steven C. Connell, Jordan Scarabel, Elizabeth M. Bridge, Kenji Shimizu, Valdis Blums, Mojtaba Ghadimi, Mirko Lobino, Erik W. Streed(参考訳) 量子ネットワークを長距離に効率的にスケーリングするには、ローカル処理ノードが基本的な計算と通信タスクを実行する必要がある。 トラップされたイオンは、そのようなノードの構築に必要な全ての特性を示し、量子情報を最大12分間保存し、1と2つの量子ビット上の決定論的高忠実度論理演算とイオン-光子結合を実装した。 量子コンピューティングに適したほとんどのイオンは、可視から近紫外線(uv)の周波数範囲で光子を放出するが、近年の周波数変換の実験では、光子を通信帯域の周波数にシフトさせ、融合したシリカファイバーの減衰率を下げる技術が提供されている。 分極ではなく周波数で量子ビットを符号化することで、エネルギーの保存による熱的あるいは機械的なノイズからの脱コヒーレンスに対してより堅牢になる。 これまで、イオン・フォトニック周波数のエンタングルメントは直接表示されていない。 本稿では, イオン-光子エンタングルメントプロトコルを$^{171}$Yb$^+$で符号化し, 目的とするUV超微細分光計を用いて92.4(8)%の忠実度を求める。 同様にデコヒーレンスに対するロバスト性は、光量子ビットの回転から無条件の絡み合いを示すための受動光学セットアップを妨げるが、通信帯域への周波数変換に先立ってイオン-紫外光子相関の質をベンチマークするには十分である。

Efficiently scaling quantum networks to long ranges requires local processing nodes to perform basic computation and communication tasks. Trapped ions have demonstrated all the properties required for the construction of such a node, storing quantum information for up to 12 minutes, implementing deterministic high fidelity logic operations on one and two qubits, and ion-photon coupling. While most ions suitable for quantum computing emit photons in visible to near ultraviolet (UV) frequency ranges poorly suited to long-distance fibre optical based networking, recent experiments in frequency conversion provide a technological solution by shifting the photons to frequencies in the telecom band with lower attenuation for fused silica fibres. Encoding qubits in frequency rather than polarization makes them more robust against decoherence from thermal or mechanical noise due to the conservation of energy. To date, ion-photonic frequency qubit entanglement has not been directly shown. Here we demonstrate a frequency encoding ion-photon entanglement protocol in $^{171}$Yb$^+$ with correlations equivalent to 92.4(8)% fidelity using a purpose-built UV hyperfine spectrometer. The same robustness against decoherence precludes our passive optical setup from rotating photonic qubits to unconditionally demonstrate entanglement, however it is sufficient to allow us to benchmark the quality of ion-UV photon correlations prior to frequency conversion to the telecom band.
翻訳日:2023-04-04 02:00:50 公開日:2021-04-12
# 減密度マトリックスサンプリング:電流発生量子コンピュータにおける自己整合埋め込みとマルチスケール電子構造

Reduced Density Matrix Sampling: Self-consistent Embedding and Multiscale Electronic Structure on Current Generation Quantum Computers ( http://arxiv.org/abs/2104.05531v1 )

ライセンス: Link先を確認
Jules Tilly, P.V. Sriluckshmy, Akashkumar Patel, Enrico Fontana, Ivan Rungger, Edward Grant, Robert Anderson, Jonathan Tennyson, and George H. Booth(参考訳) 量子化学と凝縮物質物理学の両方において、大規模システムの相関電子構造に対処するための統一的なアプローチとして、現在の超伝導量子コンピュータにおける完全自己整合型量子古典アルゴリズムについて検討する。 これら2つの文脈において、拡張系の強相関量子領域を分離し、還元密度行列のサンプリングにより自己整合的にその環境に結合する。 この部分空間のロバストで効率的な最適化のために、現在の量子デバイスの実現可能性を分析し、それらのオブジェクトの忠実性を提供する。 単純な誤差緩和戦略とコンパクトテンソル積の最適化により、サンプルの項数を最小限に抑えることにより、量子ハードウェア上で大きなノイズが存在する場合でも、これらの自己整合アルゴリズムは確かに非常に頑健であることを示す。 さらに, この密度行列を用いて, 凝縮相系における双極子モーメントやフェルミ液体パラメータを含む非エネルギー特性のサンプリングを行い, スパースサンプリングによる高精度化を実現する。 これらの部分空間の反復最適化から導かれる不確実性は、現在の量子ハードウェアとの単一部分空間最適化のエネルギーの分散よりも小さいようである。 このことは、大規模システムに対する電子構造へのハイブリッド量子古典的アプローチにおける相関部分空間の選択を改善するための定期的な自己整合性を高める。

We investigate fully self-consistent multiscale quantum-classical algorithms on current generation superconducting quantum computers, in a unified approach to tackle the correlated electronic structure of large systems in both quantum chemistry and condensed matter physics. In both of these contexts, a strongly correlated quantum region of the extended system is isolated and self-consistently coupled to its environment via the sampling of reduced density matrices. We analyze the viability of current generation quantum devices to provide the required fidelity of these objects for a robust and efficient optimization of this subspace. We show that with a simple error mitigation strategy and optimization of compact tensor product bases to minimize the number of terms to sample, these self-consistent algorithms are indeed highly robust, even in the presence of significant noises on quantum hardware. Furthermore, we demonstrate the use of these density matrices for the sampling of non-energetic properties, including dipole moments and Fermi liquid parameters in condensed phase systems, achieving a reliable accuracy with sparse sampling. It appears that uncertainties derived from the iterative optimization of these subspaces is smaller than variances in the energy for a single subspace optimization with current quantum hardware. This boosts the prospect for routine self-consistency to improve the choice of correlated subspaces in hybrid quantum-classical approaches to electronic structure for large systems in this multiscale fashion.
翻訳日:2023-04-04 01:53:23 公開日:2021-04-12
# 量子ニュートン宇宙論の再考

Quantum Newtonian cosmology revisited ( http://arxiv.org/abs/2104.05524v1 )

ライセンス: Link先を確認
Laure Gouba(参考訳) 宇宙定数も導入されたニュートン宇宙論のラグランジアンを定式化する。 アフィン量子化の手順に従って、ハミルトン作用素が導出される。 ニュートン宇宙の波動関数と、負の宇宙定数によって支配される物質の場合の対応する固有値が与えられる。

We formulate the Lagrangian of the Newtonian cosmology where the cosmological constant is also introduced. Following the affine quantization procedure, the Hamiltonian operator is derived. The wave functions of the Newtonian universe and the corresponding eigenvalues for the case of matter dominated by a negative cosmological constant are given.
翻訳日:2023-04-04 01:52:48 公開日:2021-04-12
# TermAdventure: テキストアドベンチャースタイルのUNIXコマンドラインをインタラクティブに教える

TermAdventure: Interactively Teaching UNIX Command Line, Text Adventure Style ( http://arxiv.org/abs/2104.05456v1 )

ライセンス: Link先を確認
Marek \v{S}uppa, Ondrej Jariabka, Adri\'an Matejov, and Marek Nagy(参考訳) UNIXの入門コースは、典型的には講義として組織され、一連の演習が伴い、そのソリューションは講師によって提出され、レビューされる。 このアレンジメントは標準的な慣行になっているが、しばしば提出するために外部ツールやインターフェースを使う必要があり、自動的にその正確性をチェックすることはない。 その結果、作業負荷が増加し、潜在的な盗作に対処することが難しくなります。 本稿では、対話型UNIX演習を作成するためのツール群であるTermAdventure(TA)を紹介する。 これらはテキストアドベンチャーゲームに似ている。テキスト環境にユーザを没入させ、テキストコマンドを使ってユーザと対話させる。 私たちの場合、'adventure'はUNIXシステム内で行われ、ユーザインタラクションは標準のUNIXコマンドラインを介して行われます。 アドベンチャーは一連のエクササイズであり、すべてコマンドライン環境内からシステムによって提示され、自動的に評価される。 このスイートはオープンソースライセンスでリリースされており、最小限の依存関係を持ち、UNIXスタイルのサーバでも、Docker経由で主要なOSプラットフォームを実行するデスクトップコンピュータでも使用できる。 また、データサイエンティストのためのUNIX入門コースの指導ツールとして提示されたスイートを使用した経験を振り返り、同様のコースにおけるその展開の意味について論じる。 このスイートは \url{https://github.com/naiveneuron/termadventure} でオープンソースライセンスの下でリリースされる。

Introductory UNIX courses are typically organized as lectures, accompanied by a set of exercises, whose solutions are submitted to and reviewed by the lecturers. While this arrangement has become standard practice, it often requires the use of an external tool or interface for submission and does not automatically check its correctness. That in turn leads to increased workload and makes it difficult to deal with potential plagiarism. In this work we present TermAdventure (TA), a suite of tools for creating interactive UNIX exercises. These resemble text adventure games, which immerse the user in a text environment and let them interact with it using textual commands. In our case the ''adventure'' takes place inside a UNIX system and the user interaction happens via the standard UNIX command line. The adventure is a set of exercises, which are presented and automatically evaluated by the system, all from within the command line environment. The suite is released under an open source license, has minimal dependencies and can be used either on a UNIX-style server or a desktop computer running any major OS platform through Docker. We also reflect on our experience of using the presented suite as the primary teaching tool for an introductory UNIX course for Data Scientists and discuss the implications of its deployment in similar courses. The suite is released under the terms of an open-source license at \url{https://github.com/NaiveNeuron/TermAdventure}.
翻訳日:2023-04-04 01:52:45 公開日:2021-04-12
# 深部畳み込みモデルのエピジェネティック進化

Epigenetic evolution of deep convolutional models ( http://arxiv.org/abs/2104.05411v1 )

ライセンス: Link先を確認
Alexander Hadjiivanov and Alan Blair(参考訳) 本研究では,先述した神経進化の枠組みを基礎として,深い畳み込みモデルを発展させる。 具体的には、ゲノムエンコーディングとクロスオーバ演算子を拡張して階層化ネットワークに適用する。 また,異なる形状や大きさのカーネルが同一層内に共存することを可能にする畳み込み層レイアウトを提案し,なぜこれが有益になるのかを議論する。 提案するレイアウトにより、畳み込み層内の個々のカーネルのサイズと形状を、対応する新しい突然変異演算子で進化させることができる。 提案手法は,エピジェネティック進化による構造変化と,個体群に基づくバックプロパゲーションによる重み更新を含むハイブリッド最適化戦略を採用している。 いくつかの画像分類ベンチマークの実験では、親が各エポックにおけるトレーニングデータセットの小さなランダムなサブセットだけを訓練された場合でも、クロスオーバーオペレータが十分に堅牢であることを示し、学習した特徴や振舞いが次世代の親ネットワークから子孫にうまく移行できることを直接確認する。

In this study, we build upon a previously proposed neuroevolution framework to evolve deep convolutional models. Specifically, the genome encoding and the crossover operator are extended to make them applicable to layered networks. We also propose a convolutional layer layout which allows kernels of different shapes and sizes to coexist within the same layer, and present an argument as to why this may be beneficial. The proposed layout enables the size and shape of individual kernels within a convolutional layer to be evolved with a corresponding new mutation operator. The proposed framework employs a hybrid optimisation strategy involving structural changes through epigenetic evolution and weight update through backpropagation in a population-based setting. Experiments on several image classification benchmarks demonstrate that the crossover operator is sufficiently robust to produce increasingly performant offspring even when the parents are trained on only a small random subset of the training dataset in each epoch, thus providing direct confirmation that learned features and behaviour can be successfully transferred from parent networks to offspring in the next generation.
翻訳日:2023-04-04 01:52:23 公開日:2021-04-12
# スパイク列車への実値入力の適応変換

Adaptive conversion of real-valued input into spike trains ( http://arxiv.org/abs/2104.05401v1 )

ライセンス: Link先を確認
Alexander Hadjiivanov(参考訳) 本稿では,実数値入力をスパイクトレインに変換し,スパイクニューラルネットワークで処理する方法を提案する。 提案手法は網膜神経節細胞の適応的挙動を模倣し,入力ニューロンが入力の統計の変化に応答することを可能にする。 したがって、入力層は、受動的に値を受け取り、隠れて出力される層に転送するのではなく、平均からの偏差を強調する自己制御フィルタとして作用し、入力ニューロンを平均に効果的に脱感させる。 提案手法のもう1つの利点は、ガウス受容場に基づく一般的な変換法の場合のように、ニューロン全体ではなく、変数ごとに1つの入力ニューロンのみを必要とすることである。 また、入力の統計は時間とともに自然に現れるので、ネットワークに送信する前にデータを前処理する必要がない。 これにより、スパイクニューラルネットワークが生の非正規化ストリーミングデータを処理できるようになる。 概念実証実験を行い,提案手法が期待通りに動作することを示す。

This paper presents a biologically plausible method for converting real-valued input into spike trains for processing with spiking neural networks. The proposed method mimics the adaptive behaviour of retinal ganglion cells and allows input neurons to adapt their response to changes in the statistics of the input. Thus, rather than passively receiving values and forwarding them to the hidden and output layers, the input layer acts as a self-regulating filter which emphasises deviations from the average while allowing the input neurons to become effectively desensitised to the average itself. Another merit of the proposed method is that it requires only one input neuron per variable, rather than an entire population of neurons as in the case of the commonly used conversion method based on Gaussian receptive fields. In addition, since the statistics of the input emerge naturally over time, it becomes unnecessary to pre-process the data before feeding it to the network. This enables spiking neural networks to process raw, non-normalised streaming data. A proof-of-concept experiment is performed to demonstrate that the proposed method operates as expected.
翻訳日:2023-04-04 01:52:03 公開日:2021-04-12
# 時間周波数エンタングル光子のスペクトル分解4光子干渉

Spectrally-resolved four-photon interference of time-frequency entangled photons ( http://arxiv.org/abs/2104.05655v1 )

ライセンス: Link先を確認
Sofiane Merkouche, Val\'erian Thiel, and Brian J. Smith(参考訳) 時間周波数自由度で絡み合った光子のペアは、生成の比較的容易さと情報を符号化する高い能力のため、量子光学の研究や応用に大きな関心を持っている。 ここでは,2対の時間周波数絡み合い光子から生じる位相非感受性スペクトル分解干渉の挙動を理論的および実験的に解析する。 その核となるのがマルチモードの絡み合い交換実験であり、両方のペアからアイドラー光子をスペクトル分解したジョイント測定により、信号光子が測定結果に依存するベル状態へと投影される。 我々の分析は、時間周波数の絡み合いとスペクトル分解したベル状態測定を用いて、何が達成できるかを徹底的に探究するものである。

Pairs of photons entangled in their time-frequency degree of freedom are of great interest in quantum optics research and applications, due to their relative ease of generation and their high capacity for encoding information. Here we analyze, both theoretically and experimentally, the behavior of phase-insensitive spectrally-resolved interferences arising from two pairs of time-frequency entangled photons. At its core, this is a multimode entanglement swapping experiment, whereby a spectrally resolved joint measurement on the idler photons from both pairs results in projecting the signal photons onto a Bell state whose form depends on the measurement outcome. Our analysis is a thorough exploration of what can be achieved using time-frequency entanglement and spectrally-resolved Bell-state measurements.
翻訳日:2023-04-04 01:42:49 公開日:2021-04-12
# $^{28}$Si:Pにおけるドナー境界電子スピンの低温緩和

Low Temperature Relaxation of Donor Bound Electron Spins in $^{28}$Si:P ( http://arxiv.org/abs/2104.05633v1 )

ライセンス: Link先を確認
Eduard Sauter, Nikolay V. Abrosimov, Jens H\"ubner, Michael Oestreich(参考訳) ドナー結合電子のスピン格子緩和を超純度、等方性に富み、リンをドープした$^{28}$si:p で測定する。 光ポンププローブ実験は、極低温で20時間を超える極長スピン緩和時間を示す。 $^{28}$Si:Pのスピン緩和速度は1K以下の状態の温度とともに直線的に増加し、低磁場で2Kから4Kの間のスピン緩和を支配するT$^9$依存への明確な遷移を示す。 天然シリコンに対するT$^7$依存性は欠落している。 高磁場では、スピン緩和は磁場に依存する単一フォノンスピン緩和過程によって支配される。 この過程は有限温度での天然シリコンについてよく記録されているが、$^{28}$si:pの観測により、ボソニックフォノン分布は非常に低温で、理論によって予測された$\gamma$の線形温度依存性から逸脱する。

We measure the spin-lattice relaxation of donor bound electrons in ultrapure, isotopically enriched, phosphorus-doped $^{28}$Si:P. The optical pump-probe experiments reveal at low temperatures extremely long spin relaxation times which exceed 20 h. The $^{28}$Si:P spin relaxation rate increases linearly with temperature in the regime below 1 K and shows a distinct transition to a T$^9$ dependence which dominates the spin relaxation between 2 and 4 K at low magnetic fields. The T$^7$ dependence reported for natural silicon is absent. At high magnetic fields, the spin relaxation is dominated by the magnetic field dependent single phonon spin relaxation process. This process is well documented for natural silicon at finite temperatures but the $^{28}$Si:P measurements validate additionally that the bosonic phonon distribution leads at very low temperatures to a deviation from the linear temperature dependence of $\Gamma$ as predicted by theory.
翻訳日:2023-04-04 01:42:17 公開日:2021-04-12
# 量子ニューラルネットワークについて

On quantum neural networks ( http://arxiv.org/abs/2104.07106v1 )

ライセンス: Link先を確認
Alexandr A. Ezhov(参考訳) 古典的ニューロコンピューティングと量子コンピューティングを組み合わせた新しい分野としての量子ニューラルネットワークの初期定義は、2000年代には曖昧で満足できるものだった。 2020年に普及した量子ニューラルネットワークは、量子コンピューティングと人工ニューラルネットワークの機能を組み合わせたモデルまたは機械学習アルゴリズムとして定義されており、量子ニューラルネットワークの基本的重要性を損なう。 量子ニューラルネットワークの概念は、任意の量子過程の振幅を表すツールとして、最も一般的な関数として定義されるべきである。 我々の推論は、量子力学におけるファインマン経路積分公式の使用に基づいている。 このアプローチは多くの研究で、宇宙の起源のような量子宇宙論の主な問題を研究するために使われてきた。 実際、我々の宇宙が量子コンピュータであるかどうかという問題は、答えを述べたセス・ロイド(seth lloyd)によって提起されたが、我々は宇宙は量子ニューラルネットワークと考えることができると主張している。

The early definition of a quantum neural network as a new field that combines the classical neurocomputing with quantum computing was rather vague and satisfactory in the 2000s. The widespread in 2020 modern definition of a quantum neural network as a model or machine learning algorithm that combines the functions of quantum computing with artificial neural networks deprives quantum neural networks of their fundamental importance. We argue that the concept of a quantum neural network should be defined in terms of its most general function as a tool for representing the amplitude of an arbitrary quantum process. Our reasoning is based on the use of the Feynman path integral formulation in quantum mechanics. This approach has been used in many works to investigate the main problem of quantum cosmology, such as the origin of the Universe. In fact, the question of whether our Universe is a quantum computer was posed by Seth Lloyd, who gave the answer is yes, but we argue that the universe can be thought of as a quantum neural network.
翻訳日:2023-04-04 01:35:14 公開日:2021-04-12
# 線形マヨラナフェルミオンの統計的性質

Statistical properties of linear Majorana fermions ( http://arxiv.org/abs/2104.05863v1 )

ライセンス: Link先を確認
F. C. E. Lima, A. R. P. Moreira, L. E. S. Machado, and C. A. S. Almeida(参考訳) マヨラナフェルミオン(Majorana fermion)は、自身の反粒子である単一のフェルミオン粒子である。 その力学はマヨルダナ方程式によって決定され、スピノル場はその電荷共役体と定義で等しい。 本稿では,線形マヨラナフェルミオンのシャノンのエントロピーを解析し,線形タイプ線形の外部ポテンシャルにより,この量がどのように変化するかを理解する。 その後、モデルの熱力学特性を研究するために、これらのマヨラナ粒子のアンサンブルの構築に注意を向ける。 最後に、シャノンのエントロピーと熱力学的性質が線形ポテンシャル作用の下でどのように変化するかを示す。

A Majorana fermion is the single fermionic particle that is its own antiparticle. Its dynamics is determined by the Majorana equation, where the spinor field is by definition equal to its charge-conjugate field. In this paper, we investigated Shannon's entropy of linear Majorana fermions to understand how this quantity is modified due to an external potential of the linear type linear. Subsequently, we turn our attention to the construction of an ensemble of these Majorana particles to study the thermodynamic properties of the model. Finally, we show how Shannon's entropy and thermodynamic properties are modified under the linear potential action.
翻訳日:2023-04-04 01:35:01 公開日:2021-04-12
# 1つの原子を励起した2原子のヴァン・ダー・ワールス力:同じ原子が限界i

Two-atom van-der-Waals forces with one atom excited: the identical atoms limit I ( http://arxiv.org/abs/2104.05851v1 )

ライセンス: Link先を確認
J. S\'anchez-C\'anovas and M. Donaire(参考訳) 2つの原子間の保守的なファンダーワールス力を計算するが、そのうちの1つは最初励起され、同じ原子の極限である。 2つの異種原子間の相互作用の摂動計算から始めると、弱い相互作用近似における時間依存アプローチは摂動レジームにおける同じ原子の極限を考える上で不可欠である。 この極限では、先頭の順序で、ファンダーワールス力は完全に共鳴し、時間内に線形に成長し、各原子で異なることが分かる。 2原子系の結果として生じる純力は、パリティ対称性の破れによって生じる自然放出の方向性に関係している。 通常の定常ファンダーワール力とは対照的に、時間依存の保守力は相互作用ポテンシャルの期待値の勾配として記述することはできず、相互作用ポテンシャルの勾配の期待値としてのみ記述される。

We compute the conservative van-der-Waals forces between two atoms, one of which is initially excited, in the limit of identical atoms. Starting with the perturbative calculation of the interaction between two dissimilar atoms, we show that a time-dependent approach in the weak-interaction approximation is essential in considering the identical atoms limit in the perturbative regime. In this limit we find that, at leading order, the van-der-Waals forces are fully-resonant and grow linearly in time, being different upon each atom. The resultant net force upon the two-atom system is related to the directionality of spontaneous emission, which results from the violation of parity symmetry. In contrast to the usual stationary van-der-Waals forces, the time-dependent conservative forces cannot be written as the gradients of the expectation values of the interaction potentials, but as the expectation values of the gradients of the interaction potentials only.
翻訳日:2023-04-04 01:34:49 公開日:2021-04-12
# パラメトリックX線光波混合プロセスの理論

Theory of parametric x-ray optical wavemixing processes ( http://arxiv.org/abs/2104.05838v1 )

ライセンス: Link先を確認
Dietrich Krebs and Nina Rohringer(参考訳) 現在、X線自由電子レーザーによって実現されている非線形光学現象は、X線領域で探索することができる。 この理論的な研究は、より詳細な調査のためにパラメトリックx線光波の混合に焦点を当てている。 具体的には、非相対論的QEDに基づくフレームワークを開発し、X線光学和と差分周波数の生成、およびX線パラメトリックダウンコンバージョンを等価な足場上で記述する。 これらのプロセスはすべて、光学的混合によって調整可能な分光選択性を持つ通常のX線回折と同様の撮像機能を約束する。 この導出に基づいて,観測可能な散乱パターンと媒体の応答関数を関連付けることにより,画像量を特定する。 さらに、結果として生じる関係により、結晶計測の非線形アナログからこの応答関数の顕微鏡的再構成が可能となる。 我々は,最近の実験的な和周波実験結果について,このアプローチをベンチマークし,理論との一致を奨励する。

Enabled by x-ray free-electron lasers, nonlinear optical phenomena can be explored in the x-ray domain nowadays. Among the multitude of newly accessible processes, this theoretical study focuses parametric x-ray optical wavemixing for closer investigation. Specifically, we develop a framework based on non-relativistic QED to describe x-ray optical sum- and difference-frequency generation as well as x-ray parametric down-conversion on equal footing. All of these processes promise imaging capabilities similar to regular x-ray diffraction with additional spectroscopic selectivity that is tunable via the optical admixture. Based on our derivation, we identify the imaged quantity as we relate the observable scattering pattern to an underlying response function of the medium. The resulting relation, furthermore, enables the microscopic reconstruction of this response function from nonlinear analogues of crystallographic measurements. We benchmark our approach on recent experimental sum-frequency results, for which we find encouraging agreement with our theory.
翻訳日:2023-04-04 01:34:31 公開日:2021-04-12
# 算術状態を持つ量子計算における$\lambda$-polytopesの極端点と古典的シミュレーションについて

On the extremal points of the $\Lambda$-polytopes and classical simulation of quantum computation with magic states ( http://arxiv.org/abs/2104.05822v1 )

ライセンス: Link先を確認
Cihan Okay, Michael Zurel, Robert Raussendorf(参考訳) 我々は,最近定義された凸線形構造である$\lambda$-polytopes について検討し,サンプリングによる量子計算の古典シミュレーションに適用した。 キュービットのすべての数に対して、そのようなポリトープ $\Lambda_n$ が存在する。 族 $\{\lambda_n, n\in \mathbb{n}\}$ の2つの性質を定式化する。 (i)任意の極値点 (vertex) $a_\alpha \in \lambda_m$ は、すべての$n>m$ に対して$\lambda_n$ で頂点を構成するのに使うことができる。 (II) このマッピングにより得られた頂点に対して, 量子計算とマジック状態との古典的シミュレーションを, プリメージ$A_\alpha$に基づく古典的シミュレーションに効率的に還元することができる。 さらに、既知の分類の外部にある$\Lambda_2$における新しい頂点のクラスを記述する。 古典的シミュレーションの硬さは、ほとんどの極端点が$\Lambda_n$の開問題であるが、上記の結果は、現在知られている範囲を超えて、量子計算の効率的な古典的シミュレーションを拡張する。

We investigate the $\Lambda$-polytopes, a convex-linear structure recently defined and applied to the classical simulation of quantum computation with magic states by sampling. There is one such polytope, $\Lambda_n$, for every number $n$ of qubits. We establish two properties of the family $\{\Lambda_n, n\in \mathbb{N}\}$, namely (i) Any extremal point (vertex) $A_\alpha \in \Lambda_m$ can be used to construct vertices in $\Lambda_n$, for all $n>m$. (ii) For vertices obtained through this mapping, the classical simulation of quantum computation with magic states can be efficiently reduced to the classical simulation based on the preimage $A_\alpha$. In addition, we describe a new class of vertices in $\Lambda_2$ which is outside the known classification. While the hardness of classical simulation remains an open problem for most extremal points of $\Lambda_n$, the above results extend efficient classical simulation of quantum computations beyond the presently known range.
翻訳日:2023-04-04 01:34:18 公開日:2021-04-12
# 旅行時間に何の価値がありますか。 クラウドソーシングによる旅行者中心の移動データ収集

What's Your Value of Travel Time? Collecting Traveler-Centered Mobility Data via Crowdsourcing ( http://arxiv.org/abs/2104.05809v1 )

ライセンス: Link先を確認
Cristian Consonni, Silvia Basile, Matteo Manca, Ludovico Boratto, Andr\'e Freitas, Tatiana Kovacikova, Ghadir Pourhashem, Yannick Cornet(参考訳) モビリティと輸送は、その性質上、群衆を巻き込み、政策立案者、プランナー、輸送業者、旅行者自身のように、複数の利害関係者の調整を必要とする。 しかしながら、従来のアプローチでは時間の節約に重点を置いており、最短あるいは最速のパスを含むユーザソリューションを提案する。 旅行時間価値に対するこのアプローチは、旅行者の視点に基づくものではないと論じている。 これまで、新しいモビリティパラダイムの有効性と効率をテストするために、旅行者の群集からデータを発掘した研究はほとんどない。 本稿では,旅行者が他の活動に旅行時間を利用することのできる,価値ある時間の異なるパラダイムを構築し,旅行者とその旅行に関するデータを含む,専用のモバイルアプリケーションから収集した新しいデータセットを提案する。 各トリップには、トランスポートモードから評価、肯定的および否定的な体験要素まで、多面的な情報が含まれている。 この新しいデータセットの可能性を示すために、私たちは、対応するトリップ脚と異なるトランスポートモードを比較し、サイクリングと公共交通を車に代わるものとして使用してユーザに影響を与える経験的要因を研究するユースケースも提示します。 最後に、他のアプリケーションドメインとデータセットによって実現される研究の機会について論じる。

Mobility and transport, by their nature, involve crowds and require the coordination of multiple stakeholders - such as policy-makers, planners, transport operators, and the travelers themselves. However, traditional approaches have been focused on time savings, proposing to users solutions that include the shortest or fastest paths. We argue that this approach towards travel time value is not centered on a traveler's perspective. To date, very few works have mined data from crowds of travelers to test the efficacy and efficiency of novel mobility paradigms. In this paper, we build upon a different paradigm of worthwhile time in which travelers can use their travel time for other activities; we present a new dataset, which contains data about travelers and their journeys, collected from a dedicated mobile application. Each trip contains multi-faceted information: from the transport mode, through its evaluation, to the positive and negative experience factors. To showcase this new dataset's potential, we also present a use case, which compares corresponding trip legs with different transport modes, studying experience factors that negatively impact users using cycling and public transport as alternatives to cars. We conclude by discussing other application domains and research opportunities enabled by the dataset.
翻訳日:2023-04-04 01:33:58 公開日:2021-04-12
# 熱放射平衡:(非相対論的)古典力学対(相対論的)古典電磁力学

Thermal Radiation Equilibrium: (Nonrelativistic) Classical Mechanics versus (Relativistic) Classical Electrodynamics ( http://arxiv.org/abs/2104.05789v1 )

ライセンス: Link先を確認
Timothy H. Boyer(参考訳) エネルギー同分は非相対論的古典力学にのみ適切であるが、古典電気力学のような相対論的理論には限定的な関係しか持たない。 本稿では3つの異なる観点から調和振動子熱平衡について論じる。 まず,非相対論的機械振動子(点衝突が許容され,周波数が無関係)の熱平衡と相対論的放射モード(周波数が重要)の平衡を対比する。 レイリー=ジャンス法則は、放射スペクトルに非相対論的力学的平衡を課すために双極子放射近似を適用することから現れる。 本稿では,非相対論的古典力学系では発生しない相対論的放射線に対するゼロポイントエネルギーの可能性について述べる。 第2に、調和振動子の単純な電磁モデルに目を向け、この振動子が古典的な電磁零点放射を持つ放射平衡(すべての放射多極子、双極子、四極子などを含む)にあるが、レイリー・ジャンススペクトルとは平衡していないことを示す。 最後に、非相対論的力学の柔軟性と、その任意のポテンシャル関数との対比を、相対論的古典的電磁力学の急激に制御された挙動と、その単一スケーリングが長さ、時間、エネルギーのスケールを結合するものとして議論する。 古典物理学では、エネルギー共有、速度依存減衰はプランク熱放射スペクトルの低周波非相対論的部分と関連しているのに対し、加速依存減衰は零点放射に対応するスペクトルの高周波非変量およびローレンツ不変部分と関連している。

Energy equipartition is appropriate only for nonrelativistic classical mechanics, but has only limited relevance for a relativistic theory such as classical electrodynamics. In this article, we discuss harmonic-oscillator thermal equilibrium from three different perspectives. First, we contrast the thermal equilibrium of nonrelativistic mechanical oscillators (where point collisions are allowed and frequency is irrelevant) with the equilibrium of relativistic radiation modes (where frequency is crucial). The Rayleigh-Jeans law appears from applying a dipole-radiation approximation to impose the nonrelativistic mechanical equilibrium on the radiation spectrum. In this discussion, we note the possibility of zero-point energy for relativistic radiation, which possibility does not arise for nonrelativistic classical-mechanical systems. Second, we turn to a simple electromagnetic model of a harmonic oscillator and show that the oscillator is fully in radiation equilibrium (which involves all radiation multipoles, dipole, quadrupole, etc.) with classical electromagnetic zero-point radiation, but is not in equilibrium with the Rayleigh-Jeans spectrum. Finally, we discuss the contrast between the flexibility of nonrelativistic mechanics with its arbitrary potential functions allowing separate scalings for length, time, and energy, with the sharply-controlled behavior of relativistic classical electrodynamics with its single scaling connecting together the scales for length, time, and energy. It is emphasized that within classical physics, energy-sharing, velocity-dependent damping is associated with the low-frequency, nonrelativistic part of the Planck thermal radiation spectrum, whereas acceleration-dependent radiation damping is associated with the high-frequency adiabatically-invariant and Lorentz-invariant part of the spectrum corresponding to zero-point radiation.
翻訳日:2023-04-04 01:33:19 公開日:2021-04-12
# NTCDA/p-Si UV光ダイオードの光電子特性の古典的および量子的回帰解析

Classical and quantum regression analysis for the optoelectronic performance of NTCDA/p-Si UV photodiode ( http://arxiv.org/abs/2004.01257v4 )

ライセンス: Link先を確認
Ahmed M. El-Mahalawy, Kareem H. El-Safty(参考訳) 有機/無機ヘテロ接合UVフォトダイオードの性能をモデルとして, 回帰および分類問題における機械学習技術によって達成された高い効率と, 多数の技術的応用における紫外線フォトダイオードの役割を考慮に入れた。 そこで, 作製したAu/NTCDA/p-Si/Alフォトダイオードの性能を詳細に説明し, 優れた応答性を示し, 強度UV光の検出率は20~80$mW/cm^2}$であった。 作製したフォトダイオードは,65${mW/cm^2}$までの線状電流-照射関係を示した。 さらに,特性i-v曲線に適合するだけでなく,k-nearest nearby,artificial neural network,genetic programmingという3つの古典的アルゴリズムを用いて,製造装置の動作予測を行う。 モデルは優れた結果を得ており、ターゲット値の傾向を把握できた。 量子ニューラルネットワークは、フォトダイオードのモデル化に初めて使用された。 モデルは、製造プロセスを繰り返すのではなく、使用できる。 これはコストと製造時間の短縮を意味する。

Due to the pivotal role of UV photodiodes in many technological applications in tandem with the high efficiency achieved by machine learning techniques in regression and classification problems, different artificial intelligence techniques are adopted model the performance of organic/inorganic heterojunction UV photodiode. Herein, the performance of a fabricated Au/NTCDA/p-Si/Al photodiode was explained in details and showed an excellent responsivity, and detectivity for UV light of intensities ranges from 20 to 80 ${mW/cm^2}$. The fabricated photodiodes exhibited a linear current-irradiance relationship under illumination up to 65 ${mW/cm^2}$. It also exhibits good response times of ${t_{rise} = 408}$ ms and ${t_{fall} = 490}$ ms. Furthermore, we have not only fitted the characteristic I-V curve but also evaluated three classical algorithms; k-nearest neighbour, artificial neural network, and genetic programming besides using a quantum neural network to predict the behaviour of the fabricated device. The models have achieved outstanding results and managed to capture the trend of the target values. The Quantum Neural Network has been used for the first time to model the photodiode. The models can be used instead of repeating the fabrication process. This means a reduction in cost and manufacturing time.
翻訳日:2023-01-16 04:55:15 公開日:2021-04-12
# 微分変分量子固有解器を用いたIBM量子コンピュータ上の分子励起状態の計算

Computation of molecular excited states on IBM quantum computers using a discriminative variational quantum eigensolver ( http://arxiv.org/abs/2001.04941v2 )

ライセンス: Link先を確認
Jules Tilly, Glenn Jones, Hongxiang Chen, Leonard Wossnig, Edward Grant(参考訳) 分子励起状態の解法は現代量子化学の重要な課題の1つである。 従来の手法は既存の計算能力によって制約されており、研究できる分子の複雑さや、得られる結果の精度を制限している。 この制限に対処するためにいくつかの量子コンピューティング手法が提案されている。 しかし、それらは通常、短期的には達成できないハードウェア要件を持っている。 我々は,初期ノイズ中間スケール量子(NISQ)コンピュータの欠陥に対して,分子励起状態が可能な限りレジリエントであることを目的とした変動量子機械学習法を提案し,IBMQ上のH2の実装を実証した。 本手法では,タンデムで動作する2つのパラメトリズド量子回路と変分量子固有解法(vqe)を組み合わせて,分子ハミルトニアンの固有状態を求める。

Solving for molecular excited states remains one of the key challenges of modern quantum chemistry. Traditional methods are constrained by existing computational capabilities, limiting the complexity of the molecules that can be studied or the accuracy of the results that can be obtained. Several quantum computing methods have been suggested to address this limitation. However, these typically have hardware requirements which may not be achieved in the near term. We propose a variational quantum machine learning based method to determine molecular excited states aiming at being as resilient as possible to the defects of early Noisy Intermediate Scale Quantum (NISQ) computers and demonstrate an implementation for H2 on IBMQ. Our method uses a combination of two parametrized quantum circuits, working in tandem, combined with a Variational Quantum Eigensolver (VQE) to iteratively find the eigenstates of a molecular Hamiltonian.
翻訳日:2023-01-11 13:08:43 公開日:2021-04-12
# 近似ベイズ計算の要約統計としての畳み込みニューラルネットワーク

Convolutional Neural Networks as Summary Statistics for Approximate Bayesian Computation ( http://arxiv.org/abs/2001.11760v5 )

ライセンス: Link先を確認
Mattias {\AA}kesson, Prashant Singh, Fredrik Wrede, Andreas Hellander(参考訳) 近似ベイズ計算は確率的遺伝子制御ネットワークモデルにおいてパラメータを推論するためにシステム生物学で広く用いられている。 その性能は、時系列のような高次元のシステム応答を、いくつかの情報的、低次元の要約統計にまとめる能力に批判的なものである。 これらの統計の質は、推論タスクの正確さに重大な影響を与えます。 候補統計のプールから最良のサブセットを選択する既存の方法は、数十から数百の候補統計の大きなプールではうまくスケールしない。 高品質な統計は優れた性能に欠かせないため、複雑な問題や高次元問題に対する推論を行う際に深刻なボトルネックとなる。 本稿では,時間応答の情報的要約統計を自動学習する畳み込みニューラルネットワークアーキテクチャを提案する。 提案するネットワークは,ABC推論の前処理ステップの統計選択問題を効果的に回避できることを示す。 提案手法は、高次元確率遺伝的発振器における2つのベンチマーク問題と1つの挑戦的推論問題学習パラメータで実証される。 また,実験設計がネットワーク性能に与える影響を,データリッチ性とデータ取得戦略の比較により検討した。

Approximate Bayesian Computation is widely used in systems biology for inferring parameters in stochastic gene regulatory network models. Its performance hinges critically on the ability to summarize high-dimensional system responses such as time series into a few informative, low-dimensional summary statistics. The quality of those statistics acutely impacts the accuracy of the inference task. Existing methods to select the best subset out of a pool of candidate statistics do not scale well with large pools of several tens to hundreds of candidate statistics. Since high quality statistics are imperative for good performance, this becomes a serious bottleneck when performing inference on complex and high-dimensional problems. This paper proposes a convolutional neural network architecture for automatically learning informative summary statistics of temporal responses. We show that the proposed network can effectively circumvent the statistics selection problem of the preprocessing step for ABC inference. The proposed approach is demonstrated on two benchmark problem and one challenging inference problem learning parameters in a high-dimensional stochastic genetic oscillator. We also study the impact of experimental design on network performance by comparing different data richness and data acquisition strategies.
翻訳日:2023-01-05 05:53:02 公開日:2021-04-12
# 二部ネットワークと単部ネットワークのグラフマッチング: 崩壊するか、崩壊しないか、それは問題です

Graph matching between bipartite and unipartite networks: to collapse, or not to collapse, that is the question ( http://arxiv.org/abs/2002.01648v3 )

ライセンス: Link先を確認
Jes\'us Arroyo, Carey E. Priebe, Vince Lyzinski(参考訳) グラフマッチングは、ネットワーク間の共有構造を最大化するために、2つのラベルのないグラフの頂点を整合させることで成り立っている。 本稿では,マッチングするグラフの1つが2部ネットワークであり、一方が単部ネットワークである共通設定について述べる。 一般に、二部ネットワークは崩壊または一部グラフに投影され、グラフマッチングは古典的な設定で進行する。 これは潜在的にノイズの多いエッジ推定と情報の損失につながる。 非有向グラフモデルを用いて二成分グラフと単成分グラフのグラフマッチング問題を定式化し、折り畳むことなくこのモデルにアライメントを求める手法を導入する。 理論上,本手法が一貫性があることを実証し,マッチング解の完全回復を保証する非漸近条件を提供する。 シミュレーションや実データ例では、二成分ネットワークを単成分に変換するナイーブなアプローチよりも、我々の手法がより正確にマッチングできることを示すとともに、共著者・引用ネットワークペアや脳構造・機能データを含むシミュレーションおよび実データネットワークにおいて、本手法が達成した性能向上を実証する。

Graph matching consists of aligning the vertices of two unlabeled graphs in order to maximize the shared structure across networks; when the graphs are unipartite, this is commonly formulated as minimizing their edge disagreements. In this paper, we address the common setting in which one of the graphs to match is a bipartite network and one is unipartite. Commonly, the bipartite networks are collapsed or projected into a unipartite graph, and graph matching proceeds as in the classical setting. This potentially leads to noisy edge estimates and loss of information. We formulate the graph matching problem between a bipartite and a unipartite graph using an undirected graphical model, and introduce methods to find the alignment with this model without collapsing. We theoretically demonstrate that our methodology is consistent, and provide non-asymptotic conditions that ensure exact recovery of the matching solution. In simulations and real data examples, we show how our methods can result in a more accurate matching than the naive approach of transforming the bipartite networks into unipartite, and we demonstrate the performance gains achieved by our method in simulated and real data networks, including a co-authorship-citation network pair, and brain structural and functional data.
翻訳日:2023-01-03 21:22:23 公開日:2021-04-12
# モーメントによる最適化:動的・制御論的・シンプレクティック視点

Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic Perspectives ( http://arxiv.org/abs/2002.12493v2 )

ライセンス: Link先を確認
Michael Muehlebach and Michael I. Jordan(参考訳) 運動量に基づく最適化アルゴリズムの収束速度を力学系の観点から解析する。 解析は,初期条件に対する反復の連続的依存などの基本的なトポロジカルな特性を利用して,収束率の簡易な評価を行う。 多くの場合、アルゴリズムパラメータと収束率を関連付ける閉形式式が得られる。 この分析は、時間不変および時間不変の定式化と同様に、離散時間と連続時間を含み、凸やユークリッドの設定に限らない。 さらに、この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要である理由を厳格に証明し、加速収束を示すアルゴリズムの特性を提供する。

We analyze the convergence rate of various momentum-based optimization algorithms from a dynamical systems point of view. Our analysis exploits fundamental topological properties, such as the continuous dependence of iterates on their initial conditions, to provide a simple characterization of convergence rates. In many cases, closed-form expressions are obtained that relate algorithm parameters to the convergence rate. The analysis encompasses discrete time and continuous time, as well as time-invariant and time-variant formulations, and is not limited to a convex or Euclidean setting. In addition, the article rigorously establishes why symplectic discretization schemes are important for momentum-based optimization algorithms, and provides a characterization of algorithms that exhibit accelerated convergence.
翻訳日:2022-12-28 02:39:07 公開日:2021-04-12
# データウェアハウスと総合的作物ビッグデータの意思決定支援

Data Warehouse and Decision Support on Integrated Crop Big Data ( http://arxiv.org/abs/2003.04470v2 )

ライセンス: Link先を確認
V.M. Ngo, N.A. Le-Khac, and M.T. Kechadi(参考訳) 近年、精密農業が盛んに行われている。 農業データの収集と処理のための近代的情報通信技術の導入は農業実践に革命をもたらす。 これは、種子、土壌、肥料、害虫、気象データ、ドローン、衛星画像など、あらゆるデータを収集するコストの低さから始まったものだ。 特に、今日の農業データマイニングは、体積、多様性、速度、正確性の観点から、ビッグデータアプリケーションと見なされている。 したがって、農業者、農業者、その他のビジネスにとって有用な知識を抽出するために、大量の複雑で多様な情報を処理することが困難になる。 効率的な資源管理と高品質な農業決定とレコメンデーションを可能にする、作物知能プラットフォームを確立するための重要な基盤である。 本稿では,大陸レベルの農業データウェアハウス(ADW)を設計・実装した。 ADWは,(1)フレキシブルスキーマ,(2)農業用マルチデータセットからのデータ統合,(3)データサイエンスとビジネス用インテリジェントサポート,(4)ハイパフォーマンス,(5)高ストレージ,(6)セキュリティ,(7)ガバナンスと監視,(8)一貫性,可用性,パーティション耐性,(9)クラウド互換性によって特徴付けられる。 また、ADWの性能を評価し、作物管理に必要な知識を抽出し、返却する複雑なクエリを提示する。

In recent years, precision agriculture is becoming very popular. The introduction of modern information and communication technologies for collecting and processing Agricultural data revolutionise the agriculture practises. This has started a while ago (early 20th century) and it is driven by the low cost of collecting data about everything; from information on fields such as seed, soil, fertiliser, pest, to weather data, drones and satellites images. Specially, the agricultural data mining today is considered as Big Data application in terms of volume, variety, velocity and veracity. Hence it leads to challenges in processing vast amounts of complex and diverse information to extract useful knowledge for the farmer, agronomist, and other businesses. It is a key foundation to establishing a crop intelligence platform, which will enable efficient resource management and high quality agronomy decision making and recommendations. In this paper, we designed and implemented a continental level agricultural data warehouse (ADW). ADW is characterised by its (1) flexible schema; (2) data integration from real agricultural multi datasets; (3) data science and business intelligent support; (4) high performance; (5) high storage; (6) security; (7) governance and monitoring; (8) consistency, availability and partition tolerant; (9) cloud compatibility. We also evaluate the performance of ADW and present some complex queries to extract and return necessary knowledge about crop management.
翻訳日:2022-12-24 21:57:49 公開日:2021-04-12
# FTT-NAS:フォールトトレラントな畳み込みニューラルネットワークの発見

FTT-NAS: Discovering Fault-Tolerant Convolutional Neural Architecture ( http://arxiv.org/abs/2003.10375v2 )

ライセンス: Link先を確認
Xuefei Ning, Guangjun Ge, Wenshuo Li, Zhenhua Zhu, Yin Zheng, Xiaoming Chen, Zhen Gao, Yu Wang and Huazhong Yang(参考訳) 組み込みディープラーニングコンピューティングシステムの急速な進化により、ディープラーニングを利用したアプリケーションはクラウドからエッジへと移行しつつある。 複雑な環境下でニューラルネットワーク(nns)をデバイスにデプロイする場合、宇宙放射線や放射性不純物に起因するソフトエラー、電圧不安定性、老化、温度変動、悪意のある攻撃など、さまざまな種類の障害が発生する。 そのため、NNを配備する際の安全リスクが注目されている。 本稿では,様々なタイプのnn加速器の故障を解析した結果,アルゴリズムの観点から様々な故障モデルを定式化し,実装する。 本稿では,近年のデバイスにおいて,様々な障害に対して信頼性の高い畳み込みニューラルネットワーク(CNN)アーキテクチャを自動検出するために,FT-NAS(Fault-Tolerant Neural Architecture Search)を提案する。 次に,FTT-NAS(FTT-NAS)と呼ばれる優れた結果を得るために,FTTを検索プロセスに組み込む。 CIFAR-10の実験では、発見されたアーキテクチャは他の手動設計のベースラインアーキテクチャよりも優れており、浮動小数点演算(FLOP)とパラメータが同等か少ないことが示されている。 特に、同じ障害設定で、機能障害モデルの下で発見されたF-FTT-Netは86.2%(MobileNet-V2で達成されたVS.68.1%)、重量故障モデルで発見されたW-FTT-Netは69.6%(ResNet-20で達成されたVS.60.8%)である。 検出したアーキテクチャを検査することで,演算プリミティブ,重み量子化範囲,モデルの容量,接続パターンがNNモデルの耐障害性に影響を与えることがわかった。

With the fast evolvement of embedded deep-learning computing systems, applications powered by deep learning are moving from the cloud to the edge. When deploying neural networks (NNs) onto the devices under complex environments, there are various types of possible faults: soft errors caused by cosmic radiation and radioactive impurities, voltage instability, aging, temperature variations, and malicious attackers. Thus the safety risk of deploying NNs is now drawing much attention. In this paper, after the analysis of the possible faults in various types of NN accelerators, we formalize and implement various fault models from the algorithmic perspective. We propose Fault-Tolerant Neural Architecture Search (FT-NAS) to automatically discover convolutional neural network (CNN) architectures that are reliable to various faults in nowadays devices. Then we incorporate fault-tolerant training (FTT) in the search process to achieve better results, which is referred to as FTT-NAS. Experiments on CIFAR-10 show that the discovered architectures outperform other manually designed baseline architectures significantly, with comparable or fewer floating-point operations (FLOPs) and parameters. Specifically, with the same fault settings, F-FTT-Net discovered under the feature fault model achieves an accuracy of 86.2% (VS. 68.1% achieved by MobileNet-V2), and W-FTT-Net discovered under the weight fault model achieves an accuracy of 69.6% (VS. 60.8% achieved by ResNet-20). By inspecting the discovered architectures, we find that the operation primitives, the weight quantization range, the capacity of the model, and the connection pattern have influences on the fault resilience capability of NN models.
翻訳日:2022-12-21 22:15:25 公開日:2021-04-12
# サンプル相関を用いた一般化ラベル強調

Generalized Label Enhancement with Sample Correlations ( http://arxiv.org/abs/2004.03104v3 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu, Haoyu Tang, Xinyuan Liu, Zhongyu Li, and Huimin Lu(参考訳) 近年,ラベル分散学習(LDL)は,ラベルインスタンスからLDLモデルを学習する機械学習において大きな注目を集めている。 シングルラベルとマルチラベルアノテーションとは異なり、ラベルディストリビューションはインスタンスを異なる強度を持つ複数のラベルで表現し、より一般的なシーンに対応している。 既存の機械学習データセットの多くは単に論理ラベルを提供するため、ラベル分布は多くの現実世界のアプリケーションでは利用できない。 この問題に対処するため,新たなラベル拡張手法として,ラベル拡張とサンプル相関(LESC),一般化ラベル拡張とサンプル相関(gLESC)を提案する。 より具体的には、lescは特徴空間におけるサンプルの低ランク表現を使い、glescはテンソル多ランク最小化を利用して、特徴空間とラベル空間の両方におけるサンプル相関をさらに調査する。 サンプル相関の利点により,提案手法はラベル強調の性能を高めることができる。 14のベンチマークデータセットに対する大規模な実験は、我々の方法の有効性と優位性を示している。

Recently, label distribution learning (LDL) has drawn much attention in machine learning, where LDL model is learned from labelel instances. Different from single-label and multi-label annotations, label distributions describe the instance by multiple labels with different intensities and accommodate to more general scenes. Since most existing machine learning datasets merely provide logical labels, label distributions are unavailable in many real-world applications. To handle this problem, we propose two novel label enhancement methods, i.e., Label Enhancement with Sample Correlations (LESC) and generalized Label Enhancement with Sample Correlations (gLESC). More specifically, LESC employs a low-rank representation of samples in the feature space, and gLESC leverages a tensor multi-rank minimization to further investigate the sample correlations in both the feature space and label space. Benefitting from the sample correlations, the proposed methods can boost the performance of label enhancement. Extensive experiments on 14 benchmark datasets demonstrate the effectiveness and superiority of our methods.
翻訳日:2022-12-15 22:35:06 公開日:2021-04-12
# コリンガルグループからの分布的視点の差異の同定

Identifying Distributional Perspective Differences from Colingual Groups ( http://arxiv.org/abs/2004.04938v2 )

ライセンス: Link先を確認
Yufei Tian, Tuhin Chakrabarty, Fred Morstatter and Nanyun Peng(参考訳) 異なる文化や言語にパースペクティブの違いが存在する。 特定の価値観や出来事に対する視点に関する異なるグループ間の相互理解の欠如は、インフォームドな決定や偏見のない意見につながる可能性がある。 グループパースペクティブの自動理解は、自然言語処理技術の多くの下流アプリケーションに不可欠な背景を提供することができる。 本稿では,コリンガルグループを調査し,言語コーパスを指標として分布的視点を同定する。 本稿では,英語,中国語,日本語の文化認識モデルを構築することにより,共通理解を学習するための新しい計算手法を提案する。 婚姻, 腐敗, 民主主義など多様なトピックについて, 集団内価値と集団間差異に関する人間の判断と高い相関関係が得られた。

Perspective differences exist among different cultures or languages. A lack of mutual understanding among different groups about their perspectives on specific values or events may lead to uninformed decisions or biased opinions. Automatically understanding the group perspectives can provide essential background for many downstream applications of natural language processing techniques. In this paper, we study colingual groups and use language corpora as a proxy to identify their distributional perspectives. We present a novel computational approach to learn shared understandings, and benchmark our method by building culturally-aware models for the English, Chinese, and Japanese languages. On a held out set of diverse topics including marriage, corruption, democracy, our model achieves high correlation with human judgements regarding intra-group values and inter-group differences.
翻訳日:2022-12-14 20:07:55 公開日:2021-04-12
# 上部信頼強化学習における探索の強化

Tightening Exploration in Upper Confidence Reinforcement Learning ( http://arxiv.org/abs/2004.09656v3 )

ライセンス: Link先を確認
Hippolyte Bourel and Odalric-Ambrym Maillard and Mohammad Sadegh Talebi(参考訳) 上位信頼強化学習(ucrl2)アルゴリズム(jaksch et al., 2010)は、平均回帰基準の下で未知の離散マルコフ決定過程において後悔を最小化する一般的な手法である。 良質で一般的な理論上の後悔の保証にもかかわらず、このアルゴリズムとその変種は、学習が行われる前に単純な環境における数値実験が長い燃焼相を示すため、これまでほとんど理論上は存在しなかった。 実用的効率を追求するために,ucrl2 の行に従って ucrl3 を提示するが,2つの重要な修正がなされている。 さらに,各遷移分布のサポートを適応的に計算することにより,ucrl2の拡張値反復手順を再検討し,低確率遷移を無視しながら近似最適化を保ちながら,支援の少ない分布を最適化する。 標準環境での数値実験により、この方法での探査を減らし、UCRL2とその変種と比較してかなりの数値的改善をもたらすことを示した。 理論的には、これらの重要な修正により、UCRL2で改善されたUCRL3に対する後悔の束縛が導出され、局所的な直径と局所的な有効支持の概念が初めて現れる。

The upper confidence reinforcement learning (UCRL2) algorithm introduced in (Jaksch et al., 2010) is a popular method to perform regret minimization in unknown discrete Markov Decision Processes under the average-reward criterion. Despite its nice and generic theoretical regret guarantees, this algorithm and its variants have remained until now mostly theoretical as numerical experiments in simple environments exhibit long burn-in phases before the learning takes place. In pursuit of practical efficiency, we present UCRL3, following the lines of UCRL2, but with two key modifications: First, it uses state-of-the-art time-uniform concentration inequalities to compute confidence sets on the reward and (component-wise) transition distributions for each state-action pair. Furthermore, to tighten exploration, it uses an adaptive computation of the support of each transition distribution, which in turn enables us to revisit the extended value iteration procedure of UCRL2 to optimize over distributions with reduced support by disregarding low probability transitions, while still ensuring near-optimism. We demonstrate, through numerical experiments in standard environments, that reducing exploration this way yields a substantial numerical improvement compared to UCRL2 and its variants. On the theoretical side, these key modifications enable us to derive a regret bound for UCRL3 improving on UCRL2, that for the first time makes appear notions of local diameter and local effective support, thanks to variance-aware concentration bounds.
翻訳日:2022-12-11 18:20:19 公開日:2021-04-12
# MOPS-Net:Task Oriented 3D Point Cloud Downsamplingのためのマトリックス最適化駆動ネットワーク

MOPS-Net: A Matrix Optimization-driven Network forTask-Oriented 3D Point Cloud Downsampling ( http://arxiv.org/abs/2005.00383v4 )

ライセンス: Link先を確認
Yue Qian, Junhui Hou, Qijian Zhang, Yiming Zeng, Sam Kwong, and Ying He(参考訳) 本稿では,3Dポイントクラウド上でのタスク指向のダウンサンプリングの問題について考察する。これは,ダウンサンプリングされたスパースポイントに適用されたその後のアプリケーションの性能を可能な限り維持しつつ,ポイントクラウドをダウンサンプリングすることを目的としている。 行列最適化の観点から設計したMOPS-Netは,新しい解釈可能な深層学習法であり,その解釈可能な特徴から既存の深層学習法と根本的に異なる。 最適化問題は、その離散的および組合せ的性質のために困難である。 我々は,変数のバイナリ制約を緩和し,制約付きかつ微分可能な行列最適化問題を定式化する。 次に,入力データの局所的および大域的構造を探索することにより,行列最適化を模倣するディープニューラルネットワークを設計する。 MOPS-Netはタスクネットワークでエンドツーエンドでトレーニングでき、置換不変であり、入力に対して堅牢である。 また、1回のトレーニング後に1つのネットワークが任意のダウンサンプリング比を扱えるようにMOPS-Netを拡張した。 大規模な実験結果から,MOPS-Netは,分類,再構築,登録など様々なタスクにおいて,最先端の深層学習手法に対して良好な性能を発揮することが示された。 また,ノイズデータに対するmops-netのロバスト性を検証する。

This paper explores the problem of task-oriented downsampling over 3D point clouds, which aims to downsample a point cloud while maintaining the performance of subsequent applications applied to the downsampled sparse points as much as possible. Designing from the perspective of matrix optimization, we propose MOPS-Net, a novel interpretable deep learning-based method, which is fundamentally different from the existing deep learning-based methods due to its interpretable feature. The optimization problem is challenging due to its discrete and combinatorial nature. We tackle the challenges by relaxing the binary constraint of the variables, and formulate a constrained and differentiable matrix optimization problem. We then design a deep neural network to mimic the matrix optimization by exploring both the local and global structures of the input data. MOPS-Net can be end-to-end trained with a task network and is permutation-invariant, making it robust to the input. We also extend MOPS-Net such that a single network after one-time training is capable of handling arbitrary downsampling ratios. Extensive experimental results show that MOPS-Net can achieve favorable performance against state-of-the-art deep learning-based methods over various tasks, including classification, reconstruction, and registration. Besides, we validate the robustness of MOPS-Net on noisy data.
翻訳日:2022-12-08 00:14:12 公開日:2021-04-12
# 知識集約型NLPタスクの検索強化生成

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ( http://arxiv.org/abs/2005.11401v4 )

ライセンス: Link先を確認
Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich K\"uttler, Mike Lewis, Wen-tau Yih, Tim Rockt\"aschel, Sebastian Riedel, Douwe Kiela(参考訳) 大規模な事前学習された言語モデルは、そのパラメータに事実知識を格納し、下流のNLPタスクで微調整された場合の最先端の結果を達成することが示されている。 しかし、知識にアクセスし、正確に操作する能力はまだ限られており、そのため知識集約的なタスクでは、タスク固有のアーキテクチャに遅れが生じる。 さらに、彼らの決定の立証と世界知識の更新は、依然としてオープンな研究課題である。 明示的な非パラメトリックメモリに対する識別可能なアクセス機構を持つ事前学習モデルはこの問題を克服することができるが、これまでは抽出下流タスクに対してのみ検討されてきた。 本稿では,言語生成のための学習済みパラメトリックメモリと非パラメトリックメモリを組み合わせたRAGモデルについて検討する。 本稿では,パラメータメモリが事前学習されたSeq2seqモデルであり,非パラメータメモリがウィキペディアの高密度ベクトルインデックスであり,事前学習されたニューラルレトリバーによってアクセスされるRAGモデルを紹介する。 2つのrag式を比較した。1つは、生成されたシーケンス全体で同じ検索されたパスの条件であり、もう1つはトークンごとに異なるパスを使うことができる。 我々は,多種多様な知識集約型NLPタスクのモデルを微調整し評価し,3つのオープンドメインQAタスク,パラメトリックSeq2seqモデル,タスク固有の検索・抽出アーキテクチャを最先端に設定する。 言語生成タスクの場合、RAGモデルは最先端のパラメトリックのみのSeq2seqベースラインよりも、より具体的で多様で現実的な言語を生成する。

Large pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, their ability to access and precisely manipulate knowledge is still limited, and hence on knowledge-intensive tasks, their performance lags behind task-specific architectures. Additionally, providing provenance for their decisions and updating their world knowledge remain open research problems. Pre-trained models with a differentiable access mechanism to explicit non-parametric memory can overcome this issue, but have so far been only investigated for extractive downstream tasks. We explore a general-purpose fine-tuning recipe for retrieval-augmented generation (RAG) -- models which combine pre-trained parametric and non-parametric memory for language generation. We introduce RAG models where the parametric memory is a pre-trained seq2seq model and the non-parametric memory is a dense vector index of Wikipedia, accessed with a pre-trained neural retriever. We compare two RAG formulations, one which conditions on the same retrieved passages across the whole generated sequence, the other can use different passages per token. We fine-tune and evaluate our models on a wide range of knowledge-intensive NLP tasks and set the state-of-the-art on three open domain QA tasks, outperforming parametric seq2seq models and task-specific retrieve-and-extract architectures. For language generation tasks, we find that RAG models generate more specific, diverse and factual language than a state-of-the-art parametric-only seq2seq baseline.
翻訳日:2022-11-30 08:22:52 公開日:2021-04-12
# 動的アルゴリズム構成による学習ヒューリスティック選択

Learning Heuristic Selection with Dynamic Algorithm Configuration ( http://arxiv.org/abs/2006.08246v3 )

ライセンス: Link先を確認
David Speck, Andr\'e Biedenkapp, Frank Hutter, Robert Mattm\"uller, Marius Lindauer(参考訳) 計画に満足する上で重要な課題は、複数のヒューリスティックを1つのヒューリスティック検索で使うことである。 複数のヒューリスティック推定の集約は、例えば最大値を取ることで、単一のヒューリスティックの悪い推定が全体の探索に悪影響を及ぼすという欠点がある。 ヒューリスティックのパフォーマンスは例によって異なるため、アルゴリズムの選択のようなアプローチをうまく適用することができる。 さらに、探索中に複数のヒューリスティックを交互に組み合わせることで、全てのヒューリスティックを等しく使い、性能を向上させることができる。 しかし、これらすべてのアプローチは、現在の拡張ステップにおいて最も有用なヒューリスティックを選択するのに役立つ計画システムの内部探索力学を無視する。 本研究では,計画システムの内部探索力学を考慮した動的ヒューリスティック選択に動的アルゴリズム構成を用いることができることを示す。 さらに,このアプローチが既存のアプローチを一般化し,ヒューリスティック検索の性能を指数関数的に向上できることを示す。 動的ヒューリスティック選択を学習するために,強化学習に基づくアプローチを提案し,計画システムの内部探索ダイナミクスを考慮したドメイン指向学習ポリシーが既存のアプローチを超越できることを実証的に示す。

A key challenge in satisficing planning is to use multiple heuristics within one heuristic search. An aggregation of multiple heuristic estimates, for example by taking the maximum, has the disadvantage that bad estimates of a single heuristic can negatively affect the whole search. Since the performance of a heuristic varies from instance to instance, approaches such as algorithm selection can be successfully applied. In addition, alternating between multiple heuristics during the search makes it possible to use all heuristics equally and improve performance. However, all these approaches ignore the internal search dynamics of a planning system, which can help to select the most useful heuristics for the current expansion step. We show that dynamic algorithm configuration can be used for dynamic heuristic selection which takes into account the internal search dynamics of a planning system. Furthermore, we prove that this approach generalizes over existing approaches and that it can exponentially improve the performance of the heuristic search. To learn dynamic heuristic selection, we propose an approach based on reinforcement learning and show empirically that domain-wise learned policies, which take the internal search dynamics of a planning system into account, can exceed existing approaches.
翻訳日:2022-11-21 02:39:13 公開日:2021-04-12
# 貴重ラベリングによるRKHSのグラディエントDescent

Gradient Descent in RKHS with Importance Labeling ( http://arxiv.org/abs/2006.10925v2 )

ライセンス: Link先を確認
Tomoya Murata, Taiji Suzuki(参考訳) ラベリングコストはしばしば高価であり、教師付き学習の基本的な制限である。 本稿では,ラベル付きデータを多数付与し,ラベル付きデータからラベル付けする限られた数のデータを選択し,選択したデータに対して学習アルゴリズムを実行する,重要ラベル付け問題について検討する。 本稿では,RKHS(Reproduction Kernel Hilbert Spaces)において,最小2乗回帰でラベル付きデータの情報サブセットを効果的に選択できる新しい重要ラベル方式を提案する。 本研究では, 勾配勾配の一般化誤差をラベル付け方式と組み合わせて解析し, 提案アルゴリズムがより広い範囲での収束率を最適に達成し, 一般の均一サンプリング方式よりも小さなラベル雑音設定においてより優れた一般化能力が得られることを示す。 数値実験は理論的な結果を検証する。

Labeling cost is often expensive and is a fundamental limitation of supervised learning. In this paper, we study importance labeling problem, in which we are given many unlabeled data and select a limited number of data to be labeled from the unlabeled data, and then a learning algorithm is executed on the selected one. We propose a new importance labeling scheme that can effectively select an informative subset of unlabeled data in least squares regression in Reproducing Kernel Hilbert Spaces (RKHS). We analyze the generalization error of gradient descent combined with our labeling scheme and show that the proposed algorithm achieves the optimal rate of convergence in much wider settings and especially gives much better generalization ability in a small label noise setting than the usual uniform sampling scheme. Numerical experiments verify our theoretical findings.
翻訳日:2022-11-19 03:38:48 公開日:2021-04-12
# MIMO-OFDMシステムにおける深層学習に基づくパイロット設計とチャネル推定

Pruning the Pilots: Deep Learning-Based Pilot Design and Channel Estimation for MIMO-OFDM Systems ( http://arxiv.org/abs/2006.11796v3 )

ライセンス: Link先を確認
Mahdi Boloursaz Mashhadi and Deniz Gunduz(参考訳) アンテナやサブキャリアの数が多ければ、広帯域マルチインプットマルチアウトプット(MIMO)システムでは、チャネル推定のパイロット送信によるオーバーヘッドが禁止される可能性がある。 これにより、スペクトル全体の効率が大幅に低下し、その結果、大規模なMIMOの潜在的な利益が減少する。 本稿では,周波数分割倍数(FDD)MIMO直交周波数分割多重(OFDM)システムのためのニューラルネットワークを用いた共同パイロット設計とダウンリンクチャネル推定手法を提案する。 提案したNNアーキテクチャは、周波数対応のパイロット設計に完全連結層を用いており、畳み込みNN層を用いたMIMOチャネル行列の固有相関を利用して線形平均二乗誤差(LMMSE)推定に優れる。 提案するNNアーキテクチャでは,非局所アテンションモジュールを用いてチャネル行列の長い範囲相関を学習し,チャネル推定性能をさらに向上する。 また,訓練中に密集したnn層から有意なニューロンを徐々に刈り取ることで,効果的なパイロット削減手法を提案する。 これは、パイロットトランスミッションオーバーヘッドを減らすためにNNプルーニングの新たな応用となる。 プルーニングに基づくパイロット低減手法は, サブキャリア間でパイロットを不均一に割り当て, 畳み込み層とアテンションモジュールを介してチャネルマトリクスの周波数間およびアンテナ間相関を効率的に活用することにより, オーバーヘッドを削減する。

With the large number of antennas and subcarriers the overhead due to pilot transmission for channel estimation can be prohibitive in wideband massive multiple-input multiple-output (MIMO) systems. This can degrade the overall spectral efficiency significantly, and as a result, curtail the potential benefits of massive MIMO. In this paper, we propose a neural network (NN)-based joint pilot design and downlink channel estimation scheme for frequency division duplex (FDD) MIMO orthogonal frequency division multiplex (OFDM) systems. The proposed NN architecture uses fully connected layers for frequency-aware pilot design, and outperforms linear minimum mean square error (LMMSE) estimation by exploiting inherent correlations in MIMO channel matrices utilizing convolutional NN layers. Our proposed NN architecture uses a non-local attention module to learn longer range correlations in the channel matrix to further improve the channel estimation performance. We also propose an effective pilot reduction technique by gradually pruning less significant neurons from the dense NN layers during training. This constitutes a novel application of NN pruning to reduce the pilot transmission overhead. Our pruning-based pilot reduction technique reduces the overhead by allocating pilots across subcarriers non-uniformly and exploiting the inter-frequency and inter-antenna correlations in the channel matrix efficiently through convolutional layers and attention module.
翻訳日:2022-11-18 12:43:53 公開日:2021-04-12
# 最大生産量による熱力学機械学習

Thermodynamic Machine Learning through Maximum Work Production ( http://arxiv.org/abs/2006.15416v3 )

ライセンス: Link先を確認
A. B. Boyd, J. P. Crutchfield, and M. Gu(参考訳) 生物の生存の優位性、機能的タスクを実行する自律ロボット、細胞内の栄養素を輸送するモータータンパク質などの適応システムは、熱力学的資源を最大限に活用するために、環境の規則性と確率性をモデル化する必要がある。 同様に、純粋に計算領域では、機械学習アルゴリズムは予測可能な構造をキャプチャし、トレーニングデータの無関係なノイズを識別するためにモデルを推定する。 これはモデルの可能性のようなパフォーマンスメトリクスの最適化によって起こる。 物理的に実装すれば、機械学習によって推定される計算モデルが物理的に望ましいという感覚はあるだろうか? 本稿では,作業生産が適応的物理エージェントの最も重要なパフォーマンス指標であるという熱力学原理を導入し,その結果を機械学習を導く最大原理と比較する。 効率の良いエージェントのモデルが環境からエネルギーを最も効率的に取り出す物理的エージェントのクラスの中で、そのアーキテクチャと、それが環境からどれだけ有用な仕事を得るかを明確に決定できることを実証する。 次に,与えられた環境データに対する最大作業エージェントの選択は,最大類似度モデルの発見に対応していることを示す。 これは非平衡熱力学と動的学習の等価性を確立する。 このように、仕事の最大化は適応熱力学系における学習の基盤となる組織原理として現れる。

Adaptive systems -- such as a biological organism gaining survival advantage, an autonomous robot executing a functional task, or a motor protein transporting intracellular nutrients -- must model the regularities and stochasticity in their environments to take full advantage of thermodynamic resources. Analogously, but in a purely computational realm, machine learning algorithms estimate models to capture predictable structure and identify irrelevant noise in training data. This happens through optimization of performance metrics, such as model likelihood. If physically implemented, is there a sense in which computational models estimated through machine learning are physically preferred? We introduce the thermodynamic principle that work production is the most relevant performance metric for an adaptive physical agent and compare the results to the maximum-likelihood principle that guides machine learning. Within the class of physical agents that most efficiently harvest energy from their environment, we demonstrate that an efficient agent's model explicitly determines its architecture and how much useful work it harvests from the environment. We then show that selecting the maximum-work agent for given environmental data corresponds to finding the maximum-likelihood model. This establishes an equivalence between nonequilibrium thermodynamics and dynamic learning. In this way, work maximization emerges as an organizing principle that underlies learning in adaptive thermodynamic systems.
翻訳日:2022-11-16 07:40:15 公開日:2021-04-12
# DART: テキスト生成のためのオープンドメイン構造化データ記録

DART: Open-Domain Structured Data Record to Text Generation ( http://arxiv.org/abs/2007.02871v2 )

ライセンス: Link先を確認
Linyong Nan, Dragomir Radev, Rui Zhang, Amrit Rau, Abhinand Sivaprasad, Chiachun Hsieh, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Mutethia Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani(参考訳) オープンなドメイン構造を持つDAta Record to Text生成データセットであるDARTを,82k以上のインスタンス(DART)で紹介する。 data-to-textアノテーションは、特に構造化データの主要なソースであり、非自明な構造を含むテーブルを扱う場合、コストのかかるプロセスである。 そこで本研究では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,それらの構造をエンコードするテーブルから意味的三重項を抽出する手法を提案する。 我々のデータセット構築フレームワークは,木オントロジーアノテーション,質問応答対から宣言文への変換,述語統一といった手法を利用して,オープンドメインのセマンティックパーシングと対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。 我々は、DARTの体系的な評価と、WebNLG 2017における新たな最先端結果を示し、DART(1)が既存のデータ・テキスト・データセットに新たな課題をもたらし、(2)ドメイン外の一般化を促進することを示す。 私たちのデータとコードはhttps://github.com/yale-lily/dartにあります。

We present DART, an open domain structured DAta Record to Text generation dataset with over 82k instances (DARTs). Data-to-Text annotations can be a costly process, especially when dealing with tables which are the major source of structured data and contain nontrivial structures. To this end, we propose a procedure of extracting semantic triples from tables that encodes their structures by exploiting the semantic dependencies among table headers and the table title. Our dataset construction framework effectively merged heterogeneous sources from open domain semantic parsing and dialogue-act-based meaning representation tasks by utilizing techniques such as: tree ontology annotation, question-answer pair to declarative sentence conversion, and predicate unification, all with minimum post-editing. We present systematic evaluation on DART as well as new state-of-the-art results on WebNLG 2017 to show that DART (1) poses new challenges to existing data-to-text datasets and (2) facilitates out-of-domain generalization. Our data and code can be found at https://github.com/Yale-LILY/dart.
翻訳日:2022-11-13 02:27:13 公開日:2021-04-12
# 右検閲下での量的回帰のためのディープラーニング:deepquantreg

Deep Learning for Quantile Regression under Right Censoring: DeepQuantreg ( http://arxiv.org/abs/2007.07056v2 )

ライセンス: Link先を確認
Yichen Jia and Jong-Hyeon Jeong(参考訳) ニューラルネットワーク(ディープラーニング)の計算予測アルゴリズムは、近年、画像認識や自然言語処理と同様に統計学でも注目されている。 特に、検閲されたサバイバルデータに対する統計的応用において、最適化に使用される損失関数は、主にcoxのモデルと、tensorflowのオープンソースライブラリ上に構築されたkerasのような既存のニューラルネットワークライブラリを使用するためのバリエーションによる部分的可能性に基づいている。 本稿では,チェック関数における推定検閲分布の逆数によって調整された右検閲付き生存データに対する量子回帰に対するニューラルネットワークの新たな応用について述べる。 本研究の主な目的は,従来の線形量子化回帰法や非パラメトリック量子化回帰法といった従来の量子化回帰法と比較して,非線形パターンをより正確に予測できるほど,ディープラーニング手法が柔軟であることを示し,この手法の実用性を強調することである。 非線形検閲サバイバルデータを生成するためにシミュレーションを行い, 予測精度の観点から, 深層学習法と既存の分位回帰法を比較した。 提案手法は、遺伝子シグネチャを持つ2つの乳がんデータセットで示される。 このメソッドはパッケージに組み込まれており、 \url{https://github.com/yicjia/deepquantreg} で自由に利用できる。

The computational prediction algorithm of neural network, or deep learning, has drawn much attention recently in statistics as well as in image recognition and natural language processing. Particularly in statistical application for censored survival data, the loss function used for optimization has been mainly based on the partial likelihood from Cox's model and its variations to utilize existing neural network library such as Keras, which was built upon the open source library of TensorFlow. This paper presents a novel application of the neural network to the quantile regression for survival data with right censoring, which is adjusted by the inverse of the estimated censoring distribution in the check function. The main purpose of this work is to show that the deep learning method could be flexible enough to predict nonlinear patterns more accurately compared to existing quantile regression methods such as traditional linear quantile regression and nonparametric quantile regression with total variation regularization, emphasizing practicality of the method for censored survival data. Simulation studies were performed to generate nonlinear censored survival data and compare the deep learning method with existing quantile regression methods in terms of prediction accuracy. The proposed method is illustrated with two publicly available breast cancer data sets with gene signatures. The method has been built into a package and is freely available at \url{https://github.com/yicjia/DeepQuantreg}.
翻訳日:2022-11-10 14:15:26 公開日:2021-04-12
# 診断的質問の指導とガイド: neurips 2020 教育チャレンジ

Instructions and Guide for Diagnostic Questions: The NeurIPS 2020 Education Challenge ( http://arxiv.org/abs/2007.12061v3 )

ライセンス: Link先を確認
Zichao Wang, Angus Lamb, Evgeny Saveliev, Pashmina Cameron, Yordan Zaykov, Jos\'e Miguel Hern\'andez-Lobato, Richard E. Turner, Richard G. Baraniuk, Craig Barton, Simon Peyton Jones, Simon Woodhead, Cheng Zhang(参考訳) デジタル技術は教育においてますます普及し、世界中の学生がパーソナライズされた高品質な教育リソースを利用できるようになっている。 これらの質問に対して学生が答える答えは、学生が持つかもしれない誤解の特定の性質に関する重要な情報を明らかにする。 これらの診断問題との相互作用から生じる大量のデータを分析することで、学生の学習状況をより正確に理解し、学習カリキュラムの推薦を自動化することができる。 この競技では,参加者は,これらの多票診断問題に対する学生の回答記録に焦点をあてる。 1) 学生の回答を正確に予測すること。 2)どの質問が質が高いかを正確に予測し、 3)各学生の回答を最もよく予測する質問のパーソナライズされた順序を決定する。 これらのタスクは、現実世界の教育プラットフォームの目標を密接に模倣しており、今日直面する教育上の課題を非常に代表している。 世界中の何千人もの学生が毎日交流する主要な教育プラットフォームであるEediから、数学の質問に対する生徒の回答の例を2000万件以上提供します。 このコンテストの参加者は、世界中の何百万人もの学生にパーソナライズされた教育の質に、永続的で現実世界的なインパクトを与える機会を持っている。

Digital technologies are becoming increasingly prevalent in education, enabling personalized, high quality education resources to be accessible by students across the world. Importantly, among these resources are diagnostic questions: the answers that the students give to these questions reveal key information about the specific nature of misconceptions that the students may hold. Analyzing the massive quantities of data stemming from students' interactions with these diagnostic questions can help us more accurately understand the students' learning status and thus allow us to automate learning curriculum recommendations. In this competition, participants will focus on the students' answer records to these multiple-choice diagnostic questions, with the aim of 1) accurately predicting which answers the students provide; 2) accurately predicting which questions have high quality; and 3) determining a personalized sequence of questions for each student that best predicts the student's answers. These tasks closely mimic the goals of a real-world educational platform and are highly representative of the educational challenges faced today. We provide over 20 million examples of students' answers to mathematics questions from Eedi, a leading educational platform which thousands of students interact with daily around the globe. Participants to this competition have a chance to make a lasting, real-world impact on the quality of personalized education for millions of students across the world.
翻訳日:2022-11-07 13:24:41 公開日:2021-04-12
# 埋め込みのないニューラルマシン翻訳

Neural Machine Translation without Embeddings ( http://arxiv.org/abs/2008.09396v2 )

ライセンス: Link先を確認
Uri Shaham and Omer Levy(参考訳) 多くのNLPモデルは、手作りのトークン化規則とヒューリスティックなサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。 単純な普遍的な選択肢は、すべてのコンピュータ化されたテキストをUTF-8を介してバイトのシーケンスとして表現することであり、次元よりもトークンタイプ (256) が少ないため、埋め込み層の必要性を回避している。 驚くべきことに、ユビキタスな埋め込み層を各バイトの1ホット表現に置き換えることは、パフォーマンスを損なうことはない。英語から10の異なる言語へのバイト単位の機械翻訳の実験は、BLEUの一貫性のある改善を示し、文字レベルや標準のサブワードレベルのモデルに匹敵する。 より深い調査によると、デコーダインプットのドロップアウトと埋め込みレスモデルの組み合わせはトークンのドロップアウトに相当し、特にバイト単位のモデルに有効である。

Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8, obviating the need for an embedding layer since there are fewer token types (256) than dimensions. Surprisingly, replacing the ubiquitous embedding layer with one-hot representations of each byte does not hurt performance; experiments on byte-to-byte machine translation from English to 10 different languages show a consistent improvement in BLEU, rivaling character-level and even standard subword-level models. A deeper investigation reveals that the combination of embeddingless models with decoder-input dropout amounts to token dropout, which benefits byte-to-byte models in particular.
翻訳日:2022-10-26 20:43:57 公開日:2021-04-12
# 深層Q-Learning:漸近分析からの理論的考察

Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis ( http://arxiv.org/abs/2008.10870v2 )

ライセンス: Link先を確認
Arunselvan Ramaswamy, Eyke H\"ullermeier(参考訳) Deep Q-Learningは、Deep Q-Network(DQN)と呼ばれるディープニューラルネットワークのトレーニングを含む、重要な強化学習アルゴリズムである。 実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。 動的システムの観点から、現実的で検証可能な仮定の下で、人気のあるDeep Q-Learningの理論的解析を行う。 より具体的には、学習プロセスの漸近的挙動を特徴付けるアルゴリズムの収束に関する重要な結果を証明する。 その結果,アルゴリズムの非説明特性に光を当て,訓練後の性能不整合などの経験的観察の理解を支援する。 従来の理論とは異なり、我々は複数の定常分布を持つ状態マルコフ過程を解析する。 深層Q-Learningに焦点が当てられているにもかかわらず、我々の理論は他の深層学習アルゴリズムを理解するために応用できると考えている。

Deep Q-Learning is an important reinforcement learning algorithm, which involves training a deep neural network, called Deep Q-Network (DQN), to approximate the well-known Q-function. Although wildly successful under laboratory conditions, serious gaps between theory and practice as well as a lack of formal guarantees prevent its use in the real world. Adopting a dynamical systems perspective, we provide a theoretical analysis of a popular version of Deep Q-Learning under realistic and verifiable assumptions. More specifically, we prove an important result on the convergence of the algorithm, characterizing the asymptotic behavior of the learning process. Our result sheds light on hitherto unexplained properties of the algorithm and helps understand empirical observations, such as performance inconsistencies even after training. Unlike previous theories, our analysis accommodates state Markov processes with multiple stationary distributions. In spite of the focus on Deep Q-Learning, we believe that our theory may be applied to understand other deep learning algorithms
翻訳日:2022-10-25 02:50:12 公開日:2021-04-12
# text modular networks: 既存のモデルの言語でタスクを分解する学習

Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models ( http://arxiv.org/abs/2009.00751v2 )

ライセンス: Link先を確認
Tushar Khot and Daniel Khashabi and Kyle Richardson and Peter Clark and Ashish Sabharwal(参考訳) 本稿では,テキスト・モジュール・ネットワーク(TMN)と呼ばれる,複雑なタスクを解くための解釈可能なシステムを構築するための汎用フレームワークを提案する。 単純なタスクの解決可能性を確保するため、TMNはデータセットを通じて既存のモデルのテキスト入力出力動作(すなわち言語)を学ぶ。 これは、各複雑なタスク用に特別に設計された前の分解ベースのアプローチと異なり、既存のサブモデルとは独立に分解を生成する。 具体的には,質問回答(QA)に注目し,人間のアノテーションを付加することなく,適切なサブモデルをターゲットにしたサブクエストを逐次生成するための次のクエストジェネレータの訓練方法を示す。 これらのサブ質問と回答は、モデルの推論の忠実な自然言語説明を提供する。 我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。 実験の結果,ModularQAは既存のDROPやHotpotQAデータセットより汎用性が高く,最先端のブラックボックス(非解釈可能)システムよりも堅牢であり,従来よりも理解しやすく,信頼性の高い説明を生成することがわかった。

We propose a general framework called Text Modular Networks(TMNs) for building interpretable systems that learn to solve complex tasks by decomposing them into simpler ones solvable by existing models. To ensure solvability of simpler tasks, TMNs learn the textual input-output behavior (i.e., language) of existing models through their datasets. This differs from prior decomposition-based approaches which, besides being designed specifically for each complex task, produce decompositions independent of existing sub-models. Specifically, we focus on Question Answering (QA) and show how to train a next-question generator to sequentially produce sub-questions targeting appropriate sub-models, without additional human annotation. These sub-questions and answers provide a faithful natural language explanation of the model's reasoning. We use this framework to build ModularQA, a system that can answer multi-hop reasoning questions by decomposing them into sub-questions answerable by a neural factoid single-span QA model and a symbolic calculator. Our experiments show that ModularQA is more versatile than existing explainable systems for DROP and HotpotQA datasets, is more robust than state-of-the-art blackbox (uninterpretable) systems, and generates more understandable and trustworthy explanations compared to prior work.
翻訳日:2022-10-23 00:35:37 公開日:2021-04-12
# コンポーネントレベル分析による自動運転車の安全性定量化

Self-driving car safety quantification via component-level analysis ( http://arxiv.org/abs/2009.01119v4 )

ライセンス: Link先を確認
Juozas Vaicenavicius and Tilo Wiklund and Aust\.e Grigait\.e and Antanas Kalkauskas and Ignas Vysniauskas and Steven Keen(参考訳) 本稿では,具体例を通して,自動運転車の安全性や不便さを議論するための厳密なモジュラー統計手法を提案する。 この手法は構成成分の性能を適切に定量的に研究することに依存している。 本研究は, 車両全体の安全性とコスト削減効果を両立させるため, 部品レベルでの十分な, 必要な条件の重要性を説明する。 簡単な具体的自動ブレーキの例は、車両レベルでの安全性を証明するために、認識システムと運用設計領域の統計分析を区別する方法を示している。

In this paper, we present a rigorous modular statistical approach for arguing safety or its insufficiency of an autonomous vehicle through a concrete illustrative example. The methodology relies on making appropriate quantitative studies of the performance of constituent components. We explain the importance of sufficient and necessary conditions at the component level for the overall safety of the vehicle as well as the cost-saving benefits of the approach. A simple concrete automated braking example studied illustrates how separate perception system and operational design domain statistical analyses can be used to prove or disprove safety at the vehicle level.
翻訳日:2022-10-22 19:54:28 公開日:2021-04-12
# PRNUに基づくソース識別のリーク。 指紋の特異性を問う

A leak in PRNU based source identification. Questioning fingerprint uniqueness ( http://arxiv.org/abs/2009.04878v2 )

ライセンス: Link先を確認
Massimo Iuliani, Marco Fontani, Alessandro Piva(参考訳) Photo Response Non-Uniformity (PRNU) は、画像ソース属性タスクにおいて最も効果的なトレースであると考えられている。 その特異性により、異なるカメラから抽出されたセンサパターンノイズは、同じカメラモデルに属する場合でも強く相関しない。 しかし、計算写真が出現すると、ほとんどの最近のデバイスは取得したピクセルを多用し、おそらくprnuノイズの識別性を低下させるような非独創的なアーティファクトを導入する可能性がある。 PRNUは、世界中の法執行機関が実際に広く利用している画像鑑定技術であることを考えると、近年のデバイス上でそのような技術を検証し続けることが不可欠である。 本稿では,スマートフォン45機種,デジタル一眼レフカメラ25機種の3万枚以上のflickr画像を対象に,この問題がどの程度広範に発生し,その原因が何であるかを検証した。 実験によると、Samsung、Huawei、Canon、Nikon、Fujifilm、Sigma、Leicaなど、ほとんどのブランドがこの問題の影響を強く受けている。 誤報率の高い主な原因は、特定のカメラモデル、ファームウェア、画像内容に直接関連しないことを示す。 最新のデバイスにおける \prnu ベースのソース識別の有効性は,これらの結果を踏まえて再検討する必要がある。 したがって,本論文は,対象の完全治療ではなく,科学的コミュニティに対する行動を呼び起こすものである。 さらに,これらのデータを公開することは,法執行機関の世界におけるPRNU信頼性の問題に対する認識を高める上で重要であると考えている。

Photo Response Non-Uniformity (PRNU) is considered the most effective trace for the image source attribution task. Its uniqueness ensures that the sensor pattern noises extracted from different cameras are strongly uncorrelated, even when they belong to the same camera model. However, with the advent of computational photography, most recent devices heavily process the acquired pixels, possibly introducing non-unique artifacts that may reduce PRNU noise's distinctiveness, especially when several exemplars of the same device model are involved in the analysis. Considering that PRNU is an image forensic technology that finds actual and wide use by law enforcement agencies worldwide, it is essential to keep validating such technology on recent devices as they appear. In this paper, we perform an extensive testing campaign on over 33.000 Flickr images belonging to 45 smartphone and 25 DSLR camera models released recently to determine how widespread the issue is and which is the plausible cause. Experiments highlight that most brands, like Samsung, Huawei, Canon, Nikon, Fujifilm, Sigma, and Leica, are strongly affected by this issue. We show that the primary cause of high false alarm rates cannot be directly related to specific camera models, firmware, nor image contents. It is evident that the effectiveness of \prnu based source identification on the most recent devices must be reconsidered in light of these results. Therefore, this paper is intended as a call to action for the scientific community rather than a complete treatment of the subject. Moreover, we believe publishing these data is important to raise awareness about a possible issue with PRNU reliability in the law enforcement world.
翻訳日:2022-10-20 04:04:08 公開日:2021-04-12
# パンデミック予測のための転送グラフニューラルネットワーク

Transfer Graph Neural Networks for Pandemic Forecasting ( http://arxiv.org/abs/2009.08388v5 )

ライセンス: Link先を確認
George Panagopoulos and Giannis Nikolentzos and Michalis Vazirgiannis(参考訳) 新型コロナウイルス(COVID-19)の流行は世界中の何百万人もの人に影響を与えており、世界の医療にとって大きな課題となっている。 パンデミックの初期には、非常に伝染性が高く、人間の移動性がその拡散に大きく貢献していることが明らかとなった。 本稿では,人口移動が新型コロナウイルス(covid-19)の拡散に及ぼす影響について検討し,その基盤となるダイナミクスを捉えるために,グラフ表現学習の分野における最近の進歩を生かした。 具体的には、ノードが国の地域に対応するグラフを作成し、エッジウェイトは、ある地域から別の地域への人間の移動度を示す。 次に,グラフニューラルネットワークを用いて,学習モデルの拡散を制御している拡散パターンをエンコードし,将来の事例数を予測する。 さらに,訓練データの限られた量を考慮するため,パンデミックが各国で発生した非同期なアウトブレイクに乗じて,モデルに依存しないメタラーニング手法を用いて,ある国のモデルから他国のモデルへ知識を伝達する。 欧州3か国における単純なベースラインと従来型の予測手法に対する提案手法を比較した。 実験により, 疫学予測におけるGNNの有用性を明らかにするとともに, 提案手法の優位性を示した。 転送学習は最高のモデルを提供し、過去/並列のアウトブレイクからのデータを利用する場合、二次波の場合の予測精度を改善する可能性を強調する。

The recent outbreak of COVID-19 has affected millions of individuals around the world and has posed a significant challenge to global healthcare. From the early days of the pandemic, it became clear that it is highly contagious and that human mobility contributes significantly to its spread. In this paper, we study the impact of population movement on the spread of COVID-19, and we capitalize on recent advances in the field of representation learning on graphs to capture the underlying dynamics. Specifically, we create a graph where nodes correspond to a country's regions and the edge weights denote human mobility from one region to another. Then, we employ graph neural networks to predict the number of future cases, encoding the underlying diffusion patterns that govern the spread into our learning model. Furthermore, to account for the limited amount of training data, we capitalize on the pandemic's asynchronous outbreaks across countries and use a model-agnostic meta-learning based method to transfer knowledge from one country's model to another's. We compare the proposed approach against simple baselines and more traditional forecasting techniques in 3 European countries. Experimental results demonstrate the superiority of our method, highlighting the usefulness of GNNs in epidemiological prediction. Transfer learning provides the best model, highlighting its potential to improve the accuracy of the predictions in case of secondary waves, if data from past/parallel outbreaks is utilized.
翻訳日:2022-10-20 03:09:00 公開日:2021-04-12
# 単にサイズだけの問題ではない:小さな言語モデルもほとんど見当たらない

It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners ( http://arxiv.org/abs/2009.07118v2 )

ライセンス: Link先を確認
Timo Schick, Hinrich Sch\"utze(参考訳) 数十億のパラメータにスケールすると、gpt-3(brown et al., 2020)のような事前学習された言語モデルが目覚ましい数ショットパフォーマンスを達成します。 しかし、そのような大きなモデルの訓練と適用には膨大な計算が必要であり、その結果、炭素フットプリントが大きくなり、研究者や実践者がそれを使うのが難しくなる。 GPT-3に類似した性能は、パラメータ数が桁違いに小さくなるという「よりグリーン」な言語モデルで得られることを示す。 これは、テキスト入力をタスク記述を含むクローズドな質問に変換し、勾配に基づく最適化と組み合わせることで実現される。 小言語モデルを用いて自然言語理解を成功させるために必要な重要な要因を明らかにする。

When scaled to hundreds of billions of parameters, pretrained language models such as GPT-3 (Brown et al., 2020) achieve remarkable few-shot performance. However, enormous amounts of compute are required for training and applying such big models, resulting in a large carbon footprint and making it difficult for researchers and practitioners to use them. We show that performance similar to GPT-3 can be obtained with language models that are much "greener" in that their parameter count is several orders of magnitude smaller. This is achieved by converting textual inputs into cloze questions that contain a task description, combined with gradient-based optimization; exploiting unlabeled data gives further improvements. We identify key factors required for successful natural language understanding with small language models.
翻訳日:2022-10-18 05:12:51 公開日:2021-04-12
# Back to Event Basics:Photometric Constancyによるイベントカメラの自己監督型画像再構成学習

Back to Event Basics: Self-Supervised Learning of Image Reconstruction for Event Cameras via Photometric Constancy ( http://arxiv.org/abs/2009.08283v2 )

ライセンス: Link先を確認
F. Paredes-Vall\'es, G. C. H. E. de Croon(参考訳) イベントカメラは、非同期な方法で、低レイテンシで高時間分解能の輝度インクリメントをサンプリングする新しい視覚センサである。 結果のイベントストリームは、特に高速な動き推定のために、それ自体で高い価値を持つ。 しかし、イベントからの強度フレームの再構築にも焦点が当てられているため、外観とフレームベースのコンピュータビジョンに関する既存の文献とのギャップを埋めることができる。 最近の研究では主に、合成された地中データで訓練されたニューラルネットワークを使ってこの問題にアプローチしている。 本研究では, 自己教師あり学習の観点から, 初めて, 強度再構成問題にアプローチする。 提案手法は, イベントカメラの内部動作の知識を生かし, 推定光流とイベントベース光度濃度を組み合わせ, 地中真実や合成データを必要とせずにニューラルネットワークを訓練する。 複数のデータセットにまたがる結果は、提案された自己監督アプローチのパフォーマンスが最先端と一致していることを示している。 また,光学的フロー推定のための新しい軽量ニューラルネットワークを提案し,性能をわずかに低下させることなく高速な推論を実現する。

Event cameras are novel vision sensors that sample, in an asynchronous fashion, brightness increments with low latency and high temporal resolution. The resulting streams of events are of high value by themselves, especially for high speed motion estimation. However, a growing body of work has also focused on the reconstruction of intensity frames from the events, as this allows bridging the gap with the existing literature on appearance- and frame-based computer vision. Recent work has mostly approached this problem using neural networks trained with synthetic, ground-truth data. In this work we approach, for the first time, the intensity reconstruction problem from a self-supervised learning perspective. Our method, which leverages the knowledge of the inner workings of event cameras, combines estimated optical flow and the event-based photometric constancy to train neural networks without the need for any ground-truth or synthetic data. Results across multiple datasets show that the performance of the proposed self-supervised approach is in line with the state-of-the-art. Additionally, we propose a novel, lightweight neural network for optical flow estimation that achieves high speed inference with only a minor drop in performance.
翻訳日:2022-10-17 11:48:27 公開日:2021-04-12
# アスペクト特有の意見スパンを用いたアスペクトベース感情分析

Aspect Based Sentiment Analysis with Aspect-Specific Opinion Spans ( http://arxiv.org/abs/2010.02696v2 )

ライセンス: Link先を確認
Lu Xu, Lidong Bing, Wei Lu and Fei Huang(参考訳) 与えられた側面の感情極性を予測するアスペクトベースの感情分析は、広く注目を集めている。 以前の注意に基づくモデルは、アスペクトセマンティクスを使用して分類のための意見の特徴を抽出することを強調する。 しかし、これらの研究は意見の範囲全体をキャプチャできないか、変数長の意見幅をキャプチャできないかのいずれかである。 本稿では,複数の線形鎖CRFを集約し,適切かつ効果的に構造化された注意モデルを提案する。 このような設計により、モデルはアスペクト固有の意見空間を抽出し、抽出した意見特徴を利用して感情極性を評価することができる。 4つのデータセットを用いた実験結果から,提案モデルの有効性が示された。

Aspect based sentiment analysis, predicting sentiment polarity of given aspects, has drawn extensive attention. Previous attention-based models emphasize using aspect semantics to help extract opinion features for classification. However, these works are either not able to capture opinion spans as a whole, or not able to capture variable-length opinion spans. In this paper, we present a neat and effective structured attention model by aggregating multiple linear-chain CRFs. Such a design allows the model to extract aspect-specific opinion spans and then evaluate sentiment polarity by exploiting the extracted opinion features. The experimental results on four datasets demonstrate the effectiveness of the proposed model, and our analysis demonstrates that our model can capture aspect-specific opinion spans.
翻訳日:2022-10-10 07:05:19 公開日:2021-04-12
# Deep-Masking Generative Network: 重ね合わせ画像からの背景復元のための統一フレームワーク

Deep-Masking Generative Network: A Unified Framework for Background Restoration from Superimposed Images ( http://arxiv.org/abs/2010.04324v2 )

ライセンス: Link先を確認
Xin Feng, Wenjie Pei, Zihui Jia, Fanglin Chen, David Zhang, and Guangming Lu(参考訳) ノイズ層を含む重畳された画像からクリーンな背景を復元することは、画像反射除去、画像デレーニング、画像デヘイジングなどの画像復元における古典的な課題の共通部分である。 これらのタスクは通常、画像内のノイズ層の多様で複雑な外観パターンのため、個別に定式化され、取り組まれる。 本稿では、重畳された画像から背景を復元するための統一的なフレームワークであるDeep-Masking Generative Network(DMGN)について述べる。 提案したDMGNは、粗い背景画像と粗いノイズ画像とを並列に生成し、さらにノイズ画像を利用して背景画像を洗練し、高品質な背景画像を実現する。 特に,dmgnのコア操作ユニットとして新規な残差ディープマスクセルを設計し,gating maskを学習して情報フローを制御することにより,有効情報を高め,画像生成中の負の情報を抑圧する。 この残差深層細胞を反復的に利用することにより,dmgnは高品質な背景画像とノイズ画像の両方を段階的に生成することができる。 さらに,生成した雑音画像をコントラストの手がかりとして効果的に活用し,背景画像の精細化を容易にする2段階戦略を提案する。 イメージリフレクション除去, レインステーキ除去, イメージデハージングを含む, 画像背景修復のための3つの典型的なタスクに対する大規模な実験により, DMGNは各タスクに特化して設計された最先端の手法を一貫して上回っていることがわかった。

Restoring the clean background from the superimposed images containing a noisy layer is the common crux of a classical category of tasks on image restoration such as image reflection removal, image deraining and image dehazing. These tasks are typically formulated and tackled individually due to the diverse and complicated appearance patterns of noise layers within the image. In this work we present the Deep-Masking Generative Network (DMGN), which is a unified framework for background restoration from the superimposed images and is able to cope with different types of noise. Our proposed DMGN follows a coarse-to-fine generative process: a coarse background image and a noise image are first generated in parallel, then the noise image is further leveraged to refine the background image to achieve a higher-quality background image. In particular, we design the novel Residual Deep-Masking Cell as the core operating unit for our DMGN to enhance the effective information and suppress the negative information during image generation via learning a gating mask to control the information flow. By iteratively employing this Residual Deep-Masking Cell, our proposed DMGN is able to generate both high-quality background image and noisy image progressively. Furthermore, we propose a two-pronged strategy to effectively leverage the generated noise image as contrasting cues to facilitate the refinement of the background image. Extensive experiments across three typical tasks for image background restoration, including image reflection removal, image rain steak removal and image dehazing, show that our DMGN consistently outperforms state-of-the-art methods specifically designed for each single task.
翻訳日:2022-10-09 05:40:03 公開日:2021-04-12
# ケーススタディ:NLPにおける非オントロジー倫理

Case Study: Deontological Ethics in NLP ( http://arxiv.org/abs/2010.04658v2 )

ライセンス: Link先を確認
Shrimai Prabhumoye, Brendon Boldt, Ruslan Salakhutdinov, Alan W Black(参考訳) 自然言語処理(nlp)における最近の研究は、データとアルゴリズムのバイアスの理解と緩和、ヘイトスピーチやステレオタイプ、攻撃的言語といった異論のあるコンテンツの識別、システム設計とデータ処理プラクティスを改善するためのフレームワークの構築といった倫理的課題に焦点を当てている。 しかし、これらの努力を裏付ける倫理的基礎についてはほとんど議論されていない。 本研究では,NLPの観点から1つの倫理理論,すなわち非オントロジー倫理について考察する。 特に,一般化の原則と,インフォームド・コンセントによる自律性への敬意に注目した。 NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。 また、これらのシステムの倫理的問題を避けるための指示も推奨しています。

Recent work in natural language processing (NLP) has focused on ethical challenges such as understanding and mitigating bias in data and algorithms; identifying objectionable content like hate speech, stereotypes and offensive language; and building frameworks for better system design and data handling practices. However, there has been little discussion about the ethical foundations that underlie these efforts. In this work, we study one ethical theory, namely deontological ethics, from the perspective of NLP. In particular, we focus on the generalization principle and the respect for autonomy through informed consent. We provide four case studies to demonstrate how these principles can be used with NLP systems. We also recommend directions to avoid the ethical issues in these systems.
翻訳日:2022-10-09 05:31:37 公開日:2021-04-12
# 多言語双方向エンコーダのための明示的アライメント目標

Explicit Alignment Objectives for Multilingual Bidirectional Encoders ( http://arxiv.org/abs/2010.07972v2 )

ライセンス: Link先を確認
Junjie Hu and Melvin Johnson and Orhan Firat and Aditya Siddhant and Graham Neubig(参考訳) mBERT (Devlin et al., 2019) や XLMR (Conneau et al., 2020) のような事前訓練された言語間エンコーダは、高リソース言語から低リソース言語へのNLPシステムの移行学習を実現するのに著しく有効であることが証明されている。 この成功は、同じ空間で言語をまたいで同様の意味を持つ単語/意味の文脈的埋め込みを統一する明確な目的がないにもかかわらずである。 本稿では,多言語エンコーダAMBER(Aligned Multilingual Bidirectional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。 逐次タグ付け,文検索,文分類などのタスクに対して,ゼロショット言語間転送学習の実験を行った。 実験結果から、AMBERは、シーケンスタグ付けで1.1の平均F1スコアと、AMBERのパラメータの3.2倍のXLMR-largeモデル上での検索で27.3の平均精度を得ることがわかった。 私たちのコードとモデルはhttp://github.com/junjiehu/amberで利用可能です。

Pre-trained cross-lingual encoders such as mBERT (Devlin et al., 2019) and XLMR (Conneau et al., 2020) have proven to be impressively effective at enabling transfer-learning of NLP systems from high-resource languages to low-resource languages. This success comes despite the fact that there is no explicit objective to align the contextual embeddings of words/sentences with similar meanings across languages together in the same space. In this paper, we present a new method for learning multilingual encoders, AMBER (Aligned Multilingual Bidirectional EncodeR). AMBER is trained on additional parallel data using two explicit alignment objectives that align the multilingual representations at different granularities. We conduct experiments on zero-shot cross-lingual transfer learning for different tasks including sequence tagging, sentence retrieval and sentence classification. Experimental results show that AMBER obtains gains of up to 1.1 average F1 score on sequence tagging and up to 27.3 average accuracy on retrieval over the XLMR-large model which has 3.2x the parameters of AMBER. Our code and models are available at http://github.com/junjiehu/amber.
翻訳日:2022-10-07 03:00:31 公開日:2021-04-12
# Augmented SBERT:Pairwise Scoring Tasksのためのバイエンコーダ改善のためのデータ拡張手法

Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks ( http://arxiv.org/abs/2010.08240v2 )

ライセンス: Link先を確認
Nandan Thakur, Nils Reimers, Johannes Daxenberger, Iryna Gurevych(参考訳) ペアワイズ文のスコアリングには2つのアプローチがある: 入力ペア上でフルアテンションを行うクロスエンコーダと、各入力を密閉ベクトル空間に独立にマッピングするバイエンコーダである。 クロスエンコーダは高いパフォーマンスを実現することが多いが、多くの実用的なユースケースでは遅すぎる。 一方、バイエンコーダは、競争性能を達成するために、相当なトレーニングデータと目標タスクの微調整を必要とする。 Augmented SBERTと呼ばれる単純なデータ拡張戦略を提案し、クロスエンコーダを用いてより大きな入力ペアのセットをラベル付けし、バイエンコーダのトレーニングデータを増強する。 このプロセスでは,文ペアの選択は非自明であり,提案手法の成功には不可欠であることを示す。 我々は、複数のタスク(ドメイン内)およびドメイン適応タスクに対するアプローチを評価する。 Augmented SBERTは、ドメイン内最大6ポイント、ドメイン適応タスク最大37ポイントの改善を実現している。

There are two approaches for pairwise sentence scoring: Cross-encoders, which perform full-attention over the input pair, and Bi-encoders, which map each input independently to a dense vector space. While cross-encoders often achieve higher performance, they are too slow for many practical use cases. Bi-encoders, on the other hand, require substantial training data and fine-tuning over the target task to achieve competitive performance. We present a simple yet efficient data augmentation strategy called Augmented SBERT, where we use the cross-encoder to label a larger set of input pairs to augment the training data for the bi-encoder. We show that, in this process, selecting the sentence pairs is non-trivial and crucial for the success of the method. We evaluate our approach on multiple tasks (in-domain) as well as on a domain adaptation task. Augmented SBERT achieves an improvement of up to 6 points for in-domain and of up to 37 points for domain adaptation tasks compared to the original bi-encoder performance.
翻訳日:2022-10-06 20:56:01 公開日:2021-04-12
# 画像・テキスト・ラジオロジーレポート生成の完全性と一貫性の改善

Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation ( http://arxiv.org/abs/2010.10042v2 )

ライセンス: Link先を確認
Yasuhide Miura, Yuhao Zhang, Emily Bao Tsai, Curtis P. Langlotz, Dan Jurafsky(参考訳) 神経画像からテキストへの放射線レポート生成システムは、報告書作成の反復過程を削減し、潜在的な医療エラーを識別することにより、放射線レポートを改善する可能性を秘めている。 しかし、既存のレポート生成システムは、CIDErやBLEUのような自然言語生成の指標で高い性能を達成したにもかかわらず、いまだに不完全で一貫性のない世代に悩まされている。 ここでは,放射線学的に完全かつ一貫性のある放射線学レポートの生成を促進するための,新たな2つの簡単な報奨について紹介する。1つは,システムが参照と一貫性のある放射線学ドメインエンティティを生成することを促すもので,もう1つは自然言語推論を用いて,これらのエンティティを推論的に一貫した方法で記述することを奨励するものである。 これらを,既存の意味等価メトリック(BERTScore)の新たな利用と組み合わせる。 さらに,強化学習による報奨を最適化するレポート生成システムを提案する。 2つのオープンラジオロジーレポートデータセットにおいて,臨床情報抽出性能のF1スコアを+22.1(Delta +63.9%)で大幅に改善した。 さらに,人間による評価と質的分析により,本システムは,ベースラインよりも事実的に完全かつ一貫性のある世代へと導かれることを示した。

Neural image-to-text radiology report generation systems offer the potential to improve radiology reporting by reducing the repetitive process of report drafting and identifying possible medical errors. However, existing report generation systems, despite achieving high performances on natural language generation metrics such as CIDEr or BLEU, still suffer from incomplete and inconsistent generations. Here we introduce two new simple rewards to encourage the generation of factually complete and consistent radiology reports: one that encourages the system to generate radiology domain entities consistent with the reference, and one that uses natural language inference to encourage these entities to be described in inferentially consistent ways. We combine these with the novel use of an existing semantic equivalence metric (BERTScore). We further propose a report generation system that optimizes these rewards via reinforcement learning. On two open radiology report datasets, our system substantially improved the F1 score of a clinical information extraction performance by +22.1 (Delta +63.9%). We further show via a human evaluation and a qualitative analysis that our system leads to generations that are more factually complete and consistent compared to the baselines.
翻訳日:2022-10-05 06:56:12 公開日:2021-04-12
# 文脈化時間グラフ生成のためのニューラルネットワークモデリング

Neural Language Modeling for Contextualized Temporal Graph Generation ( http://arxiv.org/abs/2010.10077v2 )

ライセンス: Link先を確認
Aman Madaan, Yiming Yang(参考訳) 本稿では,文書のイベントレベル時間グラフの自動生成のために,大規模事前学習言語モデルを用いた最初の研究を行う。 NLPタスクにおけるニューラルプレトレーニング手法が大きな成功を収めたにもかかわらず、イベントグラフに対する時間的推論の可能性は十分に検討されていない。 理由の1つは、人間が注釈付きイベントと時間的つながりを持つ大規模なトレーニングコーパスを得るのが困難である。 本稿では,既存のie/nlpツールを用いて,システム生成文書-グラフペアの多量(89,000)自動生成を行い,シーケンス-シーケンスマッピングタスクとしてコンテキスト化グラフ生成問題の新しい定式化を提案する。 これらの戦略により、システムによるグラフ生成タスクのトレーニングデータに基づいて、事前学習された言語モデルを活用および微調整することが可能となる。 実験の結果,本手法は構造的かつ意味論的に有効なグラフを生成するのに極めて有効であることがわかった。 さらに,提案手法は,提案手法が既存の手法に比較して,複数の測定値に対して大きなマージンを持つことを示す。 コードと事前学習されたモデルはhttps://github.com/madaan/temporal-graph-genで入手できる。

This paper presents the first study on using large-scale pre-trained language models for automated generation of an event-level temporal graph for a document. Despite the huge success of neural pre-training methods in NLP tasks, its potential for temporal reasoning over event graphs has not been sufficiently explored. Part of the reason is the difficulty in obtaining large training corpora with human-annotated events and temporal links. We address this challenge by using existing IE/NLP tools to automatically generate a large quantity (89,000) of system-produced document-graph pairs, and propose a novel formulation of the contextualized graph generation problem as a sequence-to-sequence mapping task. These strategies enable us to leverage and fine-tune pre-trained language models on the system-induced training data for the graph generation task. Our experiments show that our approach is highly effective in generating structurally and semantically valid graphs. Further, evaluation on a challenging hand-labeled, out-domain corpus shows that our method outperforms the closest existing method by a large margin on several metrics. Code and pre-trained models are available at https://github.com/madaan/temporal-graph-gen.
翻訳日:2022-10-05 06:55:40 公開日:2021-04-12
# micronets:tinymlアプリケーションをコモディティマイクロコントローラにデプロイするためのニューラルネットワークアーキテクチャ

MicroNets: Neural Network Architectures for Deploying TinyML Applications on Commodity Microcontrollers ( http://arxiv.org/abs/2010.11267v6 )

ライセンス: Link先を確認
Colby Banbury, Chuteng Zhou, Igor Fedorov, Ramon Matas Navarro, Urmish Thakker, Dibakar Gope, Vijay Janapa Reddi, Matthew Mattina, Paul N. Whatmough(参考訳) リソース制約付きマイクロコントローラ(MCU)上でローカルに機械学習ワークロードを実行することで、IoTのアプリケーション領域を大幅に拡大する。 しかし、いわゆるtinymlは、ディープニューラルネットワーク推論には大きな計算とメモリ予算を必要とするため、深刻な技術的課題を呈する。 この課題に対処するため、ニューラルネットワークサーチ(NAS)は、厳密なMCUメモリ、レイテンシ、エネルギー制約を満たす正確なMLモデルの設計を支援する。 NASアルゴリズムの重要なコンポーネントは、そのレイテンシ/エネルギーモデル、すなわち、あるニューラルネットワークアーキテクチャからMCU上の推論遅延/エネルギーへのマッピングである。 本稿では,MCUモデル設計におけるNAS探索空間の興味深い特性について考察する:平均的なモデル遅延は,探索空間内のモデルに対して一様に先行するモデル演算(op)数で線形に変化する。 メモリ使用量が少なく,オプトカウントの少ないモデルを探索するために,この知見をエクスプロイトするため,我々は差別化可能なNAS(DNAS)を用いている。 TinyMLコミュニティで広く使われている標準のオープンソースNN推論ランタイムであるTensorflow Lite Microを使って,MCU上にデプロイするMicroNetモデルを作成した。 micronetsは、3つのtinymlperf業界標準ベンチマークタスク(ビジュアルウェイクワード、オーディオキーワードスポッティング、異常検出)の最先端結果を示している。 モデルとトレーニングスクリプトはgithub.com/ARM-software/ML-zooで見ることができる。

Executing machine learning workloads locally on resource constrained microcontrollers (MCUs) promises to drastically expand the application space of IoT. However, so-called TinyML presents severe technical challenges, as deep neural network inference demands a large compute and memory budget. To address this challenge, neural architecture search (NAS) promises to help design accurate ML models that meet the tight MCU memory, latency and energy constraints. A key component of NAS algorithms is their latency/energy model, i.e., the mapping from a given neural network architecture to its inference latency/energy on an MCU. In this paper, we observe an intriguing property of NAS search spaces for MCU model design: on average, model latency varies linearly with model operation (op) count under a uniform prior over models in the search space. Exploiting this insight, we employ differentiable NAS (DNAS) to search for models with low memory usage and low op count, where op count is treated as a viable proxy to latency. Experimental results validate our methodology, yielding our MicroNet models, which we deploy on MCUs using Tensorflow Lite Micro, a standard open-source NN inference runtime widely used in the TinyML community. MicroNets demonstrate state-of-the-art results for all three TinyMLperf industry-standard benchmark tasks: visual wake words, audio keyword spotting, and anomaly detection. Models and training scripts can be found at github.com/ARM-software/ML-zoo.
翻訳日:2022-10-05 00:36:04 公開日:2021-04-12
# 意味解析におけるドメイン一般化のためのメタラーニング

Meta-Learning for Domain Generalization in Semantic Parsing ( http://arxiv.org/abs/2010.11988v2 )

ライセンス: Link先を確認
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) 新しいドメインに適用し、トレーニングで見えないプログラムを生成するセマンティックパーサの構築の重要性は以前から認識されており、ドメイン外のパフォーマンスをテストするデータセットがますます利用できるようになる。 しかし、ドメインの一般化を促進するアルゴリズムや目的の学習にはほとんど、あるいはほとんど注目されていない。 本研究では,意味解析のためのゼロショットドメイン一般化を目標としたメタラーニングフレームワークを提案する。 仮想トレインとテストセットを構築し,ゼロショット解析をシミュレートするモデル非依存なトレーニングアルゴリズムを適用する。 学習の目的は、ソースドメインのパフォーマンスを改善するグラデーションステップはターゲットドメインのパフォーマンスも改善すべきだという直観に基づくものである。 スパイダーと中国のスパイダーデータセットの実験結果は、メタ学習の目的がベースラインパーサーの性能を大幅に向上させることを示している。

The importance of building semantic parsers which can be applied to new domains and generate programs unseen at training has long been acknowledged, and datasets testing out-of-domain performance are becoming increasingly available. However, little or no attention has been devoted to learning algorithms or objectives which promote domain generalization, with virtually all existing approaches relying on standard supervised learning. In this work, we use a meta-learning framework which targets zero-shot domain generalization for semantic parsing. We apply a model-agnostic training algorithm that simulates zero-shot parsing by constructing virtual train and test sets from disjoint domains. The learning objective capitalizes on the intuition that gradient steps that improve source-domain performance should also improve target-domain performance, thus encouraging a parser to generalize to unseen target domains. Experimental results on the (English) Spider and Chinese Spider datasets show that the meta-learning objective significantly boosts the performance of a baseline parser.
翻訳日:2022-10-04 06:51:06 公開日:2021-04-12
# disjointコーパスにおける判別フィードバックを用いたマルチスタイル転送

Multi-Style Transfer with Discriminative Feedback on Disjoint Corpus ( http://arxiv.org/abs/2010.11578v2 )

ライセンス: Link先を確認
Navita Goyal, Balaji Vasan Srinivasan, Anandhavelu Natarajan, Abhilasha Sancheti(参考訳) スタイル転送は、ソースおよびターゲットドメインコーパスからスタイルの概念を直接的または間接的に抽出することで、非並列コーパスによる自然言語生成において広く研究されてきた。 既存のアプローチの共通の欠点は、検討中の全ての様式的次元にわたる共同アノテーションの前提である。 このようなデータセットのスタイルの組み合わせによる可用性は、これらの設定の拡張を複数のスタイル次元に制限する。 複数のスタイルにまたがる単一次元モデルをカスケードすることは可能であるが、特にスタイル次元が互いに完全に独立していない場合、コンテンツ損失に悩まされる。 本研究では,複数のスタイルにまたがる共用アノテートデータの要件を緩和し,追加のアノテーションを必要とせず,異なるスタイルにまたがる独立的に取得したデータを利用することによって緩和する。 汎用コーパス上で事前訓練されたトランスフォーマーベース言語モデルを用いたエンコーダデコーダのセットアップを初期化し、複数のスタイル認識言語モデルを識別器として使用することにより、その書き換え能力を複数のターゲットスタイル次元に拡張する。 定量的・質的評価により,入力テキストの内容を維持しつつ,複数のスタイル次元にわたってスタイルを制御できることを示す。 逐次的最先端の一次元伝達モデルを含むベースラインと比較する。

Style transfer has been widely explored in natural language generation with non-parallel corpus by directly or indirectly extracting a notion of style from source and target domain corpus. A common shortcoming of existing approaches is the prerequisite of joint annotations across all the stylistic dimensions under consideration. Availability of such dataset across a combination of styles limits the extension of these setups to multiple style dimensions. While cascading single-dimensional models across multiple styles is a possibility, it suffers from content loss, especially when the style dimensions are not completely independent of each other. In our work, we relax this requirement of jointly annotated data across multiple styles by using independently acquired data across different style dimensions without any additional annotations. We initialize an encoder-decoder setup with transformer-based language model pre-trained on a generic corpus and enhance its re-writing capability to multiple target style dimensions by employing multiple style-aware language models as discriminators. Through quantitative and qualitative evaluation, we show the ability of our model to control styles across multiple style dimensions while preserving content of the input text. We compare it against baselines involving cascaded state-of-the-art uni-dimensional style transfer models.
翻訳日:2022-10-04 06:31:50 公開日:2021-04-12
# nlpモデルにおけるデータ中毒攻撃の隠蔽

Concealed Data Poisoning Attacks on NLP Models ( http://arxiv.org/abs/2010.12563v2 )

ライセンス: Link先を確認
Eric Wallace, Tony Z. Zhao, Shi Feng, Sameer Singh(参考訳) 逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。 しかしながら、トレーニングデータに小さな隠された変更を加えることで、予測をどのように操作できるかは、あまり理解されていない。 本研究では,入力に所望のトリガーフレーズが存在する場合に,相手がモデル予測を制御できる新たなデータ中毒攻撃を提案する。 例えば、50個の毒のサンプルを感情モデルのトレーニングセットに挿入し、入力が"ジェームズボンド"を含むと、モデルが頻繁にポジティブを予測します。 重要なことに、我々はこれらの毒の例を勾配に基づく手順で作って、トリガーフレーズに言及しないようにしている。 また、我々の毒攻撃を言語モデリング("Apple iPhone"がネガティブな世代をトリガーする")や機械翻訳("iced coffee"を"ホットコーヒー"と誤訳する)にも適用します。 結論として、予測精度や人的アノテーションの余分なコストで攻撃を緩和できる3つの防御策を提案する。

Adversarial attacks alter NLP model predictions by perturbing test-time inputs. However, it is much less understood whether, and how, predictions can be manipulated with small, concealed changes to the training data. In this work, we develop a new data poisoning attack that allows an adversary to control model predictions whenever a desired trigger phrase is present in the input. For instance, we insert 50 poison examples into a sentiment model's training set that causes the model to frequently predict Positive whenever the input contains "James Bond". Crucially, we craft these poison examples using a gradient-based procedure so that they do not mention the trigger phrase. We also apply our poison attack to language modeling ("Apple iPhone" triggers negative generations) and machine translation ("iced coffee" mistranslated as "hot coffee"). We conclude by proposing three defenses that can mitigate our attack at some cost in prediction accuracy or extra human annotation.
翻訳日:2022-10-03 22:53:21 公開日:2021-04-12
# 質問生成による教師なしマルチホップ質問応答

Unsupervised Multi-hop Question Answering by Question Generation ( http://arxiv.org/abs/2010.12623v2 )

ライセンス: Link先を確認
Liangming Pan, Wenhu Chen, Wenhan Xiong, Min-Yen Kan, William Yang Wang(参考訳) マルチホップ質問応答(QA)のためのトレーニングデータを取得することは、時間とリソース集約である。 我々は、人間ラベル付きマルチホップ質問応答ペア、すなわち教師なしマルチホップQAを参照することなく、優れたマルチホップQAモデルを訓練する可能性を探る。 我々は,同種データと異種データの両方から人間のようなマルチホップトレーニングデータを生成する,教師なしフレームワークMQA-QGを提案する。 MQA-QGは、まず各データソースから関連情報を選択・生成し、次に複数の情報を統合してマルチホップ質問を生成する。 生成されたトレーニングデータのみを用いて、HybridQAデータセットとHotpotQAデータセットの教師付き学習性能の61%と83%を達成できる有能なマルチホップQAをトレーニングできる。 また、生成されたデータを用いてQAシステムの事前学習を行うことで、人手によるトレーニングデータの需要が大幅に減少することを示した。 私たちのコードはhttps://github.com/teacherpeterpan/unsupervised-multi-hop-qaで公開されています。

Obtaining training data for multi-hop question answering (QA) is time-consuming and resource-intensive. We explore the possibility to train a well-performed multi-hop QA model without referencing any human-labeled multi-hop question-answer pairs, i.e., unsupervised multi-hop QA. We propose MQA-QG, an unsupervised framework that can generate human-like multi-hop training data from both homogeneous and heterogeneous data sources. MQA-QG generates questions by first selecting/generating relevant information from each data source and then integrating the multiple information to form a multi-hop question. Using only generated training data, we can train a competent multi-hop QA which achieves 61% and 83% of the supervised learning performance for the HybridQA and the HotpotQA dataset, respectively. We also show that pretraining the QA system with the generated data would greatly reduce the demand for human-annotated training data. Our codes are publicly available at https://github.com/teacherpeterpan/Unsupervised-Multi-hop-QA.
翻訳日:2022-10-03 21:32:42 公開日:2021-04-12
# モデルロバスト性向上のためのf分割による後部差分正規化

Posterior Differential Regularization with f-divergence for Improving Model Robustness ( http://arxiv.org/abs/2010.12638v2 )

ライセンス: Link先を確認
Hao Cheng, Xiaodong Liu, Lis Pereira, Yaoliang Yu, Jianfeng Gao(参考訳) 正規化によるモデルロバスト性向上の問題に対処する。 具体的には,クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。 理論的には、この枠組みの下で、Jacobian RegularizationとVirtual Adversarial Trainingという2つの手法の接続を提供する。 さらに、後微分正則化を$f$-divergencesの族に一般化し、ジャコビアン行列の項で全体の正則化フレームワークを特徴づける。 経験的に、これらの正規化と標準的なBERTトレーニングを多様なタスクセットで体系的に比較し、モデル内領域とドメイン外領域の一般化に対するそれらの影響の包括的プロファイルを提供する。 完全教師付き設定と半教師付き設定の両方において、f$-divergenceで後方微分を正規化することで、モデルロバスト性が向上することを示した。 特に、適切な$f$-divergenceで、BERTベースモデルは、ドメイン内、逆、およびドメインシフトのシナリオに対して、BERT-largeと同等の一般化を達成することができ、NLPモデルのモデル一般化を促進するための提案されたフレームワークの大きな可能性を示している。

We address the problem of enhancing model robustness through regularization. Specifically, we focus on methods that regularize the model posterior difference between clean and noisy inputs. Theoretically, we provide a connection of two recent methods, Jacobian Regularization and Virtual Adversarial Training, under this framework. Additionally, we generalize the posterior differential regularization to the family of $f$-divergences and characterize the overall regularization framework in terms of Jacobian matrix. Empirically, we systematically compare those regularizations and standard BERT training on a diverse set of tasks to provide a comprehensive profile of their effect on model in-domain and out-of-domain generalization. For both fully supervised and semi-supervised settings, our experiments show that regularizing the posterior differential with $f$-divergence can result in well-improved model robustness. In particular, with a proper $f$-divergence, a BERT-base model can achieve comparable generalization as its BERT-large counterpart for in-domain, adversarial and domain shift scenarios, indicating the great potential of the proposed framework for boosting model generalization for NLP models.
翻訳日:2022-10-03 21:22:36 公開日:2021-04-12
# Nice Try, Kiddo:対話応答におけるアドホミネムの検討

"Nice Try, Kiddo": Investigating Ad Hominems in Dialogue Responses ( http://arxiv.org/abs/2010.12820v2 )

ライセンス: Link先を確認
Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, Nanyun Peng(参考訳) アドホミネム攻撃(ad hominem attack)は、ある人物が維持している位置ではなく、ある人物の特徴を標的とする攻撃である。 これらの攻撃は、暗黙の偏見を広め、人の信頼性を低下させるため、有害である。 対話システムは直接ユーザ入力に応答するので,対話応答におけるアドホミンの研究が重要である。 この目的のために,アドホミンのカテゴリを提案し,注釈付きデータセットを作成し,英語twitter投稿に対する人間および対話システム応答を分析する分類器を構築する。 私たちは、マージン化されたコミュニティ(#blacklivesmatter、#metoo)に関するtwitterのトピックと、他のトピック(#vegan、#wfh)との反応を特に比較します。 さらに,トップ$kのサンプリングのためのソフト制約として,高い$n$-gramの類似性を利用する制約付き復号法を提案する。 私たちの結果は 1)人間とダイアロGPTの双方からの反応は,辺縁化コミュニティに関する議論において,より多くのアドホマイネムを含んでいる。 2 訓練データにおけるアドホミネムの量の違いは、アドホミネムの発生可能性に影響を与えることができる。 3) 制約付き復号法を用いて, 生成した対話応答のアドホミネムを低減する。

Ad hominem attacks are those that target some feature of a person's character instead of the position the person is maintaining. These attacks are harmful because they propagate implicit biases and diminish a person's credibility. Since dialogue systems respond directly to user input, it is important to study ad hominems in dialogue responses. To this end, we propose categories of ad hominems, compose an annotated dataset, and build a classifier to analyze human and dialogue system responses to English Twitter posts. We specifically compare responses to Twitter topics about marginalized communities (#BlackLivesMatter, #MeToo) versus other topics (#Vegan, #WFH), because the abusive language of ad hominems could further amplify the skew of power away from marginalized populations. Furthermore, we propose a constrained decoding technique that uses salient $n$-gram similarity as a soft constraint for top-$k$ sampling to reduce the amount of ad hominems generated. Our results indicate that 1) responses from both humans and DialoGPT contain more ad hominems for discussions around marginalized communities, 2) different quantities of ad hominems in the training data can influence the likelihood of generating ad hominems, and 3) we can use constrained decoding techniques to reduce ad hominems in generated dialogue responses.
翻訳日:2022-10-03 13:02:55 公開日:2021-04-12
# cream of the crop: ワンショットニューラルネットワーク探索のための優先経路の蒸留

Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search ( http://arxiv.org/abs/2010.15821v3 )

ライセンス: Link先を確認
Houwen Peng, Hao Du, Hongyuan Yu, Qi Li, Jing Liao, Jianlong Fu(参考訳) ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。 しかし、モデル間での重量共有は本質的に不足しており、すなわちハイパーネットワークにおけるサブネットワークのトレーニングが不十分である。 この問題を軽減するため, 単純で効果的な蒸留法を提案する。 中心となる考え方は、サブネットワークが協調的に学習し、トレーニングプロセスを通じて互いに教え合い、個々のモデルの収束を促進することにある。 我々は、トレーニング中に優れた性能を示すアーキテクチャ候補を指す優先順位付きパスの概念を紹介する。 優先順位付けされた経路から知識を希釈することで、サブネットワークのトレーニングを促進することができる。 優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。 我々は、強化学習や進化アルゴリズムのような他の複雑な探索手法を使わずに、最優先の経路を最終アーキテクチャとして選択する。 ImageNetの実験では,これらのパス蒸留法によりハイパーネットワークの収束率と性能が向上し,サブネットワークのトレーニングが向上することを確認した。 発見されたアーキテクチャは、最近のMobileNetV3やEfficientNetファミリと整列した設定で比較すると、優れたパフォーマンスを実現している。 さらに,物体検出実験とより挑戦的な探索空間により,提案手法の汎用性と堅牢性を示す。 コードとモデルはhttps://github.com/microsoft/cream.gitで入手できる。

One-shot weight sharing methods have recently drawn great attention in neural architecture search due to high efficiency and competitive performance. However, weight sharing across models has an inherent deficiency, i.e., insufficient training of subnetworks in hypernetworks. To alleviate this problem, we present a simple yet effective architecture distillation method. The central idea is that subnetworks can learn collaboratively and teach each other throughout the training process, aiming to boost the convergence of individual models. We introduce the concept of prioritized path, which refers to the architecture candidates exhibiting superior performance during training. Distilling knowledge from the prioritized paths is able to boost the training of subnetworks. Since the prioritized paths are changed on the fly depending on their performance and complexity, the final obtained paths are the cream of the crop. We directly select the most promising one from the prioritized paths as the final architecture, without using other complex search methods, such as reinforcement learning or evolution algorithms. The experiments on ImageNet verify such path distillation method can improve the convergence ratio and performance of the hypernetwork, as well as boosting the training of subnetworks. The discovered architectures achieve superior performance compared to the recent MobileNetV3 and EfficientNet families under aligned settings. Moreover, the experiments on object detection and more challenging search space show the generality and robustness of the proposed method. Code and models are available at https://github.com/microsoft/cream.git.
翻訳日:2022-10-01 22:17:28 公開日:2021-04-12
# トラッキング付きLQR:ゼロオーダーアプローチとそのグローバルコンバージェンス

LQR with Tracking: A Zeroth-order Approach and Its Global Convergence ( http://arxiv.org/abs/2011.01815v2 )

ライセンス: Link先を確認
Zhaolin Ren, Aoxiao Zhong, Na Li(参考訳) 線形二次レギュレータ (LQR) 問題に対するモデルフリーアプローチの理論的理解は、近年かなり進歩している。 目標がゼロターゲットに近い状態を駆動することである場合、特別なケースに多くの注意が向けられている。 本研究では,lqr追跡問題(lqr tracking problem)と呼ばれる対象を任意にすることを許容する一般的な場合について考察する。 この問題の最適化状況について検討し、ゼロターゲットLQR問題と同様、LQR追跡問題も勾配優位性と局所滑らか性特性を満たすことを示した。 これにより、グローバル収束を実現するゼロ次ポリシー勾配アルゴリズムを開発することができる。 線形システム上での数値シミュレーションによる議論を支援する。

There has been substantial recent progress on the theoretical understanding of model-free approaches to Linear Quadratic Regulator (LQR) problems. Much attention has been devoted to the special case when the goal is to drive the state close to a zero target. In this work, we consider the general case where the target is allowed to be arbitrary, which we refer to as the LQR tracking problem. We study the optimization landscape of this problem, and show that similar to the zero-target LQR problem, the LQR tracking problem also satisfies gradient dominance and local smoothness properties. This allows us to develop a zeroth-order policy gradient algorithm that achieves global convergence. We support our arguments with numerical simulations on a linear system.
翻訳日:2022-09-30 06:20:50 公開日:2021-04-12
# 確率的超次数の収束特性

Convergence Properties of Stochastic Hypergradients ( http://arxiv.org/abs/2011.07122v2 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo(参考訳) ハイパーパラメータ最適化とメタラーニングの自然なフレームワークを提供するため、バイレベル最適化の問題は機械学習で注目を集めています。 これらの問題に取り組むための重要なステップは、上層目標(ハイパーグラディエント)の勾配の効率的な計算である。 本研究では,大規模データセット上の経験的リスク最小化が低レベル問題である場合には,超次数に対する確率的近似スキームについて検討する。 提案手法は, Pedregosa (2016) における近似的暗黙的微分アプローチの確率的変種である。 過次近似の平均二乗誤差に対して、下層問題は期待の縮約である確率写像を通してのみアクセス可能であるという仮定の下で境界を与える。 特に、我々の主な境界は、この手順で用いられる2つの確率的解法の選択に非依存である。 理論解析を補助する数値実験を行い, 確率的超次数を実際に利用することの利点を示す。

Bilevel optimization problems are receiving increasing attention in machine learning as they provide a natural framework for hyperparameter optimization and meta-learning. A key step to tackle these problems is the efficient computation of the gradient of the upper-level objective (hypergradient). In this work, we study stochastic approximation schemes for the hypergradient, which are important when the lower-level problem is empirical risk minimization on a large dataset. The method that we propose is a stochastic variant of the approximate implicit differentiation approach in (Pedregosa, 2016). We provide bounds for the mean square error of the hypergradient approximation, under the assumption that the lower-level problem is accessible only through a stochastic mapping which is a contraction in expectation. In particular, our main bound is agnostic to the choice of the two stochastic solvers employed by the procedure. We provide numerical experiments to support our theoretical analysis and to show the advantage of using stochastic hypergradients in practice.
翻訳日:2022-09-25 23:34:49 公開日:2021-04-12
# スタイン変分モデル予測制御

Stein Variational Model Predictive Control ( http://arxiv.org/abs/2011.07641v4 )

ライセンス: Link先を確認
Alexander Lambert, Adam Fishman, Dieter Fox, Byron Boots, Fabio Ramos(参考訳) 不確実性の下での意思決定は、現実の自律システムにとって重要である。 モデル予測制御(MPC)法は、実際は良好な性能を示すが、複雑な確率分布を扱う場合に制限される。 本稿では,複数の解を後方分布として表現するmpcの一般化を提案する。 ベイズ推論問題として MPC をキャストすることにより, 決定問題の複雑さと多様性を自然に符号化し, 後続計算に変分法を用いる。 コスト関数と観測された状態軌跡を与えられた後続を制御パラメータ上で直接推定するスタイン変分勾配降下法を提案する。 我々は,この枠組みが,非凸最適制御問題における計画の成功につながることを示す。

Decision making under uncertainty is critical to real-world, autonomous systems. Model Predictive Control (MPC) methods have demonstrated favorable performance in practice, but remain limited when dealing with complex probability distributions. In this paper, we propose a generalization of MPC that represents a multitude of solutions as posterior distributions. By casting MPC as a Bayesian inference problem, we employ variational methods for posterior computation, naturally encoding the complexity and multi-modality of the decision making problem. We present a Stein variational gradient descent method to estimate the posterior directly over control parameters, given a cost function and observed state trajectories. We show that this framework leads to successful planning in challenging, non-convex optimal control problems.
翻訳日:2022-09-25 07:30:57 公開日:2021-04-12
# 大型インテリジェントサーフェスによるワイヤレスセンシングの可能性評価

Assessing Wireless Sensing Potential with Large Intelligent Surfaces ( http://arxiv.org/abs/2011.08465v3 )

ライセンス: Link先を確認
Cristian J. Vaca-Rubio, Pablo Ramirez-Espinosa, Kimmo Kansanen, Zheng-Hua Tan, Elisabeth de Carvalho, Petar Popovski(参考訳) センシング機能は、将来の6G無線ネットワークで最も目立った新機能の1つだ。 本稿では,大規模インテリジェントサーフェス(lis)のセンシングポテンシャルについて,例示産業4.0シナリオで論じる。 通信面におけるLISの注目に加えて、伝搬環境の高解像度なレンダリングを提供することができる。 これは、屋内では感知された現象に近接して配置できるが、高分解能は広い範囲に配置された密集した小さなアンテナによって提供されるためである。 LISを受信した信号パワーに依存する環境の無線画像として扱うことにより、画像処理と機械学習のツールを活用して、環境を感知する技術を開発する。 ホログラフィック画像が得られたら、デノイジングオートエンコーダ(dae)ネットワークを使用して、従来のセンシングシステムでは利用できないセンシングの利点をもたらす超解像度画像を構築することができる。 また、機械学習ソリューションのベンチマークとして、GLRT(Generalized Likelihood Ratio)に基づく統計的テストも導出する。 我々は,産業用ロボットが事前に定義された経路から逸脱するかどうかを検出するシナリオとして,これらの手法を検証した。 その結果, LISをベースとしたセンシングは高精度で, 屋内の産業環境にも適用可能性が高いことがわかった。

Sensing capability is one of the most highlighted new feature of future 6G wireless networks. This paper addresses the sensing potential of Large Intelligent Surfaces (LIS) in an exemplary Industry 4.0 scenario. Besides the attention received by LIS in terms of communication aspects, it can offer a high-resolution rendering of the propagation environment. This is because, in an indoor setting, it can be placed in proximity to the sensed phenomena, while the high resolution is offered by densely spaced tiny antennas deployed over a large area. By treating an LIS as a radio image of the environment relying on the received signal power, we develop techniques to sense the environment, by leveraging the tools of image processing and machine learning. Once a holographic image is obtained, a Denoising Autoencoder (DAE) network can be used for constructing a super-resolution image leading to sensing advantages not available in traditional sensing systems. Also, we derive a statistical test based on the Generalized Likelihood Ratio (GLRT) as a benchmark for the machine learning solution. We test these methods for a scenario where we need to detect whether an industrial robot deviates from a predefined route. The results show that the LIS-based sensing offers high precision and has a high application potential in indoor industrial environments.
翻訳日:2022-09-25 00:07:04 公開日:2021-04-12
# LiDARデータを用いた局所的深部入射関数を用いた意味的シーン補完

Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data ( http://arxiv.org/abs/2011.09141v3 )

ライセンス: Link先を確認
Christoph B. Rist, David Emmerichs, Markus Enzweiler and Dariu M. Gavrila(参考訳) セマンティック・シーン・コンプリート(Semantic scene completion)は、オブジェクトと表面の3次元幾何と意味を所定の範囲で共同で推定するタスクである。 これは、スパースで難解な実世界のデータでは特に難しいタスクです。 本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。 シーン補完に関するこれまでの作業とは異なり,voxelizationに基づくものではない連続的なシーン表現を生成する。 原点雲を局所的かつ複数の空間分解能で潜在空間に符号化する。 その後、ローカライズされた機能パッチからグローバルシーン補完関数を組み立てる。 この連続表現は,空間的離散化を必要とせず,広範囲の屋外シーンの幾何学的・意味的特性をエンコードするのに適している(シーンの細部とカバーできるシーンの範囲とのトレードオフを回避できる)。 セマンティックKITTIデータセットから意味的注釈付きLiDARスキャンの学習と評価を行う。 実験により,提案手法が,与えられたシーンの高密度な3次元記述にデコードできる強力な表現を生成することを検証した。 提案手法の性能は,IoU(Imantic KITTI Scene Completion Benchmark)において,幾何的完備化の交叉点(IoU)の点において,技術状況を上回る。

Semantic scene completion is the task of jointly estimating 3D geometry and semantics of objects and surfaces within a given extent. This is a particularly challenging task on real-world data that is sparse and occluded. We propose a scene segmentation network based on local Deep Implicit Functions as a novel learning-based method for scene completion. Unlike previous work on scene completion, our method produces a continuous scene representation that is not based on voxelization. We encode raw point clouds into a latent space locally and at multiple spatial resolutions. A global scene completion function is subsequently assembled from the localized function patches. We show that this continuous representation is suitable to encode geometric and semantic properties of extensive outdoor scenes without the need for spatial discretization (thus avoiding the trade-off between level of scene detail and the scene extent that can be covered). We train and evaluate our method on semantically annotated LiDAR scans from the Semantic KITTI dataset. Our experiments verify that our method generates a powerful representation that can be decoded into a dense 3D description of a given scene. The performance of our method surpasses the state of the art on the Semantic KITTI Scene Completion Benchmark in terms of geometric completion intersection-over-union (IoU).
翻訳日:2022-09-24 03:37:02 公開日:2021-04-12
# 非侵襲的毛細血管鏡映像からの血球自動計測のためのディープラーニング双方向時間追跡アルゴリズム

A Deep Learning Bidirectional Temporal Tracking Algorithm for Automated Blood Cell Counting from Non-invasive Capillaroscopy Videos ( http://arxiv.org/abs/2011.13371v3 )

ライセンス: Link先を確認
Luojie Huang, Gregory N. McKay, Nicholas J. Durr(参考訳) 近年,ヒト毛細血管における高品質非侵襲的血液細胞イメージング法として,斜め後方照射カピラロスコープが導入された。 この手法を臨床血球計数に活用するには,取得したビデオの自動処理のソリューションが必要である。 そこで本研究では,カピラロスコープビデオから正確な血球計数を実現する,深層学習型多細胞追跡モデルCycleTrackを導入することで,この目標に向けて第一歩を踏み出した。 CycleTrackは、SORTとCenterTrackという2つのシンプルなオンライン追跡モデルを組み合わせて、毛細血管の血流の特徴に合わせている。 血球は、連続するフレーム間の2つの反対の時間方向(前方と後方の追跡)の変位ベクトルによって追跡される。 このアプローチは血液細胞を急速に動かしたり変形させたりしながら正確な追跡を行う。 提案されたモデルは、他のベースライントラッカーを上回り、65.57%の多重オブジェクト追跡精度、73.95%のID F1スコアを記録した。 手動の血球計数と比較すると、CycleTrackは1000フレームの8つのテストビデオのうち96.58ドル\pm$2.43%の精度を93.45%と77.02%の精度で達成している。 1分間のビデオで撮影された9600フレームから約8000個の血球を追跡し数えるのに800秒かかる。 さらに、CycleTrackが測定した血液細胞速度は、生理的心拍数の範囲内で一貫した脈拍動パターンを示す。 最後に, 斜めバックイルミネーション顕微鏡のリアルタイム・非侵襲的血液細胞計数・解析技術への臨床翻訳を可能にするcycletrackフレームワークの今後の改良について述べる。

Oblique back-illumination capillaroscopy has recently been introduced as a method for high-quality, non-invasive blood cell imaging in human capillaries. To make this technique practical for clinical blood cell counting, solutions for automatic processing of acquired videos are needed. Here, we take the first step towards this goal, by introducing a deep learning multi-cell tracking model, named CycleTrack, which achieves accurate blood cell counting from capillaroscopic videos. CycleTrack combines two simple online tracking models, SORT and CenterTrack, and is tailored to features of capillary blood cell flow. Blood cells are tracked by displacement vectors in two opposing temporal directions (forward- and backward-tracking) between consecutive frames. This approach yields accurate tracking despite rapidly moving and deforming blood cells. The proposed model outperforms other baseline trackers, achieving 65.57% Multiple Object Tracking Accuracy and 73.95% ID F1 score on test videos. Compared to manual blood cell counting, CycleTrack achieves 96.58 $\pm$ 2.43% cell counting accuracy among 8 test videos with 1000 frames each compared to 93.45% and 77.02% accuracy for independent CenterTrack and SORT almost without additional time expense. It takes 800s to track and count approximately 8000 blood cells from 9,600 frames captured in a typical one-minute video. Moreover, the blood cell velocity measured by CycleTrack demonstrates a consistent, pulsatile pattern within the physiological range of heart rate. Lastly, we discuss future improvements for the CycleTrack framework, which would enable clinical translation of the oblique back-illumination microscope towards a real-time and non-invasive point-of-care blood cell counting and analyzing technology.
翻訳日:2022-09-20 09:15:01 公開日:2021-04-12
# (参考訳) ベイズニューラルネットワークによるハッブル定数の高精度・高精度推定のための大規模重力レンズモデリング

Large-Scale Gravitational Lens Modeling with Bayesian Neural Networks for Accurate and Precise Inference of the Hubble Constant ( http://arxiv.org/abs/2012.00042v2 )

ライセンス: CC BY 4.0
Ji Won Park, Sebastian Wagner-Carena, Simon Birrer, Philip J. Marshall, Joshua Yao-Yu Lin, Aaron Roodman (for the LSST Dark Energy Science Collaboration)(参考訳) 我々は、ハッブル定数(H_0$)決定のための数百の時間遅延重力レンズのモデリングにおける近似ベイズニューラルネットワーク(BNN)の使用について検討する。 我々のBNNは、レンズ銀河光を含む強いレンズ付き活動銀河核(AGN)の合成HST品質の画像について訓練した。 BNNは、外せん断場の楕円形パワーロー質量プロファイルを管理するモデルパラメータの後方PDFを正確に特徴付けることができる。 次に,bnnが推定した後方pdfをh_0$推論に展開し,再現可能な専用の監視キャンペーンによる時間遅延測定をシミュレーションした。 適切に測定された時間遅延とレンズの環境に対する適切な事前セットを仮定すると、推定された$H_0$においてレンズ毎の中央値の精度は9.3$\%となる。 200個のテストセットレンズの単純な組み合わせにより、0.5$\textrm{km s}^{-1} \textrm{mpc}^{-1}$ (0.7\%$) の精度が得られ、この$h_0$リカバリテストでは検出可能なバイアスがない。 トレーニングセット生成、BNNトレーニング、および$H_0$推論を含むパイプライン全体の計算時間は、200レンズの平均で1レンズあたり9分、サンプルサイズが大きくなるにつれて1レンズあたり6分に収束する。 完全に自動化され、効率的であるため、このパイプラインは$h_0$推論のためのレンズモデリングにおけるアンサンブルレベルのシステマティクスを探求するための有望なツールです。

We investigate the use of approximate Bayesian neural networks (BNNs) in modeling hundreds of time-delay gravitational lenses for Hubble constant ($H_0$) determination. Our BNN was trained on synthetic HST-quality images of strongly lensed active galactic nuclei (AGN) with lens galaxy light included. The BNN can accurately characterize the posterior PDFs of model parameters governing the elliptical power-law mass profile in an external shear field. We then propagate the BNN-inferred posterior PDFs into ensemble $H_0$ inference, using simulated time delay measurements from a plausible dedicated monitoring campaign. Assuming well-measured time delays and a reasonable set of priors on the environment of the lens, we achieve a median precision of $9.3$\% per lens in the inferred $H_0$. A simple combination of 200 test-set lenses results in a precision of 0.5 $\textrm{km s}^{-1} \textrm{ Mpc}^{-1}$ ($0.7\%$), with no detectable bias in this $H_0$ recovery test. The computation time for the entire pipeline -- including the training set generation, BNN training, and $H_0$ inference -- translates to 9 minutes per lens on average for 200 lenses and converges to 6 minutes per lens as the sample size is increased. Being fully automated and efficient, our pipeline is a promising tool for exploring ensemble-level systematics in lens modeling for $H_0$ inference.
翻訳日:2021-06-06 21:07:54 公開日:2021-04-12
# (参考訳) 画像の逆問題に対するモデル適応

Model Adaptation for Inverse Problems in Imaging ( http://arxiv.org/abs/2012.00139v2 )

ライセンス: CC BY 4.0
Davis Gilton, Gregory Ongie, Rebecca Willett(参考訳) ディープニューラルネットワークは、計算イメージングで生じる様々な逆問題に対してうまく適用されている。 これらのネットワークは通常、逆転する計測プロセスを記述するフォワードモデルを使用して訓練される。 しかし、これらのアプローチはフォワードモデルの変化に敏感であり、テスト時にネットワークがトレーニングしたモデルからフォワードモデルが少しでも変化する場合、再構成性能は大幅に低下する可能性がある。 既知のフォワードモデルで初期逆問題を解決するために訓練されたネットワークを考えると、その変更を十分に理解することなく、フォワードモデルの変化に適応する2つの新しいプロシージャを提案する。 我々のアプローチは、より多くのラベル付きデータ(すなわち、基底真理画像)にアクセスする必要はない。 これらの単純なモデル適応アプローチは,磁気共鳴イメージングにおけるデブラリング,超解像,アンサンプ画像再構成など,様々な逆問題において経験的成功をおさめている。

Deep neural networks have been applied successfully to a wide variety of inverse problems arising in computational imaging. These networks are typically trained using a forward model that describes the measurement process to be inverted, which is often incorporated directly into the network itself. However, these approaches are sensitive to changes in the forward model: if at test time the forward model varies (even slightly) from the one the network was trained for, the reconstruction performance can degrade substantially. Given a network trained to solve an initial inverse problem with a known forward model, we propose two novel procedures that adapt the network to a change in the forward model, even without full knowledge of the change. Our approaches do not require access to more labeled data (i.e., ground truth images). We show these simple model adaptation approaches achieve empirical success in a variety of inverse problems, including deblurring, super-resolution, and undersampled image reconstruction in magnetic resonance imaging.
翻訳日:2021-06-06 17:15:02 公開日:2021-04-12
# 深部病変追跡装置:4次元縦断イメージング研究における病変のモニタリング

Deep Lesion Tracker: Monitoring Lesions in 4D Longitudinal Imaging Studies ( http://arxiv.org/abs/2012.04872v2 )

ライセンス: Link先を確認
Jinzheng Cai, Youbao Tang, Ke Yan, Adam P. Harrison, Jing Xiao, Gigin Lin, Le Lu(参考訳) 縦断研究における治療反応のモニタリングは臨床における重要な役割を担っている。 連続画像追跡における病変の正確な同定は、モニタリング手順の中核である。 通常、これは画像と解剖学的考察の両方を取り入れている。 しかし、手動で一致する病変は労働集約的で時間を要する。 本研究では,出現信号と解剖信号の両方を用いた深層学習手法であるdeep lesion tracker(dlt)を提案する。 解剖学的制約を組み込むために,病変が視覚的に類似するがスプリアス領域と一致することを防止する解剖学的信号エンコーダを提案する。 さらに,3次元相互相関の重い計算負荷を回避するため,シャムネットワークの新しい定式化を提案する。 また,より多種多様な画像をネットワークに提示するために,データ収集の障壁を克服する自己教師付き学習(SSL)戦略を提案する。 追跡者の訓練と評価のために,公開deeplesionデータベースから3891個の病巣対からなる第1病巣追跡ベンチマークを紹介,公開する。 提案手法であるDLTは, 平均誤差距離7mmの病変中心を同定する。 これはリード登録アルゴリズムよりも5%優れているが、全ctボリュームで14倍高速である。 我々は、検出器や類似性学習の代替よりもさらに多くの改善を示す。 dltはまた、100の縦断的研究の外部臨床テストセットをうまく一般化し、88%の精度を達成した。 最後に, dltを自動腫瘍モニタリングワークフローに挿入し, 病変治療反応の評価において85%の精度が得られ, 手動入力の精度よりわずか0.46%低い。

Monitoring treatment response in longitudinal studies plays an important role in clinical practice. Accurately identifying lesions across serial imaging follow-up is the core to the monitoring procedure. Typically this incorporates both image and anatomical considerations. However, matching lesions manually is labor-intensive and time-consuming. In this work, we present deep lesion tracker (DLT), a deep learning approach that uses both appearance- and anatomical-based signals. To incorporate anatomical constraints, we propose an anatomical signal encoder, which prevents lesions being matched with visually similar but spurious regions. In addition, we present a new formulation for Siamese networks that avoids the heavy computational loads of 3D cross-correlation. To present our network with greater varieties of images, we also propose a self-supervised learning (SSL) strategy to train trackers with unpaired images, overcoming barriers to data collection. To train and evaluate our tracker, we introduce and release the first lesion tracking benchmark, consisting of 3891 lesion pairs from the public DeepLesion database. The proposed method, DLT, locates lesion centers with a mean error distance of 7 mm. This is 5% better than a leading registration algorithm while running 14 times faster on whole CT volumes. We demonstrate even greater improvements over detector or similarity-learning alternatives. DLT also generalizes well on an external clinical test set of 100 longitudinal studies, achieving 88% accuracy. Finally, we plug DLT into an automatic tumor monitoring workflow where it leads to an accuracy of 85% in assessing lesion treatment responses, which is only 0.46% lower than the accuracy of manual inputs.
翻訳日:2021-05-16 02:04:48 公開日:2021-04-12
# evalda: 潜在ディリクレ割り当てに対する効率的な回避攻撃

EvaLDA: Efficient Evasion Attacks Towards Latent Dirichlet Allocation ( http://arxiv.org/abs/2012.04864v2 )

ライセンス: Link先を確認
Qi Zhou, Haipeng Chen, Yitao Zheng, Zhen Wang(参考訳) 最も強力なトピックモデルのひとつとして、LDA(Latent Dirichlet Allocation)は、文書理解、情報検索、ピア・リビューアの割り当てなど、幅広いタスクで使用されている。 その大きな人気にもかかわらず、ldaの安全性の研究はほとんど行われていない。 これは、LDAに基づく感情分析やピアレビューアの割り当てのような、セキュリティクリティカルなタスクに深刻なリスクをもたらす。 本稿では,LDAモデルが推定時間における良性文書例の逆摂動に対して脆弱であるかどうかを考察する。 最適化問題としてLDAモデルへの回避攻撃を形式化し、NPハードであることを証明する。 次に,新しい効率的なアルゴリズム EvaLDA を提案し,その解法を提案する。 EvaLDAの有効性を広範囲な経験的評価により明らかにした。 例えば、NIPSデータセットでは、EvaLDAは、犠牲者文書内の単語の1%を類似した単語に置き換えることによって、ターゲットトピックのランクを平均10から7に引き上げることができる。 我々の研究は、LDAモデルへの回避攻撃のパワーと限界に関する重要な洞察を提供する。

As one of the most powerful topic models, Latent Dirichlet Allocation (LDA) has been used in a vast range of tasks, including document understanding, information retrieval and peer-reviewer assignment. Despite its tremendous popularity, the security of LDA has rarely been studied. This poses severe risks to security-critical tasks such as sentiment analysis and peer-reviewer assignment that are based on LDA. In this paper, we are interested in knowing whether LDA models are vulnerable to adversarial perturbations of benign document examples during inference time. We formalize the evasion attack to LDA models as an optimization problem and prove it to be NP-hard. We then propose a novel and efficient algorithm, EvaLDA to solve it. We show the effectiveness of EvaLDA via extensive empirical evaluations. For instance, in the NIPS dataset, EvaLDA can averagely promote the rank of a target topic from 10 to around 7 by only replacing 1% of the words with similar words in a victim document. Our work provides significant insights into the power and limitations of evasion attacks to LDA models.
翻訳日:2021-05-16 01:47:37 公開日:2021-04-12
# ハイブリッドイベントカメラのための非同期カルマンフィルタ

An Asynchronous Kalman Filter for Hybrid Event Cameras ( http://arxiv.org/abs/2012.05590v2 )

ライセンス: Link先を確認
Ziwei Wang, Yonhon Ng, Cedric Scheerlinck, Robert Mahony(参考訳) イベントカメラは、ぼやけずにHDRの視覚情報をキャプチャするのに理想的だが、静的またはゆっくりと変化するシーンでは性能が良くない。 逆に、従来の画像センサは、ゆっくりと変化するシーンの絶対強度を効果的に測定するが、高いダイナミックレンジや素早く変化するシーンでは不十分である。 本稿では,ハイダイナミックレンジ(hdr)シナリオのためのイベントベースの映像再構成パイプラインを提案する。 提案アルゴリズムは,時間的にフレームデータをイベントで補間するフレーム拡張前処理ステップを含む。 拡張フレームとイベントデータは、両センサの統一不確実性モデルの下で、新しい非同期カルマンフィルタを用いて融合される。 実験結果は、照明条件や高速動作に挑戦する公開データセットと、HDR参照による新しいデータセットの両方で評価される。 提案アルゴリズムは,絶対強度誤差(48%削減)と画像類似度指数(平均11%改善)の両方において,最先端の手法より優れている。

Event cameras are ideally suited to capture HDR visual information without blur but perform poorly on static or slowly changing scenes. Conversely, conventional image sensors measure absolute intensity of slowly changing scenes effectively but do poorly on high dynamic range or quickly changing scenes. In this paper, we present an event-based video reconstruction pipeline for High Dynamic Range (HDR) scenarios. The proposed algorithm includes a frame augmentation pre-processing step that deblurs and temporally interpolates frame data using events. The augmented frame and event data are then fused using a novel asynchronous Kalman filter under a unifying uncertainty model for both sensors. Our experimental results are evaluated on both publicly available datasets with challenging lighting conditions and fast motions and our new dataset with HDR reference. The proposed algorithm outperforms state-of-the-art methods in both absolute intensity error (48% reduction) and image similarity indexes (average 11% improvement).
翻訳日:2021-05-15 06:12:52 公開日:2021-04-12
# BERTをベースとした特許分析の自由

BERT based freedom to operate patent analysis ( http://arxiv.org/abs/2105.00817v1 )

ライセンス: Link先を確認
Michael Freunek and Andr\'e Bodmer(参考訳) 本稿では,BERTを自由に適用し,特許分析と特許検索を行う手法を提案する。 この方法によれば、BERTは独立したクレームに対する特許記述のトレーニングによって微調整される。 各説明は,対応するクレームによって保護される発明を表す。 このような訓練されたBERTは、発明や製品の簡潔な記述に基づいて、関連する特許を識別または命令することができる。 本手法は,特許クラス G06T1/00 で BERT を訓練し,DOCDB で記述した G06T1/60 に分類される5つの発明に BERT を適用した。 DOCDBの要約は欧州特許庁のESPACENETで入手できる。

In this paper we present a method to apply BERT to freedom to operate patent analysis and patent searches. According to the method, BERT is fine-tuned by training patent descriptions to the independent claims. Each description represents an invention which is protected by the corresponding claims. Such a trained BERT could be able to identify or order freedom to operate relevant patents based on a short description of an invention or product. We tested the method by training BERT on the patent class G06T1/00 and applied the trained BERT on five inventions classified in G06T1/60, described via DOCDB abstracts. The DOCDB abstract are available on ESPACENET of the European Patent Office.
翻訳日:2021-05-04 20:42:48 公開日:2021-04-12
# 要約には何がありますか? 病院の要約の進歩に向けた基礎研究

What's in a Summary? Laying the Groundwork for Advances in Hospital-Course Summarization ( http://arxiv.org/abs/2105.00816v1 )

ライセンス: Link先を確認
Griffin Adams, Emily Alsentzer, Mert Ketenci, Jason Zucker, No\'emie Elhadad(参考訳) 臨床物語の要約は長年の研究課題である。 本稿では,病院コース要約の課題を紹介する。 患者の入院中に書かれた文書を考えると、患者の入院の物語を記した段落を作成する。 我々は,109,000の入院(2mの資料)の英語テキストからテキストへのデータセットとそれに対応する要約プロキシを構築し,臨床医が作成した「英国病院コース」を退院ノートの一部として記述した。 探索的な分析によると、BHCの段落は、長い抽出された断片で非常に抽象的であり、簡潔で包括的であり、ソースノートとは異なるスタイルや内容の組織であり、最小の語彙の凝集を示し、銀標準の参照を表す。 この複雑な文書要約タスクをモデル化するための複数の意味を明らかにする。

Summarization of clinical narratives is a long-standing research problem. Here, we introduce the task of hospital-course summarization. Given the documentation authored throughout a patient's hospitalization, generate a paragraph that tells the story of the patient admission. We construct an English, text-to-text dataset of 109,000 hospitalizations (2M source notes) and their corresponding summary proxy: the clinician-authored "Brief Hospital Course" paragraph written as part of a discharge note. Exploratory analyses reveal that the BHC paragraphs are highly abstractive with some long extracted fragments; are concise yet comprehensive; differ in style and content organization from the source notes; exhibit minimal lexical cohesion; and represent silver-standard references. Our analysis identifies multiple implications for modeling this complex, multi-document summarization task.
翻訳日:2021-05-04 20:42:15 公開日:2021-04-12
# (参考訳) antコロニーアルゴリズムに基づく画像補間の進展

Advances on image interpolation based on ant colony algorithm ( http://arxiv.org/abs/2104.12863v1 )

ライセンス: CC BY 4.0
Olivier Rukundo, Hanqiang Cao(参考訳) 本稿では,高分解能画像スケーリングのためのアリコロニーアルゴリズム(AACA)に基づく画像補間について述べる。 提案アルゴリズムと従来提案されていたアントコロニーアルゴリズム(OBACA)に基づく双線形補間最適化の違いは,AACAがグローバル重み付けを用いるのに対して,OBACAは局所重み付け方式を用いる点である。 aacaアルゴリズムが提案した大域重み付けの強さは、隣接する4つのピクセル群に存在するフェロモンマトリクス情報のみを使用して、どのケースが最大の大域重み値に値するかを決定する。 さらに,本論文で言及したアルゴリズムを参考に,提案したAACAアルゴリズムのより高い性能を示す実験結果が得られた。

This paper presents an advance on image interpolation based on ant colony algorithm (AACA) for high-resolution image scaling. The difference between the proposed algorithm and the previously proposed optimization of bilinear interpolation based on ant colony algorithm (OBACA) is that AACA uses global weighting, whereas OBACA uses a local weighting scheme. The strength of the proposed global weighting of the AACA algorithm depends on employing solely the pheromone matrix information present on any group of four adjacent pixels to decide which case deserves a maximum global weight value or not. Experimental results are further provided to show the higher performance of the proposed AACA algorithm with reference to the algorithms mentioned in this paper.
翻訳日:2021-05-04 08:23:44 公開日:2021-04-12
# (参考訳) 画像上の異なる車両の車両種別及びナンバープレート数の検出

Detecting Vehicle Type and License Plate Number of different Vehicles on Images ( http://arxiv.org/abs/2104.09568v1 )

ライセンス: CC BY 4.0
Aashna Ahuja, Arindam Chaudhuri(参考訳) 車両の増加に伴い、車両追跡は都市部で直面する大きな課題の1つとなっている。 本稿では,利用者が探している特定の車両を,車両の種類と2の要因によって特定できるモデルの開発を試みる。 ナンバーナンバーは車のナンバー。 提案システムでは,車両タイプ検出にマスクr-cnnモデル,ライセンスプレート検出にwpodnetとpytesseractを併用し,文字の予測を行う。

With ever increasing number of vehicles, vehicular tracking is one of the major challenges faced by urban areas. In this paper we try to develop a model that can locate a particular vehicle that the user is looking for depending on two factors 1. the Type of vehicle and the 2. License plate number of the car. The proposed system uses a unique mixture consisting of Mask R-CNN model for vehicle type detection, WpodNet and pytesseract for License Plate detection and Prediction of letters in it.
翻訳日:2021-05-04 08:07:15 公開日:2021-04-12
# Zoom-to-Inpaint:高頻度詳細画像インペインティング

Zoom-to-Inpaint: Image Inpainting with High-Frequency Details ( http://arxiv.org/abs/2012.09401v2 )

ライセンス: Link先を確認
Soo Ye Kim, Kfir Aberman, Nori Kanazawa, Rahul Garg, Neal Wadhwa, Huiwen Chang, Nikhil Karnad, Munchurl Kim, Orly Liba(参考訳) 深層学習は画像の描画において飛躍的な進歩をもたらしたが、現在の手法では現実的な高周波の詳細を合成できないことが多い。 本稿では,大まかに再構成された出力に超解像を適用し,高分解能で精製し,出力を元の解像度にダウンスケールする手法を提案する。 精細化ネットワークに高解像度の画像を導入することで、我々のフレームワークは、スペクトルバイアスによって通常滑らかにされる細部を再構築することができる。 本研究では,大規模ホールにおける改良ネットワークの訓練を支援するため,訓練が進むにつれて欠落領域の大きさが増加するプログレッシブ・ラーニング手法を提案する。 当社のズームイン,精製,ズームアウト戦略は,高分解能の監督とプログレッシブ・ラーニングと相まって,任意のcnnベースのインペインティング法に適用可能な高周波詳細化のためのフレームワークに依存しないアプローチを構成する。 本手法の有効性を示すために, 定性的, 定量的評価とアブレーション解析を行った。 この一見シンプルで強力なアプローチは、最先端の塗装方法より優れている。

Although deep learning has enabled a huge leap forward in image inpainting, current methods are often unable to synthesize realistic high-frequency details. In this paper, we propose applying super-resolution to coarsely reconstructed outputs, refining them at high resolution, and then downscaling the output to the original resolution. By introducing high-resolution images to the refinement network, our framework is able to reconstruct finer details that are usually smoothed out due to spectral bias - the tendency of neural networks to reconstruct low frequencies better than high frequencies. To assist training the refinement network on large upscaled holes, we propose a progressive learning technique in which the size of the missing regions increases as training progresses. Our zoom-in, refine and zoom-out strategy, combined with high-resolution supervision and progressive learning, constitutes a framework-agnostic approach for enhancing high-frequency details that can be applied to any CNN-based inpainting method. We provide qualitative and quantitative evaluations along with an ablation analysis to show the effectiveness of our approach. This seemingly simple, yet powerful approach, outperforms state-of-the-art inpainting methods.
翻訳日:2021-05-02 07:27:26 公開日:2021-04-12
# (参考訳) モンテカルロの空間的統合と重要度サンプリング

Spatial Monte Carlo Integration with Annealed Importance Sampling ( http://arxiv.org/abs/2012.11198v2 )

ライセンス: CC BY 4.0
Muneki Yasuda and Kaiji Sekimoto(参考訳) isingモデル(ボルツマンマシン)への期待評価は、統計機械学習を含む様々な応用に不可欠である。 しかし、一般に、この評価は難解な複数の和や積分を必要とするため、計算的に困難である。 モンテカルロ積分(MCI)はよく知られた近似法であり、より効果的なMCIのような近似法が最近提案され、空間モンテカルロ積分(SMCI)と呼ばれる。 しかし、SMCI(およびMCI)を用いて得られた推定値は、サンプリング品質の劣化により、低温下でのIsingモデルにおいて低い精度を示す。 annealed importance sampling (ais) はマルコフ連鎖モンテカルロ法に基づく重要サンプリングの一種であり、重要度重みによって低温領域の性能低下を抑制することができる。 本研究では,AISとSMCIを組み合わせたIsingモデルの期待値を評価するための新しい手法を提案する。 提案手法は高温領域と低温領域の両方で効率よく動作し,理論的・数値的に実証される。

Evaluating expectations on an Ising model (or Boltzmann machine) is essential for various applications, including statistical machine learning. However, in general, the evaluation is computationally difficult because it involves intractable multiple summations or integrations; therefore, it requires approximation. Monte Carlo integration (MCI) is a well-known approximation method; a more effective MCI-like approximation method was proposed recently, called spatial Monte Carlo integration (SMCI). However, the estimations obtained using SMCI (and MCI) exhibit a low accuracy in Ising models under a low temperature owing to degradation of the sampling quality. Annealed importance sampling (AIS) is a type of importance sampling based on Markov chain Monte Carlo methods that can suppress performance degradation in low-temperature regions with the force of importance weights. In this study, a new method is proposed to evaluate the expectations on Ising models combining AIS and SMCI. The proposed method performs efficiently in both high- and low-temperature regions, which is demonstrated theoretically and numerically.
翻訳日:2021-04-29 07:42:25 公開日:2021-04-12
# 多言語低リソース音声認識のための逆メタサンプリング

Adversarial Meta Sampling for Multilingual Low-Resource Speech Recognition ( http://arxiv.org/abs/2012.11896v3 )

ライセンス: Link先を確認
Yubei Xiao, Ke Gong, Pan Zhou, Guolin Zheng, Xiaodan Liang, Liang Lin(参考訳) 低リソース自動音声認識(ASR)は、低リソースターゲット言語データがASRモデルを十分に訓練できないため、困難である。 この問題を解決するために、メタラーニングは、各ソース言語のASRを多数の小さなASRタスクに定式化し、メタラーニングは異なるソース言語から全てのタスクのモデル初期化を行い、未知のターゲット言語への高速適応にアクセスする。 しかし、異なるソース言語では、その量と難易度は、異なるデータスケールと多様な音韻学的システムによって大きく異なり、タスクの質とタスクの差異の不均衡の問題を引き起こし、多言語メタラーニングasr(mml-asr)の失敗に繋がる。 そこで本研究では,MML-ASRを改善するために,AMS (Adversarial Meta sample) アプローチを開発した。 MML-ASRでタスクをサンプリングする場合、AMSは各ソース言語のタスクサンプリング確率を適応的に決定する。 具体的には、各ソース言語に対して、クエリ損失が大きい場合、そのタスクはその量と難易度の観点からASRモデルをトレーニングするために十分にサンプリングされていないため、余分な学習のためにより頻繁にサンプリングすべきである。 この事実に触発されて、すべてのソース言語ドメインの履歴的タスククエリ損失をネットワークに入力し、MML-ASRの現在のクエリ損失を逆向きに増加させるタスクサンプリングポリシーを学習する。 これにより、学習したタスクサンプリングポリシーは各言語の学習状況を習得し、より効果的な学習を行うために各言語に対して良好なタスクサンプリング確率を予測することができる。 最後に、MML-ASRにAMSを適用する際の2つの多言語データセットの実験結果と、他の低リソース音声タスクへのAMSの適用性およびトランスファーラーニングASRアプローチの有効性を示す。

Low-resource automatic speech recognition (ASR) is challenging, as the low-resource target language data cannot well train an ASR model. To solve this issue, meta-learning formulates ASR for each source language into many small ASR tasks and meta-learns a model initialization on all tasks from different source languages to access fast adaptation on unseen target languages. However, for different source languages, the quantity and difficulty vary greatly because of their different data scales and diverse phonological systems, which leads to task-quantity and task-difficulty imbalance issues and thus a failure of multilingual meta-learning ASR (MML-ASR). In this work, we solve this problem by developing a novel adversarial meta sampling (AMS) approach to improve MML-ASR. When sampling tasks in MML-ASR, AMS adaptively determines the task sampling probability for each source language. Specifically, for each source language, if the query loss is large, it means that its tasks are not well sampled to train ASR model in terms of its quantity and difficulty and thus should be sampled more frequently for extra learning. Inspired by this fact, we feed the historical task query loss of all source language domain into a network to learn a task sampling policy for adversarially increasing the current query loss of MML-ASR. Thus, the learnt task sampling policy can master the learning situation of each language and thus predicts good task sampling probability for each language for more effective learning. Finally, experiment results on two multilingual datasets show significant performance improvement when applying our AMS on MML-ASR, and also demonstrate the applicability of AMS to other low-resource speech tasks and transfer learning ASR approaches.
翻訳日:2021-04-26 07:23:40 公開日:2021-04-12
# 病院超音波手術における高忠実・機械学習強化キューネットワークシミュレーションモデル

A High-fidelity, Machine-learning Enhanced Queueing Network Simulation Model for Hospital Ultrasound Operations ( http://arxiv.org/abs/2104.07451v1 )

ライセンス: Link先を確認
Yihan Pan, Zhenghang Xu, Jin Guang, Jingjing Sun, Chengwenjian Wang, Xuanming Zhang, Xinyun Chen, J.G. Dai, Yichuan Ding, Pengyi Shi, Hongxin Pan, Kai Yang, and Song Wu(参考訳) 中国の深センにある大規模教育病院と協働し,超音波センタのための高精度シミュレーションモデルを構築し,待ち時間,ソジュルン時間などの重要な性能指標を高精度に予測した。 正確なシミュレーションモデルを構築するための重要な課題は、超音波センターでの複雑な患者の経路を理解することである。 そこで本研究では,待ち行列ネットワークモデルに対する新しい2レベルルーティングコンポーネントを提案する。 機械学習ツールを用いて,待ち行列モデルの重要コンポーネントをデータから高精度に校正する。

We collaborate with a large teaching hospital in Shenzhen, China and build a high-fidelity simulation model for its ultrasound center to predict key performance metrics, including the distributions of queue length, waiting time and sojourn time, with high accuracy. The key challenge to build an accurate simulation model is to understanding the complicated patient routing at the ultrasound center. To address the issue, we propose a novel two-level routing component to the queueing network model. We apply machine learning tools to calibrate the key components of the queueing model from data with enhanced accuracy.
翻訳日:2021-04-16 14:46:45 公開日:2021-04-12
# (参考訳) 機械学習に基づくtbm負荷パラメータのリアルタイム予測モデル

Real-time Forecast Models for TBM Load Parameters Based on Machine Learning Methods ( http://arxiv.org/abs/2104.06353v1 )

ライセンス: CC BY 4.0
Xianjie Gao, Xueguan Song, Maolin Shi, Chao Zhang and Hongwei Zhang(参考訳) 高速進行速度と人的安全の向上により、トンネル掘削機(TBM)は様々なトンネル建設計画で広く利用されている。 tbm負荷パラメータ(トルク、進行速度、推力を含む)の動的モデリングは、この複合工学システムの設計、安全運転、および故障予測において重要な役割を担っている。 本稿では,現状のtbm運用データに基づいて,機械学習(ml)手法を用いてtbm負荷パラメータのリアルタイム予測モデルを構築し,現在のデータが収集される限り,tbm負荷パラメータの将来的な値を瞬時に提供する。 モデル複雑性を低減し、一般化を改善するため、予測タスクの本質的特徴を抽出するために、最小絶対縮小および選択法(Lasso)を適用した。 実験の結果,深層学習法に基づく予測モデルが得られた。 再帰的なニューラルネットワークとその変種は、浅層学習法(例えば、浅層学習法)に基づくものよりも優れています。 ベクトル回帰とランダムフォレストをサポートする。 さらに、Lassoベースの特徴抽出は、結果のモデルの性能を大幅に改善する。

Because of the fast advance rate and the improved personnel safety, tunnel boring machines (TBMs) have been widely used in a variety of tunnel construction projects. The dynamic modeling of TBM load parameters (including torque, advance rate and thrust) plays an essential part in the design, safe operation and fault prognostics of this complex engineering system. In this paper, based on in-situ TBM operational data, we use the machine-learning (ML) methods to build the real-time forecast models for TBM load parameters, which can instantaneously provide the future values of the TBM load parameters as long as the current data are collected. To decrease the model complexity and improve the generalization, we also apply the least absolute shrinkage and selection (Lasso) method to extract the essential features of the forecast task. The experimental results show that the forecast models based on deep-learning methods, {\it e.g.}, recurrent neural network and its variants, outperform the ones based on the shallow-learning methods, {\it e.g.}, support vector regression and random forest. Moreover, the Lasso-based feature extraction significantly improves the performance of the resultant models.
翻訳日:2021-04-15 05:29:15 公開日:2021-04-12
# (参考訳) LSTMニューラルネットワークによる最初期の地震マグニチュード推定精度の推定:予備解析

Predicting the Accuracy of Early-est Earthquake Magnitude Estimates with an LSTM Neural Network: A Preliminary Analysis ( http://arxiv.org/abs/2104.05712v1 )

ライセンス: CC BY 4.0
Massimo Nazaria(参考訳) 本報告では,地震発生後1分間に早期推定値の精度を予測するためのLSTMニューラルネットワークの予備解析を行った。

This report presents a preliminary analysis of an LSTM neural network designed to predict the accuracy of magnitude estimates computed by Early-est during the first minutes after an earthquake occurs.
翻訳日:2021-04-15 05:11:16 公開日:2021-04-12
# (参考訳) Dense Passage Retriever の再現性の検討

A Replication Study of Dense Passage Retriever ( http://arxiv.org/abs/2104.05740v1 )

ライセンス: CC BY 4.0
Xueguang Ma, Kai Sun, Ronak Pradeep, and Jimmy Lin(参考訳) 学習された高密度表現を用いたテキスト検索は、近年、スパースバッグ・オブ・ワード表現を用いた「伝統的な」テキスト検索に代わる有望な代替手段として浮上している。 最近の研究で注目されているのは、Karpukhinらによって提案されたDPR技術である。 (2020) エンド・ツー・エンドの質問応答。 本研究は,著者らが提供したモデルチェックポイントから始まるが,それ以外は,我々のグループのPyserini IRツールキットとPyGaggleニューラルテキストランキングライブラリの独立した実装から始まる。 実験の結果,dprの理解を深める上で重要な2つの発見が得られた。第1に,bm25ベースラインの有効性を報告していないこと,また,分散ハイブリッド検索の結果も報告している。 第2に,レトリバーからのエビデンスと改良された回答スパンスコアリング手法を組み込むことで,元の作業とまったく同じモデルを用いて,エンドツーエンドの質問応答効率を向上させることができる。

Text retrieval using learned dense representations has recently emerged as a promising alternative to "traditional" text retrieval using sparse bag-of-words representations. One recent work that has garnered much attention is the dense passage retriever (DPR) technique proposed by Karpukhin et al. (2020) for end-to-end open-domain question answering. We present a replication study of this work, starting with model checkpoints provided by the authors, but otherwise from an independent implementation in our group's Pyserini IR toolkit and PyGaggle neural text ranking library. Although our experimental results largely verify the claims of the original paper, we arrived at two important additional findings that contribute to a better understanding of DPR: First, it appears that the original authors under-report the effectiveness of the BM25 baseline and hence also dense--sparse hybrid retrieval results. Second, by incorporating evidence from the retriever and an improved answer span scoring technique, we are able to improve end-to-end question answering effectiveness using exactly the same models as in the original work.
翻訳日:2021-04-15 05:05:12 公開日:2021-04-12
# (参考訳) 分割ニューラルネットワークのモデル反転攻撃に対する実用的防御

Practical Defences Against Model Inversion Attacks for Split Neural Networks ( http://arxiv.org/abs/2104.05743v1 )

ライセンス: CC BY 4.0
Tom Titcombe, Adam J. Hall, Pavlos Papadopoulos, Daniele Romanini(参考訳) 本稿では,ネットワーク分割型フェデレーション学習システムが悪意のある計算サーバによるモデルインバージョン攻撃に影響を受けやすい脅威モデルについて述べる。 攻撃者によるデータ分布に関する知識を限定して,攻撃を効果的に実施できることを実証する。 モデルインバージョンを防御するための簡易な付加雑音法を提案し,mnistの許容精度トレードオフにおいて攻撃効果を著しく低減できることを示す。 さらに,既存の防御手法であるnopeeknnが露出から異なる情報を保護していることを示し,ユーザデータを完全に保護するためには,複合的な防御が必要であることを示唆する。

We describe a threat model under which a split network-based federated learning system is susceptible to a model inversion attack by a malicious computational server. We demonstrate that the attack can be successfully performed with limited knowledge of the data distribution by the attacker. We propose a simple additive noise method to defend against model inversion, finding that the method can significantly reduce attack efficacy at an acceptable accuracy trade-off on MNIST. Furthermore, we show that NoPeekNN, an existing defensive method, protects different information from exposure, suggesting that a combined defence is necessary to fully protect private user data.
翻訳日:2021-04-15 04:55:20 公開日:2021-04-12
# (参考訳) ポルトガル語とモザンビークのバントゥー語エマクワ語の並列コーパスに向けて

Towards a parallel corpus of Portuguese and the Bantu language Emakhuwa of Mozambique ( http://arxiv.org/abs/2104.05753v1 )

ライセンス: CC BY 4.0
Felermino D. M. A. Ali, Andrew Caines, Jaimito L. A. Malavi(参考訳) 大規模な並列コーパスが利用可能になったことにより、機械翻訳モデルの性能が大幅に向上した。 しかし、世界中のほとんどの言語では、そのようなコーパスの存在は稀である。 モザンビークで話されているエマクフワ語は、NLPの用語ではほとんどのアフリカの言語と同様に低リソースである。 計算と言語の両方のリソースが不足しており、私たちの知る限り、emakhuwaを含む並列コーパスはほとんど存在しない。 本稿では,ジェホバのウィットネスのウェブサイトやアフリカ・ストーリーブックのウェブサイト,人権の普遍宣言,モザンビークの法的文書など,さまざまな資料から得られたテキストの集合体であるエマフワ・ポルトガルの平行コーパスの作成について述べる。 データセットには47,415文のペアがあり、エマクワの699,976ワードトークンとポルトガル語の877,595ワードトークンが含まれている。 完成予定の正常化プロセスの後、コーパスは自由に研究用として利用できるようになる。

Major advancement in the performance of machine translation models has been made possible in part thanks to the availability of large-scale parallel corpora. But for most languages in the world, the existence of such corpora is rare. Emakhuwa, a language spoken in Mozambique, is like most African languages low-resource in NLP terms. It lacks both computational and linguistic resources and, to the best of our knowledge, few parallel corpora including Emakhuwa already exist. In this paper we describe the creation of the Emakhuwa-Portuguese parallel corpus, which is a collection of texts from the Jehovah's Witness website and a variety of other sources including the African Story Book website, the Universal Declaration of Human Rights and Mozambican legal documents. The dataset contains 47,415 sentence pairs, amounting to 699,976 word tokens of Emakhuwa and 877,595 word tokens in Portuguese. After normalization processes which remain to be completed, the corpus will be made freely available for research use.
翻訳日:2021-04-15 04:45:09 公開日:2021-04-12
# (参考訳) Tensor Processing Primitives: ディープラーニングワークロードの効率性と可搬性のためのプログラミング抽象化

Tensor Processing Primitives: A Programming Abstraction for Efficiency and Portability in Deep Learning Workloads ( http://arxiv.org/abs/2104.05755v1 )

ライセンス: CC BY 4.0
Evangelos Georganas, Dhiraj Kalamkar, Sasikanth Avancha, Menachem Adelman, Cristina Anderson, Alexander Breuer, Abhisek Kundu, Vasimuddin Md, Sanchit Misra, Ramanarayan Mohanty, Hans Pabst, Barukh Ziv, Alexander Heinecke(参考訳) 過去10年間、新しいDeep Learning (DL)アルゴリズム/ワークロードとハードウェアは、幅広い問題に対処するために開発されてきた。 ワークロード/ハードウェアエコシステムの進歩にもかかわらず、DLシステムのプログラミング方法論は停滞しています。 DL-workloadsは、DL-librariesから高度に最適化された、プラットフォーム固有の、あるいは柔軟性のないカーネルを利用するか、新しい演算子の場合、低負荷性能のDL-frameworkプリミティブを介して参照実装を構築する。 dl-ワークロードを高生産性で効率的にポータブルに実装するためのプログラミング抽象化であるtensor processing primitives(tpp)を紹介する。 TPPはコンパクトだが汎用的な2Dテンソル作用素(または仮想テンソルISA)の集合を定義し、後に高次元テンソル上の複素作用素を構成するためにビルディングブロックとして利用することができる。 TPP仕様はプラットフォームに依存しないので、TPPで表現されたコードはポータブルである。 我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードを用いたアプローチの有効性を示す。

During the past decade, novel Deep Learning (DL) algorithms/workloads and hardware have been developed to tackle a wide range of problems. Despite the advances in workload/hardware ecosystems, the programming methodology of DL-systems is stagnant. DL-workloads leverage either highly-optimized, yet platform-specific and inflexible kernels from DL-libraries, or in the case of novel operators, reference implementations are built via DL-framework primitives with underwhelming performance. This work introduces the Tensor Processing Primitives (TPP), a programming abstraction striving for efficient, portable implementation of DL-workloads with high-productivity. TPPs define a compact, yet versatile set of 2D-tensor operators (or a virtual Tensor ISA), which subsequently can be utilized as building-blocks to construct complex operators on high-dimensional tensors. The TPP specification is platform-agnostic, thus code expressed via TPPs is portable, whereas the TPP implementation is highly-optimized and platform-specific. We demonstrate the efficacy of our approach using standalone kernels and end-to-end DL-workloads expressed entirely via TPPs that outperform state-of-the-art implementations on multiple platforms.
翻訳日:2021-04-15 04:39:05 公開日:2021-04-12
# (参考訳) 意味情報を用いたドメイン適応単眼深度推定

Domain Adaptive Monocular Depth Estimation With Semantic Information ( http://arxiv.org/abs/2104.05764v1 )

ライセンス: CC BY 4.0
Fei Lu, Hyeonwoo Yu, Jean Oh(参考訳) 深層学習の出現は単眼深度推定に印象的な進歩をもたらし、例えば教師付き単眼深度推定は徹底的に研究されている。 しかし、RGB画像に従って正確な深度基底の真理を収集することは時間と費用のかかる作業であるため、RGBから深度へのデータセットの大量利用は必ずしも不可能である。 ネットワークはデータセットスケールの問題に対処するために、別のデータセットでトレーニングすることができるが、トレーニングされたモデルは、ドメインの相違によりターゲットドメインに一般化するのは難しい。 敵対的ドメインアライメントは、以前の作品における単純な画像分類タスクのドメインシフトを軽減する効果を実証した。 しかしながら、従来のアプローチではネットワークの機能マップのみを考慮し、条件付きアライメントを扱うことはほとんどない。 本稿では,ドメイン間のギャップを狭めるために,意味情報を活用した対向学習モデルを提案する。 KITTIとCityscapesを含む単眼深度推定タスクのデータセットを用いて,提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を達成し,遠隔地の境界や物体に対する良好な結果を示す。

The advent of deep learning has brought an impressive advance to monocular depth estimation, e.g., supervised monocular depth estimation has been thoroughly investigated. However, the large amount of the RGB-to-depth dataset may not be always available since collecting accurate depth ground truth according to the RGB image is a time-consuming and expensive task. Although the network can be trained on an alternative dataset to overcome the dataset scale problem, the trained model is hard to generalize to the target domain due to the domain discrepancy. Adversarial domain alignment has demonstrated its efficacy to mitigate the domain shift on simple image classification tasks in previous works. However, traditional approaches hardly handle the conditional alignment as they solely consider the feature map of the network. In this paper, we propose an adversarial training model that leverages semantic information to narrow the domain gap. Based on the experiments conducted on the datasets for the monocular depth estimation task including KITTI and Cityscapes, the proposed compact model achieves state-of-the-art performance comparable to complex latest models and shows favorable results on boundaries and objects at far distances.
翻訳日:2021-04-15 04:09:41 公開日:2021-04-12
# (参考訳) 資源配分のための補償半帯域

Censored Semi-Bandits for Resource Allocation ( http://arxiv.org/abs/2104.05781v1 )

ライセンス: CC BY 4.0
Arun Verma, Manjesh K. Hanawal, Arun Rajkumar, Raman Sankaran(参考訳) 本稿では,各ステップのリソースをアームに割り当て,損失を観測する,検閲されたセミバンド構成における資源の逐次割当の問題について考察する。 損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。 より具体的には、割り当てられたリソースが一定の(しかし未知の)arm依存しきい値を超えると、arm の損失は 0 となる。 目標は、期待される損失を最小限に抑えるリソース割り当てを学ぶことです。 問題は各アームの損失分布としきい値が不明であるためである。 我々は,MP-MAB(Multiple-Play Multi-Armed Bandits)と Combinatorial Semi-Banditsの「等価」を確立することで,この設定について検討する。 本稿では,MP-MAB と Combinatorial Semi-Bandits の既知のアルゴリズムを用いて,これらの等価性を探索する。 合成生成データに関する実験は,提案アルゴリズムの性能保証を検証する。

We consider the problem of sequentially allocating resources in a censored semi-bandits setup, where the learner allocates resources at each step to the arms and observes loss. The loss depends on two hidden parameters, one specific to the arm but independent of the resource allocation, and the other depends on the allocated resource. More specifically, the loss equals zero for an arm if the resource allocated to it exceeds a constant (but unknown) arm dependent threshold. The goal is to learn a resource allocation that minimizes the expected loss. The problem is challenging because the loss distribution and threshold value of each arm are unknown. We study this setting by establishing its `equivalence' to Multiple-Play Multi-Armed Bandits (MP-MAB) and Combinatorial Semi-Bandits. Exploiting these equivalences, we derive optimal algorithms for our problem setting using known algorithms for MP-MAB and Combinatorial Semi-Bandits. The experiments on synthetically generated data validate the performance guarantees of the proposed algorithms.
翻訳日:2021-04-15 03:57:47 公開日:2021-04-12
# (参考訳) 機械学習を用いた中性子照射 {\alpha}-Uにおけるフィッションガス気泡分布, ランタニド輸送, 熱伝導率劣化の解明

Understanding Fission Gas Bubble Distribution, Lanthanide Transportation, and Thermal Conductivity Degradation in Neutron-irradiated {\alpha}-U Using Machine Learning ( http://arxiv.org/abs/2104.05786v1 )

ライセンス: CC BY 4.0
Lu Cai, Fei Xu, Fidelma Dilemma, Daniel J. Murray, Cynthia A. Adkins, Larry K Aagesen Jr, Min Xian, Luca Caprriot, Tiankai Yao(参考訳) UZrをベースとする金属核燃料は、米国で次世代のナトリウム冷却高速炉の候補となっている。 アメリカの研究用原子炉は1960年代からこの燃料型の使用と試験を行っており、燃料性能に関するかなりの経験と知識を蓄積している。 しかし、ほとんどの知識は実証的なままである。 燃料性能に関する機械的理解の欠如は、商業用途におけるUZr燃料の認定を妨げている。 本稿では, 機械学習アルゴリズムを応用した先進的な放射線照射試験と組み合わせたデータ駆動型アプローチを提案する。 具体的には,中性子照射されたu-10zr環状燃料で収集された高度放散試験データに基づき,約19,000個の核分裂ガス気泡を異なるカテゴリに自動検出,分類し,放射温度勾配に沿ったランタノイド蒸散と定量的にリンクする手法を開発した。 アプローチは多用途であり、照射された核燃料の二次相の再分配や熱伝導率の低下など、異なる結合した照射効果を研究するために修正することができる。

UZr based metallic nuclear fuel is the leading candidate for next-generation sodium-cooled fast reactors in the United States. US research reactors have been using and testing this fuel type since the 1960s and accumulated considerable experience and knowledge about the fuel performance. However, most of knowledge remains empirical. The lack of mechanistic understanding of fuel performance is preventing the qualification of UZr fuel for commercial use. This paper proposes a data-driven approach, coupled with advanced post irradiation examination, powered by machine learning algorithms, to facilitate the development of such understandings by providing unpreceded quantified new insights into fission gas bubbles. Specifically, based on the advanced postirradiation examination data collected on a neutron-irradiated U-10Zr annular fuel, we developed a method to automatically detect, classify ~19,000 fission gas bubbles into different categories, and quantitatively link the data to lanthanide transpiration along the radial temperature gradient. The approach is versatile and can be modified to study different coupled irradiation effects, such as secondary phase redistribution and degradation of thermal conductivity, in irradiated nuclear fuel.
翻訳日:2021-04-15 03:56:45 公開日:2021-04-12
# (参考訳) 加速勾配降下による効率的な最適輸送アルゴリズム

Efficient Optimal Transport Algorithm by Accelerated Gradient descent ( http://arxiv.org/abs/2104.05802v1 )

ライセンス: CC BY 4.0
Dongsheng An, Na Lei and Xianfeng Gu(参考訳) 機械学習やディープラーニングなど、さまざまな分野において、最適な輸送(OT)が重要な役割を果たす。 しかし,大規模問題に対する離散的最適輸送計画の精度と効率性は依然として極めて困難である。 近年、シンクホーンアルゴリズムに基づく手法では、素問題にエントロピー正則化器を追加し、効率と精度のトレードオフを得る。 本論文では,ネステロフの平滑化技術に基づく効率と精度の向上を目的とした新しいアルゴリズムを提案する。 基本的に、カントロヴィチポテンシャルの非スムート c-変換は滑らかなlog-sum-exp関数によって近似され、最終的に元のスムートでないカントロヴィチ双対汎関数(エネルギー)を滑らかにする。 スムーズなカントロビッチ関数は高速近位勾配アルゴリズム(FISTA)によって効率的に最適化できる。 理論的には、提案手法の計算複雑性は、シンクホーンアルゴリズムよりも低い$O(n^{\frac{5}{2}} \sqrt{\log n} /\epsilon)$で与えられる。 実験により,Sinkhornアルゴリズムと比較して,提案手法がより高速に収束し,同じパラメータで精度が向上することを示した。

Optimal transport (OT) plays an essential role in various areas like machine learning and deep learning. However, computing discrete optimal transport plan for large scale problems with adequate accuracy and efficiency is still highly challenging. Recently, methods based on the Sinkhorn algorithm add an entropy regularizer to the prime problem and get a trade off between efficiency and accuracy. In this paper, we propose a novel algorithm to further improve the efficiency and accuracy based on Nesterov's smoothing technique. Basically, the non-smooth c-transform of the Kantorovich potential is approximated by the smooth Log-Sum-Exp function, which finally smooths the original non-smooth Kantorovich dual functional (energy). The smooth Kantorovich functional can be optimized by the fast proximal gradient algorithm (FISTA) efficiently. Theoretically, the computational complexity of the proposed method is given by $O(n^{\frac{5}{2}} \sqrt{\log n} /\epsilon)$, which is lower than that of the Sinkhorn algorithm. Empirically, compared with the Sinkhorn algorithm, our experimental results demonstrate that the proposed method achieves faster convergence and better accuracy with the same parameter.
翻訳日:2021-04-15 03:49:34 公開日:2021-04-12
# (参考訳) 意味的構文解析の実践から学ぶ

Learning from Executions for Semantic Parsing ( http://arxiv.org/abs/2104.05819v1 )

ライセンス: CC BY 4.0
Bailin Wang, Mirella Lapata and Ivan Titov(参考訳) semantic parsingは自然言語(nl)の発話を機械解釈可能なプログラムに翻訳することを目的としている。 発話プログラムペアの高価なアノテーションは、現代のニューラルモデルが現実のアプリケーションに展開する際の大きなボトルネックとして長年認識されてきた。 本研究では,無ラベルNL音声とともに限られた量の注釈付きデータが利用できるセミ教師付き学習の課題に焦点を当てる。 NL発話に対応するプログラムは常に実行可能でなければならないという観測に基づいて、未ラベル発話のための実行可能プログラムを生成するようパーサに促すことを提案する。 実行可能プログラムの探索空間が大きいため、自己学習やトップk辺縁可能性トレーニングといったビームサーチに基づく近似を用いる従来の手法ではうまく動作しない。 代わりに、後進正規化の観点から実行から学習する問題を考察し、新しい訓練目標を提案する。 半教師付き学習と教師付き学習のギャップを橋渡しし,新しい目的が従来の手法よりも優れていることを示した。

Semantic parsing aims at translating natural language (NL) utterances onto machine-interpretable programs, which can be executed against a real-world environment. The expensive annotation of utterance-program pairs has long been acknowledged as a major bottleneck for the deployment of contemporary neural models to real-life applications. In this work, we focus on the task of semi-supervised learning where a limited amount of annotated data is available together with many unlabeled NL utterances. Based on the observation that programs which correspond to NL utterances must be always executable, we propose to encourage a parser to generate executable programs for unlabeled utterances. Due to the large search space of executable programs, conventional methods that use approximations based on beam-search such as self-training and top-k marginal likelihood training, do not perform as well. Instead, we view the problem of learning from executions from the perspective of posterior regularization and propose a set of new training objectives. Experimental results on Overnight and GeoQuery show that our new objectives outperform conventional methods, bridging the gap between semi-supervised and supervised learning.
翻訳日:2021-04-15 03:28:20 公開日:2021-04-12
# (参考訳) 意味解析のためのデータ合成の学習

Learning to Synthesize Data for Semantic Parsing ( http://arxiv.org/abs/2104.05827v1 )

ライセンス: CC BY 4.0
Bailin Wang, Wenpeng Yin, Xi Victoria Lin and Caiming Xiong(参考訳) 近年,意味解析のためのデータ合成が注目されている。 しかし、ほとんどの手法は、生成過程において手作りの(高精度な)規則を必要とし、多様な未知のデータ探索を妨げる。 本研究では,プログラムの構成(例えばsql)をモデル化する(非ニューラルな)pcfgと,プログラムを発話にマッピングするbartベースの翻訳モデルを特徴とする生成モデルを提案する。 PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。 さらに、PCFGを用いて構成を明示的にモデル化することで、目に見えないプログラムをよりよく探索し、より多様なデータを生成する。 提案手法は,GeoQueryとSpiderの標準ベンチマークに基づいて,テキスト対SQL解析のドメイン内設定とドメイン外設定の両方で評価する。 実験の結果,モデルから生成した合成データは,セマンティックパーサがより優れた合成とドメインの一般化を実現するのに大いに役立つことがわかった。

Synthesizing data for semantic parsing has gained increasing attention recently. However, most methods require handcrafted (high-precision) rules in their generative process, hindering the exploration of diverse unseen data. In this work, we propose a generative model which features a (non-neural) PCFG that models the composition of programs (e.g., SQL), and a BART-based translation model that maps a program to an utterance. Due to the simplicity of PCFG and pre-trained BART, our generative model can be efficiently learned from existing data at hand. Moreover, explicitly modeling compositions using PCFG leads to a better exploration of unseen programs, thus generate more diverse data. We evaluate our method in both in-domain and out-of-domain settings of text-to-SQL parsing on the standard benchmarks of GeoQuery and Spider, respectively. Our empirical results show that the synthesized data generated from our model can substantially help a semantic parser achieve better compositional and domain generalization.
翻訳日:2021-04-15 03:11:55 公開日:2021-04-12
# (参考訳) 生成モデルを用いた意味セグメンテーション:半教師付き学習と強い領域外一般化

Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization ( http://arxiv.org/abs/2104.05833v1 )

ライセンス: CC BY 4.0
Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, Sanja Fidler(参考訳) 限定されたラベル付きデータによるディープネットワークのトレーニング 強力な一般化能力の達成は、人間のアノテーション作業を減らすための鍵となる。 これは半教師付き学習の目標であり、より広く利用可能なラベル付きデータを利用して小さなラベル付きデータセットを補完する。 本稿では,画像とラベルの両方の生成モデルを用いて,識別レベルのタスクを識別する新しいフレームワークを提案する。 具体的には,共同画像ラベル分布を捕捉し,ラベル付き画像のみを補足した大量のラベル付き画像を用いて効率よく訓練する生成対向ネットワークを学習する。 StyleGAN2の上にアーキテクチャを構築し、ラベル合成ブランチを付加します。 目標画像をまずエンコーダネットワークを介してジョイント潜在空間に埋め込み、テスト時間最適化を行い、次に推論埋め込みからラベルを生成することにより、テスト時の画像ラベリングを実現する。 医用画像分割と部分的顔分割の2つの重要な領域でアプローチを評価した。 医療画像におけるctからmriへの転送や、実際の顔の写真から絵画、彫刻、さらには漫画や動物の顔まで、ドメイン外の極端な一般化を示す最初の例である。 Project Page: \url{https://nv-tlabs.github.io/semanticGAN/}

Training deep networks with limited labeled data while achieving a strong generalization ability is key in the quest to reduce human annotation efforts. This is the goal of semi-supervised learning, which exploits more widely available unlabeled data to complement small labeled data sets. In this paper, we propose a novel framework for discriminative pixel-level tasks using a generative model of both images and labels. Concretely, we learn a generative adversarial network that captures the joint image-label distribution and is trained efficiently using a large set of unlabeled images supplemented with only few labeled ones. We build our architecture on top of StyleGAN2, augmented with a label synthesis branch. Image labeling at test time is achieved by first embedding the target image into the joint latent space via an encoder network and test-time optimization, and then generating the label from the inferred embedding. We evaluate our approach in two important domains: medical image segmentation and part-based face segmentation. We demonstrate strong in-domain performance compared to several baselines, and are the first to showcase extreme out-of-domain generalization, such as transferring from CT to MRI in medical imaging, and photographs of real faces to paintings, sculptures, and even cartoons and animal faces. Project Page: \url{https://nv-tlabs.github.io/semanticGAN/}
翻訳日:2021-04-15 03:01:48 公開日:2021-04-12
# (参考訳) 文脈言語モデルにおける関係世界知識表現:レビュー

Relational world knowledge representation in contextual language models: A review ( http://arxiv.org/abs/2104.05837v1 )

ライセンス: CC BY 4.0
Tara Safavi, Danai Koutra(参考訳) リレーショナルナレッジベース(英: Relational knowledge bases、KB)は、機械における世界知識表現のための確立されたツールである。 正確さと解釈性では有利だが、手動で設計したスキーマに準拠するため、これらの利点のためにデータモデリングの柔軟性を犠牲にすることが多い。 本稿では,自然言語処理の観点をkbsの限界に当てはめ,神経文脈言語モデル(lms)を訓練し,自由テキスト形式でリレーショナル・ナレッジを内在化・表現することで,その対処法を検討する。 本研究では,非構造化テキストのみによる自己教師付き事前学習において得られた暗黙的関係知識を,KBエンティティおよび/または関係のレベルで明示的に監督する作業とを考慮し,KBの監督レベルに基づく文脈的関係知識表現のための新しい分類法を提案する。 我々は,LM と KB は相補的な表現ツールであり,KB は LM によって柔軟かつ表現的にモデル化可能な実写精度の高い標準を提供するとともに,今後の研究の方向性について提案する。

Relational knowledge bases (KBs) are established tools for world knowledge representation in machines. While they are advantageous for their precision and interpretability, they usually sacrifice some data modeling flexibility for these advantages because they adhere to a manually engineered schema. In this review, we take a natural language processing perspective to the limitations of KBs, examining how they may be addressed in part by training neural contextual language models (LMs) to internalize and express relational knowledge in free-text form. We propose a novel taxonomy for relational knowledge representation in contextual LMs based on the level of KB supervision provided, considering both works that probe LMs for implicit relational knowledge acquired during self-supervised pretraining on unstructured text alone, and works that explicitly supervise LMs at the level of KB entities and/or relations. We conclude that LMs and KBs are complementary representation tools, as KBs provide a high standard of factual precision which can in turn be flexibly and expressively modeled by LMs, and provide suggestions for future research in this direction.
翻訳日:2021-04-15 02:38:27 公開日:2021-04-12
# (参考訳) 自然言語理解のための学習目標

Targeted Adversarial Training for Natural Language Understanding ( http://arxiv.org/abs/2104.05847v1 )

ライセンス: CC BY 4.0
Lis Pereira, Xiaodong Liu, Hao Cheng, Hoifung Poon, Jianfeng Gao, Ichiro Kobayashi(参考訳) 自然言語理解のための対戦訓練を改善するために,TAT(Targeted Adversarial Training)アルゴリズムを提案する。 鍵となる考え方は、現在のミスをイントロスペクションし、敵のトレーニングステップをモデルが最も好む場所に優先順位付けることです。 実験の結果,TAT は GLUE の標準対人訓練よりも精度を向上し,XNLI の最先端ゼロショット結果が得られた。 私たちのコードはhttps://github.com/namisan/mt-dnn.com/でリリースされます。

We present a simple yet effective Targeted Adversarial Training (TAT) algorithm to improve adversarial training for natural language understanding. The key idea is to introspect current mistakes and prioritize adversarial training steps to where the model errs the most. Experiments show that TAT can significantly improve accuracy over standard adversarial training on GLUE and attain new state-of-the-art zero-shot results on XNLI. Our code will be released at: https://github.com/namisan/mt-dnn.
翻訳日:2021-04-15 02:13:26 公開日:2021-04-12
# (参考訳) モノクロ3次元物体検出のための幾何認識データ拡張

Geometry-aware data augmentation for monocular 3D object detection ( http://arxiv.org/abs/2104.05858v1 )

ライセンス: CC BY 4.0
Qing Lian, Botao Ye, Ruijia Xu, Weilong Yao, Tong Zhang(参考訳) 本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。 重要な課題は、深さ回復問題は単眼データに当てはまらないことである。 本研究ではまず,既存の手法が,異なる幾何学的シフトが発生した場合の深さを頑健に推定できないことを明らかにする。 特に、現在の検出器に対する画像ベースおよびインスタンスベースの一連の操作を通じて、既存の検出器は、深さと物体の大きさと位置の両方の一貫性のある関係を捉えるのに脆弱であることを示す。 この問題を緩和し、検出器の堅牢性を向上させるため、上記の操作を対応する4つの3D対応データ拡張技術に変換する。 画像レベルでは、焦点距離、受容場、位置を含むカメラシステムをランダムに操作し、幾何学的シフトを伴う新しいトレーニング画像を生成する。 インスタンスレベルでは、フォアグラウンドオブジェクトを収穫し、ランダムに他のシーンにペーストして、新たなトレーニングインスタンスを生成します。 提案された拡張手法はすべて、オブジェクトの幾何学的関係がそれらの幾何学が操作される間保存されるという利点を共有している。 提案手法により, 深度回復の不安定性を効果的に緩和するだけでなく, 最終3次元検出性能も大幅に向上した。 これにより、KITTI と nuScenes のモノクロ3D 検出ベンチマークが改良され、最先端の結果が得られた。

This paper focuses on monocular 3D object detection, one of the essential modules in autonomous driving systems. A key challenge is that the depth recovery problem is ill-posed in monocular data. In this work, we first conduct a thorough analysis to reveal how existing methods fail to robustly estimate depth when different geometry shifts occur. In particular, through a series of image-based and instance-based manipulations for current detectors, we illustrate existing detectors are vulnerable in capturing the consistent relationships between depth and both object apparent sizes and positions. To alleviate this issue and improve the robustness of detectors, we convert the aforementioned manipulations into four corresponding 3D-aware data augmentation techniques. At the image-level, we randomly manipulate the camera system, including its focal length, receptive field and location, to generate new training images with geometric shifts. At the instance level, we crop the foreground objects and randomly paste them to other scenes to generate new training instances. All the proposed augmentation techniques share the virtue that geometry relationships in objects are preserved while their geometry is manipulated. In light of the proposed data augmentation methods, not only the instability of depth recovery is effectively alleviated, but also the final 3D detection performance is significantly improved. This leads to superior improvements on the KITTI and nuScenes monocular 3D detection benchmarks with state-of-the-art results.
翻訳日:2021-04-15 02:02:25 公開日:2021-04-12
# (参考訳) RECON: 潜在目標モデルによるオープンワールドナビゲーションの迅速探索

RECON: Rapid Exploration for Open-World Navigation with Latent Goal Models ( http://arxiv.org/abs/2104.05859v1 )

ライセンス: CC BY 4.0
Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine(参考訳) 多様な環境における自律ナビゲーションのためのロボット学習システムについて述べる。 本手法の核となる2つの構成要素は, (i) 環境の接続を反映するが幾何学的再構成や局所化を必要としない非パラメトリック写像と, (ii) 効率的な構築と横断を可能にする距離と動作の潜在変数モデルである。 モデルは、事前の経験の大規模なデータセットに基づいてトレーニングされ、現在の画像とゴール画像の間を移動するために必要な期待される時間と次のアクションを予測する。 この方法でモデルをトレーニングすることで、入力画像の情報を邪魔することなく、目標の表現を堅牢にし、新しい環境を素早く探索するシステムをデプロイするのに役立つ。 本手法を移動式地上ロボットに適用し,様々な屋外ナビゲーションシナリオで実演する。 提案手法は20分で最大80mの半径で画像として特定された新たな目標に到達することを学び、変化する環境において確実に目標を再検討できる。 また,本手法は既知の障害物や気象条件に対する頑健性を示す。 私たちは、実験とデモのビデオのためにプロジェクトのWebサイトを訪れることを推奨します。

We describe a robotic learning system for autonomous navigation in diverse environments. At the core of our method are two components: (i) a non-parametric map that reflects the connectivity of the environment but does not require geometric reconstruction or localization, and (ii) a latent variable model of distances and actions that enables efficiently constructing and traversing this map. The model is trained on a large dataset of prior experience to predict the expected amount of time and next action needed to transit between the current image and a goal image. Training the model in this way enables it to develop a representation of goals robust to distracting information in the input images, which aids in deploying the system to quickly explore new environments. We demonstrate our method on a mobile ground robot in a range of outdoor navigation scenarios. Our method can learn to reach new goals, specified as images, in a radius of up to 80 meters in just 20 minutes, and reliably revisit these goals in changing environments. We also demonstrate our method's robustness to previously-unseen obstacles and variable weather conditions. We encourage the reader to visit the project website for videos of our experiments and demonstrations https://sites.google.com/view/recon-robot
翻訳日:2021-04-15 01:47:16 公開日:2021-04-12
# (参考訳) ソフトウェア工学におけるユーザフィードバック分析のための事前学習モデルの評価:アプリレビューの分類に関する研究

Evaluating Pre-Trained Models for User Feedback Analysis in Software Engineering: A Study on Classification of App-Reviews ( http://arxiv.org/abs/2104.05861v1 )

ライセンス: CC BY 4.0
Mohammad Abdul Hadi, Fatemeh H. Fard(参考訳) コンテキスト: アプリストアやソーシャルメディアでユーザによって書かれたモバイルアプリレビューは、アプリ開発者にとって重要なリソースである。アプリのレビューを分析することは、ソフトウェアエンジニアリングの多くの分野(要件エンジニアリング、テストなど)で有用であることが証明されている。 アプリレビューの自動分類には、ラベル付きデータセットを手作業でキュレートする必要がある。 分類の目的が変わったとき(例) バグとユーザビリティの問題や感情の識別) 新しいデータセットにはラベルを付ける必要がある。 最近の訓練済みニューラルネットワークモデル(ptm)は、教師なしの方法で大きなコーパスで訓練され、同様の自然言語処理問題を解決することに成功している。 既存のモデルと比較して,アプリケーションレビュー分類における PTM のメリットと,複数設定での PTM の転送可能性について検討する。 方法: 文献から得られた6つのデータセットを用いて, 従来の手法と比較して, PTMの精度と時間効率を実証的に検討した。 さらに,アプリレビューに基づいてトレーニングしたPTMの性能について検討した。 ドメイン固有のPTM)。 我々は、ptmを複数の設定で評価するために異なる研究方法を設定した:バイナリ対マルチクラス分類、ゼロショット分類(モデルに新しいラベルが導入されたとき)、マルチタスク設定、異なるリソースからのレビューの分類。 データセットは、Google Play Store、Apple App Store、Twitterデータから、手動でアプリレビューデータセットにラベル付けされる。 いずれの場合も、マイクロおよびマクロの精度、リコール、およびf1-scoreが使用され、モデルのトレーニングと予測に要する時間を報告します。

Context: Mobile app reviews written by users on app stores or social media are significant resources for app developers.Analyzing app reviews have proved to be useful for many areas of software engineering (e.g., requirement engineering, testing). Automatic classification of app reviews requires extensive efforts to manually curate a labeled dataset. When the classification purpose changes (e.g. identifying bugs versus usability issues or sentiment), new datasets should be labeled, which prevents the extensibility of the developed models for new desired classes/tasks in practice. Recent pre-trained neural language models (PTM) are trained on large corpora in an unsupervised manner and have found success in solving similar Natural Language Processing problems. However, the applicability of PTMs is not explored for app review classification Objective: We investigate the benefits of PTMs for app review classification compared to the existing models, as well as the transferability of PTMs in multiple settings. Method: We empirically study the accuracy and time efficiency of PTMs compared to prior approaches using six datasets from literature. In addition, we investigate the performance of the PTMs trained on app reviews (i.e. domain-specific PTMs) . We set up different studies to evaluate PTMs in multiple settings: binary vs. multi-class classification, zero-shot classification (when new labels are introduced to the model), multi-task setting, and classification of reviews from different resources. The datasets are manually labeled app review datasets from Google Play Store, Apple App Store, and Twitter data. In all cases, Micro and Macro Precision, Recall, and F1-scores will be used and we will report the time required for training and prediction with the models.
翻訳日:2021-04-15 01:24:29 公開日:2021-04-12
# (参考訳) 異種知識グラフを用いた科学ニュース記事表現学習について

On Representation Learning for Scientific News Articles Using Heterogeneous Knowledge Graphs ( http://arxiv.org/abs/2104.05866v1 )

ライセンス: CC BY 4.0
Angelika Romanou, Panayiotis Smeros, Karl Aberer(参考訳) 誤った情報や情報インフレーションの時代には、生成されたニュースの信頼性評価が本質的である。 しかし、ニュースで提示される限られた参照を考えると、事実チェックは難しい。 この課題は、ニュース記事に関連する知識グラフを利用して超越することができる。 本稿では,科学ニュース記事と引用科学出版物との有向グラフをモデル化し,科学ニュース記事表現を作成する手法を提案する。 実験に使用されたネットワークは、科学ニュース記事、そのトピック、引用された研究文献、および対応する著者で構成されています。 本稿では,1)リレーショナルグラフ畳み込みネットワーク(R-GCN),2)ヘテロジニアスグラフニューラルネットワーク(HetGNN),3)ヘテロジニアスグラフ変換器(HGT)の3つのアプローチを実装し,提案する。 a) ニュース記事 - ペーパーリンクとb) ニュース記事 - 記事トピックリンク。 その結果、知識追跡と科学的ニュース信頼性評価の分野におけるグラフニューラルネットワークアプローチの有望な応用が示された。

In the era of misinformation and information inflation, the credibility assessment of the produced news is of the essence. However, fact-checking can be challenging considering the limited references presented in the news. This challenge can be transcended by utilizing the knowledge graph that is related to the news articles. In this work, we present a methodology for creating scientific news article representations by modeling the directed graph between the scientific news articles and the cited scientific publications. The network used for the experiments is comprised of the scientific news articles, their topic, the cited research literature, and their corresponding authors. We implement and present three different approaches: 1) a baseline Relational Graph Convolutional Network (R-GCN), 2) a Heterogeneous Graph Neural Network (HetGNN) and 3) a Heterogeneous Graph Transformer (HGT). We test these models in the downstream task of link prediction on the: a) news article - paper links and b) news article - article topic links. The results show promising applications of graph neural network approaches in the domains of knowledge tracing and scientific news credibility assessment.
翻訳日:2021-04-15 01:01:03 公開日:2021-04-12
# wikiHowを用いたビジュアルゴールステップ推論

Visual Goal-Step Inference using wikiHow ( http://arxiv.org/abs/2104.05845v1 )

ライセンス: Link先を確認
Yue Yang, Artemis Panagopoulou, Qing Lyu, Li Zhang, Mark Yatskar, Chris Callison-Burch(参考訳) 手続き的な出来事は、しばしば一連のステップからなる高レベルの目標と考えることができる。 目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立つ。 NLPにおける過去の研究は、テキストのゴールステップ推論の課題を検討した。 視覚的な類似点を紹介する。 モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。 我々の仕事は最先端のミューティモーダルモデルでは難しい。 人行動を表す72,294枚の画像からなるwikiHowから抽出した新しいデータセットを紹介した。 我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。 我々のタスクは手続きイベントに関するマルチモーダル推論を促進する。

Procedural events can often be thought of as a high level goal composed of a sequence of steps. Inferring the sub-sequence of steps of a goal can help artificial intelligence systems reason about human activities. Past work in NLP has examined the task of goal-step inference for text. We introduce the visual analogue. We propose the Visual Goal-Step Inference (VGSI) task where a model is given a textual goal and must choose a plausible step towards that goal from among four candidate images. Our task is challenging for state-of-the-art muitimodal models. We introduce a novel dataset harvested from wikiHow that consists of 772,294 images representing human actions. We show that the knowledge learned from our data can effectively transfer to other datasets like HowTo100M, increasing the multiple-choice accuracy by 15% to 20%. Our task will facilitate multi-modal reasoning about procedural events.
翻訳日:2021-04-14 13:50:56 公開日:2021-04-12
# ディープニューラルネットワークにおける大域的収束保証のレシピ

A Recipe for Global Convergence Guarantee in Deep Neural Networks ( http://arxiv.org/abs/2104.05785v1 )

ライセンス: Link先を確認
Kenji Kawaguchi, Qingyun Sun(参考訳) 既存の(確率的な)勾配勾配勾配のグローバル収束保証は、ニューラル・タンジェント・カーネル(NTK)体制を超えた実践的な深層学習体制における実践的な深層ネットワークには適用されない。 本稿では,NTK体制を超えた実践的体制において,表現性条件と呼ばれる検証可能な条件下でグローバル収束を保証するアルゴリズムを提案する。 表現性条件は、データ依存とアーキテクチャ依存の両方と定義されており、NTK体制を超えた実践的な設定に結果を適用するための鍵となる特性である。 一方、表現性条件は、狭い隠れ層と1つの幅の層を持つ完全連結深層ニューラルネットワークに対してデータ独立に保持することが理論的に証明されている。 一方、表現性条件は、様々な標準画像データセットによるバッチ正規化を伴う深い(畳み込み)resnetに対してデータ依存的に保持されるように数値的に示される。 また,提案手法はヒューリスティックアルゴリズムと同等の一般化性能を有し,同じハイパーパラメータと総イテレーション数を有することを示した。 したがって,提案アルゴリズムは,実践的な状況下での深層学習の理論的保証を提供するためのステップとみなすことができる。

Existing global convergence guarantees of (stochastic) gradient descent do not apply to practical deep networks in the practical regime of deep learning beyond the neural tangent kernel (NTK) regime. This paper proposes an algorithm, which is ensured to have global convergence guarantees in the practical regime beyond the NTK regime, under a verifiable condition called the expressivity condition. The expressivity condition is defined to be both data-dependent and architecture-dependent, which is the key property that makes our results applicable for practical settings beyond the NTK regime. On the one hand, the expressivity condition is theoretically proven to hold data-independently for fully-connected deep neural networks with narrow hidden layers and a single wide layer. On the other hand, the expressivity condition is numerically shown to hold data-dependently for deep (convolutional) ResNet with batch normalization with various standard image datasets. We also show that the the proposed algorithm has generalization performances comparable with those of the heuristic algorithm, with the same hyper-parameters and total number of iterations. Therefore, the proposed algorithm can be viewed as a step towards providing theoretical guarantees for deep learning in the practical regime.
翻訳日:2021-04-14 13:50:43 公開日:2021-04-12
# 私の表現はXか? Probe‐Ably

Does My Representation Capture X? Probe-Ably ( http://arxiv.org/abs/2104.05807v1 )

ライセンス: Link先を確認
Deborah Ferreira, Julia Rozanova, Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 探索(または診断分類)は、与えられた中間的特徴の集合が神経モデルの表現に存在しているかどうかを調べるための一般的な戦略となっている。 ナイーブ探究研究は誤った結果をもたらすかもしれないが、近年の様々な研究は、探究の落とし穴を補うより信頼性の高い方法論を示唆している。 しかし、これらのベストプラクティスは多様で進化の早いものなのです。 提案手法に沿った一連の探索実験の実行プロセスを簡略化するために,提案手法を応用した拡張可能な探索フレームワークであるプローブを,利用者の入力に対する探索メソッドの適用をサポートし,自動化する。

Probing (or diagnostic classification) has become a popular strategy for investigating whether a given set of intermediate features is present in the representations of neural models. Naive probing studies may have misleading results, but various recent works have suggested more reliable methodologies that compensate for the possible pitfalls of probing. However, these best practices are numerous and fast-evolving. To simplify the process of running a set of probing experiments in line with suggested methodologies, we introduce Probe-Ably: an extendable probing framework which supports and automates the application of probing methods to the user's inputs
翻訳日:2021-04-14 13:50:24 公開日:2021-04-12
# SpartQA : 空間推論のためのテキスト質問回答ベンチマーク

SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning ( http://arxiv.org/abs/2104.05832v1 )

ライセンス: Link先を確認
Roshanak Mirzaee, Hossein Rajaby Faghihi, Qiang Ning, Parisa Kordjmashidi(参考訳) 本稿では,従来の作業でカバーされていないより現実的な空間現象を含む自然言語テキスト上での空間推論のための質問応答(QA)ベンチマークを提案する。 我々は,この課題を改善するための遠隔監視手法を提案する。 具体的には、視覚シーンと対応するQAペアの空間的記述を自動的に生成する文法と推論ルールを設計する。 実験により、これらの自動生成データに対するさらなる事前学習は、空間的理解におけるLMの能力を大幅に向上することを示し、それによって2つの外部データセットであるbAbIとboolQの解決に役立ちます。 この研究が、テキストによる空間的推論のためのより洗練されたモデルの調査を促進することを願っている。

This paper proposes a question-answering (QA) benchmark for spatial reasoning on natural language text which contains more realistic spatial phenomena not covered by prior work and is challenging for state-of-the-art language models (LM). We propose a distant supervision method to improve on this task. Specifically, we design grammar and reasoning rules to automatically generate a spatial description of visual scenes and corresponding QA pairs. Experiments show that further pretraining LMs on these automatically generated data significantly improves LMs' capability on spatial understanding, which in turn helps to better solve two external datasets, bAbI, and boolQ. We hope that this work can foster investigations into more sophisticated models for spatial reasoning over text.
翻訳日:2021-04-14 13:48:13 公開日:2021-04-12
# 起源の族と選択の族--重度低リソース機械翻訳のための超並列レキシコン化反復事前学習

Family of Origin and Family of Choice: Massively Parallel Lexiconized Iterative Pretraining for Severely Low Resource Machine Translation ( http://arxiv.org/abs/2104.05848v1 )

ライセンス: Link先を確認
Zhong Zhou, Alex Waibel(参考訳) 我々は、大量のソース並列性を利用して、あらかじめ知られている閉じたテキストを極めて低いリソース言語に翻訳する。 私たちの貢献は4倍です。 まず、124のソース言語を経験的にランク付けし、低リソース言語に近づき、上位数を選択する。 我々は、言語ファミリー・オブ・オリジン(FAMO)の言語定義を、我々のメトリクス・オブ・チョイス(FAMC)を用いて、上位言語を実証的に定義する。 第二に, 聖書データセットと医学的emeaデータセットからの低資源データの約1,000行 (~3.5\%) を訓練するために, 反復的に事前学習された多言語順序保存レキシコン化トランスフォーマ(ipml)を構築する。 英語を仮定的に低資源言語としてスペイン語から翻訳すると、多言語ベースラインで+24.7 bleu、非対称ベースラインで+10.2 bleu が増加する。 第3に、非常に低資源のマヤ語であるEast Pokomchiも使用しています。 最後に、名前付きエンティティを正確に翻訳するために、注文保存の語彙化コンポーネントを追加します。 我々は124のソース言語で2,939の聖書名を持つエンティティを巨大な辞書テーブルとして構築し、66以上のリソース言語をカバーしている。 ランダムにサンプリングされた1,093行の低リソースデータをトレーニングし、30.022行の聖書のスペイン語翻訳試験で30.3BLEUスコア、医療EMEAデータセットでポルトガル語翻訳の42.8BLEUスコアに達した。

We translate a closed text that is known in advance into a severely low resource language by leveraging massive source parallelism. Our contribution is four-fold. Firstly, we rank 124 source languages empirically to determine their closeness to the low resource language and select the top few. We call the linguistic definition of language family Family of Origin (FAMO), and we call the empirical definition of higher-ranked languages using our metrics Family of Choice (FAMC). Secondly, we build an Iteratively Pretrained Multilingual Order-preserving Lexiconized Transformer (IPML) to train on ~1,000 lines (~3.5\%) of low resource data from the Bible dataset and the medical EMEA dataset. Using English as a hypothetical low resource language to translate from Spanish, we obtain a +24.7 BLEU increase over a multilingual baseline, and a +10.2 BLEU increase over our asymmetric baseline. Thirdly, we also use a real severely low resource Mayan language, Eastern Pokomchi. Finally, we add an order-preserving lexiconized component to translate named entities accurately. We build a massive lexicon table for 2,939 Bible named entities in 124 source languages, and include many that occur once and covers more than 66 severely low resource languages. Training on randomly sampled 1,093 lines of low resource data, we reach a 30.3 BLEU score for Spanish-English translation testing on 30,022 lines of Bible, and a 42.8 BLEU score for Portuguese-English translation on the medical EMEA dataset.
翻訳日:2021-04-14 13:48:00 公開日:2021-04-12
# パートナーから人口へ:協調と慣習の階層的ベイズ的説明

From partners to populations: A hierarchical Bayesian account of coordination and convention ( http://arxiv.org/abs/2104.05857v1 )

ライセンス: Link先を確認
Robert D. Hawkins, Michael Franke, Michael C. Frank, Kenny Smith, Thomas L. Griffiths, Noah D. Goodman(参考訳) 言語はコーディネート問題に対する強力な解決策であり、私たちの言葉が私たちの頭の中での信念や意図とどのように対応するかについて、安定的で共有された期待を提供する。 しかし、可変的で静止しない社会環境での言語の使用は、柔軟であるために言語表現を必要とする:古い単語は、新しいアドホックまたはパートナー固有の意味をその場で獲得する。 本稿では,この2つの基本観測の長期的緊張を和らげることを目的とした,規則形成の階層的ベイズ理論を紹介する。 より具体的には、コミュニケーションの中心的な計算問題は、従来の定式化のように単なる伝達ではなく、複数の時間スケールでの学習と適応であると主張する。 我々の説明では、ダイアド的相互作用における迅速な学習は、パートナー固有の共通基盤での協調を可能にする一方、社会的慣行は、複数のパートナーとの相互作用から抽象化された安定した先行概念である。 本研究は,(1)同一パートナーとの反復的相互作用におけるより効率的な参照表現の収束,(2)新規パートナーへのパートナー特化共通グラウンドの段階的移行,(3)コンベンションが最終的に形成するコミュニケーションの文脈の影響について,いくつかの現象を説明する上で,我々のモデルがどのように認知的基盤を提供するかを示すシミュレーションとともに,新しい経験的データを提案する。

Languages are powerful solutions to coordination problems: they provide stable, shared expectations about how the words we say correspond to the beliefs and intentions in our heads. Yet language use in a variable and non-stationary social environment requires linguistic representations to be flexible: old words acquire new ad hoc or partner-specific meanings on the fly. In this paper, we introduce a hierarchical Bayesian theory of convention formation that aims to reconcile the long-standing tension between these two basic observations. More specifically, we argue that the central computational problem of communication is not simply transmission, as in classical formulations, but learning and adaptation over multiple timescales. Under our account, rapid learning within dyadic interactions allows for coordination on partner-specific common ground, while social conventions are stable priors that have been abstracted away from interactions with multiple partners. We present new empirical data alongside simulations showing how our model provides a cognitive foundation for explaining several phenomena that have posed a challenge for previous accounts: (1) the convergence to more efficient referring expressions across repeated interaction with the same partner, (2) the gradual transfer of partner-specific common ground to novel partners, and (3) the influence of communicative context on which conventions eventually form.
翻訳日:2021-04-14 13:47:25 公開日:2021-04-12
# 完全分解階層型タッカー構造を用いたビデオ認識のための超小型RNNの実現に向けて

Towards Extremely Compact RNNs for Video Recognition with Fully Decomposed Hierarchical Tucker Structure ( http://arxiv.org/abs/2104.05758v1 )

ライセンス: Link先を確認
Miao Yin, Siyu Liao, Xiao-Yang Liu, Xiaodong Wang and Bo Yuan(参考訳) リカレントニューラルネットワーク(RNN)はシーケンス解析やモデリングに広く利用されている。 しかしながら、高次元データを処理する場合、RNNは通常、非常に大きなモデルサイズを必要とするため、一連のデプロイメント課題が発生する。 RNNモデルのサイズを減らすために様々な先行研究が提案されているが、資源制限環境でのRNNモデルの実行は依然として非常に難しい問題である。 本稿では,完全分解階層型タッカー(fdht)構造を持つ超コンパクトなrnnモデルを開発することを提案する。 HT分解は、他のテンソル分解法よりもはるかに高いストレージコスト削減を提供するだけでなく、コンパクトなRNNモデルの精度向上をもたらす。 一方、RNNの入力-隠蔽層のみを分解できる既存のテンソル分解法とは異なり、本提案手法により、RNNモデル全体の包括的圧縮を極めて高精度に行うことができる。 いくつかのビデオ認識データセットを用いた実験結果から,提案した完全分解階層型タッカーベースLSTM(FDHT-LSTM)は極めてコンパクトで高効率であることがわかった。 我々の知る限りでは、FDHT-LSTMは、異なるデータセット上で数千のパラメータ(3,132~8,808)しか持たずに、常に非常に高い精度を達成する。 TT-LSTMやTR-LSTM、BT-LSTMといった最先端の圧縮RNNモデルと比較して、FDHT-LSTMは、パラメータの次数(3,985xから10,711x)と精度の大幅な改善(0.6%から12.7%)の両方を同時に享受する。

Recurrent Neural Networks (RNNs) have been widely used in sequence analysis and modeling. However, when processing high-dimensional data, RNNs typically require very large model sizes, thereby bringing a series of deployment challenges. Although various prior works have been proposed to reduce the RNN model sizes, executing RNN models in resource-restricted environments is still a very challenging problem. In this paper, we propose to develop extremely compact RNN models with fully decomposed hierarchical Tucker (FDHT) structure. The HT decomposition does not only provide much higher storage cost reduction than the other tensor decomposition approaches but also brings better accuracy performance improvement for the compact RNN models. Meanwhile, unlike the existing tensor decomposition-based methods that can only decompose the input-to-hidden layer of RNNs, our proposed fully decomposition approach enables the comprehensive compression for the entire RNN models with maintaining very high accuracy. Our experimental results on several popular video recognition datasets show that our proposed fully decomposed hierarchical tucker-based LSTM (FDHT-LSTM) is extremely compact and highly efficient. To the best of our knowledge, FDHT-LSTM, for the first time, consistently achieves very high accuracy with only few thousand parameters (3,132 to 8,808) on different datasets. Compared with the state-of-the-art compressed RNN models, such as TT-LSTM, TR-LSTM and BT-LSTM, our FDHT-LSTM simultaneously enjoys both order-of-magnitude (3,985x to 10,711x) fewer parameters and significant accuracy improvement (0.6% to 12.7%).
翻訳日:2021-04-14 13:45:33 公開日:2021-04-12
# 医学的コード課題に対するアクティブラーニング

Active learning for medical code assignment ( http://arxiv.org/abs/2104.05741v1 )

ライセンス: Link先を確認
Martha Dais Ferreira, Michal Malyska, Nicola Sahar, Riccardo Miotto, Fernando Paulovich, Evangelos Milios(参考訳) 機械学習(ML)は、Electronic Health Records(EHR)から意味のある情報を自動抽出して、手術、臨床、財務の意思決定を支援するために広く使われている。 しかし、mlモデルは十分な結果を提供するために多くの注釈付き例を必要とするが、臨床医がラベルしたデータのコストが高いため、ほとんどの医療シナリオでは不可能である。 アクティブラーニング(al)は、教師付きアルゴリズムをさらに訓練するために専門家がラベル付けする最も有益なインスタンスを選択するプロセスである。 臨床領域における多ラベルテキスト分類におけるALの有効性を示す。 この文脈では、よく知られたalメソッドのセットを適用し、immit-iiiデータセットにicd-9コードを自動的に割り当てるのに役立つ。 以上の結果から,情報化インスタンスの選択は,トレーニングセットの大幅な削減(全インスタンスの8.3\%)で満足な分類を提供することがわかった。 AL手法は,モデル性能を維持しながら手作業によるアノテーションのコストを大幅に削減できる。

Machine Learning (ML) is widely used to automatically extract meaningful information from Electronic Health Records (EHR) to support operational, clinical, and financial decision-making. However, ML models require a large number of annotated examples to provide satisfactory results, which is not possible in most healthcare scenarios due to the high cost of clinician-labeled data. Active Learning (AL) is a process of selecting the most informative instances to be labeled by an expert to further train a supervised algorithm. We demonstrate the effectiveness of AL in multi-label text classification in the clinical domain. In this context, we apply a set of well-known AL methods to help automatically assign ICD-9 codes on the MIMIC-III dataset. Our results show that the selection of informative instances provides satisfactory classification with a significantly reduced training set (8.3\% of the total instances). We conclude that AL methods can significantly reduce the manual annotation cost while preserving model performance.
翻訳日:2021-04-14 13:44:29 公開日:2021-04-12
# オープンドメインストーリー生成評価のためのPlot-guided Adversarial Exampleの構築

Plot-guided Adversarial Example Construction for Evaluating Open-domain Story Generation ( http://arxiv.org/abs/2104.05801v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Zixi Liu, Akash SM, Ralph Weischedel, Aram Galstyan, Nanyun Peng(参考訳) オープンドメインのストーリー生成の最近の進歩により、信頼性の高い自動評価メトリクスの欠如は、ストーリー生成の急速な発展を妨げる、ますます重要な問題になりつつある。 この点で実施した研究によれば、学習可能な評価指標は、人間の判断と高い相関関係を持つことによって、より正確な評価を約束している。 信頼性の高い学習可能な評価基準を得る上で重要なボトルネックは、分類器の高品質なトレーニングデータがないことである。 以前の著作は、テキストレベルでの反復、矛盾、無関係なコンテンツのようなシステム上の欠点を模倣するために、あり得る実例に依存しており、それは、機械で生成された物語の特徴である、\textit{unnatural} と \textit{oversimplify} である。 ストーリー生成に使用される制御可能な要素の構造化表現である {\em plots} を用いて,より包括的でないストーリー群を生成することで,これらの問題に取り組むことを提案する。 これらのプロットはコンパクトで構造化されているため、意図しない性質のテキストを生成するのが容易であり、同時に生成した文の文法的正確性と自然性を維持している。 生成した不明瞭な記事の品質を向上させるため,より曖昧なテキストの集合を選択するために, \citet{zellers2018swag} が提示する逆フィルタリング手法を適用する。 実験の結果, 得られたデータに基づいてトレーニングした評価指標は, 精度の高い自動評価結果となり, 基準値と比較すると, 人的判断と極めてよく相関していることがわかった。

With the recent advances of open-domain story generation, the lack of reliable automatic evaluation metrics becomes an increasingly imperative issue that hinders the fast development of story generation. According to conducted researches in this regard, learnable evaluation metrics have promised more accurate assessments by having higher correlations with human judgments. A critical bottleneck of obtaining a reliable learnable evaluation metric is the lack of high-quality training data for classifiers to efficiently distinguish plausible and implausible machine-generated stories. Previous works relied on \textit{heuristically manipulated} plausible examples to mimic possible system drawbacks such as repetition, contradiction, or irrelevant content in the text level, which can be \textit{unnatural} and \textit{oversimplify} the characteristics of implausible machine-generated stories. We propose to tackle these issues by generating a more comprehensive set of implausible stories using {\em plots}, which are structured representations of controllable factors used to generate stories. Since these plots are compact and structured, it is easier to manipulate them to generate text with targeted undesirable properties, while at the same time maintain the grammatical correctness and naturalness of the generated sentences. To improve the quality of generated implausible stories, we further apply the adversarial filtering procedure presented by \citet{zellers2018swag} to select a more nuanced set of implausible texts. Experiments show that the evaluation metrics trained on our generated data result in more reliable automatic assessments that correlate remarkably better with human judgments compared to the baselines.
翻訳日:2021-04-14 13:44:15 公開日:2021-04-12
# 胸部X線を用いたCOVID-19検出 : 肺分画は一般化に重要であるか?

COVID-19 detection using chest X-rays: is lung segmentation important for generalization? ( http://arxiv.org/abs/2104.06176v1 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Romis Attux(参考訳) 比較的小さく混合されたデータセットを用いて,胸部x線をcovid-19,正常,肺炎と分類するように訓練された深層ニューラルネットワーク(dnn)の一般化能を評価した。 肺の分節と分類を行うためのDNNアーキテクチャを提案する。 セグメンテーションモジュール(U-Net)、オリジナルの中間モジュール、分類モジュール(DenseNet201)をスタックする。 DenseNet201と比較しました。 一般化を評価するために,外部データセットを用いてdnnをテストし,ベイズ推論を用いてf1-scoreなどの性能指標の確率分布を推定した。 提案したDNNは外部テストデータセットで0.917 AUC, DenseNetでは0.906。 ベイズ推定では, セグメンテーションによる平均精度は76.1%, [0.695, 0.826] 95%で, セグメンテーションは71.7%, [0.646, 0.786] であった。 我々は,レイヤワイド関連伝搬(LRP)とブリキシアスコアを用いた新しいDNN評価手法を提案する。 LRPヒートマップは、放射線学者が強い新型コロナウイルスの症状と高いブリキシアスコアを報告した地域が、DNN分類において最も重要な地域であることを示唆している。 外部検証では、内部検証よりも精度が低く、データセットバイアスを示し、セグメンテーションが減少する。 外部データセットとLRP分析のパフォーマンスは、DNNを小さな混合データセットでトレーニングし、COVID-19を検出することを示唆している。

We evaluated the generalization capability of deep neural networks (DNNs), trained to classify chest X-rays as COVID-19, normal or pneumonia, using a relatively small and mixed dataset. We proposed a DNN architecture to perform lung segmentation and classification. It stacks a segmentation module (U-Net), an original intermediate module and a classification module (DenseNet201). We compared it to a DenseNet201. To evaluate generalization, we tested the DNNs with an external dataset (from distinct localities) and used Bayesian inference to estimate the probability distributions of performance metrics, like F1-Score. Our proposed DNN achieved 0.917 AUC on the external test dataset, and the DenseNet, 0.906. Bayesian inference indicated mean accuracy of 76.1% and [0.695, 0.826] 95% HDI with segmentation and, without segmentation, 71.7% and [0.646, 0.786]. We proposed a novel DNN evaluation technique, using Layer-wise Relevance Propagation (LRP) and the Brixia score. LRP heatmaps indicated that areas where radiologists found strong COVID-19 symptoms and attributed high Brixia scores are the most important for the stacked DNN classification. External validation showed smaller accuracies than internal validation, indicating dataset bias, which segmentation reduces. Performance in the external dataset and LRP analysis suggest that DNNs can be trained in small and mixed datasets and detect COVID-19.
翻訳日:2021-04-14 13:37:22 公開日:2021-04-12
# 総括的なbertアンサンブルでcovid-19インフォデミックと戦う

Fighting the COVID-19 Infodemic with a Holistic BERT Ensemble ( http://arxiv.org/abs/2104.05745v1 )

ライセンス: Link先を確認
Giorgos Tziafas, Konstantinos Kogkalidis, Tommaso Caselli(参考訳) 本稿では,6つの変圧器を用いた事前学習エンコーダに基づく誤情報検出タスクのアンサンブルモデルであるTOKOFOUシステムについて述べる。 各タスクの質問に対して各モデルを微調整し、多数決のアプローチを用いて予測スコアを集計する。 TOKOFOUはF1総合得点89.7%を獲得し、ランキング1位となった。

This paper describes the TOKOFOU system, an ensemble model for misinformation detection tasks based on six different transformer-based pre-trained encoders, implemented in the context of the COVID-19 Infodemic Shared Task for English. We fine tune each model on each of the task's questions and aggregate their prediction scores using a majority voting approach. TOKOFOU obtains an overall F1 score of 89.7%, ranking first.
翻訳日:2021-04-14 13:36:13 公開日:2021-04-12
# 検索例によるショットインテント分類とスロットフィリング

Few-shot Intent Classification and Slot Filling with Retrieved Examples ( http://arxiv.org/abs/2104.05763v1 )

ライセンス: Link先を確認
Dian Yu and Luheng He and Yuan Zhang and Xinya Du and Panupong Pasupat and Qi Li(参考訳) わずかなショット学習は、自然言語理解システムが新しいセマンティックラベルを学習する必要があるときのような、重要な実用的なシナリオで発生する。 本稿では,目的分類とスロット充填タスクの検索に基づく手法について検討する。 Retrieval-based method make predictions based based based on labeled examples in the search index that is similar to the input, and can adapt to new domain by simply by the change the index without without without the retrain。 しかし、スロットフィリングのような複雑なラベル空間を持つタスクにそのようなメソッドを適用するのは簡単ではない。 そこで本研究では,同一ラベルのスパンに対して,新しいバッチソフトマックス目標を用いて類似した文脈化表現を学習するスパンレベルの検索手法を提案する。 推定時,検索したスパンのラベルを用いて,最も高い集計スコアを持つ最終構造を構築する。 提案手法は,CLINCおよびSNIPSベンチマークにおいて,複数ショット設定で過去のシステムより優れていた。

Few-shot learning arises in important practical scenarios, such as when a natural language understanding system needs to learn new semantic labels for an emerging, resource-scarce domain. In this paper, we explore retrieval-based methods for intent classification and slot filling tasks in few-shot settings. Retrieval-based methods make predictions based on labeled examples in the retrieval index that are similar to the input, and thus can adapt to new domains simply by changing the index without having to retrain the model. However, it is non-trivial to apply such methods on tasks with a complex label space like slot filling. To this end, we propose a span-level retrieval method that learns similar contextualized representations for spans with the same label via a novel batch-softmax objective. At inference time, we use the labels of the retrieved spans to construct the final structure with the highest aggregated score. Our method outperforms previous systems in various few-shot settings on the CLINC and SNIPS benchmarks.
翻訳日:2021-04-14 13:36:05 公開日:2021-04-12
# 医用テキストのパラグラフレベル簡易化

Paragraph-level Simplification of Medical Texts ( http://arxiv.org/abs/2104.05767v1 )

ライセンス: Link先を確認
Ashwin Devaraj, Iain J. Marshall, Byron C. Wallace, Junyi Jessy Li(参考訳) 医学テキストを簡素化する学習の問題を考える。 バイオメディシンの最も信頼性の高い最新の情報はジャーゴンで密集しており、従って実際の観客にはアクセスできないため、これは重要である。 さらに、手作業による単純化は急速に成長している生物医学文献にはスケールせず、自動化アプローチの必要性を動機付けている。 残念ながら、このタスクには大規模なリソースはありません。 本研究は, 異なる臨床トピックに関連するすべての証拠を要約した, 専門的および在来的な要約を含む, 英語の並列テキストの新しいコーパスを紹介する。 そこで我々は,科学文献に基づいて事前学習したマスク付き言語モデルから,確率スコアに基づく新しい指標を提案する。 この自動測定は,既存のヒューリスティックよりも技術と在来の要約の区別がよいことを示す。 我々は,ベースラインエンコーダ・デコーダトランスフォーマモデルを単純化するために導入し,評価し,これらを新たに拡張し,ジャルゴン項生成のためのデコーダを明示的にペナライズする手法を提案する。

We consider the problem of learning to simplify medical texts. This is important because most reliable, up-to-date information in biomedicine is dense with jargon and thus practically inaccessible to the lay audience. Furthermore, manual simplification does not scale to the rapidly growing body of biomedical literature, motivating the need for automated approaches. Unfortunately, there are no large-scale resources available for this task. In this work we introduce a new corpus of parallel texts in English comprising technical and lay summaries of all published evidence pertaining to different clinical topics. We then propose a new metric based on likelihood scores from a masked language model pretrained on scientific texts. We show that this automated measure better differentiates between technical and lay summaries than existing heuristics. We introduce and evaluate baseline encoder-decoder Transformer models for simplification and propose a novel augmentation to these in which we explicitly penalize the decoder for producing "jargon" terms; we find that this yields improvements over baselines in terms of readability.
翻訳日:2021-04-14 13:35:48 公開日:2021-04-12
# ニューラルネットワークモデルのための相性評価法

Evaluating Saliency Methods for Neural Language Models ( http://arxiv.org/abs/2104.05824v1 )

ライセンス: Link先を確認
Shuoyang Ding, Philipp Koehn(参考訳) saliencyメソッドはニューラルネットワークの予測を解釈するために広く使われているが、saliencyメソッドの異なる変種は、同じモデルによってなされる同じ予測の解釈にもよく一致しない。 これらのケースでは、分析に使用するのに十分な信頼度があるのか、どのように判断するか? この問題に対処するため,我々はNLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。 予測解釈の質を2つの視点から評価し、それぞれがこれらの解釈の望ましい性質である可能性と忠実性を表す。 本評価は,既存の構文的および意味的合意の人間の注釈から構築した4つの異なるデータセットに基づいて,文レベルと文書レベルの両方で実施する。 評価を通して, 塩分法が低品質の解釈をもたらす様々な方法を特定した。 このような手法をニューラルネットワークモデルにデプロイする作業は、洞察を引き出す前に、解釈を慎重に検証することを推奨する。

Saliency methods are widely used to interpret neural network predictions, but different variants of saliency methods often disagree even on the interpretations of the same prediction made by the same model. In these cases, how do we identify when are these interpretations trustworthy enough to be used in analyses? To address this question, we conduct a comprehensive and quantitative evaluation of saliency methods on a fundamental category of NLP models: neural language models. We evaluate the quality of prediction interpretations from two perspectives that each represents a desirable property of these interpretations: plausibility and faithfulness. Our evaluation is conducted on four different datasets constructed from the existing human annotation of syntactic and semantic agreements, on both sentence-level and document-level. Through our evaluation, we identified various ways saliency methods could yield interpretations of low quality. We recommend that future work deploying such methods to neural language models should carefully validate their interpretations before drawing insights.
翻訳日:2021-04-14 13:35:31 公開日:2021-04-12
# 3D Pose による多視点画像変換

Multi-View Image-to-Image Translation Supervised by 3D Pose ( http://arxiv.org/abs/2104.05779v1 )

ライセンス: Link先を確認
Idit Diamant, Oranit Dror, Hai Victor Habi, Arnon Netzer(参考訳) 人物画像生成のための多視点画像変換の課題に対処する。 目標は、すべてのビューに対してポーズ一貫性のある写真リアリスティックなマルチビュー画像を合成することである。 提案するエンドツーエンドフレームワークは,カメラ視点毎の複数画像間翻訳モデルの連立学習に基づいている。 共同学習は、共有された3次元人間のポーズに対する制約によって課され、すべての視点における2次元のポーズプロジェクションの一貫性を奨励する。 CMU-Panopticデータセットの実験結果は、標準のイメージ・ツー・イメージベースラインと比較して、すべてのビューに一貫性のある新しいポーズを持つ人の写真リアルな画像を生成する上で、提案するフレームワークの有効性を示す。 コードは https://github.com/sony-si/MultiView-Img2Img

We address the task of multi-view image-to-image translation for person image generation. The goal is to synthesize photo-realistic multi-view images with pose-consistency across all views. Our proposed end-to-end framework is based on a joint learning of multiple unpaired image-to-image translation models, one per camera viewpoint. The joint learning is imposed by constraints on the shared 3D human pose in order to encourage the 2D pose projections in all views to be consistent. Experimental results on the CMU-Panoptic dataset demonstrate the effectiveness of the suggested framework in generating photo-realistic images of persons with new poses that are more consistent across all views in comparison to a standard Image-to-Image baseline. The code is available at: https://github.com/sony-si/MultiView-Img2Img
翻訳日:2021-04-14 13:31:26 公開日:2021-04-12
# ラベルの平滑化 : エキスパートアノテーションから不確かさを捉える

Spatially Varying Label Smoothing: Capturing Uncertainty from Expert Annotations ( http://arxiv.org/abs/2104.05788v1 )

ライセンス: Link先を確認
Mobarakol Islam and Ben Glocker(参考訳) 画像分割のタスクは、解剖学的構造間の境界の正確な位置に関する曖昧さのため、本質的にうるさい。 我々は、この情報は専門家のアノテーションから余分なコストで抽出でき、最先端のニューラルネットワークに統合されると、ソフト確率予測と基礎となる不確実性の間の校正を改善することができると主張している。 そこで我々は,アウトプット予測の校正に有効であることを示す基底真理ラベルの'blurred'バージョン上でネットワークをトレーニングするラベル平滑化(ls)を構築した。 しかし、LSは局所構造を考慮に入れておらず、非あいまいな領域においても信頼性の低い過度に滑らかな予測をもたらす。 本稿では,セマンティックセグメンテーションにおける構造的不確実性を捉えるソフトラベリング手法であるSpatially Varying Label Smoothing (SVLS)を提案する。 SVLSはまた、複数のラベルマップが利用可能である場合に、レーザー間不確実性を組み込むのに自然に役立ちます。 提案手法は,画像モダリティの異なる4つの臨床的セグメンテーションタスク,クラス数,単層および多層の専門家アノテーションに対して広く検証されている。 その結果,SVLSは単純であるにもかかわらず,不確実性とモデル校正性を改善した優れた境界予測が得られることがわかった。

The task of image segmentation is inherently noisy due to ambiguities regarding the exact location of boundaries between anatomical structures. We argue that this information can be extracted from the expert annotations at no extra cost, and when integrated into state-of-the-art neural networks, it can lead to improved calibration between soft probabilistic predictions and the underlying uncertainty. We built upon label smoothing (LS) where a network is trained on 'blurred' versions of the ground truth labels which has been shown to be effective for calibrating output predictions. However, LS is not taking the local structure into account and results in overly smoothed predictions with low confidence even for non-ambiguous regions. Here, we propose Spatially Varying Label Smoothing (SVLS), a soft labeling technique that captures the structural uncertainty in semantic segmentation. SVLS also naturally lends itself to incorporate inter-rater uncertainty when multiple labelmaps are available. The proposed approach is extensively validated on four clinical segmentation tasks with different imaging modalities, number of classes and single and multi-rater expert annotations. The results demonstrate that SVLS, despite its simplicity, obtains superior boundary prediction with improved uncertainty and model calibration.
翻訳日:2021-04-14 13:31:13 公開日:2021-04-12
# 一般化可能なマルチカメラ3D歩行者検出

Generalizable Multi-Camera 3D Pedestrian Detection ( http://arxiv.org/abs/2104.05813v1 )

ライセンス: Link先を確認
Jo\~ao Paulo Lima, Rafael Roberto, Lucas Figueiredo, Francisco Sim\~oes, Veronica Teichrieb(参考訳) 本稿では,対象シーンからのデータを用いて訓練する必要がないマルチカメラ3D歩行者検出手法を提案する。 既設のモノクロ検出器から人体のポーズと人のバウンディングボックスに基づいて,新しいヒューリスティックを用いて地上の歩行者位置を推定する。 次に、これらの場所をワールドグランドプレーンに投影し、クライクカバー問題の新たな定式化と融合させます。 また, ドメイン一般化された人物再同定モデルを用いて, 融合中の歩行者の出現を利用するための任意のステップを提案する。 WILDTRACKデータセットに対する提案手法の評価を行った。 0.569のmodaと0.78のf-scoreを取得し、最先端の一般化検出技術よりも優れている。

We present a multi-camera 3D pedestrian detection method that does not need to train using data from the target scene. We estimate pedestrian location on the ground plane using a novel heuristic based on human body poses and person's bounding boxes from an off-the-shelf monocular detector. We then project these locations onto the world ground plane and fuse them with a new formulation of a clique cover problem. We also propose an optional step for exploiting pedestrian appearance during fusion by using a domain-generalizable person re-identification model. We evaluated the proposed approach on the challenging WILDTRACK dataset. It obtained a MODA of 0.569 and an F-score of 0.78, superior to state-of-the-art generalizable detection techniques.
翻訳日:2021-04-14 13:30:52 公開日:2021-04-12
# ローカライゼーションに基づくトラッキング

Localization-Based Tracking ( http://arxiv.org/abs/2104.05823v1 )

ライセンス: Link先を確認
Derek Gloudemans, Daniel B. Work(参考訳) 高精細度ビデオからのオブジェクトトラッカーのエンドツーエンド生産をリアルタイムかつ高精度に行うことは、各フレームにおけるオブジェクト検出コストが問題となる。 本研究では,検出や共同検出,追跡パラダイムによる追跡を追従する,任意のトラッカへの拡張であるlbt(localization-based tracking)を提案する。 ローカライゼーションベースのトラッキングは、検出速度を高め、一致したエラーを避けるためにオブジェクトを含む可能性のあるリージョンのみに焦点を当てる。 UA-DETRACデータセットとMOT20データセットの2つの例トラッカー(KIOUとSORT)の拡張としてLBTを評価した。 LBT拡張トラッカーは、PR-MOTA、PR-MOTP、およびほとんどの追跡対象をUA-DETRACベンチマークで評価し、新しい最先端技術を確立した。 KIOUによる検出によるトラッキングと比較して、LBT拡張KIOUはフレームレートが25%高く、UA-DETRACデータセット上のPR-MOTAの精度は1.1%向上している。 LBT拡張SORTはUA-DETRACデータセット上で62%の高速化と3.2%のPR-MOTA増加を達成する。 MOT20では、LBT拡張KIOUは検出によるトラッキングよりも50%高いフレームレートを持ち、MOTAでは0.4%精度である。 提出時点では、我々のLBT拡張KIOUトラッカーはMOT20ベンチマークで10位となっている。

End-to-end production of object tracklets from high resolution video in real-time and with high accuracy remains a challenging problem due to the cost of object detection on each frame. In this work we present Localization-based Tracking (LBT), an extension to any tracker that follows the tracking by detection or joint detection and tracking paradigms. Localization-based Tracking focuses only on regions likely to contain objects to boost detection speed and avoid matching errors. We evaluate LBT as an extension to two example trackers (KIOU and SORT) on the UA-DETRAC and MOT20 datasets. LBT-extended trackers outperform all other reported algorithms in terms of PR-MOTA, PR-MOTP, and mostly tracked objects on the UA-DETRAC benchmark, establishing a new state-of-the art. relative to tracking by detection with KIOU, LBT-extended KIOU achieves a 25% higher frame-rate and is 1.1% more accurate in terms of PR-MOTA on the UA-DETRAC dataset. LBT-extended SORT achieves a 62% speedup and a 3.2% increase in PR-MOTA on the UA-DETRAC dataset. On MOT20, LBT-extended KIOU has a 50% higher frame-rate than tracking by detection and is 0.4% more accurate in terms of MOTA. As of submission time, our LBT-extended KIOU tracker places 10th overall on the MOT20 benchmark.
翻訳日:2021-04-14 13:30:42 公開日:2021-04-12
# 特徴適応のためのコンテキストHyperNetworks

Contextual HyperNetworks for Novel Feature Adaptation ( http://arxiv.org/abs/2104.05860v1 )

ライセンス: Link先を確認
Angus Lamb, Evgeny Saveliev, Yingzhen Li, Sebastian Tschiatschek, Camilla Longden, Simon Woodhead, Jos\'e Miguel Hern\'andez-Lobato, Richard E. Turner, Pashmina Cameron, Cheng Zhang(参考訳) ディープラーニングは多くのアプリケーションで最先端の成果を得ているが、ニューラルネットワークが一定の出力次元を生成するように訓練されているため、ニューラルネットワークアーキテクチャを新しい出力機能に適応させることは依然として課題である。 この問題は、リコメンデータシステム内の項目などの新しい出力機能を、ほとんど、あるいは全く関連しない観察で継続的に追加するオンライン学習環境では特に深刻である。 そのため、時間とデータ効率の両立した新しい特徴にニューラルネットワークを適用する方法が望まれる。 そこで本稿では,既存のデータだけでなく,新機能に関連する任意の観測やメタデータを活用することで,基本モデルを新機能に拡張するためのパラメータを生成する補助モデルであるContextual HyperNetwork (CHN)を提案する。 予測時には、CHNは1つのフォワードパスだけでニューラルネットワークを通過し、再トレーニングや微調整のアプローチと比較して、大幅なスピードアップをもたらす。 CHNの性能を評価するため,部分変分オートエンコーダ(P-VAE)をCHNを用いて拡張する。 本システムでは,既存のインプテーションやメタラーニングベースラインに比べて,レコメンデータシステム,eラーニング,医療タスクにまたがる新たな機能に対して,マイズショット学習性能が向上することを示す。

While deep learning has obtained state-of-the-art results in many applications, the adaptation of neural network architectures to incorporate new output features remains a challenge, as neural networks are commonly trained to produce a fixed output dimension. This issue is particularly severe in online learning settings, where new output features, such as items in a recommender system, are added continually with few or no associated observations. As such, methods for adapting neural networks to novel features which are both time and data-efficient are desired. To address this, we propose the Contextual HyperNetwork (CHN), an auxiliary model which generates parameters for extending the base model to a new feature, by utilizing both existing data as well as any observations and/or metadata associated with the new feature. At prediction time, the CHN requires only a single forward pass through a neural network, yielding a significant speed-up when compared to re-training and fine-tuning approaches. To assess the performance of CHNs, we use a CHN to augment a partial variational autoencoder (P-VAE), a deep generative model which can impute the values of missing features in sparsely-observed data. We show that this system obtains improved few-shot learning performance for novel features over existing imputation and meta-learning baselines across recommender systems, e-learning, and healthcare tasks.
翻訳日:2021-04-14 13:24:26 公開日:2021-04-12
# 線形順序問題とデータのランキング可能性について

On the Linear Ordering Problem and the Rankability of Data ( http://arxiv.org/abs/2104.05816v1 )

ライセンス: Link先を確認
Thomas R. Cameron, Sebastian Charmot, Jonad Pulaj(参考訳) 2019年、アンダーソンら。 ランク可能性(rankability)の概念は、データセットに固有のランク付け能力を指す。 本稿では,線形順序付け問題(lop)の実証的考察を行い,それを用いてデータのランク付け可能性を分析する。 具体的には、データのどのパーセンテージが最適なランキングに適合しているかを定量化するために線形度が用いられる。 スポーツの文脈では、これはランキングが後から正確に予測できるゲームの数に類似している。 実際、適切な目的関数の下では、lopによって計算される最適なランキングは、ランキングの下位精度を最大化する。 さらに,すべてのオプティマを列挙することなく,最適なランキング間の多様性を測定するために使用できる2つの最適なランキング間の最大ケンドールtauランキング距離を計算するバイナリプログラムを開発した。 最後に、スポーツと大学のランキングの世界からいくつかの例を示し、これらの概念を説明し、結果を示す。

In 2019, Anderson et al. proposed the concept of rankability, which refers to a dataset's inherent ability to be meaningfully ranked. In this article, we give an expository review of the linear ordering problem (LOP) and then use it to analyze the rankability of data. Specifically, the degree of linearity is used to quantify what percentage of the data aligns with an optimal ranking. In a sports context, this is analogous to the number of games that a ranking can correctly predict in hindsight. In fact, under the appropriate objective function, we show that the optimal rankings computed via the LOP maximize the hindsight accuracy of a ranking. Moreover, we develop a binary program to compute the maximal Kendall tau ranking distance between two optimal rankings, which can be used to measure the diversity among optimal rankings without having to enumerate all optima. Finally, we provide several examples from the world of sports and college rankings to illustrate these concepts and demonstrate our results.
翻訳日:2021-04-14 13:21:49 公開日:2021-04-12
# Deconfounding Scores:Weak Overlapによる因果効果推定のための特徴表現

Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap ( http://arxiv.org/abs/2104.05762v1 )

ライセンス: Link先を確認
Alexander D'Amour and Alexander Franks(参考訳) 治療の因果効果の信頼できる推定を得るための重要な条件は重複である(a.a。 肯定性: 因果調整を行うために使用される特徴の分布は、処理群と制御群であまりにも異なるものではない。 重なり合いが悪い場合、特に重み付けを取り入れた場合、因果効果推定器は脆くなることがある。 この問題に対処するため、多くの提案(共同設立者選択法や次元縮小法を含む)が特徴表現を取り入れ、処理群と制御群とのより優れた重複を誘発する。 これらの提案における重要な懸念は、この表現が効果推定子に共起バイアスをもたらす可能性があることである。 本稿では,推定対象の偏りを伴わずに重なりを生じさせる特徴表現であるデコンウンディングスコアを紹介する。 分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。 概念の証明として、ガウス共変量を用いた簡易な設定で分解スコアの族を特徴づけ、いくつかの単純なシミュレーションにおいて、これらのスコアが優れた有限サンプル特性を持つ推定器を構築するために使用できることを示す。 特に,IPWや重みのバランスによく適用される標準正規化に代えて,この手法が魅力的な方法であることを示す。

A key condition for obtaining reliable estimates of the causal effect of a treatment is overlap (a.k.a. positivity): the distributions of the features used to perform causal adjustment cannot be too different in the treated and control groups. In cases where overlap is poor, causal effect estimators can become brittle, especially when they incorporate weighting. To address this problem, a number of proposals (including confounder selection or dimension reduction methods) incorporate feature representations to induce better overlap between the treated and control groups. A key concern in these proposals is that the representation may introduce confounding bias into the effect estimator. In this paper, we introduce deconfounding scores, which are feature representations that induce better overlap without biasing the target of estimation. We show that deconfounding scores satisfy a zero-covariance condition that is identifiable in observed data. As a proof of concept, we characterize a family of deconfounding scores in a simplified setting with Gaussian covariates, and show that in some simple simulations, these scores can be used to construct estimators with good finite-sample properties. In particular, we show that this technique could be an attractive alternative to standard regularizations that are often applied to IPW and balancing weights.
翻訳日:2021-04-14 13:21:11 公開日:2021-04-12
# 次世代コンピューティングパラダイムに向けて : ロボットシステムにおける近似コンピューティングと環境実験,ケーススタディ,実践的意義

Towards a Next Generation Computing Paradigm: Approximate Computing in Robotics Systems and Environment-Experimentation, Case Study and Practical Implications ( http://arxiv.org/abs/2104.05773v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua(参考訳) 近似計算は、時間とエネルギーを品質と交換するために使用できる計算領域であり、組み込みシステムで有用である。 エネルギーは、ロボットのようなバッテリ駆動の組み込みシステムの主要な資源だ。 近似計算は、ロボットの制御機能の近似バージョンを生成する技術として用いられ、劣化した品質のコストで計算のためのエネルギーを分配することができる。 通常、関数のプログラマは、システムの全体的な安全性のために安全である劣化の程度を指定する。 しかし、複数のサブシステムが共存し、それぞれの機能のいくつかが近似された協調環境では、システム全体の安全性が損なわれる可能性がある。 本稿では,複数の同一ロボットを倉庫内で動作させ,ロボットの経路計画機能を近似する。 計画された経路は個々のロボット(つまり)にとって安全である。 ラックと衝突しない)ことから、ロボット同士が衝突することを示した。 したがって、もしそれが将来の主流パラダイムである必要があるなら、この新しいパラダイムの力をフル活用するために、そのような状況で制御された近似を行う必要がある。

Approximate computing is a computation domain which can be used to trade time and energy with quality and therefore is useful in embedded systems. Energy is the prime resource in battery-driven embedded systems, like robots. Approximate computing can be used as a technique to generate approximate version of the control functionalities of a robot, enabling it to ration energy for computation at the cost of degraded quality. Usually, the programmer of the function specifies the extent of degradation that is safe for the overall safety of the system. However, in a collaborative environment, where several sub-systems co-exist and some of the functionality of each of them have been approximated, the safety of the overall system may be compromised. In this paper, we consider multiple identical robots operate in a warehouse, and the path planning function of the robot is approximated. Although the planned paths are safe for individual robots (i.e. they do not collide with the racks), we show that this leads to a collision among the robots. So, a controlled approximation needs to be carried out in such situations to harness the full power of this new paradigm if it needs to be a mainstream paradigm in future.
翻訳日:2021-04-14 13:20:25 公開日:2021-04-12
# 低解像度フローとマスクアップサンプリングを用いた高能率時空ビデオ超解像

Efficient Space-time Video Super Resolution using Low-Resolution Flow and Mask Upsampling ( http://arxiv.org/abs/2104.05778v1 )

ライセンス: Link先を確認
Saikat Dutta, Nisarg A. Shah, Anurag Mittal(参考訳) 本稿では,低分解能・低フレームレートビデオから高解像度スローモーションビデオを生成することを目的とした,時空超解の効率的な解法を提案する。 単純化された解決策は、ビデオスーパーレゾリューションとビデオフレーム補間モデルの逐次実行である。 しかし、この種の解はメモリ非効率であり、高い推論時間を持ち、時空関係特性を適切に利用することはできない。 この範囲で、まず2次モデリングを用いてLR空間を補間する。 入力LRフレームは、最先端のビデオ超解法を用いて超解される。 LR補間フレームの合成に用いられるフローマップとブレンディングマスクは、バイリニアアップサンプリングを用いてHR空間で再利用される。 これはHR中間フレームの粗い推定につながり、しばしば運動境界に沿ってアーティファクトを含む。 残差学習によるHR中間フレームの品質向上のために,改良ネットワークを用いた。 我々のモデルは軽量であり、REDS STSRバリデーションセットの最先端モデルよりも性能が良い。

This paper explores an efficient solution for Space-time Super-Resolution, aiming to generate High-resolution Slow-motion videos from Low Resolution and Low Frame rate videos. A simplistic solution is the sequential running of Video Super Resolution and Video Frame interpolation models. However, this type of solutions are memory inefficient, have high inference time, and could not make the proper use of space-time relation property. To this extent, we first interpolate in LR space using quadratic modeling. Input LR frames are super-resolved using a state-of-the-art Video Super-Resolution method. Flowmaps and blending mask which are used to synthesize LR interpolated frame is reused in HR space using bilinear upsampling. This leads to a coarse estimate of HR intermediate frame which often contains artifacts along motion boundaries. We use a refinement network to improve the quality of HR intermediate frame via residual learning. Our model is lightweight and performs better than current state-of-the-art models in REDS STSR Validation set.
翻訳日:2021-04-14 13:20:07 公開日:2021-04-12
# スーパーアプリ代替データによるユーザの所得予測の強化

Enhancing User' s Income Estimation with Super-App Alternative Data ( http://arxiv.org/abs/2104.05831v1 )

ライセンス: Link先を確認
Gabriel Suarez, Juan Raful, Maria A. Luque, Carlos F. Valencia, Alejandro Correa-Bahnsen(参考訳) 本稿では,スーパーアプリからの代替データを利用して,利用者の所得推定モデルを強化する。 それは、これらの代替データソースのパフォーマンスと、金融システム情報のみを考慮に入れた業界に受容された官僚所得推定器のパフォーマンスを比較し、その代替データが、官僚所得推定器が持っていない情報を取り込むことに成功した。 本稿では,Stochastic Gradient Boosting InterpretationのためのTreeSHAPメソッドを実装することにより,スーパーアプリ内の顧客の行動パターンとトランザクションパターンのどちらが,ユーザの収入を推定する上でより強力な予測力を持つかを明らかにする。 本論文は、金融機関がリスクプロファイルの構築に代替データを導入しようとする動機を示すものである。

This paper presents the advantages of alternative data from Super-Apps to enhance user' s income estimation models. It compares the performance of these alternative data sources with the performance of industry-accepted bureau income estimators that takes into account only financial system information; successfully showing that the alternative data manage to capture information that bureau income estimators do not. By implementing the TreeSHAP method for Stochastic Gradient Boosting Interpretation, this paper highlights which of the customer' s behavioral and transactional patterns within a Super-App have a stronger predictive power when estimating user' s income. Ultimately, this paper shows the incentive for financial institutions to seek to incorporate alternative data into constructing their risk profiles.
翻訳日:2021-04-14 13:18:16 公開日:2021-04-12
# 量子バレン高原のコスト集中と狭い峡谷への等価性

Equivalence of quantum barren plateaus to cost concentration and narrow gorges ( http://arxiv.org/abs/2104.05868v1 )

ライセンス: Link先を確認
Andrew Arrasmith, Zo\"e Holmes, M. Cerezo, Patrick J. Coles(参考訳) パラメータ化量子回路(PQCs)の最適化は、短期量子コンピュータを利用する主要なアプローチである。 しかし、量子認識オプティマイザへの進歩を妨げるPQCのコスト関数の展望については、ほとんど分かっていない。 本研究では, PQCsにおいて観測された3つの景観特徴の関連性について検討する。(1)指数関数的に消失する勾配(バレン台地),(2)平均に関する指数関数的なコスト集中,(3)指数関数的に狭くなるミニナ(狭峡地)。 これら3つの現象が同時に起こることを解析的に証明する。 この結果の重要な意味は、計算上より高価な勾配よりも、コスト差によってバレン高原を数値的に診断できるということである。 より広い範囲において、我々の研究は、量子力学が特定のコストランドスケープ(そうでなければ数学的に可能である)を除外していることを示しており、その結果は量子基礎の観点から興味深い。

Optimizing parameterized quantum circuits (PQCs) is the leading approach to make use of near-term quantum computers. However, very little is known about the cost function landscape for PQCs, which hinders progress towards quantum-aware optimizers. In this work, we investigate the connection between three different landscape features that have been observed for PQCs: (1) exponentially vanishing gradients (called barren plateaus), (2) exponential cost concentration about the mean, and (3) the exponential narrowness of minina (called narrow gorges). We analytically prove that these three phenomena occur together, i.e., when one occurs then so do the other two. A key implication of this result is that one can numerically diagnose barren plateaus via cost differences rather than via the computationally more expensive gradients. More broadly, our work shows that quantum mechanics rules out certain cost landscapes (which otherwise would be mathematically possible), and hence our results are interesting from a quantum foundations perspective.
翻訳日:2021-04-14 13:18:03 公開日:2021-04-12
# Evidence-based Prescriptive Analytics, CAUSAL Digital Twinと学習推定アルゴリズム

Evidence-based Prescriptive Analytics, CAUSAL Digital Twin and a Learning Estimation Algorithm ( http://arxiv.org/abs/2104.05828v1 )

ライセンス: Link先を確認
PG Madhavan(参考訳) EbPA(Evidence-based Prescriptive Analytics)は、ビジネス生産性を向上させる最適な運用セットポイントを決定するために必要である。 EbPAは、接続された資産のシステムのDYNAMICSにおける原因・影響関係を定量化するCAUSAL Digital Twins(CDTs)における、何の分析と対実実験の結果である。 本稿では,CausalityとCausal Graphsの基礎を解説し,LCDT(Learning Causal Digital Twin)ソリューションを開発した。 LCDTは学習用デジタルツインであり、パラメータは最小限の設定でオンラインでオンラインで学習されるため、デジタルツインのデプロイ作業は大幅に単純化される。 軸受系の実振動データを用いてLCDTの原理実証を行い, 因果因子推定の結果, 解析結果, 反実実験の実施を強く奨励した。

Evidence-based Prescriptive Analytics (EbPA) is necessary to determine optimal operational set-points that will improve business productivity. EbPA results from what-if analysis and counterfactual experimentation on CAUSAL Digital Twins (CDTs) that quantify cause-effect relationships in the DYNAMICS of a system of connected assets. We describe the basics of Causality and Causal Graphs and develop a Learning Causal Digital Twin (LCDT) solution; our algorithm uses a simple recurrent neural network with some innovative modifications incorporating Causal Graph simulation. Since LCDT is a learning digital twin where parameters are learned online in real-time with minimal pre-configuration, the work of deploying digital twins will be significantly simplified. A proof-of-principle of LCDT was conducted using real vibration data from a system of bearings; results of causal factor estimation, what-if analysis study and counterfactual experiment are very encouraging.
翻訳日:2021-04-14 13:16:16 公開日:2021-04-12
# (参考訳) 人間の行動認識と予測のためのイベントベースのタイムスタンプ画像符号化ネットワーク

Event-based Timestamp Image Encoding Network for Human Action Recognition and Anticipation ( http://arxiv.org/abs/2104.05145v1 )

ライセンス: CC0 1.0
Chaoxing Huang(参考訳) イベントカメラは、低消費電力の非同期高周波センサであり、人間の行動理解作業に適している。 イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを使用してデータから学習することが不可欠である。 本研究では,イベントデータの極性情報を含む空間時空間画像の入力と出力を行うタイムスタンプ画像符号化2dネットワークを提案する。 さらに、将来のタイムスタンプ画像生成装置を作成し、将来のアクション情報を生成し、アクションが完了していないときの人間のアクションを予測する。 実験の結果,本手法は実世界行動認識におけるrgbベースベンチマークと同程度の性能を達成でき,ジェスチャー認識による技術(sota)結果も達成できることがわかった。 今後のタイムスタンプ画像生成モデルでは,動作完了時の予測精度が効果的に向上する。 また,行動認識と予測における動作情報と出現情報の重要性について考察する。

Event camera is an asynchronous, high frequencyvision sensor with low power consumption, which is suitable forhuman action understanding task. It is vital to encode the spatial-temporal information of event data properly and use standardcomputer vision tool to learn from the data. In this work, wepropose a timestamp image encoding 2D network, which takes theencoded spatial-temporal images with polarity information of theevent data as input and output the action label. In addition, wepropose a future timestamp image generator to generate futureaction information to aid the model to anticipate the humanaction when the action is not completed. Experiment results showthat our method can achieve the same level of performance asthose RGB-based benchmarks on real world action recognition,and also achieve the state of the art (SOTA) result on gesturerecognition. Our future timestamp image generating model caneffectively improve the prediction accuracy when the action is notcompleted. We also provide insight discussion on the importanceof motion and appearance information in action recognition andanticipation.
翻訳日:2021-04-14 05:21:48 公開日:2021-04-12
# (参考訳) 機械翻訳における参照フリーピア評価の評価

Assessing Reference-Free Peer Evaluation for Machine Translation ( http://arxiv.org/abs/2104.05146v1 )

ライセンス: CC BY 4.0
Sweta Agrawal, George Foster, Markus Freitag, Colin Cherry(参考訳) 参照なし評価は、機械翻訳の評価を大幅にスケーラブルにする可能性があり、新しい言語やドメインに容易にピボットできる。 近年,大規模な多言語モデルによって与えられる確率は,基準自由度として用いると,技術結果の状態を達成できることが示されている。 我々はこのモデルの様々な変更を試し、それをスケールアップすることでbleuのパフォーマンスにマッチできることを実証する。 このアプローチの様々な潜在的な弱点を分析し、驚くほど堅牢であり、幅広い領域と異なるシステム品質で合理的なパフォーマンスを提供する可能性が高いことを発見した。

Reference-free evaluation has the potential to make machine translation evaluation substantially more scalable, allowing us to pivot easily to new languages or domains. It has been recently shown that the probabilities given by a large, multilingual model can achieve state of the art results when used as a reference-free metric. We experiment with various modifications to this model and demonstrate that by scaling it up we can match the performance of BLEU. We analyze various potential weaknesses of the approach and find that it is surprisingly robust and likely to offer reasonable performance across a broad spectrum of domains and different system qualities.
翻訳日:2021-04-14 05:04:10 公開日:2021-04-12
# (参考訳) ミスマッチ埋め込みによる要約文間不整合の推定

Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings ( http://arxiv.org/abs/2104.05156v1 )

ライセンス: CC BY 4.0
Oleg Vasilyev, John Bohannon(参考訳) 本稿では,忠実性を重視した新しい参照フリー要約品質評価尺度を提案する。 この尺度は、ソース文書に関する要約の可能なすべての微妙な矛盾を見つけ、数えるように設計されている。 Mismatched Embeddings による概要テキスト不整合推定器 ESTIME は,要約レベル SummEval データセットのエキスパートスコアと,一貫性だけでなく,頻度においても他の一般的な評価指標よりも強い相関関係を持つ。 また,人間の要約に微妙な事実誤りを生成する手法も導入した。 ESTIMEは他の一般的な評価方法よりも微妙な誤りに敏感であることを示す。

We propose a new reference-free summary quality evaluation measure, with emphasis on the faithfulness. The measure is designed to find and count all possible minute inconsistencies of the summary with respect to the source document. The proposed ESTIME, Estimator of Summary-to-Text Inconsistency by Mismatched Embeddings, correlates with expert scores in summary-level SummEval dataset stronger than other common evaluation measures not only in Consistency but also in Fluency. We also introduce a method of generating subtle factual errors in human summaries. We show that ESTIME is more sensitive to subtle errors than other common evaluation measures.
翻訳日:2021-04-14 04:48:56 公開日:2021-04-12
# (参考訳) メモリ誘導型教師なし画像-画像間翻訳

Memory-guided Unsupervised Image-to-image Translation ( http://arxiv.org/abs/2104.05170v1 )

ライセンス: CC BY 4.0
Somi Jeong, Youngjung Kim, Eungbean Lee, Kwanghoon Sohn(参考訳) 本稿では,インスタンスレベルの画像・画像翻訳のための新しい教師なしフレームワークを提案する。 最近の進歩は追加のオブジェクトアノテーションの導入によるものだが、既存のメソッドは複数の異なるオブジェクトでイメージを処理できないことが多い。 主な原因は、推論中に全体像にグローバルなスタイルを適用し、インスタンスとバックグラウンド、あるいはインスタンス内の大きなスタイルの相違を考慮していないことである。 この問題に対処するために,ローカルスタイルの変動を明示的に理由づけたクラス対応メモリネットワークを提案する。 クラス毎のスタイルの変化を記録し、テスト時にオブジェクト検出器を必要とせずにアクセスするために、一連の読み取り/更新操作を備えたキー値メモリ構造が導入される。 キーはメモリアイテムを割り当てるためのドメインに依存しないコンテンツ表現を格納し、値はドメイン固有のスタイル表現をエンコードする。 また,メモリ項目の識別能力を高めるために,特徴的コントラスト損失も提示する。 メモリを組み込むことで、ドメイン間でクラス認識と正確なスタイル表現を転送できることを示す。 実験結果から,本モデルが最近のインスタンスレベルの手法より優れ,最先端の性能を実現することが示された。

We present a novel unsupervised framework for instance-level image-to-image translation. Although recent advances have been made by incorporating additional object annotations, existing methods often fail to handle images with multiple disparate objects. The main cause is that, during inference, they apply a global style to the whole image and do not consider the large style discrepancy between instance and background, or within instances. To address this problem, we propose a class-aware memory network that explicitly reasons about local style variations. A key-values memory structure, with a set of read/update operations, is introduced to record class-wise style variations and access them without requiring an object detector at the test time. The key stores a domain-agnostic content representation for allocating memory items, while the values encode domain-specific style representations. We also present a feature contrastive loss to boost the discriminative power of memory items. We show that by incorporating our memory, we can transfer class-aware and accurate style representations across domains. Experimental results demonstrate that our model outperforms recent instance-level methods and achieves state-of-the-art performance.
翻訳日:2021-04-14 04:40:53 公開日:2021-04-12
# (参考訳) 部分検証による分類の自動機構設計

Automated Mechanism Design for Classification with Partial Verification ( http://arxiv.org/abs/2104.05182v1 )

ライセンス: CC BY 4.0
Hanrui Zhang, Yu Cheng, Vincent Conitzer(参考訳) そこで本研究では,各型が (他の型よりも) 制限された型のみを報告できる部分的検証による自動機構設計の問題について検討する。 啓示原理が必ずしも成り立たない場合や、型が極端に異なる好みを持つ場合の硬さを証明します。 これらの難易度の結果を踏まえて、全ての型が結果に対して同じ好みを共有している設定における真理的なメカニズムに焦点を当てる。 本研究では, 最適決定論的真理機構を求める効率的なアルゴリズムを含む, アルゴリズム的, 構造的結果をいくつか提示し, 凸性に基づくキャラクタリゼーションにより, 最適ランダム化真理機構を求めるためのより高速なアルゴリズムを提案する。 次に、主のコストが各型に割り当てられた結果の組み合わせの関数であるより一般的な設定を考える。 特に、コスト関数が部分モジュラーな場合に着目し、コスト関数が加法的となる古典的な設定において、本質的に全ての結果の一般化を与える。 本結果は,部分検証による自動機構設計のための比較的完全な画像を提供する。

We study the problem of automated mechanism design with partial verification, where each type can (mis)report only a restricted set of types (rather than any other type), induced by the principal's limited verification power. We prove hardness results when the revelation principle does not necessarily hold, as well as when types have even minimally different preferences. In light of these hardness results, we focus on truthful mechanisms in the setting where all types share the same preference over outcomes, which is motivated by applications in, e.g., strategic classification. We present a number of algorithmic and structural results, including an efficient algorithm for finding optimal deterministic truthful mechanisms, which also implies a faster algorithm for finding optimal randomized truthful mechanisms via a characterization based on convexity. We then consider a more general setting, where the principal's cost is a function of the combination of outcomes assigned to each type. In particular, we focus on the case where the cost function is submodular, and give generalizations of essentially all our results in the classical setting where the cost function is additive. Our results provide a relatively complete picture for automated mechanism design with partial verification.
翻訳日:2021-04-14 04:25:27 公開日:2021-04-12
# (参考訳) 人間とエイリアンの人工知能による科学の加速

Accelerating science with human versus alien artificial intelligences ( http://arxiv.org/abs/2104.05188v1 )

ライセンス: CC BY 4.0
Jamshid Sourati, James Evans(参考訳) データ駆動型人工知能モデルは、望ましい性質を持つ新しい材料の発見や、新しい治療法やワクチンのターゲットとなる発明など、科学的および技術的進歩のための強力な予測エンジンを作成するために使われてきた。 これらのAIアプローチは典型的に、発見と発明の風景を継続的に変える人間の予測エンジン(科学者と発明家)の分布を無視している。 結果として、AI仮説は人間の専門家の代わりに設計され、句読化された集団の進歩のためにそれらを補完することができない。 ここでは、専門家に認知的に利用可能な推論をトレーニングすることで、人間の専門知識の分布を自己監督モデルに組み込むことで、将来の人間の発見や発明のAI予測を劇的に改善することを示す。 a)価値あるエネルギー関連材料を提唱するモデルへの専門家の認識を含めると、材料予測の精度は100%程度、(b)新しい疾患の治療のために何千もの薬を再導入することの精度は43%、(c)臨床試験で検査された新型コロナウイルスワクチン候補は260%向上する。 これらのモデルは、人間の予測とそれを作る科学者を予測することで成功する。 しかし、群衆を避けるためにaiをチューニングすることで、科学的に有望な「アリエン」仮説を生み出し、科学的な進歩を加速するだけでなく、介入なしには想像も追跡もできない。 集団的人間の偏見を同定し修正することにより、これらのモデルは発見のための科学教育を改革することで、人間の予測を改善する機会も提案する。

Data-driven artificial intelligence models fed with published scientific findings have been used to create powerful prediction engines for scientific and technological advance, such as the discovery of novel materials with desired properties and the targeted invention of new therapies and vaccines. These AI approaches typically ignore the distribution of human prediction engines -- scientists and inventor -- who continuously alter the landscape of discovery and invention. As a result, AI hypotheses are designed to substitute for human experts, failing to complement them for punctuated collective advance. Here we show that incorporating the distribution of human expertise into self-supervised models by training on inferences cognitively available to experts dramatically improves AI prediction of future human discoveries and inventions. Including expert-awareness into models that propose (a) valuable energy-relevant materials increases the precision of materials predictions by ~100%, (b) repurposing thousands of drugs to treat new diseases increases precision by 43%, and (c) COVID-19 vaccine candidates examined in clinical trials by 260%. These models succeed by predicting human predictions and the scientists who will make them. By tuning AI to avoid the crowd, however, it generates scientifically promising "alien" hypotheses unlikely to be imagined or pursued without intervention, not only accelerating but punctuating scientific advance. By identifying and correcting for collective human bias, these models also suggest opportunities to improve human prediction by reformulating science education for discovery.
翻訳日:2021-04-14 04:24:29 公開日:2021-04-12
# (参考訳) contextized knowledge-aware attentive neural network: enhance answer selection with knowledge

Contextualized Knowledge-aware Attentive Neural Network: Enhancing Answer Selection with Knowledge ( http://arxiv.org/abs/2104.05216v1 )

ライセンス: CC BY 4.0
Yang Deng, Yuexiang Xie, Yaliang Li, Min Yang, Wai Lam, Ying Shen(参考訳) 対話システムや質問応答(qa)など、多くの自然言語処理アプリケーションに関与している回答選択は、現実の様々な背景知識を無視して、従来の方法が一般的に問題となるため、実際には重要かつ困難なタスクである。 本稿では,知識グラフ(kg)からの外部知識を用いて回答選択モデルを強化する手法を広範囲に検討する。 まず,KGからの外部知識とテキスト情報との密接な相互作用を考慮し,QA文表現を学習するコンテキスト知識相互作用学習フレームワークKNNを提案する。 次に,質問と回答の文脈ベースと知識ベースの相互作用を要約するために,知識認識注意機構を2種類開発した。 さらに,KG情報の多様性と複雑さに対処するため,構造化グラフ畳み込みネットワーク(GCN)による構造情報による知識表現学習を改善し,多視点知識認識機構を通じてコンテキストベースおよび知識ベース文表現を包括的に学習する,コンテキスト対応知識認識注意ニューラルネットワーク(CKANN)を提案する。 本稿では, WikiQA, TREC QA, InsuranceQA, Yahoo QAの4つのベンチマークQAデータセットを用いて評価を行った。 その結果,kgから外部知識を取り入れることの利点を検証し,本手法の強固な優越性と広範な適用性を示す。

Answer selection, which is involved in many natural language processing applications such as dialog systems and question answering (QA), is an important yet challenging task in practice, since conventional methods typically suffer from the issues of ignoring diverse real-world background knowledge. In this paper, we extensively investigate approaches to enhancing the answer selection model with external knowledge from knowledge graph (KG). First, we present a context-knowledge interaction learning framework, Knowledge-aware Neural Network (KNN), which learns the QA sentence representations by considering a tight interaction with the external knowledge from KG and the textual information. Then, we develop two kinds of knowledge-aware attention mechanism to summarize both the context-based and knowledge-based interactions between questions and answers. To handle the diversity and complexity of KG information, we further propose a Contextualized Knowledge-aware Attentive Neural Network (CKANN), which improves the knowledge representation learning with structure information via a customized Graph Convolutional Network (GCN) and comprehensively learns context-based and knowledge-based sentence representation via the multi-view knowledge-aware attention mechanism. We evaluate our method on four widely-used benchmark QA datasets, including WikiQA, TREC QA, InsuranceQA and Yahoo QA. Results verify the benefits of incorporating external knowledge from KG, and show the robust superiority and extensive applicability of our method.
翻訳日:2021-04-14 04:23:26 公開日:2021-04-12
# (参考訳) ENOS:ハイブリッドデジタルおよびコンピュートインメモリDNN加速器のためのエネルギー対応ネットワーク演算子探索

ENOS: Energy-Aware Network Operator Search for Hybrid Digital and Compute-in-Memory DNN Accelerators ( http://arxiv.org/abs/2104.05217v1 )

ライセンス: CC BY-SA 4.0
Shamma Nasrin, Ahish Shylendra, Yuti Kadakia, Nick Iliev, Wilfred Gomes, Theja Tulabandhula, and Amit Ranjan Trivedi(参考訳) 本研究では、ディープニューラルネットワーク(DNN)アクセラレーターのエネルギー精度トレードオフに対処する、新しいEnergy-Aware Network Operator Search(ENOS)アプローチを提案する。 近年,DNNの計算効率を向上させるために新しい推論演算子が提案されている。 オペレーターを増強し、対応する新しいコンピューティングモードも検討されている。 しかし、DNN演算子の単純化は、特に複雑な処理タスクにおいて、低精度のコストが伴う。 提案するENOSフレームワークにより、推論演算子と計算モードを最適に階層的に統合し、所望のエネルギーと精度のバランスを実現する。 enosにおける探索は連続最適化問題として定式化され、典型的な勾配降下法を用いて解くことができ、トレーニングコストを最小にし、より大きなdnnに拡張できる。 ENOSを2つの設定で特徴付けます。 最初の設定では、デジタルアクセラレーターについて、異なるオペレーターに再設定できるマルチプライアキュムレート(mac)コアのenosについて論じる。 単段最適化と二段最適化を併用したENOS学習法について検討・比較を行った。 また、1つのトレーニングステップで1つのレイヤの割り当てのみを学ぶenosのシーケンシャルな演算子割当戦略についても検討し、最適なオペレータ割当に向けての収束の柔軟性を高める。 さらに、ベイズ原理に従って、ENOSのサンプリングに基づく変分モードも提示される。 ENOSは、CIFAR10とCIFAR100上の人気のあるDNNShuffleNetとSqueezeNetに特徴付けられる。

This work proposes a novel Energy-Aware Network Operator Search (ENOS) approach to address the energy-accuracy trade-offs of a deep neural network (DNN) accelerator. In recent years, novel inference operators have been proposed to improve the computational efficiency of a DNN. Augmenting the operators, their corresponding novel computing modes have also been explored. However, simplification of DNN operators invariably comes at the cost of lower accuracy, especially on complex processing tasks. Our proposed ENOS framework allows an optimal layer-wise integration of inference operators and computing modes to achieve the desired balance of energy and accuracy. The search in ENOS is formulated as a continuous optimization problem, solvable using typical gradient descent methods, thereby scalable to larger DNNs with minimal increase in training cost. We characterize ENOS under two settings. In the first setting, for digital accelerators, we discuss ENOS on multiply-accumulate (MAC) cores that can be reconfigured to different operators. ENOS training methods with single and bi-level optimization objectives are discussed and compared. We also discuss a sequential operator assignment strategy in ENOS that only learns the assignment for one layer in one training step, enabling greater flexibility in converging towards the optimal operator allocations. Furthermore, following Bayesian principles, a sampling-based variational mode of ENOS is also presented. ENOS is characterized on popular DNNs ShuffleNet and SqueezeNet on CIFAR10 and CIFAR100.
翻訳日:2021-04-14 04:22:17 公開日:2021-04-12
# (参考訳) 自然言語生成改善のための追加目的としての主観的集団評価の推定

Estimating Subjective Crowd-Evaluations as an Additional Objective to Improve Natural Language Generation ( http://arxiv.org/abs/2104.05224v1 )

ライセンス: CC BY 4.0
Jakob Nyberg, Ramesh Manuvinakurike, Maike Paetzel-Pr\"usmann(参考訳) 人間の評価は自然言語処理アルゴリズムの性能を評価する最も一般的な手法の1つである。 同様に、自然言語生成モデルによって生成される文の質を人格を用いて測定することが一般的である。 本稿では,マルチタスク学習環境における言語生成モデルの学習過程における主観評価の利用について検討する。 事例研究として,6種類の言語生成モデルについて,群衆による対話コーパスを用いて微調整を行った。 これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。 生成した対話行の人間による評価は、マルチタスクモデルによって生成された発話が、最も典型的であり、最も会話を前進させ、最も攻撃的であることを示す。 これらの有望な最初の結果に基づいて、言語モデルトレーニングに主観的人間評価を取り入れた将来の研究の方向性を議論し、開発プロセス中にユーザーをループに留める。

Human ratings are one of the most prevalent methods to evaluate the performance of natural language processing algorithms. Similarly, it is common to measure the quality of sentences generated by a natural language generation model using human raters. In this paper, we argue for exploring the use of subjective evaluations within the process of training language generation models in a multi-task learning setting. As a case study, we use a crowd-authored dialogue corpus to fine-tune six different language generation models. Two of these models incorporate multi-task learning and use subjective ratings of lines as part of an explicit learning goal. A human evaluation of the generated dialogue lines reveals that utterances generated by the multi-tasking models were subjectively rated as the most typical, most moving the conversation forward, and least offensive. Based on these promising first results, we discuss future research directions for incorporating subjective human evaluations into language model training and to hence keep the human user in the loop during the development process.
翻訳日:2021-04-14 04:05:15 公開日:2021-04-12
# (参考訳) Edgeless-GNN: 教師なしの誘導型エッジレスネットワーク埋め込み

Edgeless-GNN: Unsupervised Inductive Edgeless Network Embedding ( http://arxiv.org/abs/2104.05225v1 )

ライセンス: CC BY 4.0
Yong-Min Shin, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) グラフニューラルネットワーク (GNN) を用いて, メッセージパッシングによる表現能力の向上により, グラフの効率的な表現学習を実現することを目的として, エッジレスノードを新たに入力するユーザなどの問題について検討した。 本研究は,接続のないエッジレスノードへのメッセージ転送は不可能であるため,gnnをこの問題に適用できないことによるものである。 この課題に対処するため,非教師付き帰納学習により,エッジレスノードでもノード埋め込みを生成可能な新しいフレームワークであるEdgeless-GNNを提案する。 具体的には,ノード属性の類似性に基づいて,各ノードの近傍アグリゲーションによって定義されるGNNの計算グラフを置き換えるために,$k$-nearest neighbor graph(k$NNG)を利用する。 既知のネットワーク構造はモデルパラメータのトレーニングに使用されるが、損失関数はモデルがネットワーク構造を学ぶように確立される。 エッジレスノードに対しては、$k$NNG構成を計算グラフとして使用することで、埋め込みを誘導的に推論する。 各種ダウンストリーム機械学習(ML)タスクの性能を評価することで、Edgeless-GNNがインダクティブネットワーク埋め込みの最先端手法を一貫して上回っていることを実証的に示す。 我々のフレームワークはGNNモデルに依存しないため、GNNモデルはニーズやMLタスクに応じて適切に選択できる。

We study the problem of embedding edgeless nodes such as users who newly enter the underlying network, while using graph neural networks (GNNs) widely studied for effective representation learning of graphs thanks to its highly expressive capability via message passing. Our study is motivated by the fact that GNNs cannot be adopted for our problem since message passing to such edgeless nodes having no connections is impossible. To tackle this challenge, we propose Edgeless-GNN, a new framework that enables GNNs to generate node embeddings even for edgeless nodes through unsupervised inductive learning. Specifically, we utilize a $k$-nearest neighbor graph ($k$NNG) based on the similarity of node attributes to replace the GNN's computation graph defined by the neighborhood-based aggregation of each node. The known network structure is used to train model parameters, whereas a loss function is established in such a way that our model learns the network structure. For the edgeless nodes, we inductively infer embeddings by using edges via $k$NNG construction as a computation graph. By evaluating the performance of various downstream machine learning (ML) tasks, we empirically demonstrate that Edgeless-GNN consistently outperforms state-of-the-art methods of inductive network embedding. Our framework is GNN-model-agnostic; thus, GNN models can be appropriately chosen according to ones' needs and ML tasks.
翻訳日:2021-04-14 03:47:09 公開日:2021-04-12
# (参考訳) SuperSim:スウェーデン語における単語類似性と関連性のテストセット

SuperSim: a test set for word similarity and relatedness in Swedish ( http://arxiv.org/abs/2104.05228v1 )

ライセンス: CC BY 4.0
Simon Hengchen and Nina Tahmasebi(参考訳) 言語モデルは評価するのが非常に難しい。 SuperSimは、人間の判断に精通したスウェーデンの大規模な類似性と関連性テストセットです。 テストセットは5つのアノテータによって関連性と類似性の両方について独立に判断される1,360ワードペアで構成されている。 スウェーデンのGigaword corpusとスウェーデンのWikipediaダンプという2つのスウェーデンのデータセットでトレーニングされた3つの異なるモデル(Word2Vec、fastText、GloVe)を評価し、将来の比較のためのベースラインを提供する。 完全なアノテーション付きテストセット、コード、ベースラインモデル、データをリリースします。

Language models are notoriously difficult to evaluate. We release SuperSim, a large-scale similarity and relatedness test set for Swedish built with expert human judgments. The test set is composed of 1,360 word-pairs independently judged for both relatedness and similarity by five annotators. We evaluate three different models (Word2Vec, fastText, and GloVe) trained on two separate Swedish datasets, namely the Swedish Gigaword corpus and a Swedish Wikipedia dump, to provide a baseline for future comparison. We release the fully annotated test set, code, baseline models, and data.
翻訳日:2021-04-14 03:23:19 公開日:2021-04-12
# (参考訳) 診断予測性を改善するための前頭側頭葉認知症の分類に基づく人工知能手法

Artificial Intelligence Methods Based Hierarchical Classification of Frontotemporal Dementia to Improve Diagnostic Predictability ( http://arxiv.org/abs/2104.05235v1 )

ライセンス: CC BY 4.0
Km Poonam, Rajlakshmi Guha, Partha P Chakrabarti(参考訳) Frontotemporal Dementia(FTD)患者は認知能力、経営的・行動的特徴、言語能力の喪失、記憶能力の低下を経験している。 FTDスペクトルは、皮質萎縮と症状の異なるパターンに基づいて、主に行動変化型FTD(bvFTD)、非流動性一次進行性失語(nfvPPA)、意味変化型一次進行性失語(svPPA)の3つの変種を含む。 本研究の目的は,皮質厚みデータに人工知能(AI)のデータ駆動技術を適用し,各被験者のMRI画像を階層的にFTDのスペクトルの1つに分類することである。 このデータはFreeSurferソフトウェアによって計算される。 皮質厚みデータのノイズを最小限に抑えるために,最小の一値セグメント同化核(susan)技術を用いた。 具体的には,前頭頭葉変性ニューロイメージングイニシアチブ(niftd)データベースから204名の被験者を抽出し,その1つの診断カテゴリー(bvftd,svppa,nfvppa,cognitively normal)で診断した。 自動分類モデルでは, サポートベクトルマシン (SVM) , 線形判別分析 (LDA) , ナイブベイズ法 (Nieブベイズ法) による分類精度が86.5, 76, 72.7 となり, 精度82.7, 73.4, 69.2 の従来型単一クラスモデルに対して, 10倍のクロスバリデーション解析を行った。

Patients with Frontotemporal Dementia (FTD) have impaired cognitive abilities, executive and behavioral traits, loss of language ability, and decreased memory capabilities. Based on the distinct patterns of cortical atrophy and symptoms, the FTD spectrum primarily includes three variants: behavioral variant FTD (bvFTD), non-fluent variant primary progressive aphasia (nfvPPA), and semantic variant primary progressive aphasia (svPPA). The purpose of this study is to classify MRI images of every single subject into one of the spectrums of the FTD in a hierarchical order by applying data-driven techniques of Artificial Intelligence (AI) on cortical thickness data. This data is computed by FreeSurfer software. We used the Smallest Univalue Segment Assimilating Nucleus (SUSAN) technique to minimize the noise in cortical thickness data. Specifically, we took 204 subjects from the frontotemporal lobar degeneration neuroimaging initiative (NIFTD) database to validate this approach, and each subject was diagnosed in one of the diagnostic categories (bvFTD, svPPA, nfvPPA and cognitively normal). Our proposed automated classification model yielded classification accuracy of 86.5, 76, and 72.7 with support vector machine (SVM), linear discriminant analysis (LDA), and Naive Bayes methods, respectively, in 10-fold cross-validation analysis, which is a significant improvement on a traditional single multi-class model with an accuracy of 82.7, 73.4, and 69.2.
翻訳日:2021-04-14 03:11:32 公開日:2021-04-12
# (参考訳) 誤情報検出の統一について

On Unifying Misinformation Detection ( http://arxiv.org/abs/2104.05243v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Belinda Z. Li, Sinong Wang, Pascale Fung, Hao Ma, Wen-tau Yih, Madian Khabsa(参考訳) 本稿では,複数の誤情報領域を1つの統一的な設定でモデル化する汎用的誤情報モデルUnifiedM2を紹介する。 このモデルは、ニュースバイアスの検出、クリックベイト、フェイクニュース、噂の検証の4つのタスクを扱うように訓練されている。 これらのタスクをまとめることで、UnifiedM2は誤った情報をよりリッチに表現し、すべてのタスクに対して最先端または同等のパフォーマンスをもたらす。 さらに、UnifiedM2の学習表現は、見知らぬ誤情報タスク/データセットと、見つからないイベントに対するモデルの一般化可能性のわずかな学習に役立つことを示す。

In this paper, we introduce UnifiedM2, a general-purpose misinformation model that jointly models multiple domains of misinformation with a single, unified setup. The model is trained to handle four tasks: detecting news bias, clickbait, fake news, and verifying rumors. By grouping these tasks together, UnifiedM2learns a richer representation of misinformation, which leads to state-of-the-art or comparable performance across all tasks. Furthermore, we demonstrate that UnifiedM2's learned representation is helpful for few-shot learning of unseen misinformation tasks/datasets and model's generalizability to unseen events.
翻訳日:2021-04-14 03:00:15 公開日:2021-04-12
# (参考訳) ノイズラベルからのロバスト分類:胸部x線異常評価のための追加知識の統合

Robust Classification from Noisy Labels: Integrating Additional Knowledge for Chest Radiography Abnormality Assessment ( http://arxiv.org/abs/2104.05261v1 )

ライセンス: CC BY 4.0
Sebastian G\"undel, Arnaud A. A. Setio, Florin C. Ghesu, Sasa Grbic, Bogdan Georgescu, Andreas Maier, Dorin Comaniciu(参考訳) 胸部X線撮影は, 種々の心臓および肺の異常を診断するための日常臨床で実施される最も一般的な放射線検査である。 大量のデータを読み、報告し、単一の放射線科医に対して1日に100件以上の研究を行い、高い解釈精度を維持することが課題となる。 大規模な公開データセットの導入により、自動異常分類のための一連の新しいシステムが生まれた。 しかし、これらのデータセットのラベルは、自然言語処理された医療報告を用いて取得され、性能に影響を及ぼすような大量のラベルノイズが生じる。 本研究では,このようなサブ最適データからラベルノイズを処理する新しいトレーニング戦略を提案する。 4名の放射線技師によって再読まれた訓練データのサブセットで事前ラベルの確率を測定し,訓練中にラベルノイズに対するトレーニングモデルの堅牢性を高めるために使用した。 さらに,胸部x線撮影で観察された異常の高一致を活用し,この情報を用いてラベルノイズの影響をさらに低減する。 さらに、解剖学的知識は、肺と心臓のセグメンテーションを予測するためのシステムと空間的知識ラベルを訓練することで取り入れられる。 異なる処理技術を適用した各種スキャナから派生した複数のデータセットと画像を扱うため,新たな画像正規化手法を提案する。 86,876人の患者の胸部x線写真297,541点の広範な収集実験を行い,2つのデータセットから17点の異常に対して最先端のパフォーマンスレベルが得られた。 平均AUCスコアが0.880の全ての異常に対して、提案したトレーニング戦略は、パフォーマンススコアを大幅に改善するために使用できる。

Chest radiography is the most common radiographic examination performed in daily clinical practice for the detection of various heart and lung abnormalities. The large amount of data to be read and reported, with more than 100 studies per day for a single radiologist, poses a challenge in consistently maintaining high interpretation accuracy. The introduction of large-scale public datasets has led to a series of novel systems for automated abnormality classification. However, the labels of these datasets were obtained using natural language processed medical reports, yielding a large degree of label noise that can impact the performance. In this study, we propose novel training strategies that handle label noise from such suboptimal data. Prior label probabilities were measured on a subset of training data re-read by 4 board-certified radiologists and were used during training to increase the robustness of the training model to the label noise. Furthermore, we exploit the high comorbidity of abnormalities observed in chest radiography and incorporate this information to further reduce the impact of label noise. Additionally, anatomical knowledge is incorporated by training the system to predict lung and heart segmentation, as well as spatial knowledge labels. To deal with multiple datasets and images derived from various scanners that apply different post-processing techniques, we introduce a novel image normalization strategy. Experiments were performed on an extensive collection of 297,541 chest radiographs from 86,876 patients, leading to a state-of-the-art performance level for 17 abnormalities from 2 datasets. With an average AUC score of 0.880 across all abnormalities, our proposed training strategies can be used to significantly improve performance scores.
翻訳日:2021-04-14 02:51:01 公開日:2021-04-12
# (参考訳) スウェーデンのオープンドメイン会話言語モデルの構築

Building a Swedish Open-Domain Conversational Language Model ( http://arxiv.org/abs/2104.05277v1 )

ライセンス: CC BY 4.0
Tobias Norlund and Agnes Stenbom(参考訳) 我々は,オンライン議論フォーラムflashbackのデータを用いて,スウェーデン語で会話する訓練を受けた最初の大規模生成言語モデルを評価する作業を行っている。 我々は,モデルが多種多様な話題に対して,人間的かつ情報的な方法で会話に応答できる場合が多いことを示す,人間評価パイロット研究を行う。 オンラインフォーラムのデータは会話システムを構築するのに有用であるが、不注意なアプリケーションがもたらすネガティブな結果と、それらに対して積極的な対策を取る必要性を反映している。

We present on-going work of evaluating the, to our knowledge, first large generative language model trained to converse in Swedish, using data from the online discussion forum Flashback. We conduct a human evaluation pilot study that indicates the model is often able to respond to conversations in both a human-like and informative manner, on a diverse set of topics. While data from online forums can be useful to build conversational systems, we reflect on the negative consequences that incautious application might have, and the need for taking active measures to safeguard against them.
翻訳日:2021-04-14 02:22:27 公開日:2021-04-12
# (参考訳) 3次元点雲を用いた草原果樹の単一枝のモデル化

Approach for modeling single branches of meadow orchard trees with 3D point clouds ( http://arxiv.org/abs/2104.05282v1 )

ライセンス: CC BY 4.0
Jonas Straub, David Reiser and Hans W. Griepentrog(参考訳) 果樹園の栽培は生物多様性に有益であり、集中栽培された果樹園よりも著しく高い。 本研究の目的は,牧草地内の独立樹の採集点を自動的に決定する木モデルを作ることである。 ここで示されるアルゴリズムは、予め設定された3dポイントクラウドに基づくスケルトンモデルを構築することができる。 ポイントを先頭の枝に割り当て、仮想ツリーモデルを構築し、全体の精度は95.19パーセントに達した。 このモデルは、自動刈り取りのための木の形状に関する必要な情報を提供した。

The cultivation of orchard meadows provides an ecological benefit for biodiversity, which is significantly higher than in intensively cultivated orchards. The goal of this research is to create a tree model to automatically determine possible pruning points for stand-alone trees within meadows. The algorithm which is presented here is capable of building a skeleton model based on a pre-segmented photogrammetric 3D point cloud. Good results were achieved in assigning the points to their leading branches and building a virtual tree model, reaching an overall accuracy of 95.19 %. This model provided the necessary information about the geometry of the tree for automated pruning.
翻訳日:2021-04-14 02:04:46 公開日:2021-04-12
# (参考訳) ニューラルネットワークに基づくインスタンスセグメンテーションによるキャベツの体積と葉面積の計算

Volume and leaf area calculation of cabbage with a neural network-based instance segmentation ( http://arxiv.org/abs/2104.05284v1 )

ライセンス: CC BY 4.0
Nils Lueling, David Reiser, Hans W. Griepentrog(参考訳) 果実の大きさと葉面積は植物の健康にとって重要な指標であり、植物の栄養管理、植物保護および収穫にとって重要な指標である。 本研究では,果実の体積とキャベツの葉面積を画像ベースで測定する手法を提案する。 この目的のために、マスク領域に基づく畳み込みニューラルネットワーク(Mask R-CNN)を訓練し、葉からキャベツ果実を分割し、対応する植物に割り当てた。 その結果, 単一カメラを用いた場合であっても, 果実の大きさを92.6%, 葉面積を89.8%の精度で計算できることがわかった。

Fruit size and leaf area are important indicators for plant health and are of interest for plant nutrient management, plant protection and harvest. In this research, an image-based method for measuring the fruit volume as well as the leaf area for cabbage is presented. For this purpose, a mask region-based convolutional neural network (Mask R-CNN) was trained to segment the cabbage fruit from the leaves and assign it to the corresponding plant. The results indicated that even with a single camera, the developed method can provide a calculation accuracy of fruit size of 92.6% and an accuracy of leaf area of 89.8% on individual plant level.
翻訳日:2021-04-14 01:58:19 公開日:2021-04-12
# (参考訳) 機械学習とディープラーニング

Machine learning and deep learning ( http://arxiv.org/abs/2104.05314v1 )

ライセンス: CC BY 4.0
Christian Janiesch Patrick Zschech Kai Heinrich(参考訳) 今日、人工知能機能を提供するインテリジェントシステムは、しばしば機械学習に依存している。 機械学習は、問題固有のトレーニングデータから学習し、分析モデルの構築と関連するタスクのプロセスを自動化するシステムの能力を記述する。 ディープラーニングは、ニューラルネットワークに基づく機械学習の概念である。 多くのアプリケーションにおいて、ディープラーニングモデルは浅い機械学習モデルや従来のデータ分析アプローチよりも優れている。 本稿では,機械学習とディープラーニングの基礎を要約し,現在の知的システムの体系的基盤に関するより広範な理解を生み出す。 特に、関連する用語と概念を概念的に区別し、機械学習とディープラーニングによる自動分析モデル構築のプロセスを説明し、電子市場やネットワークビジネスの分野においてこのようなインテリジェントなシステムを実装する際に生じる課題について議論する。 これらは自然に技術的側面を超えて、人間と機械の相互作用と人工知能のキャビテーションの問題を浮き彫りにする。

Today, intelligent systems that offer artificial intelligence capabilities often rely on machine learning. Machine learning describes the capacity of systems to learn from problem-specific training data to automate the process of analytical model building and solve associated tasks. Deep learning is a machine learning concept based on artificial neural networks. For many applications, deep learning models outperform shallow machine learning models and traditional data analysis approaches. In this article, we summarize the fundamentals of machine learning and deep learning to generate a broader understanding of the methodical underpinning of current intelligent systems. In particular, we provide a conceptual distinction between relevant terms and concepts, explain the process of automated analytical model building through machine learning and deep learning, and discuss the challenges that arise when implementing such intelligent systems in the field of electronic markets and networked business. These naturally go beyond technological aspects and highlight issues in human-machine interaction and artificial intelligence servitization.
翻訳日:2021-04-14 01:52:30 公開日:2021-04-12
# (参考訳) 新型コロナウイルスの偽ツイートを早期に検出するための半教師付きコアテンションネットワークと外因性および内因性シグナルの組み合わせ

Combining exogenous and endogenous signals with a semi-supervised co-attention network for early detection of COVID-19 fake tweets ( http://arxiv.org/abs/2104.05321v1 )

ライセンス: CC BY 4.0
Rachit Bansal, William Scott Paka, Nidhi, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) フェイクツイートは絶え間なく増加しており、拡散に対抗するための即時対策を要求している。 新型コロナウイルス(COVID-19)では、誤報のあるツイートを早期に警告し、中立化し、被害を軽減する必要がある。 偽ニュースを早期に検出する既存の方法のほとんどは、大きなツイートをラベル付けするのに十分な伝搬情報を持っていると仮定している。 そこで本研究では,ラベル付きデータを用いて学習しながら,つぶやきに関する外因性および内因性信号を活用する新しい早期検出モデルであるendemicを提案する。 まず,新しいデータセットである ctf for early covid-19 twitter fake news を開発し,早期検出を検証するための行動テストセットを追加した。 フォロー・フォロー、ユーザー・ツイート、ツイート・リツイートのコネクションを持つ異種グラフを構築し、グラフ埋め込みモデルを訓練し、伝播情報を集約する。 グラフ埋め込みとコンテキスト特徴は内在的であり、時間関係のウェブスクラッド情報は外在的信号を構成する。 ENDEMICは、限定ラベル付きデータの課題を克服し、半教師付きで訓練されている。 信号表現を最適に融合するコアテンション機構を提案する。 ECTF、PolitFact、GossipCopの実験結果から、ENDEMICは早期の偽ツイートの検出に高い信頼性を示し、9つの最先端メソッドを著しく上回っている。

Fake tweets are observed to be ever-increasing, demanding immediate countermeasures to combat their spread. During COVID-19, tweets with misinformation should be flagged and neutralized in their early stages to mitigate the damages. Most of the existing methods for early detection of fake news assume to have enough propagation information for large labeled tweets -- which may not be an ideal setting for cases like COVID-19 where both aspects are largely absent. In this work, we present ENDEMIC, a novel early detection model which leverages exogenous and endogenous signals related to tweets, while learning on limited labeled data. We first develop a novel dataset, called CTF for early COVID-19 Twitter fake news, with additional behavioral test sets to validate early detection. We build a heterogeneous graph with follower-followee, user-tweet, and tweet-retweet connections and train a graph embedding model to aggregate propagation information. Graph embeddings and contextual features constitute endogenous, while time-relative web-scraped information constitutes exogenous signals. ENDEMIC is trained in a semi-supervised fashion, overcoming the challenge of limited labeled data. We propose a co-attention mechanism to fuse signal representations optimally. Experimental results on ECTF, PolitiFact, and GossipCop show that ENDEMIC is highly reliable in detecting early fake tweets, outperforming nine state-of-the-art methods significantly.
翻訳日:2021-04-14 01:35:41 公開日:2021-04-12
# (参考訳) MinkLoc++: 位置認識のためのライダーと単分子画像融合

MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition ( http://arxiv.org/abs/2104.05327v1 )

ライセンス: CC BY 4.0
Jacek Komorowski, Monika Wysoczanska, Tomasz Trzcinski(参考訳) 本稿では,LiDARからの点雲とRGBカメラからの画像という,一対のセンサ読み取りに基づく識別型マルチモーダルディスクリプタを提案する。 当社のディスクリプタminkloc++は、ロボットや自動運転車のアプリケーションにおける場所認識、再ローカライズ、ループクロージャの目的に使用できる。 我々は、各モードを別々に処理し、処理パイプラインの最終部分で融合するレイト・フュージョン・アプローチを用いる。 提案手法は,標準位置認識ベンチマークにおける最先端性能を実現する。 また,マルチモーダルディスクリプタをトレーニングする場合,支配的モダリティ問題を同定する。 この問題は、ネットワークがトレーニングデータにより大きな適合度を持つモダリティに焦点を合わせると現れる。 これにより、トレーニング中の損失は減少するが、評価セットの最適でないパフォーマンスにつながる。 本稿では,マルチモーダルニューラルネットワークを訓練する深層メトリック学習手法を用いて,そのようなリスクの検出と軽減について述べる。 私たちのコードはプロジェクトウェブサイトで公開されている。 https://github.com/jac99/minkloc3drgb。

We introduce a discriminative multimodal descriptor based on a pair of sensor readings: a point cloud from a LiDAR and an image from an RGB camera. Our descriptor, named MinkLoc++, can be used for place recognition, re-localization and loop closure purposes in robotics or autonomous vehicles applications. We use late fusion approach, where each modality is processed separately and fused in the final part of the processing pipeline. The proposed method achieves state-of-the-art performance on standard place recognition benchmarks. We also identify dominating modality problem when training a multimodal descriptor. The problem manifests itself when the network focuses on a modality with a larger overfit to the training data. This drives the loss down during the training but leads to suboptimal performance on the evaluation set. In this work we describe how to detect and mitigate such risk when using a deep metric learning approach to train a multimodal neural network. Our code is publicly available on the project website: https://github.com/jac99/MinkLoc3DRGB.
翻訳日:2021-04-14 01:23:36 公開日:2021-04-12
# (参考訳) データセットの不均衡に対してメタリーナーはどの程度敏感か?

How Sensitive are Meta-Learners to Dataset Imbalance? ( http://arxiv.org/abs/2104.05344v1 )

ライセンス: CC BY 4.0
Mateusz Ochal, Massimiliano Patacchiola, Amos Storkey, Jose Vazquez, Sen Wang(参考訳) Meta-Learning(ML)は、Few-Shot Learning(FSL)アルゴリズムをメタデータセットからサンプリングされたタスクのバッチに露出させることで、トレーニングツールとして有用であることが証明されている。 しかし、標準的なトレーニング手順は、オブジェクトクラスが異なる周波数で発生する可能性が高い実世界の動的な性質を見落としている。 不均衡なタスクは教師付き手法の性能に悪影響を及ぼすと一般的に理解されているが、不均衡なメタデータセットがFSL評価タスクに与える影響について重要な研究は行われていない。 この研究はこの問題の規模と範囲を明らかにする。 その結果,ML手法はタスクレベルでのメタデータセットの不均衡に対して,類似の不均衡比(\rho<20$)よりも頑健であり,ロングテールデータセットにおいても大きな不均衡率(\rho=65$)で効果が保たれることがわかった。 これらの結果は、データセットの不均衡とドメインシフトの下で一般化可能な特徴を学習できるMLアルゴリズムの暗黙的な強みを強調している。 実験を再現するコードはオープンソースライセンスでリリースされている。

Meta-Learning (ML) has proven to be a useful tool for training Few-Shot Learning (FSL) algorithms by exposure to batches of tasks sampled from a meta-dataset. However, the standard training procedure overlooks the dynamic nature of the real-world where object classes are likely to occur at different frequencies. While it is generally understood that imbalanced tasks harm the performance of supervised methods, there is no significant research examining the impact of imbalanced meta-datasets on the FSL evaluation task. This study exposes the magnitude and extent of this problem. Our results show that ML methods are more robust against meta-dataset imbalance than imbalance at the task-level with a similar imbalance ratio ($\rho<20$), with the effect holding even in long-tail datasets under a larger imbalance ($\rho=65$). Overall, these results highlight an implicit strength of ML algorithms, capable of learning generalizable features under dataset imbalance and domain-shift. The code to reproduce the experiments is released under an open-source license.
翻訳日:2021-04-14 01:05:36 公開日:2021-04-12
# (参考訳) 高速並列MR画像再構成のためのデュアルオクタベ・コンボリューション

Dual-Octave Convolution for Accelerated Parallel MR Image Reconstruction ( http://arxiv.org/abs/2104.05345v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Zhanyuan Yang, Geng Chen, Yong Xu, Ling Shao(参考訳) 磁気共鳴(MR)画像取得は本質的に長いプロセスであり、複数のアンダーサンプル画像の同時取得による加速は、常に研究の対象となっている。 本稿では,実成分と虚成分の両方からマルチスケールな空間周波数特徴を学習し,高速並列mr画像再構成を実現するデュアルオクターブ畳み込み(dual-octconv)を提案する。 オクターブ畳み込みを用いて複素演算を再構成することにより,mr画像のよりリッチな表現を捉えることができると同時に,空間冗長性を大幅に低減できることを示す。 より具体的には、入力特徴写像と畳み込み核はまず2つの成分(実数と虚数)に分割され、次にその空間周波数に応じて4つの群に分けられる。 次に、グループ内情報更新およびグループ間情報交換を行い、異なるグループ間でコンテキスト情報を集約する。 i) 様々な空間周波数における実成分と虚成分の相互作用を奨励し、よりリッチな表現能力を達成すること,および (ii) 実成分と虚成分の複数の空間周波数特性を学習することで受容場を拡大することである。 マルチコイルMR画像再構成の高速化における提案モデルの性能評価を行った。 異なるアンダーサンプリングパターンと加速度因子の下で,in vivo(in vivo)膝データセットを用いた広範囲な実験を行った。 高速並列MR画像再構成におけるモデルの有用性を実験的に検証した。 私たちのコードは、github.com/chunmeifeng/Dual-OctConvで利用可能です。

Magnetic resonance (MR) image acquisition is an inherently prolonged process, whose acceleration by obtaining multiple undersampled images simultaneously through parallel imaging has always been the subject of research. In this paper, we propose the Dual-Octave Convolution (Dual-OctConv), which is capable of learning multi-scale spatial-frequency features from both real and imaginary components, for fast parallel MR image reconstruction. By reformulating the complex operations using octave convolutions, our model shows a strong ability to capture richer representations of MR images, while at the same time greatly reducing the spatial redundancy. More specifically, the input feature maps and convolutional kernels are first split into two components (i.e., real and imaginary), which are then divided into four groups according to their spatial frequencies. Then, our Dual-OctConv conducts intra-group information updating and inter-group information exchange to aggregate the contextual information across different groups. Our framework provides two appealing benefits: (i) it encourages interactions between real and imaginary components at various spatial frequencies to achieve richer representational capacity, and (ii) it enlarges the receptive field by learning multiple spatial-frequency features of both the real and imaginary components. We evaluate the performance of the proposed model on the acceleration of multi-coil MR image reconstruction. Extensive experiments are conducted on an {in vivo} knee dataset under different undersampling patterns and acceleration factors. The experimental results demonstrate the superiority of our model in accelerated parallel MR image reconstruction. Our code is available at: github.com/chunmeifeng/Dual-OctConv.
翻訳日:2021-04-14 00:52:16 公開日:2021-04-12
# (参考訳) ロバストニューラルネットワークのためのスパース符号化フロントエンド

Sparse Coding Frontend for Robust Neural Networks ( http://arxiv.org/abs/2104.05353v1 )

ライセンス: CC BY-SA 4.0
Can Bakiskan, Metehan Cekic, Ahmet Dundar Sezer, Upamanyu Madhow(参考訳) ディープニューラルネットワークは、小さくて逆向きに作られた摂動に弱いことが知られている。 これらの攻撃に対する最も効果的な防御方法は、敵の訓練の変種である。 本稿では,クリーンな画像に対してのみ訓練される過激な防御について紹介する: スパースコーディングベースのフロントエンドは,分類器に到達する前に,敵の攻撃を著しく弱めている。 我々は,CIFAR-10データセットに対する防衛をLinf,L2,L1境界攻撃を含む広範囲な攻撃タイプで評価し,防衛の汎用的アプローチとしての可能性を実証した。

Deep Neural Networks are known to be vulnerable to small, adversarially crafted, perturbations. The current most effective defense methods against these adversarial attacks are variants of adversarial training. In this paper, we introduce a radically different defense trained only on clean images: a sparse coding based frontend which significantly attenuates adversarial attacks before they reach the classifier. We evaluate our defense on CIFAR-10 dataset under a wide range of attack types (including Linf , L2, and L1 bounded attacks), demonstrating its promise as a general-purpose approach for defense.
翻訳日:2021-04-14 00:23:01 公開日:2021-04-12
# (参考訳) 地域境界を破る:世界パンデミックに関する学術的・社会的コミュニケーション的嗜好の比較

Breaking Community Boundary: Comparing Academic and Social Communication Preferences regarding Global Pandemics ( http://arxiv.org/abs/2104.05409v1 )

ライセンス: CC BY 4.0
Qingqing Zhou and Chengzhi Zhang(参考訳) 世界的な新型コロナウイルスの感染拡大を受け、パンデミックは広く議論されている。 これは、多くの科学論文とソーシャルメディア上のユーザー生成コンテンツの量で明らかである。 本稿では,コミュニケーション嗜好の違いの観点から,パンデミックに関する学術的コミュニケーションと社会的コミュニケーションを比較することを目的とする。 グローバルなパンデミックに関する継続的な研究のための情報提供を目的としており、学術と社会コミュニティ間の知識障壁や情報不平等を排除している。 まず,パンデミック関連記事の全文とメタデータと,記事に言及したTwitterデータを収集した。 第2に,記事や関連ツイートの話題や感情傾向を抽出し,分析した。 最後に,パンデミックに関連した学術コミュニティと社会コミュニティの差異分析を行った。 研究者と一般人のパンデミックコミュニケーション嗜好(情報ニーズ,態度傾向など)を生成するために,得られたデータをマイニングした。 論文に言及した50,338件の論文と927,266件の対応ツイートから,研究認識の一貫性と特定の研究トピックの選好に関する学界と社会の世界的なパンデミックに関するコミュニケーションの相違が明らかになった。 また,大規模パンデミック関連ツイートの分析により,コミュニティ間のコミュニケーション嗜好の違いが確認された。

The global spread of COVID-19 has caused pandemics to be widely discussed. This is evident in the large number of scientific articles and the amount of user-generated content on social media. This paper aims to compare academic communication and social communication about the pandemic from the perspective of communication preference differences. It aims to provide information for the ongoing research on global pandemics, thereby eliminating knowledge barriers and information inequalities between the academic and the social communities. First, we collected the full text and the metadata of pandemic-related articles and Twitter data mentioning the articles. Second, we extracted and analyzed the topics and sentiment tendencies of the articles and related tweets. Finally, we conducted pandemic-related differential analysis on the academic community and the social community. We mined the resulting data to generate pandemic communication preferences (e.g., information needs, attitude tendencies) of researchers and the public, respectively. The research results from 50,338 articles and 927,266 corresponding tweets mentioning the articles revealed communication differences about global pandemics between the academic and the social communities regarding the consistency of research recognition and the preferences for particular research topics. The analysis of large-scale pandemic-related tweets also confirmed the communication preference differences between the two communities.
翻訳日:2021-04-14 00:13:04 公開日:2021-04-12
# (参考訳) feynを用いた記号回帰へのアプローチ

An Approach to Symbolic Regression Using Feyn ( http://arxiv.org/abs/2104.05417v1 )

ライセンス: CC BY 4.0
Kevin Ren\'e Brol{\o}s, Meera Vieira Machado, Chris Cave, Jaan Kasak, Valdemar Stentoft-Hansen, Victor Galindo Batanero, Tom Jelen, Casper Wilstrup(参考訳) 本稿では,feynと呼ばれる教師付き機械学習ツールを紹介する。 このツールを駆動するシミュレーションエンジンはqlatticeと呼ばれる。 QLatticeは、Richard Feynman氏のパス積分定式化にヒントを得た、教師付き機械学習ツールである。 これらのモデルを数学的方程式として解釈可能なグラフとして定式化し、解釈可能性、複雑性、モデル性能のトレードオフを完全に決定できる。 QLatticeの内部動作について簡単に触れ、科学的な問題にpythonパッケージであるFeynを適用する方法について説明する。 従来の機械学習アプローチとどう違うのか、それらと何が共通しているか、そして象徴的回帰と共通点のいくつかを示す。 このアプローチの利点をブラックボックスモデルとは対照的に説明する。 これを説明するために、基本的なデータセットを使用して調査ワークフローを実施し、qlatticeが機能間の関係を判断し、データディスカバリを行う上でどのように役立つかを示します。

In this article we introduce the supervised machine learning tool called Feyn. The simulation engine that powers this tool is called the QLattice. The QLattice is a supervised machine learning tool inspired by Richard Feynman's path integral formulation, that explores many potential models that solves a given problem. It formulates these models as graphs that can be interpreted as mathematical equations, allowing the user to completely decide on the trade-off between interpretability, complexity and model performance. We touch briefly upon the inner workings of the QLattice, and show how to apply the python package, Feyn, to scientific problems. We show how it differs from traditional machine learning approaches, what it has in common with them, as well as some of its commonalities with symbolic regression. We describe the benefits of this approach as opposed to black box models. To illustrate this, we go through an investigative workflow using a basic data set and show how the QLattice can help you reason about the relationships between your features and do data discovery.
翻訳日:2021-04-14 00:00:18 公開日:2021-04-12
# (参考訳) 多言語言語モデルによる読解行動の予測

Multilingual Language Models Predict Human Reading Behavior ( http://arxiv.org/abs/2104.05433v1 )

ライセンス: CC BY 4.0
Nora Hollenstein, Federico Pirovano, Ce Zhang, Lena J\"ager and Lisa Beinborn(参考訳) 大規模言語モデルが人間の読書行動のパターンを予測できるかどうかを分析する。 オランダ語,英語,ドイツ語,ロシア語の自然文処理を反映する読解時間尺度を予測するために,言語固有のトランスフォーマーモデルと多言語事前学習トランスフォーマーモデルの性能を比較する。 これは、トランスフォーマーモデルが人間の処理メカニズムに匹敵する方法で言語における相対的な重要性を暗黙的にエンコードしていることを示している。 BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。 一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。

We analyze if large language models are able to predict patterns of human reading behavior. We compare the performance of language-specific and multilingual pretrained transformer models to predict reading time measures reflecting natural human sentence processing on Dutch, English, German, and Russian texts. This results in accurate models of human reading behavior, which indicates that transformer models implicitly encode relative importance in language in a way that is comparable to human processing mechanisms. We find that BERT and XLM models successfully predict a range of eye tracking features. In a series of experiments, we analyze the cross-domain and cross-language abilities of these models and show how they reflect human sentence processing.
翻訳日:2021-04-13 23:48:17 公開日:2021-04-12
# (参考訳) 因果グラフ発見のためのNOTEARSの不適合性

Unsuitability of NOTEARS for Causal Graph Discovery ( http://arxiv.org/abs/2104.05441v1 )

ライセンス: CC BY 4.0
Marcus Kaiser, Maksim Sipos(参考訳) 因果発見法は、観測データから因果関係を表すDAG構造を特定することを目的としている。 本稿では, 実運用環境でのロバスト性をテストすることが重要であることを強調する。 主な例として, notears 法を分析し, スケール不変性が欠如していることを示す。 NOTEARSは,残差を説明するデータから擬似DAGを同定することを目的とした手法である。 我々は notears はデータから真に因果関係を特定するのに適していないと結論づける。

Causal Discovery methods aim to identify a DAG structure that represents causal relationships from observational data. In this article, we stress that it is important to test such methods for robustness in practical settings. As our main example, we analyze the NOTEARS method, for which we demonstrate a lack of scale-invariance. We show that NOTEARS is a method that aims to identify a parsimonious DAG from the data that explains the residual variance. We conclude that NOTEARS is not suitable for identifying truly causal relationships from the data.
翻訳日:2021-04-13 23:21:37 公開日:2021-04-12
# (参考訳) 内部変位モニタリングのためのアノテートリソースの開発

Developing Annotated Resources for Internal Displacement Monitoring ( http://arxiv.org/abs/2104.05459v1 )

ライセンス: CC BY 4.0
Fabio Poletto, Yunbai Zhang, Andre Panisson, Yelena Mejova, Daniela Paolotti, Sylvain Ponserre(参考訳) 本稿では,新たなアノテーションフレームワークの設計と開発について詳述し,モニタリングプラットフォームIDETECTの精度向上を目的とした内部配置監視センターとのコラボレーションの結果として,内部配置のための注釈付きリソースについて述べる。 スキーマには、原因、転職した人数、場所、日付など、イベントの多面的記述が含まれている。 文書の関連性や型などの情報抽出の改善を目的とした高次ファセットを提案する。 また,文書分類タスクにおける機械学習の適用事例について報告する。 最後に、データセットベンチマーク開発における標準化スキーマの重要性と、信頼性の高い災害監視インフラの開発への影響について論じる。

This paper describes in details the design and development of a novel annotation framework and of annotated resources for Internal Displacement, as the outcome of a collaboration with the Internal Displacement Monitoring Centre, aimed at improving the accuracy of their monitoring platform IDETECT. The schema includes multi-faceted description of the events, including cause, quantity of people displaced, location and date. Higher-order facets aimed at improving the information extraction, such as document relevance and type, are proposed. We also report a case study of machine learning application to the document classification tasks. Finally, we discuss the importance of standardized schema in dataset benchmark development and its impact on the development of reliable disaster monitoring infrastructure.
翻訳日:2021-04-13 23:14:48 公開日:2021-04-12
# (参考訳) 機械学習分類器における予測誤差の理解

Understanding Prediction Discrepancies in Machine Learning Classifiers ( http://arxiv.org/abs/2104.05467v1 )

ライセンス: CC BY 4.0
Xavier Renard, Thibault Laugel, Marcin Detyniecki(参考訳) 多数の分類器を同じデータでトレーニングして、テスト期間中に同様のパフォーマンスを達成できる一方で、かなり異なる分類パターンを学習することができる。 この現象は予測不一致と呼ばれ、しばしば類似した性能を持つモデルではなく、あるモデルの盲点選択と関連づけられる。 選択を行う場合、機械学習の実践者は、モデルの違い、限界、同意する場所、そうでない場所について何も理解しません。 しかし、彼の選択は、選択された分類パターンに基づいて最終決定を行うため、インスタンスを不一致ゾーンに分類する具体的な結果をもたらす。 結果の任意の性質に加えて、機会の喪失や公平性の欠如など、悪い選択がさらにネガティブな結果をもたらす可能性がある。 本稿では,同一データ上で訓練された最高の性能モデル群における予測誤差を分析し,この問題に対処することを提案する。 モデル非依存のアルゴリズムであるDIGは、不一致を局所的に捉え、説明し、その潜在的な望ましくない結果を予測することによって、モデルを選択する際に最良の教育的判断を行えるようにする。 実験を再現するコードはすべて利用可能です。

A multitude of classifiers can be trained on the same data to achieve similar performances during test time, while having learned significantly different classification patterns. This phenomenon, which we call prediction discrepancies, is often associated with the blind selection of one model instead of another with similar performances. When making a choice, the machine learning practitioner has no understanding on the differences between models, their limits, where they agree and where they don't. But his/her choice will result in concrete consequences for instances to be classified in the discrepancy zone, since the final decision will be based on the selected classification pattern. Besides the arbitrary nature of the result, a bad choice could have further negative consequences such as loss of opportunity or lack of fairness. This paper proposes to address this question by analyzing the prediction discrepancies in a pool of best-performing models trained on the same data. A model-agnostic algorithm, DIG, is proposed to capture and explain discrepancies locally, to enable the practitioner to make the best educated decision when selecting a model by anticipating its potential undesired consequences. All the code to reproduce the experiments is available.
翻訳日:2021-04-13 23:02:00 公開日:2021-04-12
# (参考訳) オートパイロット行動のプレビューによるメンタルモデルの構築

Building Mental Models through Preview of Autopilot Behaviors ( http://arxiv.org/abs/2104.05470v1 )

ライセンス: CC BY 4.0
Yuan Shen and Niviru Wijayaratne and Katherine Driggs-Campbell(参考訳) 効果的な人間と車両の協調は、安全と信頼のために適切な車両の振る舞いを判断する必要がない。 将来の予測モジュールを追加することで、以前の作業を改善するため、私たちはAutoPreviewというフレームワークを導入しました。 自動操縦の動作のプレビューは、車両との最初の探査段階において、スムーズな人間と車両の協調を保証するのに役立つ。 その実用性を示すために,人間と車両の協調に関する事例研究を行い,carlaシミュレータを用いたプロトタイプを構築した。 さらに、我々のAutoPreviewframeworkが直接の相互作用と比較して、オートパイロットの振る舞いをより深く理解できるかどうかを研究するために、オブジェクト間制御実験(n=10)を行った。 ourresultsは、autopreviewframeworkは、実際に、ヘルパーがオートパイロットの振る舞いを理解し、適切なメンタルモデルを開発することを示唆している。

Effective human-vehicle collaboration requires an appropriate un-derstanding of vehicle behavior for safety and trust. Improvingon our prior work by adding a future prediction module, we in-troduce our framework, calledAutoPreview, to enable humans topreview autopilot behaviors prior to direct interaction with thevehicle. Previewing autopilot behavior can help to ensure smoothhuman-vehicle collaboration during the initial exploration stagewith the vehicle. To demonstrate its practicality, we conducted acase study on human-vehicle collaboration and built a prototypeof our framework with the CARLA simulator. Additionally, weconducted a between-subject control experiment (n=10) to studywhether ourAutoPreviewframework can provide a deeper under-standing of autopilot behavior compared to direct interaction. Ourresults suggest that theAutoPreviewframework does, in fact, helpusers understand autopilot behavior and develop appropriate men-tal models
翻訳日:2021-04-13 22:47:00 公開日:2021-04-12
# (参考訳) 読み上げ音声における特徴検出のための深層学習

Deep Learning for Prominence Detection in Children's Read Speech ( http://arxiv.org/abs/2104.05488v1 )

ライセンス: CC BY-SA 4.0
Kamini Sabu, Mithilesh Vaidya, Preeti Rao(参考訳) 表現的読解は、口頭読解流の特質とされ、言い回しと発音の韻律的実現を包含する。 オーラルリーディングの評価の文脈では、話者のテキスト理解を確立するのに役立つ。 本研究は,音声韻律的特徴とレキシコ・シンタクティック特徴を用いた話者非依存な単語検出のための,子どもの読み書きのラベル付きデータセットについて考察する。 事前調整されたランダムな森林アンサンブル予測器はRNNシーケンス分類器に置き換えられ、より長い発話における潜在的なコンテキスト依存性を利用する。 さらに,エンド・ツー・エンド方式で基本周波数,強度,スペクトル形状の低レベル音響輪郭から単語レベル特徴を得るために深層学習を適用した。 パフォーマンスの比較は、さまざまな機能タイプと、さまざまな機能学習アーキテクチャで示され、目立った単語予測は、可能な限り洞察を引き出す。

Expressive reading, considered the defining attribute of oral reading fluency, comprises the prosodic realization of phrasing and prominence. In the context of evaluating oral reading, it helps to establish the speaker's comprehension of the text. We consider a labeled dataset of children's reading recordings for the speaker-independent detection of prominent words using acoustic-prosodic and lexico-syntactic features. A previous well-tuned random forest ensemble predictor is replaced by an RNN sequence classifier to exploit potential context dependency across the longer utterance. Further, deep learning is applied to obtain word-level features from low-level acoustic contours of fundamental frequency, intensity and spectral shape in an end-to-end fashion. Performance comparisons are presented across the different feature types and across different feature learning architectures for prominent word prediction to draw insights wherever possible.
翻訳日:2021-04-13 22:42:28 公開日:2021-04-12
# (参考訳) MRF-UNetによる画像セグメンテーションの専門家製品

An MRF-UNet Product of Experts for Image Segmentation ( http://arxiv.org/abs/2104.05495v1 )

ライセンス: CC BY 4.0
Mikael Brudfors, Ya\"el Balbastre, John Ashburner, Geraint Rees, Parashkev Nachev, S\'ebastien Ourselin, M. Jorge Cardoso(参考訳) バックプロパゲーションによって訓練された畳み込みニューラルネットワーク(cnns)は、セマンティクスセグメンテーションタスクで前例のない成功を収めているが、分散データに苦しむことが知られている。 一方、マルコフランダムフィールド(MRF)は、UNetsよりも柔軟性が低いが、過度に適合する傾向があるラベルよりも単純な分布を符号化する。 本稿では, unet と mrf の分布の積を計算し, 両者の戦略を融合させることを提案する。 この積は難解であるため、反復平均場アプローチを用いて近似分布を解く。 MRF-UNetはバックプロパゲーションによって共同で訓練される。 条件付きランダムフィールド(CRF)を用いた他の研究と比較すると、MRFは画像データに依存しないため、過度な適合を抑えることができる。 3dニューロイメージングデータを用いて,このネットワークが分布外サンプルへの一般化を改善することを示した。 さらに、精度を維持しつつパラメータ全体の数を減らすことができる。 これらの結果から,従来のMRFのスムーズさはCNNモデルに統合された場合の過度な適合を抑えることが示唆された。 私たちの実装はhttps://github.com/balbasty/nitorchで利用可能です。

While convolutional neural networks (CNNs) trained by back-propagation have seen unprecedented success at semantic segmentation tasks, they are known to struggle on out-of-distribution data. Markov random fields (MRFs) on the other hand, encode simpler distributions over labels that, although less flexible than UNets, are less prone to over-fitting. In this paper, we propose to fuse both strategies by computing the product of distributions of a UNet and an MRF. As this product is intractable, we solve for an approximate distribution using an iterative mean-field approach. The resulting MRF-UNet is trained jointly by back-propagation. Compared to other works using conditional random fields (CRFs), the MRF has no dependency on the imaging data, which should allow for less over-fitting. We show on 3D neuroimaging data that this novel network improves generalisation to out-of-distribution samples. Furthermore, it allows the overall number of parameters to be reduced while preserving high accuracy. These results suggest that a classic MRF smoothness prior can allow for less over-fitting when principally integrated into a CNN model. Our implementation is available at https://github.com/balbasty/nitorch.
翻訳日:2021-04-13 22:30:41 公開日:2021-04-12
# (参考訳) 失読症診断のためのグラフ埋め込みによる脳結合ネットワークのモデル化

Modelling Brain Connectivity Networks by Graph Embedding for Dyslexia Diagnosis ( http://arxiv.org/abs/2104.05497v1 )

ライセンス: CC BY 4.0
Marco A. Formoso, Andr\'es Ortiz, Francisco J. Mart\'inez-Murcia, Nicol\'as Gallego-Molina, Juan L. Luque(参考訳) 脳波(EEG)から情報を抽出するためのいくつかの方法が開発されている。 その1つは位相振幅結合(PAC)であり、これは異なるEEGバンドと電極の位相と振幅の同期を測定するためのクロス周波数結合(CFC)法の一種である。 これにより、同期的に活性化される脳領域に関する情報が提供され、最終的にはこれらの領域間の機能的接続のマーカーとなる。 本研究では、脳波における異なる電極間の関係を求めることにより、電極内および電極間PACを算出する。 そして、接続情報は、異なるノードが電極であり、それらの間のエッジPAC値であるグラフとして扱われる。 これらの構造は、マルチチャネルEEGサンプルの分類にさらに使用できる特徴ベクトルを作成するために埋め込まれている。 提案手法は,7歳児の失読症診断のためのタスクにおいて,特定の聴覚刺激を用いて取得した分類脳波サンプルに適用した。 提案手法は最大 0.73 までの auc 値を提供し、最も判別可能な電極と脳波帯を選択できる。

Several methods have been developed to extract information from electroencephalograms (EEG). One of them is Phase-Amplitude Coupling (PAC) which is a type of Cross-Frequency Coupling (CFC) method, consisting in measure the synchronization of phase and amplitude for the different EEG bands and electrodes. This provides information regarding brain areas that are synchronously activated, and eventually, a marker of functional connectivity between these areas. In this work, intra and inter electrode PAC is computed obtaining the relationship among different electrodes used in EEG. The connectivity information is then treated as a graph in which the different nodes are the electrodes and the edges PAC values between them. These structures are embedded to create a feature vector that can be further used to classify multichannel EEG samples. The proposed method has been applied to classified EEG samples acquired using specific auditory stimuli in a task designed for dyslexia disorder diagnosis in seven years old children EEG's. The proposed method provides AUC values up to 0.73 and allows selecting the most discriminant electrodes and EEG bands.
翻訳日:2021-04-13 22:18:57 公開日:2021-04-12
# (参考訳) L3DAS21 Challenge: 3Dオーディオ信号処理のための機械学習

L3DAS21 Challenge: Machine Learning for 3D Audio Signal Processing ( http://arxiv.org/abs/2104.05499v1 )

ライセンス: CC BY 4.0
Eric Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, Christian Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, Marco Pennese, Sveva Pepe, Enrico Rocchi, Aurelio Uncini, Danilo Comminiello(参考訳) L3DAS21 Challengeは、3D音声信号処理のための機械学習の共同研究を促進することを目的としており、特に3D音声強調(SE)と3D音声ローカライゼーションと検出(SELD)に焦点を当てている。 この課題に加えて、65時間の3DオーディオコーパスであるL3DAS21データセットをリリースし、データの使用と結果の提出を容易にするPython APIを伴います。 通常、3Dオーディオタスクに対する機械学習のアプローチは、単一パースペクティブなアンビニクス記録または単一カプセルマイクの配列に基づいている。 そこで本研究では,マルチソース・マルチパースペクティブ・アンビソニック・レコーディングを2つの1次アビソニック・マイクロホンで構成した,新しいマルチチャネル・オーディオ構成を提案する。 私たちの知る限りでは、これらのタスクにデュアルマイクのAmbisonics構成が使用されるのは初めてです。 本稿では,SELD 用 FaSNet とSELD 用 SELDNet の両タスクのベースラインモデルと結果について述べる。 このレポートは、L3DAS21チャレンジに参加するために必要なすべての情報を提供し、L3DAS21データセットの詳細、課題タスク、ベースラインモデルについて説明することを目的としている。

The L3DAS21 Challenge is aimed at encouraging and fostering collaborative research on machine learning for 3D audio signal processing, with particular focus on 3D speech enhancement (SE) and 3D sound localization and detection (SELD). Alongside with the challenge, we release the L3DAS21 dataset, a 65 hours 3D audio corpus, accompanied with a Python API that facilitates the data usage and results submission stage. Usually, machine learning approaches to 3D audio tasks are based on single-perspective Ambisonics recordings or on arrays of single-capsule microphones. We propose, instead, a novel multichannel audio configuration based multiple-source and multiple-perspective Ambisonics recordings, performed with an array of two first-order Ambisonics microphones. To the best of our knowledge, it is the first time that a dual-mic Ambisonics configuration is used for these tasks. We provide baseline models and results for both tasks, obtained with state-of-the-art architectures: FaSNet for SE and SELDNet for SELD. This report is aimed at providing all needed information to participate in the L3DAS21 Challenge, illustrating the details of the L3DAS21 dataset, the challenge tasks and the baseline models.
翻訳日:2021-04-13 22:12:01 公開日:2021-04-12
# (参考訳) ツイート中の自己申告可能性とCOVID-19症状を識別するための微調整トランスフォーマー

Fine-Tuning Transformers for Identifying Self-Reporting Potential Cases and Symptoms of COVID-19 in Tweets ( http://arxiv.org/abs/2104.05501v1 )

ライセンス: CC BY 4.0
Max Fleming, Priyanka Dondeti, Caitlin N. Dreisbach, Adam Poliak(参考訳) 我々は2021年のソーシャルメディアマイニング・フォー・ヘルス・アプリケーション(smm4h)におけるタスク5と6の共有タスクに対するストレートフォワード・アプローチについて述べる。 本システムでは,各タスクの精細な精細調整と,他のタスクのモデルを精細に調整する。 新型コロナウイルスの症状を報告したツイート(第5章)や、COVID-19に関連するツイートが自己報告されているのか、非個人報告なのか、ウイルスに関する文献/ニュース言及なのか(第6章)。

We describe our straight-forward approach for Tasks 5 and 6 of 2021 Social Media Mining for Health Applications (SMM4H) shared tasks. Our system is based on fine-tuning Distill- BERT on each task, as well as first fine-tuning the model on the other task. We explore how much fine-tuning is necessary for accurately classifying tweets as containing self-reported COVID-19 symptoms (Task 5) or whether a tweet related to COVID-19 is self-reporting, non-personal reporting, or a literature/news mention of the virus (Task 6).
翻訳日:2021-04-13 22:00:51 公開日:2021-04-12
# (参考訳) 製品変異体同定のための解釈可能な方法

Interpretable Methods for Identifying Product Variants ( http://arxiv.org/abs/2104.05504v1 )

ライセンス: CC BY 4.0
Rebecca West, Khalifeh Al Jadda, Unaiza Ahsan, Huiming Qu, Xiquan Cui(参考訳) 大規模な製品選択を行うeコマース企業にとって、優れた顧客ショッピング体験を作り、権威あるブランドイメージを育むためには、有意義な方法で製品の組織化とグループ化が重要である。 プロダクトをグループ化する重要な方法の1つは、変種がほとんど同じであり、わずかながら異なる相違点(例)を持つような、製品の変種族を特定することである。 カラーまたはパックサイズ)。 本稿では,製品変種を特定するための新しいアプローチを提案する。 制約付きクラスタリングとNLP技術(例えば)を組み合わせる。 バニラ分類法を用いて,非構造化製品名から製品姓を抽出し,類似モデル番号の商品を識別し,既存のベースラインと比較して優れた性能を得る。 さらに、幅広いカテゴリ(例えば、)の高精度な要求を満たすことを含む、特定のビジネス基準を満たすようにアルゴリズムを設計する。 器具、装飾品、道具、建築資材など モデルの解釈性を優先順位付けすることで、すべてのビジネスパートナがアクセスし、理解できるようにします。

For e-commerce companies with large product selections, the organization and grouping of products in meaningful ways is important for creating great customer shopping experiences and cultivating an authoritative brand image. One important way of grouping products is to identify a family of product variants, where the variants are mostly the same with slight and yet distinct differences (e.g. color or pack size). In this paper, we introduce a novel approach to identifying product variants. It combines both constrained clustering and tailored NLP techniques (e.g. extraction of product family name from unstructured product title and identification of products with similar model numbers) to achieve superior performance compared with an existing baseline using a vanilla classification approach. In addition, we design the algorithm to meet certain business criteria, including meeting high accuracy requirements on a wide range of categories (e.g. appliances, decor, tools, and building materials, etc.) as well as prioritizing the interpretability of the model to make it accessible and understandable to all business partners.
翻訳日:2021-04-13 21:55:43 公開日:2021-04-12
# (参考訳) 弱視による自己訓練

Self-Training with Weak Supervision ( http://arxiv.org/abs/2104.05514v1 )

ライセンス: CC BY 4.0
Giannis Karamanolakis, Subhabrata Mukherjee, Guoqing Zheng and Ahmed Hassan Awadallah(参考訳) 最先端のディープニューラルネットワークには大規模なラベル付きトレーニングデータが必要である。 ドメイン固有のルールという形での弱い監督は、弱いラベル付きトレーニングデータを自動的に生成するこのような設定で有用であることが示されている。 しかし,本質的なヒューリスティックでうるさい性質から,ルールの弱い学習は困難である。 もうひとつの課題はルールカバレッジと重複であり、弱い監視に関する事前の作業は、弱いルールで覆われたインスタンスのみを考慮し、貴重なラベルのないデータを残しておく。 本研究では、与えられたタスクに利用可能なすべてのデータを活用する弱い監視フレームワーク(ASTRA)を開発する。 この目的のために、コンテキスト化された表現を考慮し、弱いルールでカバーされないインスタンスの擬似ラベルを予測するモデル(スチューデント)による自己学習を通じて、タスク固有のラベルなしデータを活用する。 さらに,学生の擬似ラベルを弱いルールラベルで集約する方法を学習するルールアテンションネットワーク(教師)を開発し,その忠実さとインスタンスの基盤となるコンテキストを条件とした。 最後に、ラベルなしデータ、ドメイン固有のルール、少量のラベル付きデータによるエンドツーエンドトレーニングのための半教師付き学習目標を構築する。 テキスト分類のための6つのベンチマークデータセットに関する広範な実験は、最先端のベースラインよりも大幅に改善したアプローチの有効性を示しています。

State-of-the-art deep neural networks require large-scale labeled training data that is often expensive to obtain or not available for many tasks. Weak supervision in the form of domain-specific rules has been shown to be useful in such settings to automatically generate weakly labeled training data. However, learning with weak rules is challenging due to their inherent heuristic and noisy nature. An additional challenge is rule coverage and overlap, where prior work on weak supervision only considers instances that are covered by weak rules, thus leaving valuable unlabeled data behind. In this work, we develop a weak supervision framework (ASTRA) that leverages all the available data for a given task. To this end, we leverage task-specific unlabeled data through self-training with a model (student) that considers contextualized representations and predicts pseudo-labels for instances that may not be covered by weak rules. We further develop a rule attention network (teacher) that learns how to aggregate student pseudo-labels with weak rule labels, conditioned on their fidelity and the underlying context of an instance. Finally, we construct a semi-supervised learning objective for end-to-end training with unlabeled data, domain-specific rules, and a small amount of labeled data. Extensive experiments on six benchmark datasets for text classification demonstrate the effectiveness of our approach with significant improvements over state-of-the-art baselines.
翻訳日:2021-04-13 21:48:36 公開日:2021-04-12
# (参考訳) 荒地におけるダイヤモンド:GANラテント空間を横切ることでイメージリアリズムを改善する

Diamond in the rough: Improving image realism by traversing the GAN latent space ( http://arxiv.org/abs/2104.05518v1 )

ライセンス: CC BY 4.0
Jeffrey Wen, Fabian Benitez-Quiroz, Qianli Feng, Aleix Martinez(参考訳) わずか数年で、gans(generative adversarial networks)によって合成された画像のフォトリアリズムは、ネットワークの複雑さ(例えば層の追加、中間的潜在空間、スタイル変換パラメータなど)の増加によって、ある程度合理的からほぼ完全になった。 この軌道は、最先端のGANの多くを到達不能に大きくし、大量の計算資源を使わずに多くのものを解き放った。 そこで本研究では,既存の低複雑度ganから追加性能を絞り込む手法について検討する。 形式的には,フォトリアリズムを改良した潜在空間における方向を求めるための教師なし手法を提案する。 提案手法は,生成した画像の忠実度を向上しながらネットワークを変化させる。 我々は、画像空間の最小変化をもたらす潜在空間の方向を見つけるために、単純な生成元反転を用いる。 潜在空間の学習された構造を利用すると、この方向に移動すると多くの画像アーティファクトが修正され、画像がより現実的になる。 我々は,Frechet Inception Distance (FID) の改善が,従来のGANや教師あり手法を超越した軌道上に存在することを示し,質的に定量的に検証した。 さらに拡張し,サンプルの変動とリアリズムのバランスをとる経路に沿って潜在ベクトルを自動的に選択する最適化手法を提案する。 本手法を様々なデータセットと複雑な3つのアーキテクチャに適用し,手法の一般化可能性を示す。 低複雑さと既存ネットワークの実用性の拡大により、GANの民主化を奨励したい。

In just a few years, the photo-realism of images synthesized by Generative Adversarial Networks (GANs) has gone from somewhat reasonable to almost perfect largely by increasing the complexity of the networks, e.g., adding layers, intermediate latent spaces, style-transfer parameters, etc. This trajectory has led many of the state-of-the-art GANs to be inaccessibly large, disengaging many without large computational resources. Recognizing this, we explore a method for squeezing additional performance from existing, low-complexity GANs. Formally, we present an unsupervised method to find a direction in the latent space that aligns with improved photo-realism. Our approach leaves the network unchanged while enhancing the fidelity of the generated image. We use a simple generator inversion to find the direction in the latent space that results in the smallest change in the image space. Leveraging the learned structure of the latent space, we find moving in this direction corrects many image artifacts and brings the image into greater realism. We verify our findings qualitatively and quantitatively, showing an improvement in Frechet Inception Distance (FID) exists along our trajectory which surpasses the original GAN and other approaches including a supervised method. We expand further and provide an optimization method to automatically select latent vectors along the path that balance the variation and realism of samples. We apply our method to several diverse datasets and three architectures of varying complexity to illustrate the generalizability of our approach. By expanding the utility of low-complexity and existing networks, we hope to encourage the democratization of GANs.
翻訳日:2021-04-13 21:24:52 公開日:2021-04-12
# (参考訳) 仮想試着用布型インタラクティブトランス

Cloth Interactive Transformer for Virtual Try-On ( http://arxiv.org/abs/2104.05519v1 )

ライセンス: CC BY 4.0
Bin Ren, Hao Tang, Fanyang Meng, Runwei Ding, Ling Shao, Philip H.S. Torr, Nicu Sebe(参考訳) 2D画像に基づく仮想試行は、マルチメディアやコンピュータビジョンのコミュニティから注目を集めている。 しかし、既存の画像ベースの仮想試着手法のほとんどは、両者の相互相関を考慮せずに、直接、人とショップ内服の表現を結びつける。 さらに、グローバルに一貫した結果を生成する上で重要な長距離情報も、通常の畳み込み操作によって確立することが困難である。 そこで本稿では,この2つの問題を解消するため,仮想試着用2段布型インタラクティブトランス(cit)を提案する。 最初の段階では、より合理的な長距離関係を捉えることができる学習可能な薄板スプライン変換を実現するために、CITマッチングブロックを設計する。 結果として、歪んだインショップ服はより自然に見えます。 第2段階では,グローバルな相互依存を確立するための新しいCIT推論ブロックを提案する。 この相互依存に基づき、入力データ内の重要な領域を強調することができ、その結果、試行結果をより現実的なものにすることができる。 パブリックなファッションデータセットに関する大規模な実験により、私たちのCITは、定性的かつ定量的に新しい最先端のバーチャルトライオンパフォーマンスを達成できることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/Amazingren/CIT.comで入手できる。

2D image-based virtual try-on has attracted increased attention from the multimedia and computer vision communities. However, most of the existing image-based virtual try-on methods directly put both person and the in-shop clothing representations together, without considering the mutual correlation between them. What is more, the long-range information, which is crucial for generating globally consistent results, is also hard to be established via the regular convolution operation. To alleviate these two problems, in this paper we propose a novel two-stage Cloth Interactive Transformer (CIT) for virtual try-on. In the first stage, we design a CIT matching block, aiming to perform a learnable thin-plate spline transformation that can capture more reasonable long-range relation. As a result, the warped in-shop clothing looks more natural. In the second stage, we propose a novel CIT reasoning block for establishing the global mutual interactive dependence. Based on this mutual dependence, the significant region within the input data can be highlighted, and consequently, the try-on results can become more realistic. Extensive experiments on a public fashion dataset demonstrate that our CIT can achieve the new state-of-the-art virtual try-on performance both qualitatively and quantitatively. The source code and trained models are available at https://github.com/Amazingren/CIT.
翻訳日:2021-04-13 21:10:17 公開日:2021-04-12
# (参考訳) A-FMI: 特徴マップによる深層ネットワークからの属性の学習

A-FMI: Learning Attributions from Deep Networks via Feature Map Importance ( http://arxiv.org/abs/2104.05527v1 )

ライセンス: CC0 1.0
An Zhang, Xiang Wang, Chengfang Fang, Jie Shi, Tat-seng Chua, Zehua Chen(参考訳) 勾配に基づく帰属法は畳み込みニューラルネットワーク(CNN)の理解に役立つ。 しかし, 属性特徴の冗長性と, 重要な特徴を識別し, 説明焦点シフトを生じさせる勾配飽和問題は, 属性手法が直面する課題である。 本稿では,1)属性,強い関連性,2)cnnモデルに忠実な各特徴マップの寄与を洗練するための新しい概念である特徴マップ重要度(fmi),3)対象画像と参照画像とを結合する勾配飽和問題に対処するために,fmiを用いた新しい帰属法(a-fmi)を提案し,fmiを特徴マップの粒度における差分参照参照に割り当てる。 ImageNetデータセットの視覚的検査と質的評価を通じて、A-FMIの持つ忠実さ、参照の選択への敏感さ、クラス識別性、そして様々なCNNアーキテクチャにおける一般的な帰属手法と比較して優れた説明性能を示す。

Gradient-based attribution methods can aid in the understanding of convolutional neural networks (CNNs). However, the redundancy of attribution features and the gradient saturation problem, which weaken the ability to identify significant features and cause an explanation focus shift, are challenges that attribution methods still face. In this work, we propose: 1) an essential characteristic, Strong Relevance, when selecting attribution features; 2) a new concept, feature map importance (FMI), to refine the contribution of each feature map, which is faithful to the CNN model; and 3) a novel attribution method via FMI, termed A-FMI, to address the gradient saturation problem, which couples the target image with a reference image, and assigns the FMI to the difference-from-reference at the granularity of feature map. Through visual inspections and qualitative evaluations on the ImageNet dataset, we show the compelling advantages of A-FMI on its faithfulness, insensitivity to the choice of reference, class discriminability, and superior explanation performance compared with popular attribution methods across varying CNN architectures.
翻訳日:2021-04-13 20:52:33 公開日:2021-04-12
# (参考訳) エンドツーエンドcnn加速における全寿命コストの最適化

Optimizing the Whole-life Cost in End-to-end CNN Acceleration ( http://arxiv.org/abs/2104.05541v1 )

ライセンス: CC BY 4.0
Jiaqi Zhang, Xiangru Chen, Sandip Ray, Tao Li(参考訳) CNNの加速はコンピュータビジョンの成功以来、緊張が高まっている。 畳み込み層のみのために提案された加速器によってプロシースできない不均一な機能層により、現代のCNN加速器は、多種多様な計算を行列/ベクトル演算に変換するか、畳み込みにおけるデータ再利用の機会を失うか、あるいは各層に専用の機能ユニットを導入し、不使用と高更新コストをもたらす。 全体のコスト効率を高めるためには、cnn層を効率的に処理し、あらゆる種類の既存および新興層に適用できる汎用性を持つ加速ソリューションが必要である。 この目的のために、我々は、既存のCNNアクセラレーターによって効率的にプロシース可能な、CNN全体の計算を標準的畳み込み(GCONV)の連鎖に変換する手法であるGCONV Chainを提案する。 本稿では,GCONV Chainモデルを包括的に分析し,GCONV Chainをサポートするフルスタック実装を提案する。 一方、7つのvar-ious cnnの結果は、gconvチェーンが既存のcnn加速器の性能とエネルギー効率を平均3.4倍と3.2倍に改善していることを示している。 一方、gconv chainはcnn accelera-tionに対して、開発者の努力とユーザに対する総所有コストの両方を含む、低寿命のコストを提供する。

The acceleration of CNNs has gained increasing atten-tion since their success in computer vision. With the heterogeneous functional layers that cannot be pro-cessed by the accelerators proposed for convolution layers only, modern end-to-end CNN acceleration so-lutions either transform the diverse computation into matrix/vector arithmetic, which loses data reuse op-portunities in convolution, or introduce dedicated functional unit to each kind of layer, which results in underutilization and high update expense. To enhance the whole-life cost efficiency, we need an acceleration solution that is efficient in processing CNN layers and has the generality to apply to all kinds of existing and emerging layers. To this end, we pro-pose GCONV Chain, a method to convert the entire CNN computation into a chain of standard general convolutions (GCONV) that can be efficiently pro-cessed by the existing CNN accelerators. This paper comprehensively analyzes the GCONV Chain model and proposes a full-stack implementation to support GCONV Chain. On one hand, the results on seven var-ious CNNs demonstrate that GCONV Chain improves the performance and energy efficiency of existing CNN accelerators by an average of 3.4x and 3.2x re-spectively. On the other hand, we show that GCONV Chain provides low whole-life costs for CNN accelera-tion, including both developer efforts and total cost of ownership for the users.
翻訳日:2021-04-13 20:33:40 公開日:2021-04-12
# (参考訳) 言語処理のための強化学習に関する調査

Survey on reinforcement learning for language processing ( http://arxiv.org/abs/2104.05565v1 )

ライセンス: CC BY 4.0
Victor Uc-Cetina, Nicolas Navarro-Guerrero, Anabel Martin-Gonzalez, Cornelius Weber, Stefan Wermter(参考訳) 近年, 様々な自然言語処理タスクの解法において, 強化学習(RL)アルゴリズムを重要な要素として活用する研究が進められている。 例えば、深層学習を活用するこれらのアルゴリズムの中には、会話システムへの道を見出したものもある。 本稿では,自然言語処理における様々な問題に対するrl法の利用可能性について,主に会話型システムに着目し,その関連性が高まることに着目して,rl法の現状について概説する。 この問題の詳細な説明と、なぜRLがそれらを解決するのに適しているのかについて議論する。 また,これらの手法の利点と限界も分析する。 最後に,強化学習の恩恵を受ける自然言語処理における有望な研究方向について詳述する。

In recent years some researchers have explored the use of reinforcement learning (RL) algorithms as key components in the solution of various natural language processing tasks. For instance, some of these algorithms leveraging deep neural learning have found their way into conversational systems. This paper reviews the state of the art of RL methods for their possible use for different problems of natural language processing, focusing primarily on conversational systems, mainly due to their growing relevance. We provide detailed descriptions of the problems as well as discussions of why RL is well-suited to solve them. Also, we analyze the advantages and limitations of these methods. Finally, we elaborate on promising research directions in natural language processing that might benefit from reinforcement learning.
翻訳日:2021-04-13 20:06:54 公開日:2021-04-12
# (参考訳) IoTのためのディープラーニング

Deep Learning for IoT ( http://arxiv.org/abs/2104.05569v1 )

ライセンス: CC BY 4.0
Tao Lin(参考訳) ディープラーニングやその他の機械学習アプローチは、IoTやIoTに関連する多くのシステムにデプロイされる。 しかし、敵が履歴データを改ざんすることで、システムに抜け穴をあけるという課題に直面している。 本稿ではまず,敵対的機械学習の総合点について述べる。 そして、ペトリネットのような従来の手法では、この問題を効率的に解けない。 より効率的なIoTデータ分析を支援するために,ディープラーニング(リカレントニューラルネットワーク)に基づく検索手法を提案する。 さらに,敵マシンの傾き領域における敵によるハッキングを回避するために,データ検索ソリューションに関する研究を行った。 さらに、敵対的なディープラーニングに基づいて、IoT設定でこのフレームワークを実装する方法について、新たなアプローチを指示する。

Deep learning and other machine learning approaches are deployed to many systems related to Internet of Things or IoT. However, it faces challenges that adversaries can take loopholes to hack these systems through tampering history data. This paper first presents overall points of adversarial machine learning. Then, we illustrate traditional methods, such as Petri Net cannot solve this new question efficiently. To help IoT data analysis more efficient, we propose a retrieval method based on deep learning (recurrent neural network). Besides, this paper presents a research on data retrieval solution to avoid hacking by adversaries in the fields of adversary machine leaning. It further directs the new approaches in terms of how to implementing this framework in IoT settings based on adversarial deep learning.
翻訳日:2021-04-13 20:06:04 公開日:2021-04-12
# (参考訳) 自動復号型奥行き埋め込みによる主観評価からの学習

Learning from Subjective Ratings Using Auto-Decoded Deep Latent Embeddings ( http://arxiv.org/abs/2104.05570v1 )

ライセンス: CC BY 4.0
Bowen Li, Xinping Ren, Ke Yan, Le Lu, Guotong Xie, Jing Xiao, Dar-In Tai, Adam P. Harrison(参考訳) 応用によっては、放射線診断は高い層間および層内変動に関連付けられる。 ほとんどのコンピュータ支援診断(CAD)ソリューションは、そのようなデータを非可逆的として扱い、学習アルゴリズムをかなり矛盾するラベルノイズやバイアスに晒す。 したがって、ラベルの主観性を管理することは、医療画像解析における根本的な問題である。 この課題に対処するために、オートデコーダフレームワークを用いて各レーダの傾向を明示的にモデル化するオートデコード深層埋め込み(ADDLE)を導入する。 単純な線形変換の後、潜在変数は任意の点と複数の点のバックボーンに注入でき、モデルが診断に対するレートラー固有の効果を考慮できる。 重要なことは、ADDLEはトレーニング中の画像ごとに複数のラッカーを期待していないため、病院のアーカイブから抽出したデータから容易に学習できるということだ。 さらに、より多くのレートが加わり、トレーニングの複雑さが増すことはない。 推論の間、各レートをシミュレートし、「平均」または「欲深い」仮想レーティングを生成することができる。 2d超音波(us)から肝ステアトーシスを診断する問題について検討し, 46, 084の検診と65の異なる検診者由来の米国臨床検診を併用して検討した。 金標準生検診断用別データセットを用いて診断性能を評価した。 ADDLEは、65倍のパラメータを必要とするものを含む他のアノテータノイズアプローチよりも優れている一方で、標準分類器よりも10.5%の重症脂肪症を診断するための曲線(AUC)下の部分領域を改善することができる。

Depending on the application, radiological diagnoses can be associated with high inter- and intra-rater variabilities. Most computer-aided diagnosis (CAD) solutions treat such data as incontrovertible, exposing learning algorithms to considerable and possibly contradictory label noise and biases. Thus, managing subjectivity in labels is a fundamental problem in medical imaging analysis. To address this challenge, we introduce auto-decoded deep latent embeddings (ADDLE), which explicitly models the tendencies of each rater using an auto-decoder framework. After a simple linear transformation, the latent variables can be injected into any backbone at any and multiple points, allowing the model to account for rater-specific effects on the diagnosis. Importantly, ADDLE does not expect multiple raters per image in training, meaning it can readily learn from data mined from hospital archives. Moreover, the complexity of training ADDLE does not increase as more raters are added. During inference each rater can be simulated and a 'mean' or 'greedy' virtual rating can be produced. We test ADDLE on the problem of liver steatosis diagnosis from 2D ultrasound (US) by collecting 46 084 studies along with clinical US diagnoses originating from 65 different raters. We evaluated diagnostic performance using a separate dataset with gold-standard biopsy diagnoses. ADDLE can improve the partial areas under the curve (AUCs) for diagnosing severe steatosis by 10.5% over standard classifiers while outperforming other annotator-noise approaches, including those requiring 65 times the parameters.
翻訳日:2021-04-13 20:01:36 公開日:2021-04-12
# (参考訳) 分散非同期選択最適化(DASO)によるニューラルネットワークトレーニングの高速化

Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) ( http://arxiv.org/abs/2104.05588v1 )

ライセンス: CC BY 4.0
Daniel Coquelin, Charlotte Debus, Markus G\"otz, Fabrice von der Lehr, James Kahn, Martin Siggel, and Achim Steit(参考訳) データとモデルの複雑さの増加に伴い、ニューラルネットワークのトレーニングに要する時間は大きくなっている。 トレーニング時間の指数的な増加に対応するため、ユーザは、コンピュータクラスタ上で大規模な分散リソースを使用するために、データ並列ニューラルネットワーク(DPNN)に目を向けている。 現在のDPNNアプローチでは、通信操作をブロックする全プロセスの勾配を同期し平均化することで、ネットワークパラメータの更新を実装している。 この同期はアルゴリズムのボトルネックの中心である。 これに対抗するために,マルチGPU計算ノードアーキテクチャを活用してネットワークトレーニングを高速化する分散非同期選択最適化(DASO)手法を提案する。 DASOはノードローカルネットワークとグローバルネットワークで構成される階層的非同期通信方式を用いて,学習過程におけるグローバル同期率を調整する。 DASOは従来のデータ並列トレーニング手法と比較して,従来のネットワークや最先端ネットワークでは最大34%のトレーニング時間を短縮できることを示す。

With increasing data and model complexities, the time required to train neural networks has become prohibitively large. To address the exponential rise in training time, users are turning to data parallel neural networks (DPNN) to utilize large-scale distributed resources on computer clusters. Current DPNN approaches implement the network parameter updates by synchronizing and averaging gradients across all processes with blocking communication operations. This synchronization is the central algorithmic bottleneck. To combat this, we introduce the Distributed Asynchronous and Selective Optimization (DASO) method which leverages multi-GPU compute node architectures to accelerate network training. DASO uses a hierarchical and asynchronous communication scheme comprised of node-local and global networks while adjusting the global synchronization rate during the learning process. We show that DASO yields a reduction in training time of up to 34% on classical and state-of-the-art networks, as compared to other existing data parallel training methods.
翻訳日:2021-04-13 19:51:19 公開日:2021-04-12
# (参考訳) pac bayesian performance guarantees for deep (stochastic) network in medical imaging (英語)

PAC Bayesian Performance Guarantees for Deep (Stochastic) Networks in Medical Imaging ( http://arxiv.org/abs/2104.05600v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Xingchen Zhao, Anastasia Sosnovskikh, Seong Jae Hwang(参考訳) 深層ニューラルネットワークの医療画像への応用は、ある意味では一般的である。 それでも、ディープラーニングムーブメントの"側面のツーン"は、ディープネットワークが何らかの形で過剰に適合しがちで、データセットが小さい場合にはうまく一般化できない、という主張である。 この主張はベースレスではなく、一般化誤差のPAC境界が深いネットワークにとって大きすぎる(すなわち論理的に意味がない)という観察に由来する可能性が高い。 これとは対照的に、PAC-Bayesianフレームワークを用いた最近の進歩は、大規模(確率的な)ネットワークと標準データセット(例えば、MNISTとCIFAR-10)の一般化誤差に非空境界を示す。 これらのテクニックを、より小さな医療想像データセット(isic 2018チャレンジセット)に適用します。 さらに,PAC-Bayesian フレームワークを用いて行われていないセグメンテーションタスクにおけるディープネットワークの一般化を検討する。 重要視されるのは, 試料サイズが激減しているにもかかわらず, 結果境界も空でないことである。 以上より,医用画像領域における深部確率ネットワークに対するPAC-Bayesian境界の適用性を示した。

Application of deep neural networks to medical imaging tasks has in some sense become commonplace. Still, a "thorn in the side" of the deep learning movement is the argument that deep networks are somehow prone to overfitting and are thus unable to generalize well when datasets are small. The claim is not baseless and likely stems from the observation that PAC bounds on generalization error are usually so large for deep networks that they are vacuous (i.e., logically meaningless). Contrary to this, recent advances using the PAC-Bayesian framework have instead shown non-vacuous bounds on generalization error for large (stochastic) networks and standard datasets (e.g., MNIST and CIFAR-10). We apply these techniques to a much smaller medical imagining dataset (the ISIC 2018 challenge set). Further, we consider generalization of deep networks on segmentation tasks which has not commonly been done using the PAC-Bayesian framework. Importantly, we observe that the resultant bounds are also non-vacuous despite the sharp reduction in sample size. In total, our results demonstrate the applicability of PAC-Bayesian bounds for deep stochastic networks in the medical imaging domain.
翻訳日:2021-04-13 19:39:27 公開日:2021-04-12
# (参考訳) 生成型adversarial networkにおける過剰パラメータ化の理解

Understanding Overparameterization in Generative Adversarial Networks ( http://arxiv.org/abs/2104.05605v1 )

ライセンス: CC BY 4.0
Yogesh Balaji, Mohammadmahdi Sajedi, Neha Mukund Kalibhat, Mucong Ding, Dominik St\"oger, Mahdi Soltanolkotabi, Soheil Feizi(参考訳) GAN(Generative Adversarial Networks)のような教師なしのディープラーニング手法の幅広いクラスは、モデルのパラメータ数が一定の閾値を超える過パラメータ化モデルのトレーニングを含む。 教師付き学習における大きな研究は、勾配降下 (gd) のグローバル最適解への収束において、モデル過剰パラメータ化の重要性を示している。 対照的に、教師なしの設定と GAN には、非凸凸のミニマックス最適化問題が含まれており、グラディエント・Descent/Ascent (GDA) を用いてしばしば訓練される。 非凸凹問題におけるGDAのグローバルサドル点への収束におけるモデル過度パラメータ化の役割と利点は、はるかに理解されていない。 本稿では,GANにおけるモデル過度パラメータ化の重要性を理論的にも経験的にも包括的に分析する。 理論的には、1ドル層ニューラルネットワークジェネレータと線形判別器を備えた過度パラメータ化GANモデルにおいて、GDAは基礎となる非凸凹 min-max 問題の大域的なサドル点に収束する。 我々の知る限りでは、このような環境でGDAをグローバルに収束させる最初の結果である。 我々の理論は、特定の仮定に従うより広範な非線形ジェネレータや判別器(より深いジェネレータやランダムな特徴判別器を含む)のクラスに対するより一般的な結果に基づいている。 また, CIFAR-10 と Celeb-A データセットを用いた大規模実験により, GAN におけるモデル過度パラメータ化の役割を実証的に検討した。 実験により、オーバーパラメータ化により、様々なモデルアーキテクチャやデータセットで生成されたサンプルの品質が向上することが示された。 注目すべきことに、オーバーパラメータ化はGDAのボード全体の高速でより安定した収束挙動をもたらす。

A broad class of unsupervised deep learning methods such as Generative Adversarial Networks (GANs) involve training of overparameterized models where the number of parameters of the model exceeds a certain threshold. A large body of work in supervised learning have shown the importance of model overparameterization in the convergence of the gradient descent (GD) to globally optimal solutions. In contrast, the unsupervised setting and GANs in particular involve non-convex concave mini-max optimization problems that are often trained using Gradient Descent/Ascent (GDA). The role and benefits of model overparameterization in the convergence of GDA to a global saddle point in non-convex concave problems is far less understood. In this work, we present a comprehensive analysis of the importance of model overparameterization in GANs both theoretically and empirically. We theoretically show that in an overparameterized GAN model with a $1$-layer neural network generator and a linear discriminator, GDA converges to a global saddle point of the underlying non-convex concave min-max problem. To the best of our knowledge, this is the first result for global convergence of GDA in such settings. Our theory is based on a more general result that holds for a broader class of nonlinear generators and discriminators that obey certain assumptions (including deeper generators and random feature discriminators). We also empirically study the role of model overparameterization in GANs using several large-scale experiments on CIFAR-10 and Celeb-A datasets. Our experiments show that overparameterization improves the quality of generated samples across various model architectures and datasets. Remarkably, we observe that overparameterization leads to faster and more stable convergence behavior of GDA across the board.
翻訳日:2021-04-13 19:24:39 公開日:2021-04-12
# (参考訳) ディジタルロック物理における等変幾何学習:モースグラフから生成因子と有効透水性テンソルを推定する

Equivariant geometric learning for digital rock physics: estimating formation factor and effective permeability tensors from Morse graph ( http://arxiv.org/abs/2104.05608v1 )

ライセンス: CC BY 4.0
Chen Cai, Nikolaos Vlassis, Lucas Magee, Ran Ma, Zeyu Xiong, Bahador Bahmani, Teng-Fong Wong, Yusu Wang, WaiChing Sun(参考訳) マイクロCT画像から生成因子と透過性を直接予測するSE(3)-equivariant graph neural network (GNN) を提案する。 FFTソルバは形成係数と有効透過性の両方を計算するために確立され、孔空間の位相と幾何学は永続性に基づくモースグラフで表される。 それらは共に、ニューラルネットワークのトレーニング、検証、テストのためのデータベースを構成する。 グラフとユークリッド畳み込みのアプローチはどちらも、フォワード予測のためのミクロ構造の特徴を表現するために低次元潜在空間を生成するためにニューラルネットワークを使用しているが、SE(3)同変ニューラルネットワークは、特にトレーニングデータが制限された場合、より正確な予測を生成する。 数値実験により、新しいSE(3)アプローチは、材料フレームの差分を満たす予測につながるが、古典的畳み込みニューラルネットワーク(CNN)からの予測は、トレーニングデータの座標系に急激な依存を被ることが示されている。 cnnとグラフ畳み込みニューラルネットワーク(gnn)のトレーニングから推定される予測と等価制約の有無による予測の比較は、等価グラフニューラルネットワークが等価制約を課さずにcnnやgnnよりも良く機能していることを示している。

We present a SE(3)-equivariant graph neural network (GNN) approach that directly predicting the formation factor and effective permeability from micro-CT images. FFT solvers are established to compute both the formation factor and effective permeability, while the topology and geometry of the pore space are represented by a persistence-based Morse graph. Together, they constitute the database for training, validating, and testing the neural networks. While the graph and Euclidean convolutional approaches both employ neural networks to generate low-dimensional latent space to represent the features of the micro-structures for forward predictions, the SE(3) equivariant neural network is found to generate more accurate predictions, especially when the training data is limited. Numerical experiments have also shown that the new SE(3) approach leads to predictions that fulfill the material frame indifference whereas the predictions from classical convolutional neural networks (CNN) may suffer from spurious dependence on the coordinate system of the training data. Comparisons among predictions inferred from training the CNN and those from graph convolutional neural networks (GNN) with and without the equivariant constraint indicate that the equivariant graph neural network seems to perform better than the CNN and GNN without enforcing equivariant constraints.
翻訳日:2021-04-13 19:23:05 公開日:2021-04-12
# (参考訳) 単一のオフライン環境からゼロショットダイナミクスを一般化する拡張現実モデル

Augmented World Models Facilitate Zero-Shot Dynamics Generalization From a Single Offline Environment ( http://arxiv.org/abs/2104.05632v1 )

ライセンス: CC BY 4.0
Philip J. Ball, Cong Lu, Jack Parker-Holder, Stephen Roberts(参考訳) 大規模オフラインデータセットからの強化学習は、潜在的に安全で非現実的な探索なしにポリシを学習する能力を提供します。 過去数年間、データ収集と学習ポリシーの異なる振る舞いを修正するという課題に対処する上で、重要な進歩があった。 しかし、既存の手法でパフォーマンスを最大90%削減できるオンライン環境にポリシーを移行する際のダイナミクスの変化にはほとんど注意が払われていない。 本稿では,AugWM(Augmented World Models)を用いてこの問題に対処する。 我々は,ロボットの物理的特性の潜在的な変化を捉えようとする単純な変換によって学習したダイナミクスモデルを強化し,より強固なポリシーを実現する。 この新しい環境でポリシーをトレーニングするだけでなく、コンテキストとしてサンプル化された拡張を提供することで、環境の変化に適応できるようにしています。 テスト時には、新しい環境に対応する拡張を近似することで、自己教師型でコンテキストを学習する。 我々は,100以上の異なるダイナミックス設定に対する我々のアプローチを厳格に評価し,この単純なアプローチが最近の最先端ベースラインのゼロショット一般化を著しく改善し,ベースラインが失敗するポリシを成功させることを示す。

Reinforcement learning from large-scale offline datasets provides us with the ability to learn policies without potentially unsafe or impractical exploration. Significant progress has been made in the past few years in dealing with the challenge of correcting for differing behavior between the data collection and learned policies. However, little attention has been paid to potentially changing dynamics when transferring a policy to the online setting, where performance can be up to 90% reduced for existing methods. In this paper we address this problem with Augmented World Models (AugWM). We augment a learned dynamics model with simple transformations that seek to capture potential changes in physical properties of the robot, leading to more robust policies. We not only train our policy in this new setting, but also provide it with the sampled augmentation as a context, allowing it to adapt to changes in the environment. At test time we learn the context in a self-supervised fashion by approximating the augmentation which corresponds to the new environment. We rigorously evaluate our approach on over 100 different changed dynamics settings, and show that this simple approach can significantly improve the zero-shot generalization of a recent state-of-the-art baseline, often achieving successful policies where the baseline fails.
翻訳日:2021-04-13 18:58:32 公開日:2021-04-12
# (参考訳) 自然駆動データにおけるオンランプマージ解析のための教師なし車線変更同定

Unsupervised Lane-Change Identification for On-Ramp Merge Analysis in Naturalistic Driving Data ( http://arxiv.org/abs/2104.05661v1 )

ライセンス: CC BY-SA 4.0
Lars Klitzke, Kay Gimm, Carsten Koch, Frank K\"oster(参考訳) コネクテッド・アンド・オートマチック・ビークルズ(CAV)は、将来の産業・民間交通部門を変革する計画である。 システムの複雑さのため、技術がパブリックドメインにマージする前には、機能検証と安全面の検証が不可欠である。 近年、シナリオ駆動型アプローチは、シナリオの堅固なデータベースの必要性を強調するCAVに対して受け入れられている。 大規模な研究施設であるテストベッドローワーサクソン (TFNDS) は、自動車のシナリオのデータベースにかなりの情報を提供することができる。 しかし、その目的のために、興味のあるシナリオを識別し、収集された軌跡データに分類する必要がある。 本研究は,この問題に対処し,シナリオ分類と評価を可能にするオンランプシナリオ識別のためのフレームワークを提案する。 フレームワークの有効性は、TFNDSで収集されたデータセットで示される。

Connected and Automated Vehicles (CAVs) are envisioned to transform the future industrial and private transportation sectors. Due to the complexity of the systems, functional verification and validation of safety aspects are essential before the technology merges into the public domain. In recent years, a scenario-driven approach has gained acceptance for CAVs emphasizing the requirement of a solid data basis of scenarios. The large-scale research facility Test Bed Lower Saxony (TFNDS) enables the provision of substantial information for a database of scenarios on motorways. For that purpose, however, the scenarios of interest must be identified and categorized in the collected trajectory data. This work addresses this problem and proposes a framework for on-ramp scenario identification that also enables for scenario categorization and assessment. The efficacy of the framework is shown with a dataset collected on the TFNDS.
翻訳日:2021-04-13 18:41:04 公開日:2021-04-12
# (参考訳) MTにおけるユーザ信頼を改善するバックトランスレーションフィードバック

Backtranslation Feedback Improves User Confidence in MT, Not Quality ( http://arxiv.org/abs/2104.05688v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar, Michal Nov\'ak, Mat\'u\v{s} \v{Z}ilinec, Ond\v{r}ej Bojar, Mateo Obreg\'on, Robin L. Hill, Fr\'ed\'eric Blain, Marina Fomicheva, Lucia Specia, Lisa Yankovskaya(参考訳) テキストを未知の言語に翻訳することは、アウトバウンド翻訳(outbound translation)と呼ばれ、基本的な機械翻訳機能を超えて、ユーザエクスペリエンスが改善の余地を持つ現代的なニーズである。 我々は、逆変換、品質推定(アライメント付き)、ソースパラフレージングの3つの方法を示すことにより、アウトバウンド翻訳に対するユーザの信頼度と最終的な品質が影響を受けることを実証する。 本稿では,英語からチェコ語,エストニア語へのアウトバウンド翻訳実験について述べる。 提案するフィードバックモジュールの効果について検討し,機械翻訳システムの品質がこれらの結果にどのように影響するか,ユーザによる成功の認識にさらに注目する。 逆変換のフィードバックは、プロセス全体に対して混合効果を持つ: 生成した翻訳に対するユーザの信頼度を高めるが、客観的な品質ではない。

Translating text into a language unknown to the text's author, dubbed outbound translation, is a modern need for which the user experience has significant room for improvement, beyond the basic machine translation facility. We demonstrate this by showing three ways in which user confidence in the outbound translation, as well as its overall final quality, can be affected: backward translation, quality estimation (with alignment) and source paraphrasing. In this paper, we describe an experiment on outbound translation from English to Czech and Estonian. We examine the effects of each proposed feedback module and further focus on how the quality of machine translation systems influence these findings and the user perception of success. We show that backward translation feedback has a mixed effect on the whole process: it increases user confidence in the produced translation, but not the objective quality.
翻訳日:2021-04-13 18:23:59 公開日:2021-04-12
# (参考訳) マスケッド言語モデリングの帰納的バイアスについて:統計的から構文的依存性へ

On the Inductive Bias of Masked Language Modeling: From Statistical to Syntactic Dependencies ( http://arxiv.org/abs/2104.05694v1 )

ライセンス: CC BY 4.0
Tianyi Zhang and Tatsunori Hashimoto(参考訳) 教師なしの方法でトークンのマスキングと予測が,言語構造と下流のパフォーマンス向上をいかに生み出すかを検討する。 最近の理論では、事前訓練された言語モデルは下流タスクのクローズ削減として暗黙的に作用するマスクを通して有用な帰納的バイアスを得ることが示唆されている。 しかし,このようなクローゼ様マスクだけでは,実際に使用されるランダムマスキング戦略の成功は説明できないことを示す。 3つの分類データセットに対してタスク固有のレキシコンを用いてクローゼ様マスクを構築し,プリトレーニングされたパフォーマンス向上の大部分は、レキシコンとは無関係な汎用マスクによるものであることを示す。 これらの汎用マスクの実証的な成功を説明するために,マスケッド言語モデル(MLM)の目的と,グラフィカルモデルにおける統計的依存を学習するための既存の手法との対応性を示す。 これを用いて,MLMにおけるこれらの学習された統計的依存関係を抽出し,それらの依存関係が構文構造の形で有用な帰納的バイアスをコードしていることを示す。 教師なし解析評価では、暗黙の統計依存構造上に最小のスパンニングツリーを形成するだけで、教師なし解析の古典的手法(58.74 vs. 55.91 UUAS)より優れる。

We study how masking and predicting tokens in an unsupervised fashion can give rise to linguistic structures and downstream performance gains. Recent theories have suggested that pretrained language models acquire useful inductive biases through masks that implicitly act as cloze reductions for downstream tasks. While appealing, we show that the success of the random masking strategy used in practice cannot be explained by such cloze-like masks alone. We construct cloze-like masks using task-specific lexicons for three different classification datasets and show that the majority of pretrained performance gains come from generic masks that are not associated with the lexicon. To explain the empirical success of these generic masks, we demonstrate a correspondence between the Masked Language Model (MLM) objective and existing methods for learning statistical dependencies in graphical models. Using this, we derive a method for extracting these learned statistical dependencies in MLMs and show that these dependencies encode useful inductive biases in the form of syntactic structures. In an unsupervised parsing evaluation, simply forming a minimum spanning tree on the implied statistical dependence structure outperforms a classic method for unsupervised parsing (58.74 vs. 55.91 UUAS).
翻訳日:2021-04-13 18:10:25 公開日:2021-04-12
# (参考訳) 共同ユニバーサル構文解析と意味解析

Joint Universal Syntactic and Semantic Parsing ( http://arxiv.org/abs/2104.05696v1 )

ライセンス: CC BY 4.0
Elias Stengel-Eskin, Kenton Murray, Sheng Zhang, Aaron Steven White, Benjamin Van Durme(参考訳) 構文とセマンティクスを共同で解析する試みは数多く行われているが、一方のドメインでのハイパフォーマンスは通常、もう一方のパフォーマンスの価格で提供される。 このトレードオフは、構文-概念インターフェイスにおけるリッチな相互作用に焦点を当てた大規模な研究と矛盾する。 我々は,Universal Decompositional Semantics (UDS) データセットに含まれるリッチな構文的および意味的アノテーションを利用して,Universal Dependencies と UDS を共同で解析し,どちらの形式においても最先端の結果が得られるような複数のモデルアーキテクチャを探索する。 構文と意味論の合同モデルの振る舞いを解析し,構文・意味論インターフェースで言語理論が支持するパターンを探索する。 次に、結合モデリングが多言語設定に一般化する程度を調査し、8つの言語で同様の傾向を見出す。

While numerous attempts have been made to jointly parse syntax and semantics, high performance in one domain typically comes at the price of performance in the other. This trade-off contradicts the large body of research focusing on the rich interactions at the syntax-semantics interface. We explore multiple model architectures which allow us to exploit the rich syntactic and semantic annotations contained in the Universal Decompositional Semantics (UDS) dataset, jointly parsing Universal Dependencies and UDS to obtain state-of-the-art results in both formalisms. We analyze the behaviour of a joint model of syntax and semantics, finding patterns supported by linguistic theory at the syntax-semantics interface. We then investigate to what degree joint modeling generalizes to a multilingual setting, where we find similar trends across 8 languages.
翻訳日:2021-04-13 17:36:41 公開日:2021-04-12
# (参考訳) スケッチから写真への合成における逆開領域適応

Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis ( http://arxiv.org/abs/2104.05703v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Ding Liu, Xiao Yang, Yiheng Zhu, Xiaohui Shen, Jan P. Allebach(参考訳) 本稿では,学習データにそのクラスのスケッチが欠落している場合でも,フリーハンドスケッチからリアルな写真をクラスラベルで合成することを目的とした,オープンドメインのスケッチ・ツー・フォト翻訳について検討する。 トレーニング監督の欠如とフリーハンドスケッチとフォトドメイン間の大きな幾何学的歪みのため、これは困難である。 写真から欠落したフリーハンドスケッチを合成するために,スケッチ・ツー・フォトと写真・スケッチ生成を共同で学習するフレームワークを提案する。 しかし、偽のスケッチから訓練されたジェネレータは、合成されたスケッチと実際のスケッチのドメインギャップのため、欠落したクラスのスケッチを扱う際に不満足な結果をもたらす可能性がある。 この問題を軽減するために,我々は,ジェネレータを偽スケッチを現実のスケッチとして扱えるようにするための,シンプルで効果的なオープンドメインサンプリングと最適化戦略を提案する。 本手法は,インドメインデータのスケッチ・ツー・フォトおよびフォト・ツー・スケッチマッピングを活用し,それらをオープンドメインクラスに一般化する。 ScribbleとSketchyCOCOのデータセット上で本手法を検証する。 近年の競合手法と比較して,本手法はリアルな色やテクスチャを合成し,様々なカテゴリのオープンドメインスケッチの幾何学的構成を維持できることを示す。

In this paper, we explore the open-domain sketch-to-photo translation, which aims to synthesize a realistic photo from a freehand sketch with its class label, even if the sketches of that class are missing in the training data. It is challenging due to the lack of training supervision and the large geometry distortion between the freehand sketch and photo domains. To synthesize the absent freehand sketches from photos, we propose a framework that jointly learns sketch-to-photo and photo-to-sketch generation. However, the generator trained from fake sketches might lead to unsatisfying results when dealing with sketches of missing classes, due to the domain gap between synthesized sketches and real ones. To alleviate this issue, we further propose a simple yet effective open-domain sampling and optimization strategy to "fool" the generator into treating fake sketches as real ones. Our method takes advantage of the learned sketch-to-photo and photo-to-sketch mapping of in-domain data and generalizes them to the open-domain classes. We validate our method on the Scribble and SketchyCOCO datasets. Compared with the recent competing methods, our approach shows impressive results in synthesizing realistic color, texture, and maintaining the geometric composition for various categories of open-domain sketches.
翻訳日:2021-04-13 17:05:21 公開日:2021-04-12
# (参考訳) ポイントクラウドハンドリングのための効率的なグラフ畳み込みネットワークを目指して

Towards Efficient Graph Convolutional Networks for Point Cloud Handling ( http://arxiv.org/abs/2104.05706v1 )

ライセンス: CC BY 4.0
Yawei Li, He Chen, Zhaopeng Cui, Radu Timofte, Marc Pollefeys, Gregory Chirikjian, Luc Van Gool(参考訳) 本稿では,点クラウド上で学習するグラフ畳み込みネットワーク(GCN)の計算効率を向上させることを目的とする。 通常、K$-nearest neighbor (KNN) 探索と多層パーセプトロン (MLP) からなる基本グラフ畳み込みについて検討する。 そこでの演算を数学的に解析することにより,GCNの効率を向上させる2つの知見を得た。 1) 3次元表現の局所的幾何学的構造情報は,KNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。 これにより、GCNにおける複数のKNN検索が簡単になる。 2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。 これらの結果に基づき,GCNの計算手順を最適化する。 一連の実験により、最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。 コードは \url{https://github.com/ofsoundof/EfficientGCN.git} で入手できる。

In this paper, we aim at improving the computational efficiency of graph convolutional networks (GCNs) for learning on point clouds. The basic graph convolution that is typically composed of a $K$-nearest neighbor (KNN) search and a multilayer perceptron (MLP) is examined. By mathematically analyzing the operations there, two findings to improve the efficiency of GCNs are obtained. (1) The local geometric structure information of 3D representations propagates smoothly across the GCN that relies on KNN search to gather neighborhood features. This motivates the simplification of multiple KNN searches in GCNs. (2) Shuffling the order of graph feature gathering and an MLP leads to equivalent or similar composite operations. Based on those findings, we optimize the computational procedure in GCNs. A series of experiments show that the optimized networks have reduced computational complexity, decreased memory consumption, and accelerated inference speed while maintaining comparable accuracy for learning on point clouds. Code will be available at \url{https://github.com/ofsoundof/EfficientGCN.git}.
翻訳日:2021-04-13 16:45:08 公開日:2021-04-12
# (参考訳) LocalViT:ビジョントランスフォーマーにローカリティをもたらす

LocalViT: Bringing Locality to Vision Transformers ( http://arxiv.org/abs/2104.05707v1 )

ライセンス: CC BY 4.0
Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool(参考訳) 視覚トランスフォーマーに局所性機構を導入する方法について検討する。 トランスフォーマーネットワークは機械翻訳を起源とし、特に長いシーケンス内の長距離依存性のモデリングが得意である。 トークン埋め込み間のグローバルな相互作用はトランスフォーマの自己着信機構によってうまくモデル化できるが、ローカル領域内の情報交換のための局所性機構が欠如している。 しかし、画像の局所性は線、エッジ、形状、さらには物体といった構造に関係するため、画像にとって不可欠である。 フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。 この一見単純な解は、フィードフォワードネットワークと逆残差ブロックの比較に着想を得たものである。 局所性機構の重要性は、1)局所性機構を組み込むために幅広い設計選択(活性化機能、層配置、拡張比)が利用可能であり、全ての適切な選択がベースラインよりも性能向上につながる可能性があり、2)同じ局所性機構が4つの視覚トランスフォーマにうまく適用され、局所性概念の一般化を示す。 特に、ImageNet2012分類では、局所性に富んだ変換器は、パラメータの数と計算労力が無視できるほど増加し、ベースラインのDeiT-TとPVT-Tを2.6 %、および3.1 %で上回る。 コードは \url{https://github.com/ofsoundof/LocalViT} で入手できる。

We study how to introduce locality mechanisms into vision transformers. The transformer network originates from machine translation and is particularly good at modelling long-range dependencies within a long sequence. Although the global interaction between the token embeddings could be well modelled by the self-attention mechanism of transformers, what is lacking a locality mechanism for information exchange within a local region. Yet, locality is essential for images since it pertains to structures like lines, edges, shapes, and even objects. We add locality to vision transformers by introducing depth-wise convolution into the feed-forward network. This seemingly simple solution is inspired by the comparison between feed-forward networks and inverted residual blocks. The importance of locality mechanisms is validated in two ways: 1) A wide range of design choices (activation function, layer placement, expansion ratio) are available for incorporating locality mechanisms and all proper choices can lead to a performance gain over the baseline, and 2) The same locality mechanism is successfully applied to 4 vision transformers, which shows the generalization of the locality concept. In particular, for ImageNet2012 classification, the locality-enhanced transformers outperform the baselines DeiT-T and PVT-T by 2.6\% and 3.1\% with a negligible increase in the number of parameters and computational effort. Code is available at \url{https://github.com/ofsoundof/LocalViT}.
翻訳日:2021-04-13 16:27:10 公開日:2021-04-12
# (参考訳) マクロ平均値:レアタイプも重要

Macro-Average: Rare Types Are Important Too ( http://arxiv.org/abs/2104.05700v1 )

ライセンス: CC BY-SA 4.0
Thamme Gowda, Weiqiu You, Constantine Lignos, Jonathan May(参考訳) 機械翻訳(MT)における従来のコーパスレベルの評価指標は、流布とよく相関するが、妥当性の反映に苦慮している。 セグメントレベルの人的判断に基づいて訓練されたモデルベースMTメトリクスは、強い相関関係の結果によって魅力的な代替物として現れている。 しかし、これらのモデルは、新しいドメインと言語のために潜在的に高価な再トレーニングを必要とする。 さらに、彼らの決定は本質的に不透明であり、好ましくない偏見を反映しているように見える。 我々は、単純な型ベースの分類器メトリックである macrof1 を調査し、その mt 評価への適用性について検討する。 macrof1は直接評価で競争しており、下流の言語間情報検索タスクのパフォーマンスを示すのに他を上回っている。 さらに,supervised と unsupervised のニューラルマシン翻訳を効果的に比較するために macrof1 が利用可能であることを示す。

While traditional corpus-level evaluation metrics for machine translation (MT) correlate well with fluency, they struggle to reflect adequacy. Model-based MT metrics trained on segment-level human judgments have emerged as an attractive replacement due to strong correlation results. These models, however, require potentially expensive re-training for new domains and languages. Furthermore, their decisions are inherently non-transparent and appear to reflect unwelcome biases. We explore the simple type-based classifier metric, MacroF1, and study its applicability to MT evaluation. We find that MacroF1 is competitive on direct assessment, and outperforms others in indicating downstream cross-lingual information retrieval task performance. Further, we show that MacroF1 can be used to effectively compare supervised and unsupervised neural machine translation, and reveal significant qualitative differences in the methods' outputs.
翻訳日:2021-04-13 15:43:34 公開日:2021-04-12
# StylePTB: きめ細かい制御可能なテキストスタイル転送のための構成ベンチマーク

StylePTB: A Compositional Benchmark for Fine-grained Controllable Text Style Transfer ( http://arxiv.org/abs/2104.05196v1 )

ライセンス: Link先を確認
Yiwei Lyu, Paul Pu Liang, Hai Pham, Eduard Hovy, Barnab\'as P\'oczos, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) テキストスタイル転送は、ソース文定数から中核的な意味を維持しながら、ターゲットとしたスタイル変化のあるテキストを制御的に生成することを目的としている。 既存のスタイル転送ベンチマークの多くは、主に個々のハイレベルなセマンティックな変更(例)に焦点を当てている。 これは高いレベルで制御可能であるが、文の構造、強調、および文の内容を含むきめ細かい制御を提供しない。 本稿では,(1) テキストの原子語彙,構文,セマンティクス,セマンティクスにまたがる21のきめ細かなスタイリスティックな文からなる大規模ベンチマークであるStylePTBと,(2) より複雑で高レベルな転送のためのビルディングブロックとして,きめ細かなスタイリスティックな変化をモデル化可能な複数転送の合成を提案する。 StylePTBの既存のメソッドをベンチマークすることで、細粒度の変化をモデル化するのに苦労し、複数のスタイルを構成するのがさらに難しいことが分かる。 その結果、StylePTBは、制御可能なテキストスタイルの転送、構成モデル、および非絡み合い表現の学習における将来の研究を促進することを願っている。 これらの課題を解決することは、制御可能なテキスト生成への重要なステップを示す。

Text style transfer aims to controllably generate text with targeted stylistic changes while maintaining core meaning from the source sentence constant. Many of the existing style transfer benchmarks primarily focus on individual high-level semantic changes (e.g. positive to negative), which enable controllability at a high level but do not offer fine-grained control involving sentence structure, emphasis, and content of the sentence. In this paper, we introduce a large-scale benchmark, StylePTB, with (1) paired sentences undergoing 21 fine-grained stylistic changes spanning atomic lexical, syntactic, semantic, and thematic transfers of text, as well as (2) compositions of multiple transfers which allow modeling of fine-grained stylistic changes as building blocks for more complex, high-level transfers. By benchmarking existing methods on StylePTB, we find that they struggle to model fine-grained changes and have an even more difficult time composing multiple styles. As a result, StylePTB brings novel challenges that we hope will encourage future research in controllable text style transfer, compositional models, and learning disentangled representations. Solving these challenges would present important steps towards controllable text generation.
翻訳日:2021-04-13 14:42:23 公開日:2021-04-12
# 帰納的世界状態表現のためのupdater-extractorアーキテクチャ

Updater-Extractor Architecture for Inductive World State Representations ( http://arxiv.org/abs/2104.05500v1 )

ライセンス: Link先を確認
Arseny Moskvichev, James A. Liu(参考訳) 伝統的にNLPモデルの開発には、トレーニングと応用の2つの段階がある。 トレーニング後(アプリケーション時間)に取得した情報の保持は、(トランスフォーマーの場合)モデルのコンテキストウィンドウのサイズ、または(RNNの場合)長いシーケンスに関連する実践的な困難によってアーキテクチャ的に制限される。 本稿では,任意の長さのシーケンスを処理し,言語入力に基づいて世界に関する知識を洗練させる,トランスフォーマーベースの新しいアーキテクチャである Updater-Extractor を提案する。 我々は、入ってくる情報をその世界状態表現に組み込むようモデルを明示的に訓練し、強い帰納的一般化と極端に長距離依存を扱う能力を得る。 我々は我々のアプローチに理論的基礎を与える補題を証明する。 この結果はまた、Truncated Back-Propagation Through Time(Transformer XLなど)の変種でトレーニングされたモデルの成功と失敗モードに関する洞察を提供する。 実証的に、3つの異なるタスクにおけるモデルパフォーマンスを調査し、その可能性を実証する。 このプレプリントはまだ進行中です。 現在、我々は容易に解釈できるタスクに焦点を合わせており、提案したアイデアを将来的なNLPアプリケーションに適用する。

Developing NLP models traditionally involves two stages - training and application. Retention of information acquired after training (at application time) is architecturally limited by the size of the model's context window (in the case of transformers), or by the practical difficulties associated with long sequences (in the case of RNNs). In this paper, we propose a novel transformer-based Updater-Extractor architecture and a training procedure that can work with sequences of arbitrary length and refine its knowledge about the world based on linguistic inputs. We explicitly train the model to incorporate incoming information into its world state representation, obtaining strong inductive generalization and the ability to handle extremely long-range dependencies. We prove a lemma that provides a theoretical basis for our approach. The result also provides insight into success and failure modes of models trained with variants of Truncated Back-Propagation Through Time (such as Transformer XL). Empirically, we investigate the model performance on three different tasks, demonstrating its promise. This preprint is still a work in progress. At present, we focused on easily interpretable tasks, leaving the application of the proposed ideas to practical NLP applications for the future.
翻訳日:2021-04-13 14:41:58 公開日:2021-04-12
# 情報分散に基づく正規化によるテキスト分類の連続学習

Continual Learning for Text Classification with Information Disentanglement Based Regularization ( http://arxiv.org/abs/2104.05489v1 )

ライセンス: Link先を確認
Yufan Huang, Yanzhe Zhang, Jiaao Chen, Xuezhi Wang and Diyi Yang(参考訳) NLPモデルが絶えず学習し、時間とともに知識を得ることを可能にすることで、継続的な学習がますます重要になっている。 従来の継続学習手法は主に、モデルを新しいタスクに適切に一般化する方法に重点を置くことなく、以前のタスクからの知識を保存するように設計されている。 本研究では,テキスト分類に基づく連続学習のための情報分散に基づく正規化手法を提案する。 提案手法は,まずテキスト隠れ空間を,各タスクに固有のすべてのタスクや表現に共通する表現に分解し,さらにこれらの表現を別々に正規化し,一般化に必要な知識をよりよく制約する。 また,より一般的な表現空間や特定の表現空間を学習するために,次の文予測とタスクid予測という2つの単純な補助タスクも導入する。 大規模ベンチマークで行った実験は,最先端のベースラインに対する様々なシーケンスと長さを持つ連続テキスト分類タスクにおいて,本手法の有効性を示した。 私たちはコードをhttps://github.com/gt-salt/idbr.orgで公開しました。

Continual learning has become increasingly important as it enables NLP models to constantly learn and gain knowledge over time. Previous continual learning methods are mainly designed to preserve knowledge from previous tasks, without much emphasis on how to well generalize models to new tasks. In this work, we propose an information disentanglement based regularization method for continual learning on text classification. Our proposed method first disentangles text hidden spaces into representations that are generic to all tasks and representations specific to each individual task, and further regularizes these representations differently to better constrain the knowledge required to generalize. We also introduce two simple auxiliary tasks: next sentence prediction and task-id prediction, for learning better generic and specific representation spaces. Experiments conducted on large-scale benchmarks demonstrate the effectiveness of our method in continual text classification tasks with various sequences and lengths over state-of-the-art baselines. We have publicly released our code at https://github.com/GT-SALT/IDBR.
翻訳日:2021-04-13 14:40:10 公開日:2021-04-12
# 効果的なコセグメンテーションとデータ拡張による自己監督型マルチビューステレオ

Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation ( http://arxiv.org/abs/2104.05374v1 )

ライセンス: Link先を確認
Hongbin Xu, Zhipeng Zhou, Yu Qiao, Wenxiong Kang, Qiuxia Wu(参考訳) 近年,マルチビューステレオ(mvs)において,視点合成に基づく自己教師あり手法が明らかに進歩している。 しかし、既存の手法は、異なる視点の対応する点が同じ色を共有するという仮定に依存しており、実際にはそうとは限らない。 これは信頼できない自己監視信号につながり、最終的な再構築性能を損なう可能性がある。 この問題に対処するため、セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。 特に,多視点画像から相互意味を抽出し,セマンティック一貫性を導出する。 また,正規サンプルの予測を疑似基底真理として扱い,拡張サンプルの予測を正則化することにより,変換ロバスト性を保証する効果的なデータ提示機構を考案する。 DTUデータセットを用いた実験結果から,提案手法は教師なし手法の最先端性能を実現し,教師なし手法と同等に競合することを示した。 さらに,タンク・テンプルス・データセットに関する広範な実験により,提案手法の有効一般化能力を実証した。

Recent studies have witnessed that self-supervised methods based on view synthesis obtain clear progress on multi-view stereo (MVS). However, existing methods rely on the assumption that the corresponding points among different views share the same color, which may not always be true in practice. This may lead to unreliable self-supervised signal and harm the final reconstruction performance. To address the issue, we propose a framework integrated with more reliable supervision guided by semantic co-segmentation and data-augmentation. Specially, we excavate mutual semantic from multi-view images to guide the semantic consistency. And we devise effective data-augmentation mechanism which ensures the transformation robustness by treating the prediction of regular samples as pseudo ground truth to regularize the prediction of augmented samples. Experimental results on DTU dataset show that our proposed methods achieve the state-of-the-art performance among unsupervised methods, and even compete on par with supervised methods. Furthermore, extensive experiments on Tanks&Temples dataset demonstrate the effective generalization ability of the proposed method.
翻訳日:2021-04-13 14:39:10 公開日:2021-04-12
# FUDGE: これからの差別者によるテキスト生成制御

FUDGE: Controlled Text Generation With Future Discriminators ( http://arxiv.org/abs/2104.05218v1 )

ライセンス: Link先を確認
Kevin Yang and Dan Klein(参考訳) 本稿では,制御されたテキスト生成のためのフレキシブルかつモジュール方式であるFuture Discriminator for Generation (FUDGE)を提案する。 関心の分布からテキストを生成するための既存のモデルGが与えられた場合、FUDGEはGの出力ロジットのみへのアクセスを必要としながら、所望の属性a(例えば形式)を条件付けできる。 FUDGEは部分シーケンスで動作する属性予測器を学習し、この予測器の出力を使用してGの元の確率を調整する。 与えられた属性 a の条件分布のベイズ分解に対応する FUDGE モデルについて述べる。 さらに、FUDGEは複数の望ましい属性の予測子を簡単に作成できる。 我々は,FUDGEを3つのタスク – 詩のカップル補完,言語生成のトピック制御,機械翻訳の形式的変化 – で評価し,三つのタスクの利得を観察する。

We propose Future Discriminators for Generation (FUDGE), a flexible and modular method for controlled text generation. Given a pre-existing model G for generating text from a distribution of interest, FUDGE enables conditioning on a desired attribute a (for example, formality) while requiring access only to G's output logits. FUDGE learns an attribute predictor operating on a partial sequence, and uses this predictor's outputs to adjust G's original probabilities. We show that FUDGE models terms corresponding to a Bayesian decomposition of the conditional distribution of G given attribute a. Moreover, FUDGE can easily compose predictors for multiple desired attributes. We evaluate FUDGE on three tasks -- couplet completion in poetry, topic control in language generation, and formality change in machine translation -- and observe gains in all three tasks.
翻訳日:2021-04-13 14:36:58 公開日:2021-04-12
# HTCInfoMax:情報最大化による階層的テキスト分類のグローバルモデル

HTCInfoMax: A Global Model for Hierarchical Text Classification via Information Maximization ( http://arxiv.org/abs/2104.05220v1 )

ライセンス: Link先を確認
Zhongfen Deng, Hao Peng, Dongxiao He, Jianxin Li, Philip S. Yu(参考訳) 現在の階層的テキスト分類のための最先端モデルHiAGMには2つの制限がある。 まず、関係のない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。 第二に、構造エンコーダが学習したラベル表現に対する統計的制約は考慮していないが、表現学習の制約は以前の研究で有用であることが証明されている。 本稿では,テキストラベル相互情報最大化とラベル先行マッチングという2つのモジュールを含む情報最大化を導入することで,この問題に対処するhtcinfomaxを提案する。 最初のモジュールは、各テキストサンプルとその接地真理ラベル間の相互作用をモデル化し、無関係な情報をフィルタする。 第2の方法は、階層的なテキスト分類におけるラベルの不均衡をよりうまく処理できる、すべてのラベルに対して望ましい特性を持つ表現を学ぶようにストラクチャーエンコーダに促す。 2つのベンチマークデータセットの実験結果から,提案したHTCInfoMaxの有効性が示された。

The current state-of-the-art model HiAGM for hierarchical text classification has two limitations. First, it correlates each text sample with all labels in the dataset which contains irrelevant information. Second, it does not consider any statistical constraint on the label representations learned by the structure encoder, while constraints for representation learning are proved to be helpful in previous work. In this paper, we propose HTCInfoMax to address these issues by introducing information maximization which includes two modules: text-label mutual information maximization and label prior matching. The first module can model the interaction between each text sample and its ground truth labels explicitly which filters out irrelevant information. The second one encourages the structure encoder to learn better representations with desired characteristics for all labels which can better handle label imbalance in hierarchical text classification. Experimental results on two benchmark datasets demonstrate the effectiveness of the proposed HTCInfoMax.
翻訳日:2021-04-13 14:36:44 公開日:2021-04-12
# 名前付きエンティティ認識のための機能統合

Better Feature Integration for Named Entity Recognition ( http://arxiv.org/abs/2104.05316v1 )

ライセンス: Link先を確認
Lu Xu, Zhanming Jie, Wei Lu and Lidong Bing(参考訳) 名前付きエンティティ認識(NER)は、依存性ツリーが取得した長距離構造化情報を活用することで、メリットを享受できることが示されている。 これは、線形シーケンスによってキャプチャされたコンテキスト情報と、依存関係ツリーによってキャプチャされた構造化情報の両方が互いに補完する可能性があるためだと思います。 しかし、既存のアプローチは主に、改良されたNERモデルを構築するためのグラフ畳み込みネットワーク(GCN)のようなLSTMとグラフニューラルネットワークの積み重ねに重点を置いている。 本稿では,2種類の機能をSynergized-LSTM(Syn-LSTM)に組み込む,シンプルで堅牢なソリューションを提案する。 4つの言語にまたがる標準データセットを広範囲に実験した。 その結果,提案手法は従来の手法よりも性能が良く,パラメータは少ないことがわかった。 我々のモデルが強いベースラインと比較して長い依存性をキャプチャできることを示す。

It has been shown that named entity recognition (NER) could benefit from incorporating the long-distance structured information captured by dependency trees. We believe this is because both types of features - the contextual information captured by the linear sequences and the structured information captured by the dependency trees may complement each other. However, existing approaches largely focused on stacking the LSTM and graph neural networks such as graph convolutional networks (GCNs) for building improved NER models, where the exact interaction mechanism between the two types of features is not very clear, and the performance gain does not appear to be significant. In this work, we propose a simple and robust solution to incorporate both types of features with our Synergized-LSTM (Syn-LSTM), which clearly captures how the two types of features interact. We conduct extensive experiments on several standard datasets across four languages. The results demonstrate that the proposed model achieves better performance than previous approaches while requiring fewer parameters. Our further analysis demonstrates that our model can capture longer dependencies compared with strong baselines.
翻訳日:2021-04-13 14:36:30 公開日:2021-04-12
# ビーム探索を超えた機械翻訳復号

Machine Translation Decoding beyond Beam Search ( http://arxiv.org/abs/2104.05336v1 )

ライセンス: Link先を確認
R\'emi Leblond, Jean-Baptiste Alayrac, Laurent Sifre, Miruna Pislar, Jean-Baptiste Lespiau, Ioannis Antonoglou, Karen Simonyan and Oriol Vinyals(参考訳) ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係しており、したがって、エンドメトリックスやスコアの実践者が関心を持つものとは無関係である。 我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。 この目的のために,ニューラルネットワークによってパラメータ化される値関数に依存するものや,さまざまなメトリクスによる結果報告など,多数の復号アルゴリズムを探索する。 特に,モンテカルロ木探索(MCTS)に基づく手法を導入し,その競争力を示す。 我々は、言語アプリケーションでMCTSを実りよく使う方法の青写真を提供し、将来有望な方向性を開く。 我々は、どのアルゴリズムがゴールメトリックの特徴に最も大きく依存しているかを見いだし、我々の広範な実験と分析がこの分野のさらなる研究に役立つと信じている。

Beam search is the go-to method for decoding auto-regressive machine translation models. While it yields consistent improvements in terms of BLEU, it is only concerned with finding outputs with high model likelihood, and is thus agnostic to whatever end metric or score practitioners care about. Our aim is to establish whether beam search can be replaced by a more powerful metric-driven search technique. To this end, we explore numerous decoding algorithms, including some which rely on a value function parameterised by a neural network, and report results on a variety of metrics. Notably, we introduce a Monte-Carlo Tree Search (MCTS) based method and showcase its competitiveness. We provide a blueprint for how to use MCTS fruitfully in language applications, which opens promising future directions. We find that which algorithm is best heavily depends on the characteristics of the goal metric; we believe that our extensive experiments and analysis will inform further research in this area.
翻訳日:2021-04-13 14:36:11 公開日:2021-04-12
# 各種自動音声認識アーキテクチャにおける合成学習データの有用性の比較

Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures ( http://arxiv.org/abs/2104.05379v1 )

ライセンス: Link先を確認
Nick Rossenbach, Mohammad Zeineldeen, Benedikt Hilmes, Ralf Schl\"uter, Hermann Ney(参考訳) 最近のASR(Automatic-Speech-recognition)の出版物は、大規模なデータセットでうまく機能するが、低リソースシナリオに適用すると過度に適合する傾向にある注意エンコーダ・デコーダ(AED)アーキテクチャに強い焦点をあてている。 この問題を解決する一つの解決策は、追加のテキストが利用可能であれば、訓練されたテキスト音声合成システム(TTS)で合成データを生成することである。 これはAEDシステムを使った多くの出版物で成功した。 本稿では,asrアプリケーションを対象としたコーパス学習におけるロバスト性を高めるttsシステムのデータ前処理における無音補正手法を提案する。 本研究では,AEDシステムへの合成データの適用が成功しただけでなく,高度に最適化された最先端のハイブリッドASRシステムと,コネクショニスト時間分類(CTC)を用いた競合モノフォンベースシステム上で,同じ手法をテストする。 後続のシステムでは、合成データの追加は小さな効果しか与えないが、それでもLibriSpeech-100hの差を大きく上回っている。 最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上のハイブリッドシステムでは、ラベルなしのオーディオデータを含まない以前の最先端システムを上回る。

Recent publications on automatic-speech-recognition (ASR) have a strong focus on attention encoder-decoder (AED) architectures which work well for large datasets, but tend to overfit when applied in low resource scenarios. One solution to tackle this issue is to generate synthetic data with a trained text-to-speech system (TTS) if additional text is available. This was successfully applied in many publications with AED systems. We present a novel approach of silence correction in the data pre-processing for TTS systems which increases the robustness when training on corpora targeted for ASR applications. In this work we do not only show the successful application of synthetic data for AED systems, but also test the same method on a highly optimized state-of-the-art Hybrid ASR system and a competitive monophone based system using connectionist-temporal-classification (CTC). We show that for the later systems the addition of synthetic data only has a minor effect, but they still outperform the AED systems by a large margin on LibriSpeech-100h. We achieve a final word-error-rate of 3.3%/10.0% with a Hybrid system on the clean/noisy test-sets, surpassing any previous state-of-the-art systems that do not include unlabeled audio data.
翻訳日:2021-04-13 14:35:56 公開日:2021-04-12
# 生成モデルのボルツマンチューニング

Boltzmann Tuning of Generative Models ( http://arxiv.org/abs/2104.05252v1 )

ライセンス: Link先を確認
Victor Berger (TAU), Michele Sebag (TAU)(参考訳) 本稿では,外部微分可能基準の意味での良い例の生成を優先するために,生成モデルの後部チューニングに焦点を当てた。 提案手法はBoltzmann Tuning of Generative Models (BTGM)と呼ばれ、幅広い応用に適用できる。 特定のケースとして条件付き生成モデリングをカバーし、拒絶サンプリングに代わる安価な代替手段を提供する。 その紙の貢献は2倍だ。 まず、目的を定式化し、適切な最適化問題として取り組まれ、同じ目標を表す候補基準の中から選択するための実践的方法論が提案され、調整された生成モデルを効率的に学習するのに適している。 第二に、実世界の応用において、エネルギー政策の堅牢な設計の文脈において、BTGMが検討された基準の極端な領域をサンプリングする能力を示す。

The paper focuses on the a posteriori tuning of a generative model in order to favor the generation of good instances in the sense of some external differentiable criterion. The proposed approach, called Boltzmann Tuning of Generative Models (BTGM), applies to a wide range of applications. It covers conditional generative modelling as a particular case, and offers an affordable alternative to rejection sampling. The contribution of the paper is twofold. Firstly, the objective is formalized and tackled as a well-posed optimization problem; a practical methodology is proposed to choose among the candidate criteria representing the same goal, the one best suited to efficiently learn a tuned generative model. Secondly, the merits of the approach are demonstrated on a real-world application, in the context of robust design for energy policies, showing the ability of BTGM to sample the extreme regions of the considered criteria.
翻訳日:2021-04-13 14:34:59 公開日:2021-04-12
# 外部変数を用いたニューラルベース展開解析:NBEATSxを用いた電力価格予測

Neural basis expansion analysis with exogenous variables: Forecasting electricity prices with NBEATSx ( http://arxiv.org/abs/2104.05522v1 )

ライセンス: Link先を確認
Kin G. Olivares and Cristian Challu and Grzegorz Marcjasz and Rafa{\l} Weron and Artur Dubrawski(参考訳) 我々は、外因性因子を組み込むために、 \emph{neural basis expansion analysis} (NBEATS) を拡張した。 NBEATSxと呼ばれるこの手法は、優れたディープラーニングモデルを改善し、外因性変数を含むことによってその能力を拡張し、有用な情報の複数のソースを統合することができる。 nbeatsxモデルの実用性を示すために,電力価格予測(epf)タスクへの応用について,幅広い年月と市場にわたって包括的な研究を行っている。 従来の NBEATS モデルに比べて予測精度が 20 % 近く向上し,これらのタスクに特化している他の統計的・機械学習手法に比べて最大 5 % 向上した。 さらに、提案したニューラルネットワークは、時系列を構造的に分解し、トレンドと季節成分の相対的な影響を可視化し、モデル化されたプロセスと外因性要因との相互作用を明らかにすることができる解釈可能な構成を持つ。

We extend the \emph{neural basis expansion analysis} (NBEATS) to incorporate exogenous factors. The resulting method, called NBEATSx, improves on a well performing deep learning model, extending its capabilities by including exogenous variables and allowing it to integrate multiple sources of useful information. To showcase the utility of the NBEATSx model, we conduct a comprehensive study of its application to electricity price forecasting (EPF) tasks across a broad range of years and markets. We observe state-of-the-art performance, significantly improving the forecast accuracy by nearly 20\% over the original NBEATS model, and by up to 5\% over other well established statistical and machine learning methods specialized for these tasks. Additionally, the proposed neural network has an interpretable configuration that can structurally decompose time series, visualizing the relative impact of trend and seasonal components and revealing the modeled processes' interactions with exogenous factors.
翻訳日:2021-04-13 14:34:43 公開日:2021-04-12
# シーケンス対応シークエンス・カウンティ・ジェネレーション

Consequence-aware Sequential Counterfactual Generation ( http://arxiv.org/abs/2104.05592v1 )

ライセンス: Link先を確認
Philip Naumann and Eirini Ntoutsi(参考訳) 現在では、ブラックボックス機械学習モデルと対話し、特定のインスタンスを変更してモデルから望ましい結果を得る方法を理解するために、カウンターファクトが一般的なテクニックになっている。 しかし、既存のほとんどのアプローチは、これらの変更の即時実体化を前提としています。 近年、アクションが適用される順序も考慮し、いわゆる逐次反事実生成問題へと繋がる手法が提案されている。 本研究では,逐次的反事実生成のためのモデル非依存手法を提案する。 我々は,タスクを多目的最適化問題として定式化し,その原因となるアクションの最適なシーケンスを見つけるための進化的アプローチを提案する。 私たちのコストモデルは、アクションの直接的な効果だけでなく、その影響も考慮しています。 実験の結果,最先端技術と比較して,提案手法は費用対効果が低く,効率が良く,選択すべき多様なソリューション群をユーザに提供できることがわかった。

Counterfactuals have become a popular technique nowadays for interacting with black-box machine learning models and understanding how to change a particular instance to obtain a desired outcome from the model. However, most existing approaches assume instant materialization of these changes, ignoring that they may require effort and a specific order of application. Recently, methods have been proposed that also consider the order in which actions are applied, leading to the so-called sequential counterfactual generation problem. In this work, we propose a model-agnostic method for sequential counterfactual generation. We formulate the task as a multi-objective optimization problem and present an evolutionary approach to find optimal sequences of actions leading to the counterfactuals. Our cost model considers not only the direct effect of an action, but also its consequences. Experimental results show that compared to state of the art, our approach generates less costly solutions, is more efficient, and provides the user with a diverse set of solutions to choose from.
翻訳日:2021-04-13 14:34:27 公開日:2021-04-12
# 注意型エンコーダ・デコーダASRモデルの言語モデル統合改善手法の検討

Investigating Methods to Improve Language Model Integration for Attention-based Encoder-Decoder ASR Models ( http://arxiv.org/abs/2104.05544v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen, Aleksandr Glushko, Wilfried Michel, Albert Zeyer, Ralf Schl\"uter, Hermann Ney(参考訳) 注意に基づくエンコーダ・デコーダ(AED)モデルは、トレーニングの書き起こしから暗黙的な内部言語モデル(ILM)を学ぶ。 より不自由なテキストでトレーニングされた外部LMとの統合は通常、より良いパフォーマンスをもたらす。 ハイブリット自己回帰変換器(HAT)のようなベイズ的解釈は、ハイブリッド隠れマルコフモデルアプローチと同様に、この暗黙のLMに対応する識別音響モデルの先行による分割を示唆している。 暗黙の lm は一般には効率的に計算できず、それを推定する最善の方法が何であるかは定かではない。 本研究では,文献と異なるアプローチを比較し,ALDモデルから直接ILMを推定する新しい手法を提案する。 提案手法は従来の手法よりも優れている。 また,ALDモデルのキャパシティを低下させ,ラベルコンテキストを制限し,既存のLMとともにAMDモデルをトレーニングすることにより,ILMを抑制する他の手法についても検討する。

Attention-based encoder-decoder (AED) models learn an implicit internal language model (ILM) from the training transcriptions. The integration with an external LM trained on much more unpaired text usually leads to better performance. A Bayesian interpretation as in the hybrid autoregressive transducer (HAT) suggests dividing by the prior of the discriminative acoustic model, which corresponds to this implicit LM, similarly as in the hybrid hidden Markov model approach. The implicit LM cannot be calculated efficiently in general and it is yet unclear what are the best methods to estimate it. In this work, we compare different approaches from the literature and propose several novel methods to estimate the ILM directly from the AED model. Our proposed methods outperform all previous approaches. We also investigate other methods to suppress the ILM mainly by decreasing the capacity of the AED model, limiting the label context, and also by training the AED model together with a pre-existing LM.
翻訳日:2021-04-13 14:34:10 公開日:2021-04-12
# Noether: 物事が変化すれば変わるほど、同じ状態になる

Noether: The More Things Change, the More Stay the Same ( http://arxiv.org/abs/2104.05508v1 )

ライセンス: Link先を確認
Grzegorz G{\l}uch, R\"udiger Urbanke(参考訳) 対称性はニューラルネットワークの分析において重要な要素であることが証明されている。 今のところ、それらの使用はほとんどが暗黙的または一見偶然である。 我々は対称性が果たす役割を体系的に研究する。 特に,対称性が学習アルゴリズムとどのように相互作用するかを明らかにする。 この研究の重要な要素はネーターの有名な定理で、非公式に言えば対称性は保存された量(エネルギーの保存や運動量の保存など)をもたらす。 勾配降下下のニューラルネットワークの領域では、モデル対称性は勾配経路の制約を暗示する。 例えば、活性化関数の対称性は重み行列の有界性につながり、線形活性化の特定の場合、連続した層の平衡方程式につながり、データの拡張は「運動量」型の制限を持つ勾配経路につながり、時間対称性は神経接核のバージョンに繋がる。 対称性だけは最適化経路を規定しないが、より多くの対称性がモデルに含まれるほど、経路により多くの制限が課される。 対称性もまた過度なパラメトリゼーションを意味するので、これは事実上、この過度なパラメトリゼーションの一部が保存量の存在によって取り消されることを意味する。 したがって、対称性は勾配降下下でのニューラルネットワークの性能を理解する上で、さらに重要なツールであると考えることができる。

Symmetries have proven to be important ingredients in the analysis of neural networks. So far their use has mostly been implicit or seemingly coincidental. We undertake a systematic study of the role that symmetry plays. In particular, we clarify how symmetry interacts with the learning algorithm. The key ingredient in our study is played by Noether's celebrated theorem which, informally speaking, states that symmetry leads to conserved quantities (e.g., conservation of energy or conservation of momentum). In the realm of neural networks under gradient descent, model symmetries imply restrictions on the gradient path. E.g., we show that symmetry of activation functions leads to boundedness of weight matrices, for the specific case of linear activations it leads to balance equations of consecutive layers, data augmentation leads to gradient paths that have "momentum"-type restrictions, and time symmetry leads to a version of the Neural Tangent Kernel. Symmetry alone does not specify the optimization path, but the more symmetries are contained in the model the more restrictions are imposed on the path. Since symmetry also implies over-parametrization, this in effect implies that some part of this over-parametrization is cancelled out by the existence of the conserved quantities. Symmetry can therefore be thought of as one further important tool in understanding the performance of neural networks under gradient descent.
翻訳日:2021-04-13 14:33:28 公開日:2021-04-12
# GPflux: 深いガウスのプロセスのためのライブラリ

GPflux: A Library for Deep Gaussian Processes ( http://arxiv.org/abs/2104.05674v1 )

ライセンス: Link先を確認
Vincent Dutordoir, Hugh Salimbeni, Eric Hambro, John McLeod, Felix Leibfried, Artem Artemev, Mark van der Wilk, James Hensman, Marc P. Deisenroth, ST John(参考訳) 本稿では,深いガウス過程(DGP)を重視したベイズ深層学習のためのPythonライブラリGPfluxを紹介する。 DGPの実装は、多変量ガウス分布とインデックスの複雑な簿記を扱うときに生じる様々な数学的微妙さのために難しい試みである。 現在、この分野の研究活動を支援する、アクティブにメンテナンスされ、オープンソースで拡張可能なライブラリは存在しない。 GPfluxはこのギャップを埋めるために、最先端のDGPアルゴリズムのライブラリを提供し、新しいベイジアンおよびGPベースの階層モデルと推論スキームを実装するためのビルディングブロックを提供することを目指している。 GPfluxはKerasディープラーニングエコシステム上に互換性があり、構築されている。 これにより、実践者は、ディープラーニングコミュニティのツールを活用して、カスタマイズされたベイジアンモデルの構築とトレーニングを行い、ベイジアン層と標準ニューラルネットワーク層で構成される階層モデルを単一のコヒーレントフレームワークで作成することができる。 GPfluxはGPのオブジェクトと操作の大部分をGPflowに依存しているため、リーンコードベースを持ちながら、効率的でモジュール化され拡張可能なライブラリである。

We introduce GPflux, a Python library for Bayesian deep learning with a strong emphasis on deep Gaussian processes (DGPs). Implementing DGPs is a challenging endeavour due to the various mathematical subtleties that arise when dealing with multivariate Gaussian distributions and the complex bookkeeping of indices. To date, there are no actively maintained, open-sourced and extendable libraries available that support research activities in this area. GPflux aims to fill this gap by providing a library with state-of-the-art DGP algorithms, as well as building blocks for implementing novel Bayesian and GP-based hierarchical models and inference schemes. GPflux is compatible with and built on top of the Keras deep learning eco-system. This enables practitioners to leverage tools from the deep learning community for building and training customised Bayesian models, and create hierarchical models that consist of Bayesian and standard neural network layers in a single coherent framework. GPflux relies on GPflow for most of its GP objects and operations, which makes it an efficient, modular and extensible library, while having a lean codebase.
翻訳日:2021-04-13 14:33:08 公開日:2021-04-12
# すべてのラベルは等しく作成されない:ラベルグルーピングとコトレーニングによる半スーパービジョンの拡張

All Labels Are Not Created Equal: Enhancing Semi-supervision via Label Grouping and Co-training ( http://arxiv.org/abs/2104.05248v1 )

ライセンス: Link先を確認
Islam Nassar, Samitha Herath, Ehsan Abbasnejad, Wray Buntine, Gholamreza Haffari(参考訳) Pseudo-labelingは、半教師付き学習(SSL)において重要なコンポーネントである。 反復的にモデルを使用して、ラベルのないデータに対してトレーニングを行うための人工ラベルを生成する。 様々な手法の共通する特性は、クラス間の視覚的類似性についての事前の知識を考慮せずにラベル決定を行うためのモデルの予測にのみ依存していることである。 本稿では,疑似ラベルデータのプール内で視覚的に類似したクラスを表現できないため,擬似ラベルの品質が低下することを示す。 本稿では,ラベルのセマンティクスと協調学習を利用してこの問題に対処するSemCoを提案する。 クラスラベルの2つの異なるビューを持つ2つの分類器をトレーニングする。 1つの分類器はラベルの1つのホットビューを使用し、クラス間の潜在的な類似性を無視する。 次に2つの分類器を共同学習し、その不一致に基づいて学習する。 提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。 また,本手法ではバッチサイズを小さくし,最高のパフォーマンスを達成するためにトレーニングイテレーションを少なくする。 コードはhttps://github.com/islam-nassar/semcoで利用可能です。

Pseudo-labeling is a key component in semi-supervised learning (SSL). It relies on iteratively using the model to generate artificial labels for the unlabeled data to train against. A common property among its various methods is that they only rely on the model's prediction to make labeling decisions without considering any prior knowledge about the visual similarity among the classes. In this paper, we demonstrate that this degrades the quality of pseudo-labeling as it poorly represents visually similar classes in the pool of pseudo-labeled data. We propose SemCo, a method which leverages label semantics and co-training to address this problem. We train two classifiers with two different views of the class labels: one classifier uses the one-hot view of the labels and disregards any potential similarity among the classes, while the other uses a distributed view of the labels and groups potentially similar classes together. We then co-train the two classifiers to learn based on their disagreements. We show that our method achieves state-of-the-art performance across various SSL tasks including 5.6% accuracy improvement on Mini-ImageNet dataset with 1000 labeled examples. We also show that our method requires smaller batch size and fewer training iterations to reach its best performance. We make our code available at https://github.com/islam-nassar/semco.
翻訳日:2021-04-13 14:32:06 公開日:2021-04-12
# 長期視覚認識のためのクラスバランス蒸留

Class-Balanced Distillation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2104.05279v1 )

ライセンス: Link先を確認
Ahmet Iscen, Andr\'e Araujo, Boqing Gong, Cordelia Schmid(参考訳) 実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。 ロングテール視覚認識への効果的で単純なアプローチは、特徴表現と分類器をそれぞれインスタンスとクラスバランスサンプリングで個別に学習することである。 本稿では,インスタンスサンプリングで学習した特徴表現が長文設定では最適とはほど遠いという重要な観察を行うことにより,新たな枠組みを提案する。 本研究の主な貢献は,知識蒸留を利用して特徴表現を強化する,CBD(Class-Balanced Distillation)と呼ばれる新しい訓練方法である。 CBDは、第2の訓練段階において特徴表現を進化させ、第1の段階で学んだ教師によって指導される。 第2段階では、低表現のクラスにフォーカスするために、クラスバランスのサンプリングを使用する。 このフレームワークは、自然に複数の教師の利用に対応でき、モデルのアンサンブルから情報を解き放ち、認識能力を高めることができる。 実験の結果,提案手法はImageNet-LT, iNaturalist17, iNaturalist18などの長尾認識ベンチマークにおいて, 常に高い性能を示すことがわかった。 また,本手法は,既存手法と異なり,テールクラスの性能向上のためにヘッドクラスの精度を犠牲にしないことを示した。

Real-world imagery is often characterized by a significant imbalance of the number of images per class, leading to long-tailed distributions. An effective and simple approach to long-tailed visual recognition is to learn feature representations and a classifier separately, with instance and class-balanced sampling, respectively. In this work, we introduce a new framework, by making the key observation that a feature representation learned with instance sampling is far from optimal in a long-tailed setting. Our main contribution is a new training method, referred to as Class-Balanced Distillation (CBD), that leverages knowledge distillation to enhance feature representations. CBD allows the feature representation to evolve in the second training stage, guided by the teacher learned in the first stage. The second stage uses class-balanced sampling, in order to focus on under-represented classes. This framework can naturally accommodate the usage of multiple teachers, unlocking the information from an ensemble of models to enhance recognition capabilities. Our experiments show that the proposed technique consistently outperforms the state of the art on long-tailed recognition benchmarks such as ImageNet-LT, iNaturalist17 and iNaturalist18. The experiments also show that our method does not sacrifice the accuracy of head classes to improve the performance of tail classes, unlike most existing work.
翻訳日:2021-04-13 14:31:45 公開日:2021-04-12
# landmark regularization: ranking guided super-net training in neural architecture search

Landmark Regularization: Ranking Guided Super-Net Training in Neural Architecture Search ( http://arxiv.org/abs/2104.05309v1 )

ライセンス: Link先を確認
Kaicheng Yu, Rene Ranftl, Mathieu Salzmann(参考訳) ウェイトシェアリングは、コモディティハードウェア上での検索を可能にするため、ニューラルネットワーク検索におけるデファクトスタンダードとなっている。 しかし、近年の研究では、スタンドアロンアーキテクチャのパフォーマンスと対応する共有重み付きネットワークのパフォーマンスのランキング障害が実証されている。 これは重量共有NASアルゴリズムの主な仮定に反し、その有効性を制限する。 本稿では,共有重みネットワークのパフォーマンスランキングと,少数のランドマークアーキテクチャを用いたスタンドアロンアーキテクチャとの相関を最大化することを目的とした正規化用語を提案する。 正規化項を3つの異なるNASアルゴリズムに組み込んで、アルゴリズム、検索空間、タスク間のパフォーマンスを一貫して改善することを示す。

Weight sharing has become a de facto standard in neural architecture search because it enables the search to be done on commodity hardware. However, recent works have empirically shown a ranking disorder between the performance of stand-alone architectures and that of the corresponding shared-weight networks. This violates the main assumption of weight-sharing NAS algorithms, thus limiting their effectiveness. We tackle this issue by proposing a regularization term that aims to maximize the correlation between the performance rankings of the shared-weight network and that of the standalone architectures using a small set of landmark architectures. We incorporate our regularization term into three different NAS algorithms and show that it consistently improves performance across algorithms, search-spaces, and tasks.
翻訳日:2021-04-13 14:31:26 公開日:2021-04-12
# Havrda-Charvat Entropy を用いた深層学習による肺内視鏡の分類

Deep learning using Havrda-Charvat entropy for classification of pulmonary endomicroscopy ( http://arxiv.org/abs/2104.05450v1 )

ライセンス: Link先を確認
Thibaud Brochet, Jerome Lapuyade-Lahorgue, Sebastien Bougleux, Mathieu Salaun, Su Ruan(参考訳) 肺の光学的内視鏡(PEE)はリアルタイムのイメージング技術である。 肺胞を顕微鏡的に観察することができる。 臨床環境で取得されたPOE画像シーケンスは、その配列の25%が非形式的フレーム(すなわち、)である。 純粋ノイズと運動人工物) 将来のデータ分析では、これらの非形式的フレームはまずシーケンスから取り除かなければならない。 そこで本研究の目的は,内視鏡画像中の不均一画像の自動検出法を開発することである。 我々は,検出問題を分類問題として捉えることを提案する。 CNN(Convolutional Neural Network)に基づく分類器は,Shannonエントロピーのパラメトリック一般化であるHaverda-Charvatエントロピーに基づく新しい損失関数を用いて設計されている。 我々は、シャノンエントロピーよりも安定なモデルを提供するので、この公式を用いてあらゆる種類のデータをよりよく保持することを提案する。 提案手法は,2947個の異なる画像を含む1つのPOEデータセット上でテストし,シャノンエントロピーを用いた場合よりも優れた結果を示し,オーバーフィッティングの問題に対して良好な振る舞いを示す。 キーワード:Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, lung optical endomicroscopy。

Pulmonary optical endomicroscopy (POE) is an imaging technology in real time. It allows to examine pulmonary alveoli at a microscopic level. Acquired in clinical settings, a POE image sequence can have as much as 25% of the sequence being uninformative frames (i.e. pure-noise and motion artefacts). For future data analysis, these uninformative frames must be first removed from the sequence. Therefore, the objective of our work is to develop an automatic detection method of uninformative images in endomicroscopy images. We propose to take the detection problem as a classification one. Considering advantages of deep learning methods, a classifier based on CNN (Convolutional Neural Network) is designed with a new loss function based on Havrda-Charvat entropy which is a parametrical generalization of the Shannon entropy. We propose to use this formula to get a better hold on all sorts of data since it provides a model more stable than the Shannon entropy. Our method is tested on one POE dataset including 2947 distinct images, is showing better results than using Shannon entropy and behaves better with regard to the problem of overfitting. Keywords: Deep Learning, CNN, Shannon entropy, Havrda-Charvat entropy, Pulmonary optical endomicroscopy.
翻訳日:2021-04-13 14:30:44 公開日:2021-04-12
# イメージレベルかオブジェクトレベルか? ロングテール検出のための2つの再サンプリング戦略の物語

Image-Level or Object-Level? A Tale of Two Resampling Strategies for Long-Tailed Detection ( http://arxiv.org/abs/2104.05702v1 )

ライセンス: Link先を確認
Nadine Chang, Zhiding Yu, Yu-Xiong Wang, Anima Anandkumar, Sanja Fidler, Jose M. Alvarez(参考訳) 長い尾の分布を持つデータセットのトレーニングは、分類や検出といった主要な認識タスクでは困難である。 この課題に対処するため、イメージリサンプリングは通常、単純だが効果的なアプローチとして導入される。 しかし、1つの画像に複数のクラスが存在する可能性があるため、長い尾検出は分類と異なる。 その結果、画像再サンプリングだけでは、オブジェクトレベルで十分なバランスの取れた分布が得られるには不十分である。 我々は,動的エピソディックメモリバンクに基づくオブジェクト中心メモリリプレイ戦略を導入することで,オブジェクトレベルのリサンプリングに対処する。 提案手法には、2つの利点がある: 1) 重要な余分な計算を伴わない便利なオブジェクトレベルの再サンプリング、2) モデル更新による暗黙的な機能レベルの拡張。 画像レベルのリサンプリングとオブジェクトレベルのリサンプリングはどちらも重要であり,共同リサンプリング戦略(RIO)と統合可能であることを示す。 提案手法は,LVIS v0.5の様々なバックボーンにおける最先端のロングテール検出法とセグメンテーション法より優れている。

Training on datasets with long-tailed distributions has been challenging for major recognition tasks such as classification and detection. To deal with this challenge, image resampling is typically introduced as a simple but effective approach. However, we observe that long-tailed detection differs from classification since multiple classes may be present in one image. As a result, image resampling alone is not enough to yield a sufficiently balanced distribution at the object level. We address object-level resampling by introducing an object-centric memory replay strategy based on dynamic, episodic memory banks. Our proposed strategy has two benefits: 1) convenient object-level resampling without significant extra computation, and 2) implicit feature-level augmentation from model updates. We show that image-level and object-level resamplings are both important, and thus unify them with a joint resampling strategy (RIO). Our method outperforms state-of-the-art long-tailed detection and segmentation methods on LVIS v0.5 across various backbones.
翻訳日:2021-04-13 14:30:26 公開日:2021-04-12
# コンパクトトランスフォーマーによるビッグデータパラダイムの脱却

Escaping the Big Data Paradigm with Compact Transformers ( http://arxiv.org/abs/2104.05704v1 )

ライセンス: Link先を確認
Ali Hassani, Steven Walton, Nikhil Shah, Abulikemu Abuduweili, Jiachen Li, Humphrey Shi(参考訳) トランスフォーマーが言語処理の標準として台頭し、コンピュータビジョンの進歩とともに、前例のない大きさと大量のトレーニングデータとともに、小さなデータ集合には適さないと信じている人も多い。 この傾向は、特定の科学領域におけるデータの可用性の制限と、この分野の研究から限られたリソースを持つ人々の排除を含む、大きな関心事に繋がる。 本稿では,トランスフォーマーが「データ空腹」であるとする神話を排除し,大規模なデータに対してのみ適用可能であることを示す。 適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。 提案モデルは,新しいシーケンスプーリング戦略と畳み込みの利用を通じて,クラストークンと位置埋め込みの必要性を解消する。 CNNと比較して、我々のコンパクトトランスフォーマーはパラメータやMACが少なく、類似の精度が得られる。 本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。 最新のcnnベースのアプローチに匹敵するcifar-10のスクラッチからトレーニングすると、94.72%の精度に達し、以前のトランスフォーマーベースのモデルよりも大幅に改善されている。 私たちのシンプルでコンパクトな設計はトランスフォーマーを、基本的な計算リソースを備えたものや重要な小さなデータセットを扱うものへのアクセスによって民主化する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/SHI-Labs/Compact-Transformers.comで公開されます。

With the rise of Transformers as the standard for language processing, and their advancements in computer vision, along with their unprecedented size and amounts of training data, many have come to believe that they are not suitable for small sets of data. This trend leads to great concerns, including but not limited to: limited availability of data in certain scientific domains and the exclusion of those with limited resource from research in the field. In this paper, we dispel the myth that transformers are "data hungry" and therefore can only be applied to large sets of data. We show for the first time that with the right size and tokenization, transformers can perform head-to-head with state-of-the-art CNNs on small datasets. Our model eliminates the requirement for class token and positional embeddings through a novel sequence pooling strategy and the use of convolutions. We show that compared to CNNs, our compact transformers have fewer parameters and MACs, while obtaining similar accuracies. Our method is flexible in terms of model size, and can have as little as 0.28M parameters and achieve reasonable results. It can reach an accuracy of 94.72% when training from scratch on CIFAR-10, which is comparable with modern CNN based approaches, and a significant improvement over previous Transformer based models. Our simple and compact design democratizes transformers by making them accessible to those equipped with basic computing resources and/or dealing with important small datasets. Our code and pre-trained models will be made publicly available at https://github.com/SHI-Labs/Compact-Transformers.
翻訳日:2021-04-13 14:30:09 公開日:2021-04-12
# 二重摂動:ロバストネスのロバスト性と対実バイアス評価について

Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation ( http://arxiv.org/abs/2104.05232v1 )

ライセンス: Link先を確認
Chong Zhang, Jieyu Zhao, Huan Zhang, Kai-Wei Chang, Cho-Jui Hsieh(参考訳) ロバストさと反事実バイアスは通常、テストデータセットで評価される。 しかし、これらの評価は堅牢か? テストデータセットがわずかに乱れた場合、評価結果は同じになるのでしょうか? 本稿では,テストデータセット以外のモデルの弱点を明らかにするための「二重摂動」フレームワークを提案する。 フレームワークはまず、テストデータセットを摂動させ、テストデータに似た豊富な自然文を構築し、その後、単一単語置換に関する予測変化を診断する。 この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。 1)ロバスト性については,同義語置換に着目し,予測の変更が可能な脆弱な例を特定する。 提案手法は,オリジナルおよびロバストに訓練されたcnnとトランスフォーマーの両方において,高い成功率(96.0%-99.8%)を達成した。 2)反事実バイアスについては,人口統計学的トークン(性別,人種など)の置換に着目し,構築文間の予測のシフトを測定する。 本手法は,テストデータセットで直接表示されない隠れたモデルバイアスを明らかにすることができる。 私たちのコードはhttps://github.com/chong-z/nlp-second-order-attackで利用可能です。

Robustness and counterfactual bias are usually evaluated on a test dataset. However, are these evaluations robust? If the test dataset is perturbed slightly, will the evaluation results keep the same? In this paper, we propose a "double perturbation" framework to uncover model weaknesses beyond the test dataset. The framework first perturbs the test dataset to construct abundant natural sentences similar to the test data, and then diagnoses the prediction change regarding a single-word substitution. We apply this framework to study two perturbation-based approaches that are used to analyze models' robustness and counterfactual bias in English. (1) For robustness, we focus on synonym substitutions and identify vulnerable examples where prediction can be altered. Our proposed attack attains high success rates (96.0%-99.8%) in finding vulnerable examples on both original and robustly trained CNNs and Transformers. (2) For counterfactual bias, we focus on substituting demographic tokens (e.g., gender, race) and measure the shift of the expected prediction among constructed sentences. Our method is able to reveal the hidden model biases not directly shown in the test dataset. Our code is available at https://github.com/chong-z/nlp-second-order-attack.
翻訳日:2021-04-13 14:28:43 公開日:2021-04-12
# 社会経済・スマートメータデータを用いた住宅エネルギー消費パターンの解明

Uncover Residential Energy Consumption Patterns Using Socioeconomic and Smart Meter Data ( http://arxiv.org/abs/2104.05154v1 )

ライセンス: Link先を確認
Wenjun Tang, Hao Wang, Xian-Long Lee, Hong-Tzer Yang(参考訳) 本稿では,負荷パターンと分布による住宅利用者のエネルギー消費挙動をモデル化し,機械学習による消費者の負荷パターンと社会経済的特徴との関係を明らかにする。 本研究では,実世界のスマートメータデータを分析し,k-medoidsクラスタリングを用いて負荷パターンを抽出する。 負荷パターンと社会経済的特徴の関係を推定するために,特徴選択と深層学習モデルを用いた分析フレームワークを開発した。 具体的には,エントロピーに基づく特徴選択法を用いて,負荷パターンに影響を及ぼす社会経済的特徴を同定し,その解釈可能性に寄与する。 さらに,消費者の負荷パターンと選択した社会経済的特徴の関係を特徴付けるために,カスタマイズしたディープニューラルネットワークモデルを開発した。 Pecan Streetスマートメーターデータとサーベイを用いて,提案手法の検証を行った。 我々は,負荷パターンと社会経済情報との関係を把握し,回帰モデルや単一DNNモデルなど,優れたベンチマークを実現できることを示した。

This paper models residential consumers' energy-consumption behavior by load patterns and distributions and reveals the relationship between consumers' load patterns and socioeconomic features by machine learning. We analyze the real-world smart meter data and extract load patterns using K-Medoids clustering, which is robust to outliers. We develop an analytical framework with feature selection and deep learning models to estimate the relationship between load patterns and socioeconomic features. Specifically, we use an entropy-based feature selection method to identify the critical socioeconomic characteristics that affect load patterns and benefit our method's interpretability. We further develop a customized deep neural network model to characterize the relationship between consumers' load patterns and selected socioeconomic features. Numerical studies validate our proposed framework using Pecan Street smart meter data and survey. We demonstrate that our framework can capture the relationship between load patterns and socioeconomic information and outperform benchmarks such as regression and single DNN models.
翻訳日:2021-04-13 14:27:22 公開日:2021-04-12
# 大規模深層学習推薦モデルの高性能分散学習

High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models ( http://arxiv.org/abs/2104.05158v1 )

ライセンス: Link先を確認
Dheevatsa Mudigere, Yuchen Hao, Jianyu Huang, Andrew Tulloch, Srinivas Sridharan, Xing Liu, Mustafa Ozdal, Jade Nie, Jongsoo Park, Liang Luo, Jie (Amy) Yang, Leon Gao, Dmytro Ivchenko, Aarti Basant, Yuxi Hu, Jiyan Yang, Ehsan K. Ardestani, Xiaodong Wang, Rakesh Komuravelli, Ching-Hsiang Chu, Serhat Yilmaz, Huayu Li, Jiyuan Qian, Zhuobo Feng, Yinbin Ma, Junjie Yang, Ellie Wen, Hong Li, Lin Yang, Chonglin Sun, Whitney Zhao, Krishna Dhulipala, KR Kishore, Tyler Graf, Assaf Eisenman, Kiran Kumar Matam, Adi Gangidi, Pallab Bhattacharya, Guoqiang Jerry Chen, Manoj Krishnan, Krishnakumar Nair, Petr Lapukhov, Maxim Naumov, Lin Qiao, Mikhail Smelyanskiy, Bill Jia, Vijay Rao(参考訳) ディープラーニングリコメンデーションモデル(dlrms)は、facebookの多くのビジネスクリティカルなサービスで使用されており、データセンターにおけるインフラストラクチャの需要という点で、最大のaiアプリケーションである。 本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて述べる。 PyTorchをベースとした高性能なスケーラブルソフトウェアスタックを導入し,それを新たな進化である \zionex プラットフォームと組み合わせる。 我々は,超大型DLRMを最大1emph{12 Trillionパラメータで訓練できることを実証し,従来のシステム上での解法に要する時間として40\times$ Speedupに達することを示す。 We achieve this by (i) designing the \zionex platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. さらに,本番環境における堅牢かつ効率的なエンドツーエンドトレーニングに必要な分散データ取り込みおよびその他のサポートサービスについて,簡単に解説する。

Deep learning recommendation models (DLRMs) are used across many business-critical services at Facebook and are the single largest AI application in terms of infrastructure demand in its data-centers. In this paper we discuss the SW/HW co-designed solution for high-performance distributed training of large-scale DLRMs. We introduce a high-performance scalable software stack based on PyTorch and pair it with the new evolution of \zion platform, namely \zionex. We demonstrate the capability to train very large DLRMs with up to \emph{12 Trillion parameters} and show that we can attain $40\times$ speedup in terms of time to solution over previous systems. We achieve this by (i) designing the \zionex platform with dedicated scale-out network, provisioned with high bandwidth, optimal topology and efficient transport (ii) implementing an optimized PyTorch-based training stack supporting both model and data parallelism (iii) developing sharding algorithms capable of hierarchical partitioning of the embedding tables along row, column dimensions and load balancing them across multiple workers; (iv) adding high-performance core operators while retaining flexibility to support optimizers with fully deterministic updates (v) leveraging reduced precision communications, multi-level memory hierarchy (HBM+DDR+SSD) and pipelining. Furthermore, we develop and briefly comment on distributed data ingestion and other supporting services that are required for the robust and efficient end-to-end training in production environments.
翻訳日:2021-04-13 14:27:06 公開日:2021-04-12
# GarmentNets:Caegory-Level Pose Estimation for Garments via Canonical Space Shape Completion

GarmentNets: Category-Level Pose Estimation for Garments via Canonical Space Shape Completion ( http://arxiv.org/abs/2104.05177v1 )

ライセンス: Link先を確認
Cheng Chi and Shuran Song(参考訳) 本稿では,衣服のカテゴリーレベルのポーズ推定の課題に取り組む。 ほぼ無限の自由度で、衣服の完全な構成(ポーズ)は、しばしばその3次元表面全体の頂点あたりの3D位置によって記述される。 しかし、衣服は、特に折りたたみや折りたたみの際には、極端に排他的であり、完全な3D表面を知覚することは困難である。 そこで本研究では,変形可能な物体ポーズ推定問題を正準空間における形状完了タスクとして定式化することを目的とする。 この正準空間は、カテゴリ内の衣服のインスタンス間で定義されるので、共有されたカテゴリレベルのポーズを規定する。 観察された部分表面を標準空間にマッピングし、この空間で完了させることで、出力表現は、頂点ごとの標準座標ラベルを持つ完全な3Dメッシュを使用して、衣服の完全な構成を記述する。 衣服の薄い3d構造を適切に扱うために,一般化された巻数場を用いた新しい3d形状表現を提案した。 実験によると、GarmentNetsは、目に見えない服のインスタンスに一般化でき、代替のアプローチに比べて大幅にパフォーマンスが向上している。

This paper tackles the task of category-level pose estimation for garments. With a near infinite degree of freedom, a garment's full configuration (i.e., poses) is often described by the per-vertex 3D locations of its entire 3D surface. However, garments are also commonly subject to extreme cases of self-occlusion, especially when folded or crumpled, making it challenging to perceive their full 3D surface. To address these challenges, we propose GarmentNets, where the key idea is to formulate the deformable object pose estimation problem as a shape completion task in the canonical space. This canonical space is defined across garments instances within a category, therefore, specifies the shared category-level pose. By mapping the observed partial surface to the canonical space and completing it in this space, the output representation describes the garment's full configuration using a complete 3D mesh with the per-vertex canonical coordinate label. To properly handle the thin 3D structure presented on garments, we proposed a novel 3D shape representation using the generalized winding number field. Experiments demonstrate that GarmentNets is able to generalize to unseen garment instances and achieve significantly better performance compared to alternative approaches.
翻訳日:2021-04-13 14:25:12 公開日:2021-04-12
# UNIT-DDPM:拡散確率モデルによる非ペア画像変換

UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2104.05358v1 )

ライセンス: Link先を確認
Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon(参考訳) 本稿では,非対向学習を必要とせず,拡散確率モデルをデノナイズした画像対イメージ変換手法を提案する。 本手法は,Unpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM) を用いて生成モデルを訓練し,両領域間の画像の連成分布をマルコフ連鎖として推定する。 特に、両方のドメイン翻訳モデルを同時に更新し、ランジュバンダイナミクスに基づいて、入力元ドメインイメージに基づいて条件づけされた、デノイジンマルコフ連鎖モンテカルロアプローチによってターゲットドメイン画像を生成する。 提案手法は,画像間翻訳のための安定モデルトレーニングを提供し,高品質な画像出力を生成する。 これにより、色とマルチスペクトル画像を含むいくつかの公開データセット上でのFr\'echet Inception Distance(FID)のパフォーマンスが、現代の対向画像から画像への変換方法よりも大幅に向上する。

We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fr\'echet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.
翻訳日:2021-04-13 14:24:49 公開日:2021-04-12
# 条件付きGANデータ拡張による果実品質と欠陥画像分類

Fruit Quality and Defect Image Classification with Conditional GAN Data Augmentation ( http://arxiv.org/abs/2104.05647v1 )

ライセンス: Link先を確認
Jordan J. Bird, Chloe M. Barnes, Luis J. Manso, Anik\'o Ek\'art, Diego R. Faria(参考訳) 現代の人工知能技術は、コンピュータビジョンの雇用によって良い作物と悪い作物を区別することを可能にし、不好ましくない果物から健康な果物を選ぶパイプラインのステップを提供する。 現場における最新研究は、実世界の利用に関する人口の代表的ではない小さなデータセット(<1000画像)の精度の高い結果を報告している。 本研究の目的は,データ拡張による一般化の向上と,モデルプルーニングによるオーバーフィッティングとエネルギー使用量の削減により,現実世界の活用をさらに促進することである。 本研究では,果実品質の画像分類の改善に向けて,微調整,転写学習,生成モデルに基づくトレーニングデータ拡張のアイデアを組み合わせた機械学習パイプラインを提案する。 2690画像の公開データセットを用いてvgg16レモン品質分類モデルを調整するために線形ネットワークトポロジ探索を行う。 4096ニューロンの完全な結合層を畳み込み層に付加すると、画像の分類精度は83.77%になる。 そして,2000エポックの訓練データに基づいて条件付き生成型adversarial networkを訓練し,比較的現実的な画像を生成することを学ぶ。 実際の写真で訓練されたモデルのグラッド-CAM分析は、合成画像が形状、モールド、グルーレンなどの分類可能な特徴を示すことを示した。 88.75%の高い画像分類精度は、合成画像によるトレーニングを増強することで達成され、条件付き生成逆数ネットワークは、データ不足の問題を緩和する新しいデータを生成することができる、と論じられる。 最後に, モデルプルーニングは多項式崩壊によって行われ, 条件付きGAN拡張分類ネットワークは, 原サイズの50%まで圧縮した場合, 81.16%の分類精度を維持できることがわかった。

Contemporary Artificial Intelligence technologies allow for the employment of Computer Vision to discern good crops from bad, providing a step in the pipeline of selecting healthy fruit from undesirable fruit, such as those which are mouldy or gangrenous. State-of-the-art works in the field report high accuracy results on small datasets (<1000 images), which are not representative of the population regarding real-world usage. The goals of this study are to further enable real-world usage by improving generalisation with data augmentation as well as to reduce overfitting and energy usage through model pruning. In this work, we suggest a machine learning pipeline that combines the ideas of fine-tuning, transfer learning, and generative model-based training data augmentation towards improving fruit quality image classification. A linear network topology search is performed to tune a VGG16 lemon quality classification model using a publicly-available dataset of 2690 images. We find that appending a 4096 neuron fully connected layer to the convolutional layers leads to an image classification accuracy of 83.77%. We then train a Conditional Generative Adversarial Network on the training data for 2000 epochs, and it learns to generate relatively realistic images. Grad-CAM analysis of the model trained on real photographs shows that the synthetic images can exhibit classifiable characteristics such as shape, mould, and gangrene. A higher image classification accuracy of 88.75% is then attained by augmenting the training with synthetic images, arguing that Conditional Generative Adversarial Networks have the ability to produce new data to alleviate issues of data scarcity. Finally, model pruning is performed via polynomial decay, where we find that the Conditional GAN-augmented classification network can retain 81.16% classification accuracy when compressed to 50% of its original size.
翻訳日:2021-04-13 14:24:29 公開日:2021-04-12
# CAPRI-Net: アダプティブプリミティブアセンブリによるCAD形状の学習

CAPRI-Net: Learning Compact CAD Shapes with Adaptive Primitive Assembly ( http://arxiv.org/abs/2104.05652v1 )

ライセンス: Link先を確認
Fenggen Yu, Zhiqin Chen, Manyi Li, Aditya Sanghi, Hooman Shayani, Ali Mahdavi-Amiri and Hao Zhang(参考訳) 本稿では,3次元コンピュータ支援設計(CAD)モデルのコンパクトかつ解釈可能な暗黙表現を適応的プリミティブアセンブリの形で学習するニューラルネットワークであるCAPRI-Netを紹介する。 私たちのネットワークは、入力3次元形状を点クラウドまたはボクセルグリッドとして提供し、構成的ソリッドジオメトリ(csg)演算を介して二次曲面プリミティブのコンパクトな集合によって再構成する。 ネットワークは自己監督され、再構築の損失があり、鋭い縁と可算性のあるcsg木で忠実な3d再構築に繋がる。 CADモデルのパラメトリックな性質は、形状レベルではより局所的に予測しやすくするが、多くの構造的・トポロジカルなバリエーションがあり、3次元形状のための最先端のニューラルモデルに重大な一般化可能性をもたらす。 我々のネットワークは、各テスト形状に関する適応的なトレーニングによってこの課題に対処し、モデルコレクションで事前トレーニングされたネットワークを微調整する。 筆者らは,シェープネットとabcの両方の学習フレームワークについて,これまでのcadデータセットの中で最大かつ多様であり,復元品質,形状エッジ,コンパクト性,解釈性の観点から評価した。

We introduce CAPRI-Net, a neural network for learning compact and interpretable implicit representations of 3D computer-aided design (CAD) models, in the form of adaptive primitive assemblies. Our network takes an input 3D shape that can be provided as a point cloud or voxel grids, and reconstructs it by a compact assembly of quadric surface primitives via constructive solid geometry (CSG) operations. The network is self-supervised with a reconstruction loss, leading to faithful 3D reconstructions with sharp edges and plausible CSG trees, without any ground-truth shape assemblies. While the parametric nature of CAD models does make them more predictable locally, at the shape level, there is a great deal of structural and topological variations, which present a significant generalizability challenge to state-of-the-art neural models for 3D shapes. Our network addresses this challenge by adaptive training with respect to each test shape, with which we fine-tune the network that was pre-trained on a model collection. We evaluate our learning framework on both ShapeNet and ABC, the largest and most diverse CAD dataset to date, in terms of reconstruction quality, shape edges, compactness, and interpretability, to demonstrate superiority over current alternatives suitable for neural CAD reconstruction.
翻訳日:2021-04-13 14:24:00 公開日:2021-04-12
# 実世界知能システムにおける信頼の確立のための概念的枠組み

A Conceptual Framework for Establishing Trust in Real World Intelligent Systems ( http://arxiv.org/abs/2104.05432v1 )

ライセンス: Link先を確認
Michael Guckert, Nils Gumpfer, Jennifer Hannig, Till Keller and Neil Urquhart(参考訳) 創発的要素を含むインテリジェントな情報システムは、結果が十分に説明されず、手続き自体が完全に再追跡できないため、しばしば信頼の問題に直面する。 これは、確率要素または入力データの構造と関連性の両方に依存する制御フローによって引き起こされる。 このようなアルゴリズムの信頼性は、ユーザがシステムと対話して結果を探索し、期待されるソリューションと比較できるパターンを見つけることによって確立できる。 アルゴリズム的な結果に対するドメインの人間的理解の特徴やパターンを反映すると、そのようなパターンに対する認識が生まれ、ユーザがソリューションに持つ信頼が高まる可能性がある。 期待が満たされない場合は、ソリューションが期待に合致するかどうか、あるいは期待を超えるかどうかを綿密な検査で判断することができる。 ソリューションを受け入れるか拒否するかによって、ユーザの期待セットが進化し、ユーザのための学習プロセスが確立される。 本稿では,このプロセスを反映し,サポートする概念的枠組みを提案する。 この枠組みは、2つの異なる分野の事例分析と、複雑なタスクのエキスパートを支援する情報システムの分析の結果である。

Intelligent information systems that contain emergent elements often encounter trust problems because results do not get sufficiently explained and the procedure itself can not be fully retraced. This is caused by a control flow depending either on stochastic elements or on the structure and relevance of the input data. Trust in such algorithms can be established by letting users interact with the system so that they can explore results and find patterns that can be compared with their expected solution. Reflecting features and patterns of human understanding of a domain against algorithmic results can create awareness of such patterns and may increase the trust that a user has in the solution. If expectations are not met, close inspection can be used to decide whether a solution conforms to the expectations or whether it goes beyond the expected. By either accepting or rejecting a solution, the user's set of expectations evolves and a learning process for the users is established. In this paper we present a conceptual framework that reflects and supports this process. The framework is the result of an analysis of two exemplary case studies from two different disciplines with information systems that assist experts in their complex tasks.
翻訳日:2021-04-13 14:23:37 公開日:2021-04-12
# Factual Probingは, [MASK]: 学習対リコール学習

Factual Probing Is [MASK]: Learning vs. Learning to Recall ( http://arxiv.org/abs/2104.05240v1 )

ライセンス: Link先を確認
Zexuan Zhong, Dan Friedman, Danqi Chen(参考訳) ペトロニなど。 (2019)は,事前学習した言語モデルから,それらをクローゼスタイルのプロンプトとして表現し,それを符号化した事実情報量に基づく下限として予測精度を解釈することにより,世界事実を検索できることを実証した。 その後の研究は、不連続な事実の集合をトレーニングデータとして使用して、より良いプロンプトを求めることによって見積もりを締め付けようとしている。 本研究では,これらの事実探索手法をよりよく理解するための2つの補完的貢献を行う。 まず,連続的な埋め込み空間を直接最適化する新しい,効率的な手法であるOptiPromptを提案する。 この単純な方法は、lamaベンチマークでさらに6.4%の事実を予測できることがわかった。 第2に、より重要な疑問を提起する: これらの調査結果は、本当に低い境界として解釈できるのか? これらのプロンプト検索手法がトレーニングデータから学ぶことは可能でしょうか? 驚くべきことに、これらの手法が使用するトレーニングデータには、基礎となる事実分布の一定の規則性が含まれており、我々のものを含む既存のプロンプトメソッドは、より優れた事実予測のためにそれらを活用できる。 学習からリコールへの"学習"を分離する一連の制御実験を実施し,事前学習された言語モデルに対して,さまざまなプロンプトがどのようなことを顕在化できるかをより詳細に示す。

Petroni et al. (2019) demonstrated that it is possible to retrieve world facts from a pre-trained language model by expressing them as cloze-style prompts and interpret the model's prediction accuracy as a lower bound on the amount of factual information it encodes. Subsequent work has attempted to tighten the estimate by searching for better prompts, using a disjoint set of facts as training data. In this work, we make two complementary contributions to better understand these factual probing techniques. First, we propose OptiPrompt, a novel and efficient method which directly optimizes in continuous embedding space. We find this simple method is able to predict an additional 6.4% of facts in the LAMA benchmark. Second, we raise a more important question: Can we really interpret these probing results as a lower bound? Is it possible that these prompt-search methods learn from the training data too? We find, somewhat surprisingly, that the training data used by these methods contains certain regularities of the underlying fact distribution, and all the existing prompt methods, including ours, are able to exploit them for better fact prediction. We conduct a set of control experiments to disentangle "learning" from "learning to recall", providing a more detailed picture of what different prompts can reveal about pre-trained language models.
翻訳日:2021-04-13 14:21:30 公開日:2021-04-12
# 除去のための学習:等方性事前学習BERT埋め込みを目指して

Learning to Remove: Towards Isotropic Pre-trained BERT Embedding ( http://arxiv.org/abs/2104.05274v1 )

ライセンス: Link先を確認
Yuxin Liang, Rui Cao, Jie Zheng, Jie Ren, Ling Gao(参考訳) BERTのような事前訓練された言語モデルは、自然言語処理(NLP)タスクのより一般的な選択となっている。 単語表現の研究は、等方的埋め込みが下流タスクの性能を大幅に改善できることを示している。 しかし,事前学習したBERT埋め込みの形状を測定し解析した結果,等方性には程遠いことがわかった。 単語ベクトルは原点を中心とせず、2つのランダムな単語間の平均コサイン類似度は0よりもはるかに高く、単語ベクトルが狭い円錐に分散され、単語埋め込みの表現能力が低下していることを示す。 そこで本研究では,BERT の重みを学習可能な重みで埋め込む方法として,この問題を解決するための単純かつ効果的な方法を提案する。 単語類似度タスクの重み付けをトレーニングし、処理された埋め込みがより等方的であることを示す。 本手法は,単語類似性,単語類似性,意味的テキスト類似性という3つの標準化タスクで評価される。 全てのタスクにおいて、我々の方法で処理された単語埋め込みは、元の埋め込みよりも一貫して優れている(単語類似性の平均13%、意味的テキスト類似性16%)。 また,本手法はハイパーパラメータの変化に対してより堅牢であることが証明された。

Pre-trained language models such as BERT have become a more common choice of natural language processing (NLP) tasks. Research in word representation shows that isotropic embeddings can significantly improve performance on downstream tasks. However, we measure and analyze the geometry of pre-trained BERT embedding and find that it is far from isotropic. We find that the word vectors are not centered around the origin, and the average cosine similarity between two random words is much higher than zero, which indicates that the word vectors are distributed in a narrow cone and deteriorate the representation capacity of word embedding. We propose a simple, and yet effective method to fix this problem: remove several dominant directions of BERT embedding with a set of learnable weights. We train the weights on word similarity tasks and show that processed embedding is more isotropic. Our method is evaluated on three standardized tasks: word similarity, word analogy, and semantic textual similarity. In all tasks, the word embedding processed by our method consistently outperforms the original embedding (with average improvement of 13% on word analogy and 16% on semantic textual similarity) and two baseline methods. Our method is also proven to be more robust to changes of hyperparameter.
翻訳日:2021-04-13 14:21:07 公開日:2021-04-12
# stay together: 単独および分割型アナフォラ分解能のためのシステム

Stay Together: A System for Single and Split-antecedent Anaphora Resolution ( http://arxiv.org/abs/2104.05320v1 )

ライセンス: Link先を確認
Juntao Yu, Nafise Sadat Moosavi, Silviu Paun, Massimo Poesio(参考訳) 基礎的で単発的なアナフォラの最先端は近年大きく改善されている。 そのため、タイム・ウォーナーは、テレコムがショータイム・ネットワークスの半分を購入する計画に対して法的に異議を唱えているため、スプリット・アンテシデント・アナフォラのようなより複雑なアナフォラのケースにより多くの注意を払うようになった。 スプリット・アンセレント・アナフォラはシングル・アンセレント・アナフォラよりは稀で複雑であり、その結果、コア推論をテストするために設計された多くのデータセットでは注釈が付けられておらず、金の言及や金のスプリット・アンセレント・アナフォラを仮定する非現実的な条件下で、このタイプのアナフォラの解決に関する以前の研究が行われた。 これらのシステムは分割型アパルトのみに焦点を当てている。 本研究では,一対一のアナフォを解消し,予測された言及を用いたより現実的な設定で評価するシステムを提案する。 また、標準コア基準評価指標を用いて、単一および分割集約アナプホルをどのように評価するかという問題にも取り組み始めます。

The state-of-the-art on basic, single-antecedent anaphora has greatly improved in recent years. Researchers have therefore started to pay more attention to more complex cases of anaphora such as split-antecedent anaphora, as in Time-Warner is considering a legal challenge to Telecommunications Inc's plan to buy half of Showtime Networks Inc-a move that could lead to all-out war between the two powerful companies. Split-antecedent anaphora is rarer and more complex to resolve than single-antecedent anaphora; as a result, it is not annotated in many datasets designed to test coreference, and previous work on resolving this type of anaphora was carried out in unrealistic conditions that assume gold mentions and/or gold split-antecedent anaphors are available. These systems also focus on split-antecedent anaphors only. In this work, we introduce a system that resolves both single and split-antecedent anaphors, and evaluate it in a more realistic setting that uses predicted mentions. We also start addressing the question of how to evaluate single and split-antecedent anaphors together using standard coreference evaluation metrics.
翻訳日:2021-04-13 14:20:45 公開日:2021-04-12
# NLP手法の人的評価における大きなミスアライメント問題

The Great Misalignment Problem in Human Evaluation of NLP Methods ( http://arxiv.org/abs/2104.05361v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen and Khalid Alnajjar(参考訳) 本稿では,自然言語処理研究における大過ち問題について概説する。これは,問題定義が提案手法と一致せず,人的評価が定義や方法と一致していないことを意味する。 本研究では,ACL 2020で公表された10件の無作為なサンプルを調査し,人体評価の結果を報告する。 その結果,問題定義,方法,評価の面では,1つの論文が完全に一致していることがわかった。 2つの論文だけが、その手法でモデル化されたものと一致した人間の評価を提示した。 これらの結果から, 大不一致問題は大きな問題であり, 評価結果の妥当性と再現性に影響を及ぼすことが示唆された。

We outline the Great Misalignment Problem in natural language processing research, this means simply that the problem definition is not in line with the method proposed and the human evaluation is not in line with the definition nor the method. We study this misalignment problem by surveying 10 randomly sampled papers published in ACL 2020 that report results with human evaluation. Our results show that only one paper was fully in line in terms of problem definition, method and evaluation. Only two papers presented a human evaluation that was in line with what was modeled in the method. These results highlight that the Great Misalignment Problem is a major one and it affects the validity and reproducibility of results obtained by a human evaluation.
翻訳日:2021-04-13 14:20:23 公開日:2021-04-12
# 日付:変圧器の自己スーパービジョンによるテキストの異常検出

DATE: Detecting Anomalies in Text via Self-Supervision of Transformers ( http://arxiv.org/abs/2104.05591v1 )

ライセンス: Link先を確認
Andrei Manolache and Florin Brad and Elena Burceanu(参考訳) 異常検出(AD)のためのディープラーニングモデルの導入は、従来の手法よりも優れた性能のため、近年広く利用されている。 最近の画像における異常の深層化手法は、エンドツーエンドの自己監督設定において、正常性のより良い特徴を学習する。 これらの手法は、モデルに視覚データに適用された異なる変換を識別させ、出力を使用して異常スコアを計算する。 テキスト列に新しい前文タスクを導入することで,このアプローチをテキスト広告に適用する。 我々は、DATEモデルをエンドツーエンドに学習し、2つの独立かつ補完的な自己超越信号、トークンレベルで1つ、シーケンスレベルで1つを強制する。 この新たなタスクの定式化の下で、20NewsgroupsおよびAG Newsデータセット上で、強い量的および質的な結果を示す。 半教師付き環境では、最先端の結果を+13.5%、+6.9%(AUROC)で上回ります。 教師なしの構成では、DATEはトレーニングデータの10%がアウトレーヤで汚染されている場合(他のデータと比較すると0%)、他のすべてのメソッドを上回ります。

Leveraging deep learning models for Anomaly Detection (AD) has seen widespread use in recent years due to superior performances over traditional methods. Recent deep methods for anomalies in images learn better features of normality in an end-to-end self-supervised setting. These methods train a model to discriminate between different transformations applied to visual data and then use the output to compute an anomaly score. We use this approach for AD in text, by introducing a novel pretext task on text sequences. We learn our DATE model end-to-end, enforcing two independent and complementary self-supervision signals, one at the token-level and one at the sequence-level. Under this new task formulation, we show strong quantitative and qualitative results on the 20Newsgroups and AG News datasets. In the semi-supervised setting, we outperform state-of-the-art results by +13.5% and +6.9%, respectively (AUROC). In the unsupervised configuration, DATE surpasses all other methods even when 10% of its training data is contaminated with outliers (compared with 0% for the others).
翻訳日:2021-04-13 14:20:11 公開日:2021-04-12
# samanantar: 11のindic言語で利用可能な最大の並列コーパスコレクション

Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages ( http://arxiv.org/abs/2104.05596v1 )

ライセンス: Link先を確認
Gowtham Ramesh, Sumanth Doddapaneni, Aravinth Bheemaraj, Mayank Jobanputra, Raghavan AK, Ajitesh Sharma, Sujit Sahoo, Harshita Diddee, Mahalakshmi J, Divyanshu Kakwani, Navneet Kumar, Aswin Pradeep, Kumar Deepak, Vivek Raghavan, Anoop Kunchukuttan, Pratyush Kumar, Mitesh Shantadevi Khapra(参考訳) 我々は,indic 言語で利用可能な最大規模の並列コーパスコレクションである samanantar を提案する。 このコレクションには、英語と11のIndic言語(2つの言語族)の合計4690万の文対が含まれている。 特に、既存のパラレルコーパスから1240万の文ペアをコンパイルし、さらにwebから3460万の文ペアを抽出し、公開可能な文ペアの2.8倍の増加を実現しました。 多くのコーパスやツール,メソッドを組み合わせることで,Webから並列文を抽出する。 特に, (a) ウェブクローリングされた単言語コーパス, (b) スキャンされた文書から文を抽出するためのocr, (c) 文を整列するための多言語表現モデル, (d) 大量の文を検索するために, 近距離近傍探索を行う。 新たに採掘したコーパスから採取したサンプルの人間による評価により,11言語対の並列文の品質が検証された。 さらに,ピボット言語として英語を用いて,英語中心の並列コーパスから,55言語対の870万文対を抽出した。 Samanantar上でこれらの言語にまたがる多言語NMTモデルをトレーニングし、他のベースラインと比較した。 我々のモデルはこれらのベンチマークで既存のモデルより優れており、Samanantarの実用性を確立しています。 我々の data\footnote{https://indicnlp.ai4bharat.org/samanantar} と model\footnote{https://github.com/AI4Bharat/IndicTrans} が公開され、Indic NMT および Indic 言語用多言語 NLP の研究の進展を支援することを期待しています。

We present Samanantar, the largest publicly available parallel corpora collection for Indic languages. The collection contains a total of 46.9 million sentence pairs between English and 11 Indic languages (from two language families). In particular, we compile 12.4 million sentence pairs from existing, publicly-available parallel corpora, and we additionally mine 34.6 million sentence pairs from the web, resulting in a 2.8X increase in publicly available sentence pairs. We mine the parallel sentences from the web by combining many corpora, tools, and methods. In particular, we use (a) web-crawled monolingual corpora, (b) document OCR for extracting sentences from scanned documents (c) multilingual representation models for aligning sentences, and (d) approximate nearest neighbor search for searching in a large collection of sentences. Human evaluation of samples from the newly mined corpora validate the high quality of the parallel sentences across 11 language pairs. Further, we extracted 82.7 million sentence pairs between all 55 Indic language pairs from the English-centric parallel corpus using English as the pivot language. We trained multilingual NMT models spanning all these languages on Samanantar and compared with other baselines and previously reported results on publicly available benchmarks. Our models outperform existing models on these benchmarks, establishing the utility of Samanantar. Our data\footnote{https://indicnlp.ai4bharat.org/samanantar} and models\footnote{https://github.com/AI4Bharat/IndicTrans} will be available publicly and we hope they will help advance research in Indic NMT and multilingual NLP for Indic languages.
翻訳日:2021-04-13 14:19:55 公開日:2021-04-12
# セマンティックフレーム予測

Semantic Frame Forecast ( http://arxiv.org/abs/2104.05604v1 )

ライセンス: Link先を確認
Chieh-Yang Huang and Ting-Hao 'Kenneth' Huang(参考訳) 本稿では,次の10,100,あるいは1000の文で発生する意味的フレームを予測するタスクである意味的フレーム予測を紹介する。 以前の仕事は、ストーリーの短期的な未来を予測することに集中していた。 しかし、小説家が長い物語を書くとき、数文の文章を生成するだけでは、フォローアップストーリーを開発するためのハイレベルな洞察を得るのに十分ではない。 本稿では,各ブロックが一定数の文(例えば10,100,200)を含む「物語ブロック」の列として長い物語を定式化する。 この定式化により、数文の範囲を超えたフォローアップストーリーアークを予測することができる。 各フレームの逆文書頻度(idf)によって正規化された意味フレームの項周波数(tf)を用いてストーリーブロックを表現する。 本書の4,794冊と,CODA-19の7,962冊の科学論文に,ブロックサイズを5~1000文にまとめたセマンティックフレーム予測実験を行った。 その結果、自動化されたモデルは、ランダム、事前、リプレイのベースラインよりもフォローアップストーリーブロックを予測でき、タスクの実行可能性を示している。 また, ブロックサイズが150以上の場合, フレーム表現を特徴として使用するモデルは, 既存のアプローチよりも優れていた。 また,提案したフレーム表現が,単語雲として可視化された場合,人間にとって分かりやすく,代表的かつ特異であることを示す。 私たちのコードはhttps://github.com/appleternity/frameforecastingで利用可能です。

This paper introduces semantic frame forecast, a task that predicts the semantic frames that will occur in the next 10, 100, or even 1,000 sentences in a running story. Prior work focused on predicting the immediate future of a story, such as one to a few sentences ahead. However, when novelists write long stories, generating a few sentences is not enough to help them gain high-level insight to develop the follow-up story. In this paper, we formulate a long story as a sequence of "story blocks," where each block contains a fixed number of sentences (e.g., 10, 100, or 200). This formulation allows us to predict the follow-up story arc beyond the scope of a few sentences. We represent a story block using the term frequencies (TF) of semantic frames in it, normalized by each frame's inverse document frequency (IDF). We conduct semantic frame forecast experiments on 4,794 books from the Bookcorpus and 7,962 scientific abstracts from CODA-19, with block sizes ranging from 5 to 1,000 sentences. The results show that automated models can forecast the follow-up story blocks better than the random, prior, and replay baselines, indicating the task's feasibility. We also learn that the models using the frame representation as features outperform all the existing approaches when the block size is over 150 sentences. The human evaluation also shows that the proposed frame representation, when visualized as word clouds, is comprehensible, representative, and specific to humans. Our code is available at https://github.com/appleternity/FrameForecasting.
翻訳日:2021-04-13 14:19:23 公開日:2021-04-12
# Transformerを用いた動的・階層的トラフィック時空間特性の学習

Learning dynamic and hierarchical traffic spatiotemporal features with Transformer ( http://arxiv.org/abs/2104.05163v1 )

ライセンス: Link先を確認
Haoyang Yan, Xiaolei Ma(参考訳) 交通予測はインテリジェントトランスポートシステム(ITS)の必須部分であり、長期にわたるネットワーク全体の正確な交通速度予測は最も困難な課題の1つである。 近年,この領域では深層学習が普及している。 交通データは道路ネットワークと物理的に関連付けられているため、ほとんどのモデルでは時空間グラフモデリング問題として扱い、グラフ畳み込みネットワーク(GCN)ベースの手法を用いる。 これらのGCNベースのモデルは、空間依存を反映する事前定義された固定された隣接行列に依存する。 しかし、事前定義された固定隣接行列は、交通流の実際の依存を反映して制限される。 本稿では,空間-時間グラフモデリングと長期トラヒック予測のための新しいモデルであるトラヒックトランスフォーマを提案する。 Transformerは自然言語処理(NLP)で最も人気のあるフレームワークである。 そして、時空間問題に適応することにより、トラヒックトランスフォーマは、マルチヘッドアテンションとマスキングマルチヘッドアテンション機構によって動的にデータを介して時空間の特徴を階層的に抽出し、これらの特徴をトラフィック予測に融合させる。 さらに、注意重み行列の分析は、道路網の影響力のある部分を見つけ出し、交通ネットワークをよりよく学べるようにします。 筆者らが作成した公開トラフィックネットワークデータセットと実世界のトラフィックネットワークデータセットの実験結果から,提案したモデルが最先端のモデルよりも優れた性能を実現することを示す。

Traffic forecasting is an indispensable part of Intelligent transportation systems (ITS), and long-term network-wide accurate traffic speed forecasting is one of the most challenging tasks. Recently, deep learning methods have become popular in this domain. As traffic data are physically associated with road networks, most proposed models treat it as a spatiotemporal graph modeling problem and use Graph Convolution Network (GCN) based methods. These GCN-based models highly depend on a predefined and fixed adjacent matrix to reflect the spatial dependency. However, the predefined fixed adjacent matrix is limited in reflecting the actual dependence of traffic flow. This paper proposes a novel model, Traffic Transformer, for spatial-temporal graph modeling and long-term traffic forecasting to overcome these limitations. Transformer is the most popular framework in Natural Language Processing (NLP). And by adapting it to the spatiotemporal problem, Traffic Transformer hierarchically extracts spatiotemporal features through data dynamically by multi-head attention and masked multi-head attention mechanism, and fuse these features for traffic forecasting. Furthermore, analyzing the attention weight matrixes can find the influential part of road networks, allowing us to learn the traffic networks better. Experimental results on the public traffic network datasets and real-world traffic network datasets generated by ourselves demonstrate our proposed model achieves better performance than the state-of-the-art ones.
翻訳日:2021-04-13 14:18:51 公開日:2021-04-12
# 属性強化型近傍を用いた深層ネットワーク表現学習

Deep Attributed Network Representation Learning via Attribute Enhanced Neighborhood ( http://arxiv.org/abs/2104.05234v1 )

ライセンス: Link先を確認
Cong Li, Min Shi, Bo Qu, Xiang Li(参考訳) 帰結型ネットワーク表現学習は、ネットワーク構造と属性情報の統合によるノード埋め込みの学習を目標としている。 ノードの1次,2次,2次および高次近接を示す1段階,2段階,多段階の関係を含むミクロ構造と属性意味論を同時に捉えることが課題である。 本稿では,属性強化近傍(DANRL-ANE)モデルを用いたディープ属性ネットワーク表現学習を提案し,ノード表現の堅牢性と有効性を改善する。 DANRL-ANEモデルはオートエンコーダの概念を採用し、デコーダコンポーネントを3つのブランチに拡張し、異なる順序の近接をキャプチャする。 我々は,属性類似度行列と属性類似度行列をモデル入力として線形に結合し,その属性類似度行列を社会的同相性に基づく属性間のコサイン類似度によって計算する。 このようにして、スパースネットワーク上のdanrl-aneモデルのロバスト性を高めるために2次近接を保存し、トポロジカル情報と属性情報を同時に扱う。 さらに、シグモイドクロスエントロピー損失関数を拡張して、近傍のキャラクタを捕捉し、第1次近接をよりよく保存する。 5つの実世界のデータセットと2つのネットワーク分析タスク、すなわちリンク予測とノード分類の最先端モデルと比較した。 DANRL-ANEモデルは、属性情報が十分であれば、スパースネットワークや独立したノードを持つネットワークでも、様々なネットワークでよく機能する。

Attributed network representation learning aims at learning node embeddings by integrating network structure and attribute information. It is a challenge to fully capture the microscopic structure and the attribute semantics simultaneously, where the microscopic structure includes the one-step, two-step and multi-step relations, indicating the first-order, second-order and high-order proximity of nodes, respectively. In this paper, we propose a deep attributed network representation learning via attribute enhanced neighborhood (DANRL-ANE) model to improve the robustness and effectiveness of node representations. The DANRL-ANE model adopts the idea of the autoencoder, and expands the decoder component to three branches to capture different order proximity. We linearly combine the adjacency matrix with the attribute similarity matrix as the input of our model, where the attribute similarity matrix is calculated by the cosine similarity between the attributes based on the social homophily. In this way, we preserve the second-order proximity to enhance the robustness of DANRL-ANE model on sparse networks, and deal with the topological and attribute information simultaneously. Moreover, the sigmoid cross-entropy loss function is extended to capture the neighborhood character, so that the first-order proximity is better preserved. We compare our model with the state-of-the-art models on five real-world datasets and two network analysis tasks, i.e., link prediction and node classification. The DANRL-ANE model performs well on various networks, even on sparse networks or networks with isolated nodes given the attribute information is sufficient.
翻訳日:2021-04-13 14:18:26 公開日:2021-04-12
# マルチモーダルフレームワークを用いたMeTooTweetsの感情分析

MeToo Tweets Sentiment Analysis Using Multi Modal frameworks ( http://arxiv.org/abs/2104.05331v1 )

ライセンス: Link先を確認
Rushil Thareja(参考訳) 本稿では, IEEEBigMM 2020, Grand Challenge (BMGC) へのアプローチとして, MeToo 運動に関連するツイートからセンティメントを同定する手法を提案する。 このモデルは、畳み込みニューラルネットワーク、双方向LSTM、最終分類のためのDNNのアンサンブルに基づいている。 本論文の目的は,モデルと得られた結果を詳細に分析することである。 10チーム中5位にランクインし、スコアは0.51491

In this paper, We present our approach for IEEEBigMM 2020, Grand Challenge (BMGC), Identifying senti-ments from tweets related to the MeToo movement. The modelis based on an ensemble of Convolutional Neural Network,Bidirectional LSTM and a DNN for final classification. Thispaper is aimed at providing a detailed analysis of the modeland the results obtained. We have ranked 5th out of 10 teamswith a score of 0.51491
翻訳日:2021-04-13 14:18:02 公開日:2021-04-12
# 効果的な表情認識のための特徴分解と再構成学習

Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition ( http://arxiv.org/abs/2104.05160v1 )

ライセンス: Link先を確認
Delian Ruan and YanYan and Shenqi Lai and Zhenhua Chai and Chunhua Shen and Hanzi Wang(参考訳) 本稿では,表情認識のための特徴分解再構成学習(FDRL)手法を提案する。 表現情報は,各表現に共通する共有情報(表現類似性)と,各表現に特有な情報(表現特有なバリエーション)を組み合わせて表現する。 具体的には、FDRLは主に2つの重要なネットワーク、FDN(Feature Decomposition Network)とFRN(Feature Restruction Network)で構成されている。 特に、fdnはまずバックボーンネットワークから抽出された基本特徴を、顔動作認識潜在特徴の集合に分解し、モデル表現の類似性を示す。 次にfrnは、潜在機能に対する機能内および機能間関係をキャプチャし、表現固有のバリエーションを特徴付け、表現特徴を再構築する。 これにより、frnにおいて、機能内関係モデリングモジュールと機能間関係モデリングモジュールを含む2つのモジュールが開発される。 バンド内データベース (CK+, MMI, Oulu-CASIAを含む) とファイル内データベース (RAF-DB, SFEWを含む) による実験結果から, FDRL法は複数の最先端手法よりも高い認識精度を一貫して達成していることがわかった。 これは、表現の分類における特徴分解と再構成の利点を明確に強調する。

In this paper, we propose a novel Feature Decomposition and Reconstruction Learning (FDRL) method for effective facial expression recognition. We view the expression information as the combination of the shared information (expression similarities) across different expressions and the unique information (expression-specific variations) for each expression. More specifically, FDRL mainly consists of two crucial networks: a Feature Decomposition Network (FDN) and a Feature Reconstruction Network (FRN). In particular, FDN first decomposes the basic features extracted from a backbone network into a set of facial action-aware latent features to model expression similarities. Then, FRN captures the intra-feature and inter-feature relationships for latent features to characterize expression-specific variations, and reconstructs the expression feature. To this end, two modules including an intra-feature relation modeling module and an inter-feature relation modeling module are developed in FRN. Experimental results on both the in-the-lab databases (including CK+, MMI, and Oulu-CASIA) and the in-the-wild databases (including RAF-DB and SFEW) show that the proposed FDRL method consistently achieves higher recognition accuracy than several state-of-the-art methods. This clearly highlights the benefit of feature decomposition and reconstruction for classifying expressions.
翻訳日:2021-04-13 14:10:56 公開日:2021-04-12
# 点雲上の教師なし領域適応のための学習可能な自己教師ありタスク

A Learnable Self-supervised Task for Unsupervised Domain Adaptation on Point Clouds ( http://arxiv.org/abs/2104.05164v1 )

ライセンス: Link先を確認
Xiaoyuan Luo, Shaolei Liu, Kexue Fu, Manning Wang, Zhijian Song(参考訳) 深層ニューラルネットワークは、教師付きポイントクラウドアプリケーションで有望なパフォーマンスを達成したが、手動アノテーションは非常に高価で、教師付き学習スキームでは時間がかかる。 教師なしドメイン適応(UDA)は、ソースドメインでラベル付きデータのみをトレーニングし、ターゲットドメインでモデルを適切に一般化することによってこの問題に対処する。 既存の研究では、ソースデータとターゲットドメインデータの両方を用いた自己教師型学習は、訓練されたモデルの適応性を向上させることができるが、それらはすべて、自己教師型タスクの手作り設計に依存している。 本稿では,学習可能な自己教師型タスクを提案し,それをセルフスーパービジョンベースのポイントクラウド UDA アーキテクチャに統合する。 具体的には、学習可能な非線形変換を提案し、元の意味情報を保持しながら、点雲の一部を多量の複雑な点雲に変換し、変形した点雲から元の点雲を再構築する。 UDAアーキテクチャでは、自己監督タスクのネットワークとポイントクラウド分類またはセグメンテーションのメインタスクとの間にエンコーダを共有し、ソースデータとターゲットドメインデータの両方に適した特徴を抽出するためにエンコーダを訓練することができる。 PointDA-10とPointSegDAデータセットを用いた実験により,提案手法はポイントクラウドUDAの分類とセグメンテーションのタスクにおいて,新たな最先端性能を実現することを示す。 コードは公開される予定だ。

Deep neural networks have achieved promising performance in supervised point cloud applications, but manual annotation is extremely expensive and time-consuming in supervised learning schemes. Unsupervised domain adaptation (UDA) addresses this problem by training a model with only labeled data in the source domain but making the model generalize well in the target domain. Existing studies show that self-supervised learning using both source and target domain data can help improve the adaptability of trained models, but they all rely on hand-crafted designs of the self-supervised tasks. In this paper, we propose a learnable self-supervised task and integrate it into a self-supervision-based point cloud UDA architecture. Specifically, we propose a learnable nonlinear transformation that transforms a part of a point cloud to generate abundant and complicated point clouds while retaining the original semantic information, and the proposed self-supervised task is to reconstruct the original point cloud from the transformed ones. In the UDA architecture, an encoder is shared between the networks for the self-supervised task and the main task of point cloud classification or segmentation, so that the encoder can be trained to extract features suitable for both the source and the target domain data. Experiments on PointDA-10 and PointSegDA datasets show that the proposed method achieves new state-of-the-art performance on both classification and segmentation tasks of point cloud UDA. Code will be made publicly available.
翻訳日:2021-04-13 14:10:33 公開日:2021-04-12
# ビデオ質問応答のためのオブジェクト中心表現学習

Object-Centric Representation Learning for Video Question Answering ( http://arxiv.org/abs/2104.05166v1 )

ライセンス: Link先を確認
Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran(参考訳) ビデオ質問応答(ビデオQA)は、人間のような知的行動のための強力なテストベッドを提供する。 このタスクは、ビデオ処理、言語理解、抽象言語概念を具体的な視覚的アーティファクトに結合すること、時空上の意図的な推論を統合するために、新たな能力を要求する。 ニューラルネットワークは、手作りの機能やルールではなく、例から学ぶことによって、この可能性を達成するための有望なアプローチを提供する。 しかし、ニューラルネットワークは主に機能ベースであり、非構造化ベクトル表現にデータをマッピングするため、シンボルシステムに見られる真の体系的推論ではなく、表面統計を通じてショートカットを悪用する罠に陥る可能性がある。 この問題に取り組むため,我々は映像から時空間構造を構築するための基盤としてオブジェクト中心表現を提唱し,低レベルパターン認識と高レベルシンボリック代数の間の意味的ギャップを橋渡しする。 そこで本研究では,映像を動的かつ条件付きで推論されたオブジェクトのリレーショナルグラフにするための,新たなクエリ誘導表現フレームワークを提案する。 オブジェクトのライフは履歴書にまとめられ、クエリに対する応答を生成する意図的な関係推論のために自然に貸し出される。 このフレームワークは主要なビデオqaデータセットで評価され、ビデオ推論に対するオブジェクト指向アプローチの明確な利点を示しています。

Video question answering (Video QA) presents a powerful testbed for human-like intelligent behaviors. The task demands new capabilities to integrate video processing, language understanding, binding abstract linguistic concepts to concrete visual artifacts, and deliberative reasoning over spacetime. Neural networks offer a promising approach to reach this potential through learning from examples rather than handcrafting features and rules. However, neural networks are predominantly feature-based - they map data to unstructured vectorial representation and thus can fall into the trap of exploiting shortcuts through surface statistics instead of true systematic reasoning seen in symbolic systems. To tackle this issue, we advocate for object-centric representation as a basis for constructing spatio-temporal structures from videos, essentially bridging the semantic gap between low-level pattern recognition and high-level symbolic algebra. To this end, we propose a new query-guided representation framework to turn a video into an evolving relational graph of objects, whose features and interactions are dynamically and conditionally inferred. The object lives are then summarized into resumes, lending naturally for deliberative relational reasoning that produces an answer to the query. The framework is evaluated on major Video QA datasets, demonstrating clear benefits of the object-centric approach to video reasoning.
翻訳日:2021-04-13 14:10:09 公開日:2021-04-12
# Egocentric Pose Estimation from Human Vision Span

Egocentric Pose Estimation from Human Vision Span ( http://arxiv.org/abs/2104.05167v1 )

ライセンス: Link先を確認
Hao Jiang, Vamsi Krishna Ithapu(参考訳) カメラ装着者の身体ポーズを自我中心の視点から推定する(egopose)は、拡張現実および仮想現実において重要な課題である。 既存のアプローチでは、狭い視野の前面カメラが着用者をほとんど捉えていないか、最大視認性のために押出式ヘッドマウントトップダウンカメラを使うかのどちらかだ。 本稿では,より自然な人間の視覚範囲からエゴポスを推定し,周辺視野でカメラ装着者が見えるとともに,装着者が目立たない場合や部分的視野が限られる場合の頭部形状にもとづいて,エゴポス推定に挑戦する。 これは、前面に広角カメラを持つメガネのようなユーザー中心のウェアラブルデバイスにとって現実的な視野である。 この設定には既存のソリューションが適さないため,カメラSLAMの動的特徴と身体形状の画像の両方を活かした新しいディープラーニングシステムを提案する。 3dヘッドポーズ,3dボディポーズ,フィギュア/グラウンド分離を同時に計算し,ポーズ属性間の幾何的一貫性を明示的に強制する。 さらに,本システムは既存のmocapデータでロバストにトレーニングできるので,大規模なデータセットを収集して注釈付けする必要がなくなる。 最後に, 精度を維持しつつ, 実時間および飛行中のegoposeの推定を行った。

Estimating camera wearer's body pose from an egocentric view (egopose) is a vital task in augmented and virtual reality. Existing approaches either use a narrow field of view front facing camera that barely captures the wearer, or an extruded head-mounted top-down camera for maximal wearer visibility. In this paper, we tackle the egopose estimation from a more natural human vision span, where camera wearer can be seen in the peripheral view and depending on the head pose the wearer may become invisible or has a limited partial view. This is a realistic visual field for user-centric wearable devices like glasses which have front facing wide angle cameras. Existing solutions are not appropriate for this setting, and so, we propose a novel deep learning system taking advantage of both the dynamic features from camera SLAM and the body shape imagery. We compute 3D head pose, 3D body pose, the figure/ground separation, all at the same time while explicitly enforcing a certain geometric consistency across pose attributes. We further show that this system can be trained robustly with lots of existing mocap data so we do not have to collect and annotate large new datasets. Lastly, our system estimates egopose in real time and on the fly while maintaining high accuracy.
翻訳日:2021-04-13 14:09:48 公開日:2021-04-12
# 高次元データのための深部再帰埋め込み

Deep Recursive Embedding for High-Dimensional Data ( http://arxiv.org/abs/2104.05171v1 )

ライセンス: Link先を確認
Zixia Zhou, Yuanyuan Wang, Boudewijn P.F. Lelieveldt, Qian Tao(参考訳) t-distributed stochastic neighbor embedded (t-sne) は複雑な高次元データに対するよく確立された可視化手法である。 しかし、元の t-SNE 法は非パラメトリックで確率的であり、しばしば局所的な近傍を強調するため、データのグローバルな構造を十分に保存することができない。 t-sneを基準として,深層ニューラルネットワーク(dnn)を高次元データ埋め込みのための数学的根拠埋め込みルールと組み合わせることを提案する。 まず,高次元空間から低次元埋め込みへのパラメトリックマッピングを学習できる深層埋め込みネットワーク(den)フレームワークについて紹介する。 DENは柔軟なアーキテクチャを持ち、異なる入力データ(ベクトル、画像、テンソル)と損失関数に対応できる。 組込み性能を向上させるために,denで抽出した潜在表現を利用した再帰的学習戦略を提案する。 最後に,2つの一般的な埋め込み手法,すなわち t-SNE と一様多様体近似および投影(UMAP)の利点を組み合わせた2段階の損失関数を提案する。 本稿では,再帰的トレーニング戦略と2段階の損失でDENを最適化するDeep Recursive Embedding (DRE) を提案する。 本実験は,多種多様な公開データベースにまたがる高次元データ埋め込みにおけるDRE手法の優れた性能を実証した。 以上の結果から,提案したDREがグローバルな構造保存の改善につながる可能性が示唆された。

t-distributed stochastic neighbor embedding (t-SNE) is a well-established visualization method for complex high-dimensional data. However, the original t-SNE method is nonparametric, stochastic, and often cannot well prevserve the global structure of data as it emphasizes local neighborhood. With t-SNE as a reference, we propose to combine the deep neural network (DNN) with the mathematical-grounded embedding rules for high-dimensional data embedding. We first introduce a deep embedding network (DEN) framework, which can learn a parametric mapping from high-dimensional space to low-dimensional embedding. DEN has a flexible architecture that can accommodate different input data (vector, image, or tensor) and loss functions. To improve the embedding performance, a recursive training strategy is proposed to make use of the latent representations extracted by DEN. Finally, we propose a two-stage loss function combining the advantages of two popular embedding methods, namely, t-SNE and uniform manifold approximation and projection (UMAP), for optimal visualization effect. We name the proposed method Deep Recursive Embedding (DRE), which optimizes DEN with a recursive training strategy and two-stage losse. Our experiments demonstrated the excellent performance of the proposed DRE method on high-dimensional data embedding, across a variety of public databases. Remarkably, our comparative results suggested that our proposed DRE could lead to improved global structure preservation.
翻訳日:2021-04-13 14:09:25 公開日:2021-04-12
# SCPM-Net:球表現と中心点マッチングを用いたアンカーフリー3次元肺結節検出ネットワーク

SCPM-Net: An Anchor-free 3D Lung Nodule Detection Network using Sphere Representation and Center Points Matching ( http://arxiv.org/abs/2104.05215v1 )

ライセンス: Link先を確認
Xiangde Luo, Tao Song, Guotai Wang, Jieneng Chen, Yinan Chen, Kang Li, Dimitris N. Metaxas and Shaoting Zhang(参考訳) 3次元CTによる肺結節の自動検出は肺がん検診において重要な役割を担っている。 畳み込みニューラルネットワークを用いた最近のアンカーベース検出器による最先端性能にもかかわらず、アンカーのサイズ、数、アスペクト比などの所定のアンカーパラメータが必要であり、肺結節を多種多様な大きさで扱う場合の堅牢性は限られている。 本研究では,3次元球面表現に基づく中心点マッチング検出ネットワーク(SCPM-Net)を提案する。 scpm-net は球面表現と中心点マッチングという2つの新しい柱からなる。 臨床における結節アノテーションを模倣するために,従来の結節ボックスを新たに提案する結節球に置き換える。 本研究では, 肺結節検出ネットワークを安定かつ効率的に訓練するために, 相反する球面型交叉切断機能を導入し, 予め決定されたアンカーボックスを自然に破棄する正中心点選択マッチング(CPM)プロセスの設計により, ネットワークアンカーフリーを向上する。 オンラインのハードサンプルマイニングと再焦点損失により、CPMプロセスはより堅牢になり、より正確なポイント割り当てとクラス不均衡の緩和をもたらす。 さらに,検出のための空間情報と3Dコンテキストをよりよく把握するために,特徴抽出器と多層空間座標マップを融合し,これらを3D圧縮・励起アテンションモジュールと組み合わせることを提案する。 肺結節検出のための既存のアンカーベースおよびアンカーフリー法と比較して,提案したSCPM-Netフレームワークは優れた性能を示した。

Automatic and accurate lung nodule detection from 3D Computed Tomography scans plays a vital role in efficient lung cancer screening. Despite the state-of-the-art performance obtained by recent anchor-based detectors using Convolutional Neural Networks, they require predetermined anchor parameters such as the size, number, and aspect ratio of anchors, and have limited robustness when dealing with lung nodules with a massive variety of sizes. We propose a 3D sphere representation-based center-points matching detection network (SCPM-Net) that is anchor-free and automatically predicts the position, radius, and offset of nodules without the manual design of nodule/anchor parameters. The SCPM-Net consists of two novel pillars: sphere representation and center points matching. To mimic the nodule annotation in clinical practice, we replace the conventional bounding box with the newly proposed bounding sphere. A compatible sphere-based intersection over-union loss function is introduced to train the lung nodule detection network stably and efficiently.We empower the network anchor-free by designing a positive center-points selection and matching (CPM) process, which naturally discards pre-determined anchor boxes. An online hard example mining and re-focal loss subsequently enable the CPM process more robust, resulting in more accurate point assignment and the mitigation of class imbalance. In addition, to better capture spatial information and 3D context for the detection, we propose to fuse multi-level spatial coordinate maps with the feature extractor and combine them with 3D squeeze-and-excitation attention modules. Experimental results on the LUNA16 dataset showed that our proposed SCPM-Net framework achieves superior performance compared with existing used anchor-based and anchor-free methods for lung nodule detection.
翻訳日:2021-04-13 14:09:03 公開日:2021-04-12
# セグメンテーションの改善に近づいた - インスタンスセグメンテーションのための境界パッチリファインメント

Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation ( http://arxiv.org/abs/2104.05239v1 )

ライセンス: Link先を確認
Chufeng Tang, Hang Chen, Xiao Li, Jianmin Li, Zhaoxiang Zhang, Xiaolin Hu(参考訳) ケースセグメンテーションに厳しい取り組みがなされているが、マスクの品質はまだ満足できない。 予測されたインスタンスマスクの境界は通常、特徴写像の空間分解能が低いことと、非常に低い境界画素による不均衡の問題のために不正確である。 これらの問題に対処するため,我々はbprと呼ばれる任意のインスタンスセグメンテーションモデルの結果に基づいて境界品質を改善するために,概念的に単純かつ効果的な後処理改善フレームワークを提案する。 セグメント境界をよりよく見るというアイデアに続いて、予測されたインスタンス境界に沿って、一連の小さな境界パッチを抽出し、精査する。 この改良は、より高解像度のバウンダリパッチリファインメントネットワークによって達成される。 提案したBPRフレームワークはCityscapesベンチマークのMask R-CNNベースラインよりも大幅に改善されている。 さらに、PolyTransform + SegFixベースラインにBPRフレームワークを適用することで、Cityscapesのリーダーボードで1位に到達しました。

Tremendous efforts have been made on instance segmentation but the mask quality is still not satisfactory. The boundaries of predicted instance masks are usually imprecise due to the low spatial resolution of feature maps and the imbalance problem caused by the extremely low proportion of boundary pixels. To address these issues, we propose a conceptually simple yet effective post-processing refinement framework to improve the boundary quality based on the results of any instance segmentation model, termed BPR. Following the idea of looking closer to segment boundaries better, we extract and refine a series of small boundary patches along the predicted instance boundaries. The refinement is accomplished by a boundary patch refinement network at higher resolution. The proposed BPR framework yields significant improvements over the Mask R-CNN baseline on Cityscapes benchmark, especially on the boundary-aware metrics. Moreover, by applying the BPR framework to the PolyTransform + SegFix baseline, we reached 1st place on the Cityscapes leaderboard.
翻訳日:2021-04-13 14:08:30 公開日:2021-04-12
# 意味セグメンテーションのためのオンラインパフォーマンス予測の改善

Improving Online Performance Prediction for Semantic Segmentation ( http://arxiv.org/abs/2104.05255v1 )

ライセンス: Link先を確認
Marvin Klingner, Andreas B\"ar, Marcel Mross, Tim Fingscheidt(参考訳) 本稿では,オンライン操作,すなわち,自動運転などの安全クリティカルなアプリケーションにおいて重要となる推論中における,セマンティックセグメンテーション深層ニューラルネットワーク(dnn)の性能を観察するタスクについて述べる。 ここでは、多くのハイレベルな決定は、通常オフラインで評価されるようなDNNに依存しているが、オンライン操作のパフォーマンスは未だに不明である。 そこで本研究では,最近提案されたセマンティックセグメンテーションタスクの性能予測という概念に基づいて,オンラインのパフォーマンス予測手法の改良を提案する。 これは、LiDARセンサによって供給された測定値を用いて単眼深度推定の補助タスクを評価し、その後、セマンティックセグメンテーション性能に回帰することで実現できる。 特に、(i)マルチタスクトレーニングにおける両タスクの逐次訓練方法、(ii)エンコーダとデコーダの一部を両タスクネットワーク間で共有して効率を向上させること、(iii)アルゴリズム遅延の少ないコストで性能予測誤差を著しく低減する時間統計集計法を提案する。 KITTIデータセットの評価では,従来の手法に比べて3つの側面が性能予測を改善している。

In this work we address the task of observing the performance of a semantic segmentation deep neural network (DNN) during online operation, i.e., during inference, which is of high importance in safety-critical applications such as autonomous driving. Here, many high-level decisions rely on such DNNs, which are usually evaluated offline, while their performance in online operation remains unknown. To solve this problem, we propose an improved online performance prediction scheme, building on a recently proposed concept of predicting the primary semantic segmentation task's performance. This can be achieved by evaluating the auxiliary task of monocular depth estimation with a measurement supplied by a LiDAR sensor and a subsequent regression to the semantic segmentation performance. In particular, we propose (i) sequential training methods for both tasks in a multi-task training setup, (ii) to share the encoder as well as parts of the decoder between both task's networks for improved efficiency, and (iii) a temporal statistics aggregation method, which significantly reduces the performance prediction error at the cost of a small algorithmic latency. Evaluation on the KITTI dataset shows that all three aspects improve the performance prediction compared to previous approaches.
翻訳日:2021-04-13 14:08:12 公開日:2021-04-12
# Glance and Gaze: 一段階の人間と物体の相互作用検出のための行動認識点の推測

Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection ( http://arxiv.org/abs/2104.05269v1 )

ライセンス: Link先を確認
Xubin Zhong, Xian Qu, Changxing Ding and Dacheng Tao(参考訳) 現代の人-物間相互作用(HOI)検出手法は、一段階法と二段階法に分けられる。 1段階のモデルは単純なアーキテクチャのため効率が良いが、2段階のモデルは精度が優れている。 既存のワンステージモデルは通常、事前に定義された相互作用領域や点を検出して始まり、相互作用予測のためにのみこれらの領域に参画する。 本稿では,視覚と視線のステップによって行動認識点(行動ポイント)の集合を適応的にモデル化する,新しい一段階の手法であるeyes and gaze network(ggnet)を提案する。 視線ステップは、特徴写像の各画素が相互作用点であるか否かを素早く決定する。 視線ステップは、視線ステップによって生成された特徴マップを利用して、各ピクセルの周囲のActPointを段階的に推論する。 ActPointの特徴は相互作用予測のために集約される。 さらに,GGNetの最適化を改善するために,検出された各対と関連する対象対との相互作用を効果的に一致させる行動認識手法を考案した。 上記の操作はすべて、特徴マップの全画素に対して同時に効率的に実行される。 最後に、GGNet は V-COCO と HICODET のベンチマークにおいて、最先端の手法よりもかなり優れている。 GGNetのコードはhttps: //github.com/SherlockHolmes221/GGNetで入手できる。

Modern human-object interaction (HOI) detection approaches can be divided into one-stage methods and twostage ones. One-stage models are more efficient due to their straightforward architectures, but the two-stage models are still advantageous in accuracy. Existing one-stage models usually begin by detecting predefined interaction areas or points, and then attend to these areas only for interaction prediction; therefore, they lack reasoning steps that dynamically search for discriminative cues. In this paper, we propose a novel one-stage method, namely Glance and Gaze Network (GGNet), which adaptively models a set of actionaware points (ActPoints) via glance and gaze steps. The glance step quickly determines whether each pixel in the feature maps is an interaction point. The gaze step leverages feature maps produced by the glance step to adaptively infer ActPoints around each pixel in a progressive manner. Features of the refined ActPoints are aggregated for interaction prediction. Moreover, we design an actionaware approach that effectively matches each detected interaction with its associated human-object pair, along with a novel hard negative attentive loss to improve the optimization of GGNet. All the above operations are conducted simultaneously and efficiently for all pixels in the feature maps. Finally, GGNet outperforms state-of-the-art methods by significant margins on both V-COCO and HICODET benchmarks. Code of GGNet is available at https: //github.com/SherlockHolmes221/GGNet.
翻訳日:2021-04-13 14:07:51 公開日:2021-04-12
# StereoPIFu:ステレオビジョンによる人間のデジタル化の深度認識

StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision ( http://arxiv.org/abs/2104.05289v1 )

ライセンス: Link先を確認
Yang Hong, Juyong Zhang, Boyi Jiang, Yudong Guo, Ligang Liu and Hujun Bao(参考訳) 本稿では,ステレオビジョンの幾何学的制約とPIFuの暗黙的機能表現を統合したステレオPIFuを提案する。 まず,立体視ネットワークからのボクセル整列機能を導入し,奥行き認識型再構成を実現する。 さらに、予測された高忠実度人間の深度と占有率の推測を関連付けるために、新しい相対zオフセットが使用される。 第2に、ステレオ画像からの幾何学情報を完全に活用するネットワーク構造を設計し、人体復元の質を向上させる。 その結果,StereoPIFuはカメラ空間における人の身体の空間的位置を自然に推測し,身体の異なる部分の正確な相対位置を維持でき,人間のパフォーマンスを捉えることができる。 このステレオピフは, 従来の作品と比較して, 広範囲な実験結果から, 衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。

In this paper, we propose StereoPIFu, which integrates the geometric constraints of stereo vision with implicit function representation of PIFu, to recover the 3D shape of the clothed human from a pair of low-cost rectified images. First, we introduce the effective voxel-aligned features from a stereo vision-based network to enable depth-aware reconstruction. Moreover, the novel relative z-offset is employed to associate predicted high-fidelity human depth and occupancy inference, which helps restore fine-level surface details. Second, a network structure that fully utilizes the geometry information from the stereo images is designed to improve the human body reconstruction quality. Consequently, our StereoPIFu can naturally infer the human body's spatial location in camera space and maintain the correct relative position of different parts of the human body, which enables our method to capture human performance. Compared with previous works, our StereoPIFu significantly improves the robustness, completeness, and accuracy of the clothed human reconstruction, which is demonstrated by extensive experimental results.
翻訳日:2021-04-13 14:07:28 公開日:2021-04-12
# クラス内不確かさ損失関数による分類

Intra-Class Uncertainty Loss Function for Classification ( http://arxiv.org/abs/2104.05298v1 )

ライセンス: Link先を確認
He Zhu, Shan Yu(参考訳) ほとんどの分類モデルはテンプレートマッチングのプロセスと見なすことができる。 しかしながら、クラス内不確実性/可変性が考慮されない場合、特に不均衡クラスを含むデータセットの場合、これは分類エラーにつながる可能性がある。 この問題に対処するため,ガウス分布に続くクラス内不確実性を有する損失関数を提案する。 特に,各クラスのディープネットワークによって抽出された特徴は,ガウス分布の独立性によって特徴づけられる。 分布のパラメータは、他のネットワークパラメータとともに確率正規化によって学習される。 ガウス平均は、既存の方法における中心アンカーと似た役割を担っており、分散は異なるクラスの不確かさを記述する。 さらに,従来の損失関数のクラス間マージンと同様に,クラス内不確実性にマージンを導入し,各クラスタをよりコンパクトにし,異なるカテゴリ間の特徴分布の不均衡を低減する。 提案手法は,MNIST, CIFAR, ImageNet, Long-tailed CIFAR解析に基づいて,より優れたクラス表現の学習を通じて,分類性能の向上を示す。

Most classification models can be considered as the process of matching templates. However, when intra-class uncertainty/variability is not considered, especially for datasets containing unbalanced classes, this may lead to classification errors. To address this issue, we propose a loss function with intra-class uncertainty following Gaussian distribution. Specifically, in our framework, the features extracted by deep networks of each class are characterized by independent Gaussian distribution. The parameters of distribution are learned with a likelihood regularization along with other network parameters. The means of the Gaussian play a similar role as the center anchor in existing methods, and the variance describes the uncertainty of different classes. In addition, similar to the inter-class margin in traditional loss functions, we introduce a margin to intra-class uncertainty to make each cluster more compact and reduce the imbalance of feature distribution from different categories. Based on MNIST, CIFAR, ImageNet, and Long-tailed CIFAR analyses, the proposed approach shows improved classification performance, through learning a better class representation.
翻訳日:2021-04-13 14:07:10 公開日:2021-04-12
# RPSRNet: Barnes-Hut $2^D$-Tree Representation を用いたエンドツーエンドトレーニング可能な Rigid Point Set 登録ネットワーク

RPSRNet: End-to-End Trainable Rigid Point Set Registration Network using Barnes-Hut $2^D$-Tree Representation ( http://arxiv.org/abs/2104.05328v1 )

ライセンス: Link先を確認
Sk Aziz Ali, Kerem Kahraman, Gerd Reis, Didier Stricker(参考訳) 本稿では、厳格な点集合登録のための新しいエンドツーエンドトレーニング可能なディープニューラルネットワークRPSRNetを提案する。 本研究では,入力点集合に対して新しい2^D$-tree表現を用い,ニューラルネットワークに階層的な深い特徴を埋め込む。 ネットワーク内の反復変換リファインメントモジュールにより,中間段階における特徴マッチング精度が向上する。 1対の入力点雲を250kまで登録するために12~15msの推論速度を達成する。 i) KITTI LiDAR odometry および (ii) ModelNet-40 データセットの広範囲な評価により,本手法は, KITTI データセット, DCP-v2 by1.3 および 1.5 倍, PointNetLK が 1.8 倍,変換精度が 1.9 倍向上した。 ModelNet40の評価によると、RPSRNetは、サンプルが大量のノイズやその他の乱れを含む場合、他のベンチマーク手法よりも堅牢である。 RPSRNetは、例えば、多くの既存のディープラーニングベースの登録方法では処理できないLiDARデータのような、一様でないサンプリング密度の点雲を正確に登録する。

We propose RPSRNet - a novel end-to-end trainable deep neural network for rigid point set registration. For this task, we use a novel $2^D$-tree representation for the input point sets and a hierarchical deep feature embedding in the neural network. An iterative transformation refinement module in our network boosts the feature matching accuracy in the intermediate stages. We achieve an inference speed of 12-15ms to register a pair of input point clouds as large as 250K. Extensive evaluation on (i) KITTI LiDAR odometry and (ii) ModelNet-40 datasets shows that our method outperforms prior state-of-the-art methods - e.g., on the KITTI data set, DCP-v2 by1.3 and 1.5 times, and PointNetLK by 1.8 and 1.9 times better rotational and translational accuracy respectively. Evaluation on ModelNet40 shows that RPSRNet is more robust than other benchmark methods when the samples contain a significant amount of noise and other disturbances. RPSRNet accurately registers point clouds with non-uniform sampling densities, e.g., LiDAR data, which cannot be processed by many existing deep-learning-based registration methods.
翻訳日:2021-04-13 14:06:53 公開日:2021-04-12
# visit the invisible: layer-by-layer completed scene decomposition(英語)

Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition ( http://arxiv.org/abs/2104.05367v1 )

ライセンス: Link先を確認
Chuanxia Zheng, Duy-Son Dao, Guoxian Song, Tat-Jen Cham, Jianfei Cai(参考訳) 既存のシーン理解システムは、実世界の物理的物体の無傷な外観を無視して、シーンの目に見える部分の認識に重点を置いている。 同時に、画像補完は、目に見えない領域に対して可視な外観を作り出すことを目的としているが、入力には手動マスクが必要である。 本研究では,対象物や背景の可視・可視の両方に対処する,より高レベルなシーン理解システムを提案する。 特に,シーンを個々のオブジェクトに分解し,その下位のオクルージョン関係を推測し,そのオブジェクトのどの部分が完了する必要があるかを自動で学習するシステムを構築した。 複雑なシーンにおけるすべてのオブジェクトのオクルードされた関係を解消するために、オクルードされていないフロントオブジェクトの識別、検出、セグメンテーションが容易であるという事実を用いる。 本システムでは,複数反復によるシーン分割とシーン補完の2つのタスクをインターリーブする。 まず、すべての見えない領域に対して、地上構造を持つ新しい現実的なデータセットを用いて、徹底的な実験を行う。 ドメインギャップを実際のイメージに橋渡しするために、トレーニングされた合成モデルから生成された疑似グランドルースを使って、別のモデルをトレーニングします。 我々は、さまざまなデータセットで結果を示し、最先端よりも大幅な改善を示す。

Existing scene understanding systems mainly focus on recognizing the visible parts of a scene, ignoring the intact appearance of physical objects in the real-world. Concurrently, image completion has aimed to create plausible appearance for the invisible regions, but requires a manual mask as input. In this work, we propose a higher-level scene understanding system to tackle both visible and invisible parts of objects and backgrounds in a given scene. Particularly, we built a system to decompose a scene into individual objects, infer their underlying occlusion relationships, and even automatically learn which parts of the objects are occluded that need to be completed. In order to disentangle the occluded relationships of all objects in a complex scene, we use the fact that the front object without being occluded is easy to be identified, detected, and segmented. Our system interleaves the two tasks of instance segmentation and scene completion through multiple iterations, solving for objects layer-by-layer. We first provide a thorough experiment using a new realistically rendered dataset with ground-truths for all invisible regions. To bridge the domain gap to real imagery where ground-truths are unavailable, we then train another model with the pseudo-ground-truths generated from our trained synthesis model. We demonstrate results on a wide variety of datasets and show significant improvement over the state-of-the-art.
翻訳日:2021-04-13 14:06:28 公開日:2021-04-12
# データフリーモデル圧縮のための二重判別器逆蒸留

Dual Discriminator Adversarial Distillation for Data-free Model Compression ( http://arxiv.org/abs/2104.05382v1 )

ライセンス: Link先を確認
Haoran Zhao, Xin Sun, Junyu Dong, Hui Yu and Huiyu Zhou(参考訳) 知識蒸留は、コンピュータビジョンタスクのエッジデバイスによく適用できるポータブルで効率的なニューラルネットワークを作成するために広く使われている。 しかしながら、ほとんどの最高性能の知識蒸留法は、通常大きなサイズを持ち、しばしば利用できない元の訓練データにアクセスする必要がある。 この問題に対処するために,Dual Discriminator Adversarial Distillation (DDAD) と呼ばれる新しいデータフリーアプローチを提案し,トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留する。 具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器逆蒸留を用いてサンプルを作成する。 この生成器は、既存のバッチ正規化層において、事前学習された教師固有の統計値を使用するだけでなく、学生モデルから最大不一致を得る。 そして、生成したサンプルを用いて教師の指導の下、コンパクトな学生ネットワークを訓練する。 提案手法は,教師のネットワークを密に近似した効率的な学生ネットワークを実現する。 CIFAR-10, CIFAR-100およびCaltech101データセットを用いた分類作業における提案手法の有効性を示すため, 大規模な実験を行った。 さらに,camvid や nyuv2 などの公開データセット上の意味セグメンテーションタスクにも拡張した。 すべての実験結果から,本手法はデータフリーな知識蒸留法において,すべての基準線を上回ります。

Knowledge distillation has been widely used to produce portable and efficient neural networks which can be well applied on edge devices for computer vision tasks. However, almost all top-performing knowledge distillation methods need to access the original training data, which usually has a huge size and is often unavailable. To tackle this problem, we propose a novel data-free approach in this paper, named Dual Discriminator Adversarial Distillation (DDAD) to distill a neural network without any training data or meta-data. To be specific, we use a generator to create samples through dual discriminator adversarial distillation, which mimics the original training data. The generator not only uses the pre-trained teacher's intrinsic statistics in existing batch normalization layers but also obtains the maximum discrepancy from the student model. Then the generated samples are used to train the compact student network under the supervision of the teacher. The proposed method obtains an efficient student network which closely approximates its teacher network, despite using no original training data. Extensive experiments are conducted to to demonstrate the effectiveness of the proposed approach on CIFAR-10, CIFAR-100 and Caltech101 datasets for classification tasks. Moreover, we extend our method to semantic segmentation tasks on several public datasets such as CamVid and NYUv2. All experiments show that our method outperforms all baselines for data-free knowledge distillation.
翻訳日:2021-04-13 14:06:06 公開日:2021-04-12
# blazer: 物理的レンダリングを用いたレーザー走査シミュレーション

Blazer: Laser Scanning Simulation using Physically Based Rendering ( http://arxiv.org/abs/2104.05430v1 )

ライセンス: Link先を確認
Sebastian Grans and Lars Tingelstad(参考訳) ラインレーザースキャナー(line laser scanners)は、比較的一般的な工業用3dスキャナのサブタイプで、組み立て、プロセス制御、溶接の文脈で使用される。 広く使われているにもかかわらず、いくつかの材料をスキャンすることは、追加の事前処理なしでは困難または不可能な作業のままである。 例えば、光沢のある、または透明な材料である。 本稿では,仮想ラインレーザスキャナであるBlazerについて述べる。このBlazerは物理ベースレンダリングと組み合わせて,リアルな光-光相互作用を持つ合成データを生成し,現実的な外観を実現する。 これにより、新しいアルゴリズムの開発におけるツールとしての使用、特に機械学習モデルのトレーニングのための合成データのソースとしての使用が可能である。 合成RGB-Dデータ生成には類似したシステムが存在するが、我々の知る限り、これは合成ラインレーザデータに対する最初の公開実装である。 我々はこの実装をオープンソースライセンスでリリースし、ラインレーザースキャナのさらなる研究を支援する。

Line laser scanners are a sub-type of structured light 3D scanners that are relatively common devices to find within the industrial setting, typically in the context of assembly, process control, and welding. Despite its extensive use, scanning of some materials remain a difficult or even impossible task without additional pre-processing. For instance, materials which are shiny, or transparent. In this paper, we present a Blazer, a virtual line laser scanner that, combined with physically based rendering, produces synthetic data with a realistic light-matter interaction, and hence realistic appearance. This makes it eligible for the use as a tool in the development of novel algorithms, and in particular as a source of synthetic data for training of machine learning models. Similar systems exist for synthetic RGB-D data generation, but to our knowledge this the first publicly available implementation for synthetic line laser data. We release this implementation under an open-source license to aid further research on line laser scanners.
翻訳日:2021-04-13 14:05:44 公開日:2021-04-12
# PGNet:ポイントゲザリングネットワークを用いたリアルタイム任意形テキストスポッティング

PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network ( http://arxiv.org/abs/2104.05458v1 )

ライセンス: Link先を確認
Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi(参考訳) 任意形テキストの読み上げは研究の注目を集めている。 しかし、既存のテキストスポッターは、主に2段階のフレームワークまたは文字ベースのメソッド上に構築されており、非最大抑制(nms)、領域間(roi)操作、文字レベルのアノテーションに苦しむ。 本稿では,この問題を解決するために,任意の形のテキストをリアルタイムに読み取るための完全畳み込み型ポイントゲザリングネットワーク(PGNet)を提案する。 PGNetはシングルショットテキストスポッターであり、文字レベルのアノテーションの使用を避けるために提案されたPG-CTC損失を用いてピクセルレベルの文字分類マップを学習する。 PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を伴わないテキストシンボルに復号し,高い効率性を保証する。 さらに,各文字とその近傍の関係を推論し,粗い認識を最適化し,エンドツーエンドの性能を向上させるため,グラフ精細モジュール(GRM)を提案する。 実験により,提案手法は競争精度が向上し,走行速度が大幅に向上することが示された。 特にTotal-Textでは46.7 FPSで動作し、以前のスポッターよりも大きなマージンを持つ。

The reading of arbitrarily-shaped text has received increasing research attention. However, existing text spotters are mostly built on two-stage frameworks or character-based methods, which suffer from either Non-Maximum Suppression (NMS), Region-of-Interest (RoI) operations, or character-level annotations. In this paper, to address the above problems, we propose a novel fully convolutional Point Gathering Network (PGNet) for reading arbitrarily-shaped text in real-time. The PGNet is a single-shot text spotter, where the pixel-level character classification map is learned with proposed PG-CTC loss avoiding the usage of character-level annotations. With a PG-CTC decoder, we gather high-level character classification vectors from two-dimensional space and decode them into text symbols without NMS and RoI operations involved, which guarantees high efficiency. Additionally, reasoning the relations between each character and its neighbors, a graph refinement module (GRM) is proposed to optimize the coarse recognition and improve the end-to-end performance. Experiments prove that the proposed method achieves competitive accuracy, meanwhile significantly improving the running speed. In particular, in Total-Text, it runs at 46.7 FPS, surpassing the previous spotters with a large margin.
翻訳日:2021-04-13 14:05:28 公開日:2021-04-12
# 骨格に基づく行動認識のためのグラフ畳み込みネットワークにおけるチェビシェフ基底学習

Learning Chebyshev Basis in Graph Convolutional Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2104.05482v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) スペクトルグラフ畳み込みネットワーク(GCN)は、ニューラルネットワークを任意の不規則領域に拡張することを目的とした、特に深いモデルである。 これらのネットワークの原理は、ラプラシアンの固有分解を用いてグラフ信号を投影し、入力グラフ領域にフィルタされた信号をバックプロジェクションする前にスペクトル領域でフィルタリングする。 しかし、これらの操作の成功は、主に手作りであり、GCNが明らかに準最適であるLaplacianの関連性に大きく依存している。 本稿では,通常の畳み込みパラメータだけでなく,ラプラシア作用素も学習する新しいスペクトルGCNを提案する。 後者は再帰的なチェビシェフ分解の一部として設計されており、訓練されたGCNを過度にパラメータ化することなく、学習された表現の差分と非差分特性(順序と識別能力の増大)を伝達する。 スケルトンベース行動認識の課題に関する広範な実験により,提案するラプラシアン設計 w.r.t の一般化能力と性能が明らかにされた。 異なるベースライン(手工芸品やその他のラプラシア人の学習に基づく)と関連する作品。

Spectral graph convolutional networks (GCNs) are particular deep models which aim at extending neural networks to arbitrary irregular domains. The principle of these networks consists in projecting graph signals using the eigen-decomposition of their Laplacians, then achieving filtering in the spectral domain prior to back-project the resulting filtered signals onto the input graph domain. However, the success of these operations is highly dependent on the relevance of the used Laplacians which are mostly handcrafted and this makes GCNs clearly sub-optimal. In this paper, we introduce a novel spectral GCN that learns not only the usual convolutional parameters but also the Laplacian operators. The latter are designed "end-to-end" as a part of a recursive Chebyshev decomposition with the particularity of conveying both the differential and the non-differential properties of the learned representations -- with increasing order and discrimination power -- without overparametrizing the trained GCNs. Extensive experiments, conducted on the challenging task of skeleton-based action recognition, show the generalization ability and the outperformance of our proposed Laplacian design w.r.t. different baselines (built upon handcrafted and other learned Laplacians) as well as the related work.
翻訳日:2021-04-13 14:05:06 公開日:2021-04-12
# 機能融合と時空間的注意による歩行者交差注意の予測

Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention ( http://arxiv.org/abs/2104.05485v1 )

ライセンス: Link先を確認
Dongfang Yang, Haolin Zhang, Ekim Yurtsever, Keith Redmill, \"Umit \"Ozg\"uner(参考訳) 脆弱な道路利用者の行動を予測することは、ADS(Automated Driving Systems)を現実世界に展開するための必須条件である。 歩行者の横断意図は、特に都市交通においてリアルタイムで認識されるべきである。 最近の研究は、このタスクに視覚ベースのディープニューラルネットワークモデルを使用することの可能性を示している。 しかし、これらのモデルは堅牢ではなく、解決すべき問題がまだある。 第1に、対象歩行者とシーンとの相互作用を考慮したグローバル時空間コンテキストは、適切に活用されていない。 第2に、異なるセンサデータを利用するための最適戦略を徹底的に検討していない。 この研究は、歩行者横断意図予測のために、本質的に異なる時空間的特徴を融合させる新しいニューラルネットワークアーキテクチャを導入することで、上記の制限に対処する。 我々は,RGB画像のシーケンス,セマンティックセグメンテーションマスク,エゴ車速などの異なる現象を,アテンション機構とリカレントニューラルネットワークのスタックを用いて最適な方法で融合する。 最適構造は排他的アブレーションと比較研究により得られた。 JAAD歩行者行動予測ベンチマークにおける大規模比較実験により,提案手法の有効性が実証された。 私たちのコードはオープンソースで公開されています。

Predicting vulnerable road user behavior is an essential prerequisite for deploying Automated Driving Systems (ADS) in the real-world. Pedestrian crossing intention should be recognized in real-time, especially for urban driving. Recent works have shown the potential of using vision-based deep neural network models for this task. However, these models are not robust and certain issues still need to be resolved. First, the global spatio-temproal context that accounts for the interaction between the target pedestrian and the scene has not been properly utilized. Second, the optimum strategy for fusing different sensor data has not been thoroughly investigated. This work addresses the above limitations by introducing a novel neural network architecture to fuse inherently different spatio-temporal features for pedestrian crossing intention prediction. We fuse different phenomena such as sequences of RGB imagery, semantic segmentation masks, and ego-vehicle speed in an optimum way using attention mechanisms and a stack of recurrent neural networks. The optimum architecture was obtained through exhaustive ablation and comparison studies. Extensive comparative experiments on the JAAD pedestrian action prediction benchmark demonstrate the effectiveness of the proposed method, where state-of-the-art performance was achieved. Our code is open-source and publicly available.
翻訳日:2021-04-13 14:04:44 公開日:2021-04-12
# View-Guided Point Cloud Completion

View-Guided Point Cloud Completion ( http://arxiv.org/abs/2104.05666v1 )

ライセンス: Link先を確認
Xuancheng Zhang, Yutong Feng, Siqi Li, Changqing Zou, Hai Wan, Xibin Zhao, Yandong Guo, Yue Gao(参考訳) 本稿では,ポイントクラウド完了作業に対するビュー誘導型ソリューションを提案する。 既存のほとんどの方法と異なり、この課題に対処するためにはViPC(view-guided point cloud completion)を導入し、余分な単一ビューイメージから欠落する重要なグローバル構造情報を抽出する。 そこで本手法は,ビュー誘導点雲完了タスクのために収集した新しい大規模データセットにおいて,従来のソリューションよりもはるかに優れた結果が得られることを示す。

This paper presents a view-guided solution for the task of point cloud completion. Unlike most existing methods directly inferring the missing points using shape priors, we address this task by introducing ViPC (view-guided point cloud completion) that takes the missing crucial global structure information from an extra single-view image. By leveraging a framework that sequentially performs effective cross-modality and cross-level fusions, our method achieves significantly superior results over typical existing solutions on a new large-scale dataset we collect for the view-guided point cloud completion task.
翻訳日:2021-04-13 14:04:25 公開日:2021-04-12
# ゼロショット学習のためのロバストなビジュアルセマンティクスマッピングの学習

Learning Robust Visual-semantic Mapping for Zero-shot Learning ( http://arxiv.org/abs/2104.05668v1 )

ライセンス: Link先を確認
Jingcai Guo(参考訳) ゼロショット学習(ZSL)は、目に見えないクラスの例(画像など)を、目に見えないクラスの知識で認識することを目的としている。 これは典型的には、見知らぬクラス、例えば属性やワードベクトルの両方で共有される意味的特徴空間をブリッジとして利用することによって達成される。 ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。 未知のクラスを推論すると、学習されたマッピング関数が再利用され、セマンティックな関係の中でいくつかのメトリクスのクラスラベルを認識する。 しかし、視覚的特徴空間と意味的特徴空間は一般に独立であり、全く異なる多様体に存在する。 このようなパラダイムの下で、ZSLモデルはマッピング関数の構築と再利用においてドメインシフトの問題に容易に悩まされ、ZSLの主要な課題となる。 本稿では、ドメインシフト問題を緩和し、視覚的特徴空間と意味的特徴空間の間のロバストマッピング関数を学習する効果的な方法を検討する。 ZSLの重要なビルディングブロックの一つであるセマンティックな特徴空間を完全に強化することに注力する。 要約すると、この論文は意味的特徴空間を完全に強化し、ドメインシフト問題を緩和し、ZSLのためのより堅牢なビジュアル・セマンティックマッピング関数を得るために効果的なソリューションを設計することを目的としている。 各種データセットに対する大規模な実験により,提案手法の有効性が示された。

Zero-shot learning (ZSL) aims at recognizing unseen class examples (e.g., images) with knowledge transferred from seen classes. This is typically achieved by exploiting a semantic feature space shared by both seen and unseen classes, e.g., attributes or word vectors, as the bridge. In ZSL, the common practice is to train a mapping function between the visual and semantic feature spaces with labeled seen class examples. When inferring, given unseen class examples, the learned mapping function is reused to them and recognizes the class labels on some metrics among their semantic relations. However, the visual and semantic feature spaces are generally independent and exist in entirely different manifolds. Under such a paradigm, the ZSL models may easily suffer from the domain shift problem when constructing and reusing the mapping function, which becomes the major challenge in ZSL. In this thesis, we explore effective ways to mitigate the domain shift problem and learn a robust mapping function between the visual and semantic feature spaces. We focus on fully empowering the semantic feature space, which is one of the key building blocks of ZSL. In summary, this thesis targets fully empowering the semantic feature space and design effective solutions to mitigate the domain shift problem and hence obtain a more robust visual-semantic mapping function for ZSL. Extensive experiments on various datasets demonstrate the effectiveness of our proposed methods.
翻訳日:2021-04-13 14:04:14 公開日:2021-04-12
# Transformer VAEを用いた3次元動作合成

Action-Conditioned 3D Human Motion Synthesis with Transformer VAE ( http://arxiv.org/abs/2104.05670v1 )

ライセンス: Link先を確認
Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。 動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。 ここでは、生成型変分オートエンコーダ(vae)を訓練することにより、人間の動きに対する行動認識潜在表現を学ぶ。 この潜伏空間からサンプリングし、一連の位置エンコーディングを通して一定期間を問うことにより、カテゴリー的動作で条件付けられた可変長運動列を合成する。 具体的には、行動認識データセットから推定されるパラメトリックSMPL人体モデルのシーケンスを符号化し、復号するためのトランスフォーマーベースのアーキテクチャACTORを設計する。 我々は,NTU RGB+D,HumanAct12,UESTCデータセットに対するアプローチを評価し,技術状況に対する改善点を示す。 さらに,合成データをトレーニングに加えることによる行動認識の改善と,運動認知の2つのユースケースを提案する。 私たちのコードとモデルは利用可能になります。

We tackle the problem of action-conditioned generation of realistic and diverse human motion sequences. In contrast to methods that complete, or extend, motion sequences, this task does not require an initial pose or sequence. Here we learn an action-aware latent representation for human motions by training a generative variational autoencoder (VAE). By sampling from this latent space and querying a certain duration through a series of positional encodings, we synthesize variable-length motion sequences conditioned on a categorical action. Specifically, we design a Transformer-based architecture, ACTOR, for encoding and decoding a sequence of parametric SMPL human body models estimated from action recognition datasets. We evaluate our approach on the NTU RGB+D, HumanAct12 and UESTC datasets and show improvements over the state of the art. Furthermore, we present two use cases: improving action recognition through adding our synthesized data to training, and motion denoising. Our code and models will be made available.
翻訳日:2021-04-13 14:03:50 公開日:2021-04-12
# 画素共起行列を用いた全体像操作検出

Holistic Image Manipulation Detection using Pixel Co-occurrence Matrices ( http://arxiv.org/abs/2104.05693v1 )

ライセンス: Link先を確認
Lakshmanan Nataraj, Michael Goebel, Tajuddin Manhar Mohammed, Shivkumar Chandrasekaran, B. S. Manjunath(参考訳) digital image forensicsは、デジタル操作された画像を検出することを目的としている。 リアル画像の偽造には、スプライシング、再サンプリング、領域除去、スムース化、その他の操作方法の組み合わせが含まれる。 文学におけるほとんどの検出方法は、特定の種類の操作を検出することに焦点を当てているが、多数の操作を含むドクター画像を特定することは困難である。 本稿では,画素共起行列と深層学習を組み合わせることで,改ざん画像を検出する新しい手法を提案する。 画素領域内の3色チャネル上の水平および垂直共起行列を抽出し,deep convolutional neural network(cnn)フレームワークを用いてモデルを訓練する。 本手法は操作のタイプと無関係であり,画像の改ざんやアンスタンプ化に分類する。 86,000以上のイメージのデータセットでモデルをトレーニングし、検証します。 実験の結果,本手法は有望であり,トレーニングおよび検証サブセットの曲線評価基準(AUC)の下で0.99以上の領域を達成できることがわかった。 さらに,メディア・インフォメーション・チャレンジ(mfc)2020で発表された19,740枚以上の画像を含む,未発見のテストデータセット上で約0.81 aucを達成した。 私たちのスコアは、チャレンジ結果の発表時にチャレンジに参加した他のチームの中で最高でした。

Digital image forensics aims to detect images that have been digitally manipulated. Realistic image forgeries involve a combination of splicing, resampling, region removal, smoothing and other manipulation methods. While most detection methods in literature focus on detecting a particular type of manipulation, it is challenging to identify doctored images that involve a host of manipulations. In this paper, we propose a novel approach to holistically detect tampered images using a combination of pixel co-occurrence matrices and deep learning. We extract horizontal and vertical co-occurrence matrices on three color channels in the pixel domain and train a model using a deep convolutional neural network (CNN) framework. Our method is agnostic to the type of manipulation and classifies an image as tampered or untampered. We train and validate our model on a dataset of more than 86,000 images. Experimental results show that our approach is promising and achieves more than 0.99 area under the curve (AUC) evaluation metric on the training and validation subsets. Further, our approach also generalizes well and achieves around 0.81 AUC on an unseen test dataset comprising more than 19,740 images released as part of the Media Forensics Challenge (MFC) 2020. Our score was highest among all other teams that participated in the challenge, at the time of announcement of the challenge results.
翻訳日:2021-04-13 14:03:35 公開日:2021-04-12
# WHOSeの遺産:ユネスコの世界遺産「万能の普遍的価値」とスムースラベルの分類

WHOSe Heritage: Classification of UNESCO World Heritage "Outstanding Universal Value" Documents with Smoothed Labels ( http://arxiv.org/abs/2104.05547v1 )

ライセンス: Link先を確認
Nan Bai, Renqian Luo, Pirouz Nourian, Ana Pereira Roders(参考訳) ユネスコ世界遺産リスト(英語: UNESCO World Heritage List、略称:WHL)は、人類全体にとって非常に貴重な文化的・自然遺産である。 WHLにおける各指名の普遍的価値(OUV)の評価と正当化は、本質的には、登録される財産にとって重要であるが、基準が相互に排他的ではないため、専門家にとっても複雑な課題である。 さらに、現在この分野で主流となっている遺産価値の手動アノテーションは、知識の要求と時間的消費であり、遺産管理に影響を及ぼすような権威文書の体系的な分析を妨げている。 本研究は,最新のnlpモデルを用いて,世界遺産の選定,評価,監視を容易にするための,説明可能でスケーラブルでバイアスの少ない自動化ツールを求めて,公式のuv正当化文を含む新たな実世界のデータセット上で分類器を構築する。 ラベルスムーシングは、従来のクラス間関係知識をラベルに加えることで、マルチクラスとマルチラベルの分類をスムーズに変換し、ほとんどのベースラインの性能を向上させる。 この研究は、BERT と ULMFiT から微調整された最良のモデルが94.3%のトップ3の精度に達することを示しており、遺産の研究や実践にさらなる発展と応用が期待されている。

The UNESCO World Heritage List (WHL) is to identify the exceptionally valuable cultural and natural heritage to be preserved for mankind as a whole. Evaluating and justifying the Outstanding Universal Value (OUV) of each nomination in WHL is essentially important for a property to be inscribed, and yet a complex task even for experts since the criteria are not mutually exclusive. Furthermore, manual annotation of heritage values, which is currently dominant in the field, is knowledge-demanding and time-consuming, impeding systematic analysis of such authoritative documents in terms of their implications on heritage management. This study applies state-of-the-art NLP models to build a classifier on a new real-world dataset containing official OUV justification statements, seeking an explainable, scalable, and less biased automation tool to facilitate the nomination, evaluation, and monitoring processes of World Heritage properties. Label smoothing is innovatively adapted to transform the task smoothly between multi-class and multi-label classification by adding prior inter-class relationship knowledge into the labels, improving the performance of most baselines. The study shows that the best models fine-tuned from BERT and ULMFiT can reach 94.3% top-3 accuracy, which is promising to be further developed and applied in heritage research and practice.
翻訳日:2021-04-13 14:02:56 公開日:2021-04-12
# 構造的選好フィードバックによる純粋探索

Pure Exploration with Structured Preference Feedback ( http://arxiv.org/abs/2104.05294v1 )

ライセンス: Link先を確認
Shubham Gupta, Aadirupa Saha, and Sumeet Katariya(参考訳) 我々は、機能付きN$アームを含むサブセットワイドな選好フィードバックによる純粋探索の問題を考察する。 学習者は、$K$のサブセットをクエリでき、ノイズの多い勝者の形でフィードバックを受け取ることができる。 学習者の目標は、可能な限り少ないクエリを使用して、最適なアームを効率的に識別することである。 この設定は、オンライン小売、ストリーミングサービス、ニュースフィード、オンライン広告などの人間のフィードバックを含む様々なオンライン意思決定シナリオに関係している。 私たちの知る限りでは、これは構造的な設定で部分的な選好フィードバックモデルを検討する最初の仕事であり、潜在的に無限のアームセットを可能にする。 我々は,$\tilde{o} (\frac{d^2}{k \delta^2})$サンプルにおける最良アームの検出を少なくとも$\delta$で保証する2つのアルゴリズムを提案する。 また、インスタンス依存の下位境界である$\Omega(\frac{d}{\Delta^2} \log \frac{1}{\delta})$を導出します。 最後に、我々は理論的な発見を裏付ける広範な実験を行い、適応アルゴリズムが停止し、非適応アルゴリズムよりも最大12倍少ないサンプルを必要とすることを観察した。

We consider the problem of pure exploration with subset-wise preference feedback, which contains $N$ arms with features. The learner is allowed to query subsets of size $K$ and receives feedback in the form of a noisy winner. The goal of the learner is to identify the best arm efficiently using as few queries as possible. This setting is relevant in various online decision-making scenarios involving human feedback such as online retailing, streaming services, news feed, and online advertising; since it is easier and more reliable for people to choose a preferred item from a subset than to assign a likability score to an item in isolation. To the best of our knowledge, this is the first work that considers the subset-wise preference feedback model in a structured setting, which allows for potentially infinite set of arms. We present two algorithms that guarantee the detection of the best-arm in $\tilde{O} (\frac{d^2}{K \Delta^2})$ samples with probability at least $1 - \delta$, where $d$ is the dimension of the arm-features and $\Delta$ is the appropriate notion of utility gap among the arms. We also derive an instance-dependent lower bound of $\Omega(\frac{d}{\Delta^2} \log \frac{1}{\delta})$ which matches our upper bound on a worst-case instance. Finally, we run extensive experiments to corroborate our theoretical findings, and observe that our adaptive algorithm stops and requires up to 12x fewer samples than a non-adaptive algorithm.
翻訳日:2021-04-13 14:01:07 公開日:2021-04-12
# メタレギュライゼーション:勾配降下における学習率の適応的選択へのアプローチ

Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent ( http://arxiv.org/abs/2104.05447v1 )

ライセンス: Link先を確認
Guangzeng Xie, Hao Jin, Dachao Lin, Zhihua Zhang(参考訳) 1次勾配降下法における学習率の適応的選択のための新しいアプローチである \textit{meta-regularization} を提案する。 本手法は,学習率に正規化項を加えることで目的関数を修正し,パラメータと学習率の合同更新プロセスを最大化問題に投入する。 正規化項がなければ,本手法は実用的なアルゴリズムの生成を促進する。 textit{Meta-Regularization} が正則化器として $\varphi$-divergence を取ると、結果のアルゴリズムは他の一階勾配に基づくアルゴリズムと同等の理論的収束性能を示す。 さらに,目的関数の強凸条件下での収束性能を向上させることができることを理論的に証明した。 ベンチマーク問題に関する数値実験は、一般的な$\varphi$-divergenceから得られるアルゴリズムの有効性とオンライン学習設定を示す。

We propose \textit{Meta-Regularization}, a novel approach for the adaptive choice of the learning rate in first-order gradient descent methods. Our approach modifies the objective function by adding a regularization term on the learning rate, and casts the joint updating process of parameters and learning rates into a maxmin problem. Given any regularization term, our approach facilitates the generation of practical algorithms. When \textit{Meta-Regularization} takes the $\varphi$-divergence as a regularizer, the resulting algorithms exhibit comparable theoretical convergence performance with other first-order gradient-based algorithms. Furthermore, we theoretically prove that some well-designed regularizers can improve the convergence performance under the strong-convexity condition of the objective function. Numerical experiments on benchmark problems demonstrate the effectiveness of algorithms derived from some common $\varphi$-divergence in full batch as well as online learning settings.
翻訳日:2021-04-13 14:00:41 公開日:2021-04-12
# 車車間通信による交通予測

Traffic Forecasting using Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2104.05528v1 )

ライセンス: Link先を確認
Steven Wong, Lejun Jiang, Robin Walters, Tam\'as G. Moln\'ar, G\'abor Orosz, Rose Yu(参考訳) 車両間通信(V2V)による車載交通予測のリアルタイム化に向けた第一歩を踏み出す。 実世界のV2V通信データを最大限活用するために,第一原理モデルと深層学習を統合する。 具体的には、第1原理モデルによる予測を改善するために、繰り返しニューラルネットワークを訓練する。 提案手法では,各車両の走行速度を1分以内で予測し,第1原理に基づくベースラインよりも精度が向上する。 第一原理モデルと深層学習手法を統合するための様々な方法を評価するための総合的な研究を行う。 私たちのモデルのソースコードはhttps://github.com/rose-stl-lab/v2v-traffic-forecastで入手できます。

We take the first step in using vehicle-to-vehicle (V2V) communication to provide real-time on-board traffic predictions. In order to best utilize real-world V2V communication data, we integrate first principle models with deep learning. Specifically, we train recurrent neural networks to improve the predictions given by first principle models. Our approach is able to predict the velocity of individual vehicles up to a minute into the future with improved accuracy over first principle-based baselines. We conduct a comprehensive study to evaluate different methods of integrating first principle models with deep learning techniques. The source code for our models is available at https://github.com/Rose-STL-Lab/V2V-traffic-forecast .
翻訳日:2021-04-13 14:00:26 公開日:2021-04-12
# モバイルゲームにおけるチャーン予測の分析について

On Analyzing Churn Prediction in Mobile Games ( http://arxiv.org/abs/2104.05554v1 )

ライセンス: Link先を確認
Kihoon Jang, Junwhan Kim, Byunggu Yu(参考訳) サブスクリプションベースのビジネスでは、チャーンレートは、所定の期間内にサブスクリプションを終了する顧客の比率を指す。 特にモバイルゲーム業界では、高い競争力と顧客獲得コストのために、チャーンレートがしばしば発音されるため、チャーンレートを最小化するプロセスが不可欠である。 これは、特定の時間内に混乱するユーザーを予測し、混乱する予測を必要とする。 正確なチャーン予測は、ビジネスがチャーンレートを低く維持するために戦略的修復を考案し、関与することができる。 本稿では,高精度なチャーン予測手法を提案する。 本手法は,各ユーザの個別利用期間を考慮し,チャーン予測を行うように設計した。 論文で示したように、このアプローチは実際のゲームビジネスにおいて96.6%のチャーン予測精度を達成できた。 また,既存のチャーン予測アルゴリズムは,この手法を適用した場合の予測精度が向上することを示す。

In subscription-based businesses, the churn rate refers to the percentage of customers who discontinue their subscriptions within a given time period. Particularly, in the mobile games industry, the churn rate is often pronounced due to the high competition and cost in customer acquisition; therefore, the process of minimizing the churn rate is crucial. This needs churn prediction, predicting users who will be churning within a given time period. Accurate churn prediction can enable the businesses to devise and engage strategic remediations to maintain a low churn rate. The paper presents our highly accurate churn prediction method. We designed this method to take into account each individual user's distinct usage period in churn prediction. As presented in the paper, this approach was able to achieve 96.6% churn prediction accuracy on a real game business. In addition, the paper shows that other existing churn prediction algorithms are improved in prediction accuracy when this method is applied.
翻訳日:2021-04-13 14:00:16 公開日:2021-04-12
# 蒸留による一般化境界

Generalization bounds via distillation ( http://arxiv.org/abs/2104.05641v1 )

ライセンス: Link先を確認
Daniel Hsu and Ziwei Ji and Matus Telgarsky and Lan Wang(参考訳) 本稿では, 一般化境界が貧弱な高複雑ネットワークを仮定して, ほぼ同一の予測値を持つネットワークに蒸留することができるが, 複雑性は低く, 一般化境界がはるかに小さい。 主な貢献は、元のネットワークがこの良好な一般化を蒸留から継承することを示す分析であり、十分に定義されたデータ拡張の使用を想定している。 この境界は抽象的にも具体的な形でも示され、後者は畳み込み層、完全に接続された層、接続をスキップする接続を含む現代的な計算グラフを扱う減算手法によって補完される。 物語をまとめるために、圧縮の古典的一様収束解析(英語版)や、オリジナルのネットワークと蒸留の間の同様の一般化性能を示すシファーとmnistに関する様々な実験も紹介されている。

This paper theoretically investigates the following empirical phenomenon: given a high-complexity network with poor generalization bounds, one can distill it into a network with nearly identical predictions but low complexity and vastly smaller generalization bounds. The main contribution is an analysis showing that the original network inherits this good generalization bound from its distillation, assuming the use of well-behaved data augmentation. This bound is presented both in an abstract and in a concrete form, the latter complemented by a reduction technique to handle modern computation graphs featuring convolutional layers, fully-connected layers, and skip connections, to name a few. To round out the story, a (looser) classical uniform convergence analysis of compression is also presented, as well as a variety of experiments on cifar and mnist demonstrating similar generalization performance between the original network and its distillation.
翻訳日:2021-04-13 14:00:01 公開日:2021-04-12
# QZN:量子Z数

QZNs: Quantum Z-numbers ( http://arxiv.org/abs/2104.05190v1 )

ライセンス: Link先を確認
Jixiang Deng, Yong Deng(参考訳) ファジィとあいまいさをモデル化する効率性から、Z数は現実の実践において重要な役割を果たす。 しかし、実数体で定義されるZ数には量子環境における量子情報を処理する能力がない。 z数を量子数に一般化するのは合理的である。 本稿では、Z数値の量子一般化である量子Z数値(QZN)を提案する。 さらに、qznとそれに対応する量子回路の7つの基本的な量子ファジィ演算を数値例で示し、示す。 さらに、QZNに基づいて、新しい量子多属性決定法(MADM)アルゴリズムを提案し、医療診断に適用した。 その結果、量子計算の助けを借りて、提案アルゴリズムは正しく効率的に診断できることがわかった。

Because of the efficiency of modeling fuzziness and vagueness, Z-number plays an important role in real practice. However, Z-numbers, defined in the real number field, lack the ability to process the quantum information in quantum environment. It is reasonable to generalize Z-number into its quantum counterpart. In this paper, we propose quantum Z-numbers (QZNs), which are the quantum generalization of Z-numbers. In addition, seven basic quantum fuzzy operations of QZNs and their corresponding quantum circuits are presented and illustrated by numerical examples. Moreover, based on QZNs, a novel quantum multi-attributes decision making (MADM) algorithm is proposed and applied in medical diagnosis. The results show that, with the help of quantum computation, the proposed algorithm can make diagnoses correctly and efficiently.
翻訳日:2021-04-13 13:59:35 公開日:2021-04-12
# coqのためのオンライン機械学習技術:比較

Online Machine Learning Techniques for Coq: A Comparison ( http://arxiv.org/abs/2104.05207v1 )

ライセンス: Link先を確認
Liao Zhang, Lasse Blaauwbroek, Bartosz Piotrowski, Prokop \v{C}ern\'y, Cezary Kaliszyk, and Josef Urban(参考訳) 我々は,Coq証明アシスタントにおける戦術学習と証明のためのオンライン機械学習技術の比較を行った。 この作業は、ユーザが書いた証明から学び、新しい証明を合成する、Coq用のプラグインであるTacticianの上に構築されている。 つまり、Tacticianの機械学習モデルは、ユーザが対話的な証明でステップを実行するたびに即座に更新される。 これは、より研究されたオフライン学習システムと比較すると重要な利点がある: (1) ストラテジアンによるシームレスでインタラクティブな体験を提供し、(2) 証明の類似性の局所性を利用する。 局所性に敏感な湿原林と無作為な決定林に基づく,およそ$k$-nearest近くの2つのオンライン手法を実装した。 さらに,xgboost を用いたオフライン環境で勾配ブースト木を用いた実験を行った。 coqの標準ライブラリ上で,これら3つの学習手法を用いて,戦術の相対的性能を比較する。

We present a comparison of several online machine learning techniques for tactical learning and proving in the Coq proof assistant. This work builds on top of Tactician, a plugin for Coq that learns from proofs written by the user to synthesize new proofs. This learning happens in an online manner -- meaning that Tactician's machine learning model is updated immediately every time the user performs a step in an interactive proof. This has important advantages compared to the more studied offline learning systems: (1) it provides the user with a seamless, interactive experience with Tactician and, (2) it takes advantage of locality of proof similarity, which means that proofs similar to the current proof are likely to be found close by. We implement two online methods, namely approximate $k$-nearest neighbors based on locality sensitive hashing forests and random decision forests. Additionally, we conduct experiments with gradient boosted trees in an offline setting using XGBoost. We compare the relative performance of Tactician using these three learning methods on Coq's standard library.
翻訳日:2021-04-13 13:59:24 公開日:2021-04-12
# LearningCity: スマートシティのための知識生成

LearningCity: Knowledge Generation for Smart Cities ( http://arxiv.org/abs/2104.05286v1 )

ライセンス: Link先を確認
Dimitrios Amaxilatis, Georgios Mylonas, Evangelos Theodoridis, Luis Diez, Katerina Deligiannidou(参考訳) スマートシティのインスタレーションやシステムでは新たなレベルに達していますが、これまでの取り組みでは、スマートシティサービス利用者にさまざまなデータソースを提供することに重点を置いています。 この状況において、スマートシティに付加価値をもたらす最初のステップは、自動化とクラウドソースの両方でサポートされている異常検出とデータアノテーションを通じて、スマートシティにおける知識創造である。 このソリューションは、サンタンデールの既存のスマートシティ展開とOrganiCityの実験・アズ・ア・サービスエコシステムに対して検証されたものです。 特徴的ユースケースとともに重要な課題について議論し、大規模スマートシティデータセットと機械学習を組み合わせた予備的な結果とともに、設計と実装について報告する。

Although we have reached new levels in smart city installations and systems, efforts so far have focused on providing diverse sources of data to smart city services consumers while neglecting to provide ways to simplify making good use of them. In this context, one first step that will bring added value to smart cities is knowledge creation in smart cities through anomaly detection and data annotation, supported in both an automated and a crowdsourced manner. We present here LearningCity, our solution that has been validated over an existing smart city deployment in Santander, and the OrganiCity experimentation-as-a-service ecosystem. We discuss key challenges along with characteristic use cases, and report on our design and implementation, together with some preliminary results derived from combining large smart city datasets with machine learning.
翻訳日:2021-04-13 13:59:09 公開日:2021-04-12
# アルゴリズムの透明性に向けて:多様性の展望

Towards Algorithmic Transparency: A Diversity Perspective ( http://arxiv.org/abs/2104.05658v1 )

ライセンス: Link先を確認
Fausto Giunchiglia, Jahna Otterbacher, Styliani Kleanthous, Khuyagbaatar Batsuren, Veronika Bogin, Tsvi Kuflik, Avital Shulner Tal(参考訳) 社会におけるアルゴリズムシステムとプロセスの役割が増加するにつれて、バイアスのリスクも増大し、個人や社会集団に対する差別につながる可能性がある。 アルゴリズムバイアスの研究は近年爆発的であり、アルゴリズム透明性(AT)の観点からバイアスの問題と潜在的な解決策の両方を強調している。 透明性は、公平性管理とアルゴリズムの説明可能性を促進する上で重要であるが、多様性の概念とバイアスと透明性との関係は、議論から大きく外れている。 我々は多様性とバイアスの関係を反映し、多様性が透明性の必要性を促進すると主張している。 多様性を前提としたパースペクティブ・テイク・レンズを用いて,アルゴリズムシステムにおけるその応用を支援するために,atの問題と解空間を特徴付ける概念的枠組みを提案する。 3つの研究領域の事例をフレームワークを用いて記述する。

As the role of algorithmic systems and processes increases in society, so does the risk of bias, which can result in discrimination against individuals and social groups. Research on algorithmic bias has exploded in recent years, highlighting both the problems of bias, and the potential solutions, in terms of algorithmic transparency (AT). Transparency is important for facilitating fairness management as well as explainability in algorithms; however, the concept of diversity, and its relationship to bias and transparency, has been largely left out of the discussion. We reflect on the relationship between diversity and bias, arguing that diversity drives the need for transparency. Using a perspective-taking lens, which takes diversity as a given, we propose a conceptual framework to characterize the problem and solution spaces of AT, to aid its application in algorithmic systems. Example cases from three research domains are described using our framework.
翻訳日:2021-04-13 13:58:55 公開日:2021-04-12
# 小隊マヌーブル記述のための階層型状態機械ベースフレームワーク

A Hierarchical State-Machine-Based Framework for Platoon Manoeuvre Descriptions ( http://arxiv.org/abs/2104.05305v1 )

ライセンス: Link先を確認
Corvin Deboeser, Jordan Ivanchev, Thomas Braud, Alois Knoll, David Eckhoff, Alberto Sangiovanni-Vincentelli(参考訳) 本稿では,自動小隊操作の設計と記述を簡略化するSEADフレームワークを提案する。 多数の研究が小隊形を定式化しているが、それらを設計し、記述し、読み、理解することは依然として困難である。 この困難は形式化の欠如から生じる。 このギャップを埋めるために,既存の操作方法を分析し,難易度の原因を導出し,操作設計プロセスを単純化するフレームワークを設計した。 また、機械可読形式のマヌーヴルを構造的に記述するためにマヌーヴル設計言語が開発された。 あらゆる参加車両に1つの状態マシンを必要とする最先端の操作記述とは異なり、SEADフレームワークは小隊リーダーの単一視点からあらゆる操作を記述することができる。 %) として, 高速道路における混在交通シミュレーション環境であるBEHAVEにおいて, 提案手法を実装した。 この枠組みを用いて,文献に記述されたいくつかの操作を実装した。 フレームワークの適用性を実証するため、Join-Middle操作の複数の代替品の実行時間性能を評価する実験を行った。 この概念実証実験により, 種々のステップを並列化することにより, 操作時間を28 %削減できることがわかった。 我々はSEADフレームワークが、新しい操作設計と最適化の領域におけるさらなる研究の道を開くことを願っている。

This paper introduces the SEAD framework that simplifies the process of designing and describing autonomous vehicle platooning manoeuvres. Although a large body of research has been formulating platooning manoeuvres, it is still challenging to design, describe, read, and understand them. This difficulty largely arises from missing formalisation. To fill this gap, we analysed existing ways of describing manoeuvres, derived the causes of difficulty, and designed a framework that simplifies the manoeuvre design process. Alongside, a Manoeuvre Design Language was developed to structurally describe manoeuvres in a machine-readable format. Unlike state-of-the-art manoeuvre descriptions that require one state machine for every participating vehicle, the SEAD framework allows describing any manoeuvre from the single perspective of the platoon leader. %As a proof of concept, the proposed framework was implemented in the mixed traffic simulation environment BEHAVE for an autonomous highway scenario. Using this framework, we implemented several manoeuvres as they were described in literature. To demonstrate the applicability of the framework, an experiment was performed to evaluate the execution time performance of multiple alternatives of the Join-Middle manoeuvre. This proof-of-concept experiment revealed that the manoeuvre execution time can be reduced by 28 \% through parallelising various steps without considerable secondary effects. We hope that the SEAD framework will pave the way for further research in the area of new manoeuvre design and optimisation by largely simplifying and unifying platooning manoeuvre representation.
翻訳日:2021-04-13 13:57:35 公開日:2021-04-12
# 株価予測のための高速なエビデンシャルアプローチ

A Fast Evidential Approach for Stock Forecasting ( http://arxiv.org/abs/2104.05204v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Fuyuan Xiao(参考訳) エビデンス理論の枠組みでは、データ融合は複数の異なる情報ソースの信頼度関数を結合して複合信頼度関数を得る。 株価予測は経済学の焦点である。 株価予測は参照データを提供することができる。 デンプスターの組み合わせルールは、異なる情報を融合する古典的な方法である。 各時点と将来の時点で融合した時系列全体と、その時間関係によって得られた予備予測値に基づいて、デンプスター結合則と信頼度関数を用いて、正確な予測値を復元することができる。 本稿では,エビデンス理論の予測手法を紹介する。 本手法は、動作性能が良好で、大量の株価データに対して迅速な応答が可能であり、また、広範囲にわたる重要性を有する。

In the framework of evidence theory, data fusion combines the confidence functions of multiple different information sources to obtain a combined confidence function. Stock price prediction is the focus of economics. Stock price forecasts can provide reference data. The Dempster combination rule is a classic method of fusing different information. By using the Dempster combination rule and confidence function based on the entire time series fused at each time point and future time points, and the preliminary forecast value obtained through the time relationship, the accurate forecast value can be restored. This article will introduce the prediction method of evidence theory. This method has good running performance, can make a rapid response on a large amount of stock price data, and has far-reaching significance.
翻訳日:2021-04-13 13:56:24 公開日:2021-04-12
# ニューラルカメラシミュレータ

Neural Camera Simulators ( http://arxiv.org/abs/2104.05237v1 )

ライセンス: Link先を確認
Hao Ouyang, Zifan Shi, Chenyang Lei, Ka Lung Law and Qifeng Chen(参考訳) 本稿では,ディープニューラルネットワークに基づく制御可能なカメラシミュレータを用いて,露光時間,iso,アパーチャなどの異なるカメラ設定下での生画像データを合成する。 提案するシミュレータは、現代のレンズ設計の原理を利用して輝度レベルを補正する露光モジュールを含む。 また、ノイズレベル関数を用いたノイズモジュールと、ノイズとデフォーカスのぼかしに対する副作用をシミュレートする適応的な注意を持つ開口モジュールを含む。 シミュレータモデルの学習を容易にするため,450シーンの1万枚の原画像のデータセットを異なる露出設定で収集する。 定量的実験と質的比較により,複数のカメラを用いた生データ合成において,本手法が関連するベースラインよりも優れていることが示された。 さらに、カメラシミュレータは、ローカル特徴検出をトレーニングするための大容量拡張、hdr、自動露光、データ拡張など、様々なアプリケーションを可能にする。 我々の研究は、従来の生のセンサー機能とデータ駆動型ディープラーニングのパワーの両方を活用することで、カメラセンサーの振る舞いをシミュレートする最初の試みである。

We present a controllable camera simulator based on deep neural networks to synthesize raw image data under different camera settings, including exposure time, ISO, and aperture. The proposed simulator includes an exposure module that utilizes the principle of modern lens designs for correcting the luminance level. It also contains a noise module using the noise level function and an aperture module with adaptive attention to simulate the side effects on noise and defocus blur. To facilitate the learning of a simulator model, we collect a dataset of the 10,000 raw images of 450 scenes with different exposure settings. Quantitative experiments and qualitative comparisons show that our approach outperforms relevant baselines in raw data synthesize on multiple cameras. Furthermore, the camera simulator enables various applications, including large-aperture enhancement, HDR, auto exposure, and data augmentation for training local feature detectors. Our work represents the first attempt to simulate a camera sensor's behavior leveraging both the advantage of traditional raw sensor features and the power of data-driven deep learning.
翻訳日:2021-04-13 13:55:10 公開日:2021-04-12
# 食品産業における二重エネルギー吸収測定に基づく非監督的異物検出

Unsupervised foreign object detection based on dual-energy absorptiometry in the food industry ( http://arxiv.org/abs/2104.05326v1 )

ライセンス: Link先を確認
Vladyslav Andriiashen, Robert van Liere, Tristan van Leeuwen, Kees Joost Batenburg(参考訳) X線イメージングは農業用食品の非破壊検査に広く用いられている技術である。 X線イメージングの応用の1つは、食品サンプル中の外部物体の自律的インライン検出である。 肉製品の骨片、魚のプラスチックや金属の破片、果物の寄生虫などがその例である。 本稿では,dual-energy x-ray absorptiometry (dexa) に基づく教師なし異物検出のための処理手法を提案する。 異物は、食品に含まれるものとは異なるX線減衰特性を持つ材料の断片として定義される。 DEXAデータの前処理技術として,新しい厚さ補正モデルを導入する。 このモデルの目的は、食品に含まれる画像内の領域を均質化し、異物が存在するコントラストを強化することである。 このようにして、外部オブジェクトのセグメンテーションは、ノイズやコントラストの欠如に対してより堅牢である。 提案手法は, 肉製品の488サンプルのデータセットに適用した。 サンプルは食品加工工場のコンベアベルトから採取された。 サンプルの約60%は異なる種類や大きさの異物を含むが、残りのサンプルは異物は含まない。 その結果, 異物のない試料は97%の症例で正しく同定され, 全体の検出精度は95%に達した。

X-ray imaging is a widely used technique for non-destructive inspection of agricultural food products. One application of X-ray imaging is the autonomous, in-line detection of foreign objects in food samples. Examples of such inclusions are bone fragments in meat products, plastic and metal debris in fish, fruit infestations. This article presents a processing methodology for unsupervised foreign object detection based on dual-energy X-ray absorptiometry (DEXA). A foreign object is defined as a fragment of material with different X-ray attenuation properties than those belonging to the food product. A novel thickness correction model is introduced as a pre-processing technique for DEXA data. The aim of the model is to homogenize regions in the image that belong to the food product and enhance contrast where the foreign object is present. In this way, the segmentation of the foreign object is more robust to noise and lack of contrast. The proposed methodology was applied to a dataset of 488 samples of meat products. The samples were acquired from a conveyor belt in a food processing factory. Approximately 60\% of the samples contain foreign objects of different types and sizes, while the rest of the samples are void of foreign objects. The results show that samples without foreign objects are correctly identified in 97% of cases, the overall accuracy of foreign object detection reaches 95%.
翻訳日:2021-04-13 13:54:52 公開日:2021-04-12
# ドラフトとリビジョン:ラプラシアンピラミッドネットワークによる高速芸術的スタイル移行

Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer ( http://arxiv.org/abs/2104.05376v1 )

ライセンス: Link先を確認
Tianwei Lin, Zhuoqi Ma, Fu Li, Dongliang He, Xin Li, Errui Ding, Nannan Wang, Jie Li, Xinbo Gao(参考訳) アートスタイルの転送は、サンプルイメージからコンテンツイメージへのスタイルの移行を目的としている。 現在、最適化に基づく手法は、優れたスタイリング品質を達成しているが、高価な時間コストは実用的応用を制限する。 一方、フィードフォワード法は、特に全体的グローバルパターンと局所パターンが存在する場合、複雑なスタイルを合成できない。 草案を描き、細部を改訂する一般的な絵画のプロセスに触発され、ラプラシアピラミッドネットワーク(lapstyle)と呼ばれる新しいフィードフォワード方式を導入する。 LapStyleは、ドラフトネットワークを介して、まずグローバルスタイルのパターンを低解像度で転送する。 次に,ラプラシアンフィルタリングにより抽出された画像テクスチャと草案に従って残像を幻示するリビジョンネットワークを介して,局所的な詳細を高解像度で修正する。 より高解像度な詳細は、複数のラプラシアピラミッドレベルでRevision Networksを積み重ねることで容易に生成できる。 最終スタイリング画像は、すべてのピラミッドレベルの出力を集約することで得られる。 % ローカルパターンを逆向きに学習するパッチ判別器も導入しました。 実験により,完全スタイルパターンを適切に転送した高品質なスタイライゼーション画像をリアルタイムに合成できることが実証された。

Artistic style transfer aims at migrating the style from an example image to a content image. Currently, optimization-based methods have achieved great stylization quality, but expensive time cost restricts their practical applications. Meanwhile, feed-forward methods still fail to synthesize complex style, especially when holistic global and local patterns exist. Inspired by the common painting process of drawing a draft and revising the details, we introduce a novel feed-forward method named Laplacian Pyramid Network (LapStyle). LapStyle first transfers global style patterns in low-resolution via a Drafting Network. It then revises the local details in high-resolution via a Revision Network, which hallucinates a residual image according to the draft and the image textures extracted by Laplacian filtering. Higher resolution details can be easily generated by stacking Revision Networks with multiple Laplacian pyramid levels. The final stylized image is obtained by aggregating outputs of all pyramid levels. %We also introduce a patch discriminator to better learn local patterns adversarially. Experiments demonstrate that our method can synthesize high quality stylized images in real time, where holistic style patterns are properly transferred.
翻訳日:2021-04-13 13:54:35 公開日:2021-04-12
# 心臓画像分割における品質制御のための効率的なモデルモニタリング

Efficient Model Monitoring for Quality Control in Cardiac Image Segmentation ( http://arxiv.org/abs/2104.05533v1 )

ライセンス: Link先を確認
Francesco Galati and Maria A. Zuluaga(参考訳) 深層学習法は、心臓画像分割における最先端のパフォーマンスに到達した。 現在、診療所への効果的な翻訳の主なボトルネックは、継続的なハイモデルパフォーマンスとセグメンテーション結果の確保である。 そこで本研究では,基礎的真理を欠いた心臓セグメンテーションモデルの性能をモニタリングする新しい学習フレームワークを提案する。 異常検出問題として定式化され、監視フレームワークはセグメント化のための代理品質測定を導出し、疑わしい結果にフラグを付けることができる。 本稿では,グローバルスコアと画素ワイズマップという2種類の品質指標を提案する。 基礎的真理の欠如により, 心的分節課題の最終順位を再現することで, それらの使用を実証する。 その結果,我々のフレームワークは正確,高速,スケーラブルであり,臨床と大規模集団研究における品質管理モニタリングに有効な選択肢であることを確認した。

Deep learning methods have reached state-of-the-art performance in cardiac image segmentation. Currently, the main bottleneck towards their effective translation into clinics requires assuring continuous high model performance and segmentation results. In this work, we present a novel learning framework to monitor the performance of heart segmentation models in the absence of ground truth. Formulated as an anomaly detection problem, the monitoring framework allows deriving surrogate quality measures for a segmentation and allows flagging suspicious results. We propose two different types of quality measures, a global score and a pixel-wise map. We demonstrate their use by reproducing the final rankings of a cardiac segmentation challenge in the absence of ground truth. Results show that our framework is accurate, fast, and scalable, confirming it is a viable option for quality control monitoring in clinical practice and large population studies.
翻訳日:2021-04-13 13:54:16 公開日:2021-04-12
# gattanet:畳み込みニューラルネットワークのためのグローバル注意合意

GAttANet: Global attention agreement for convolutional neural networks ( http://arxiv.org/abs/2104.05575v1 )

ライセンス: Link先を確認
Rufin VanRullen and Andrea Alamia(参考訳) 自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、近年、畳み込み層と組み合わせて、あるいは畳み込み層の代替として、視覚においても効率的であることが証明された。 通常、視覚的な注意は(一連の)feedforward self-attention module(s)としてネットワークアーキテクチャに挿入される。 しかしながら、この戦略は、注意選択領域の分離された統一されたネットワークとして、視覚領域の階層全体に対する入力を受け取り、変調的影響を行使する、生物学的脳に注意を向ける方法とあいまいに両立するだけである。 本稿では,標準畳み込みネットワークの性能を比較的少ないパラメータで向上させる単純な注意システムを用いた実験について報告する。 ネットワークの各レイヤ内の各空間位置はキー-クエリベクトルペアを生成し、すべてのクエリはグローバルアテンションクエリにプールされる。 次のイテレーションでは、各キーとグローバルアテンションクエリのマッチングがネットワークのアクティベーションを変調します。 この脳にインスパイアされたグローバルアテンションアグリーメントネットワーク(GAttANet)は,単純な5層トイモデルから標準ResNet50アーキテクチャまで)やデータセット(CIFAR10, CIFAR100, Imagenet-1k)に対して有用であることを示す。 グローバルアテンションシステムは毎回,対応するベースラインの精度を向上させる。

Transformer attention architectures, similar to those developed for natural language processing, have recently proved efficient also in vision, either in conjunction with or as a replacement for convolutional layers. Typically, visual attention is inserted in the network architecture as a (series of) feedforward self-attention module(s), with mutual key-query agreement as the main selection and routing operation. However efficient, this strategy is only vaguely compatible with the way that attention is implemented in biological brains: as a separate and unified network of attentional selection regions, receiving inputs from and exerting modulatory influence on the entire hierarchy of visual regions. Here, we report experiments with a simple such attention system that can improve the performance of standard convolutional networks, with relatively few additional parameters. Each spatial position in each layer of the network produces a key-query vector pair; all queries are then pooled into a global attention query. On the next iteration, the match between each key and the global attention query modulates the network's activations -- emphasizing or silencing the locations that agree or disagree (respectively) with the global attention system. We demonstrate the usefulness of this brain-inspired Global Attention Agreement network (GAttANet) for various convolutional backbones (from a simple 5-layer toy model to a standard ResNet50 architecture) and datasets (CIFAR10, CIFAR100, Imagenet-1k). Each time, our global attention system improves accuracy over the corresponding baseline.
翻訳日:2021-04-13 13:54:02 公開日:2021-04-12
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v1 )

ライセンス: Link先を確認
Annika Reinke, Matthias Eisenmann, Minu D. Tizabi, Carole H. Sudre, Tim R\"adsch, Michela Antonelli, Tal Arbel, Spyridon Bakas, M. Jorge Cardoso, Veronika Cheplygina, Keyvan Farahani, Ben Glocker, Doreen Heckmann-N\"otzel, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Jens Kleesiek, Tahsin Kurc, Michal Kozubek, Bennett A. Landman, Geert Litjens, Klaus Maier-Hein, Bjoern Menze, Henning M\"uller, Jens Petersen, Mauricio Reyes, Nicola Rieke, Bram Stieltjes, Ronald M. Summers, Sotirios A. Tsaftaris, Bram van Ginneken, Annette Kopp-Schneider, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は急速に高まっているが、最近のメタリサーチャーにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 特に、パフォーマンスメトリクスは客観的、透過的、比較パフォーマンス評価の鍵であるが、特定の画像分析タスクに特定のメトリクスを使用する場合、実用的落とし穴には比較的注意が払われていない。 したがって、いくつかの国際的なイニシアチブの共通のミッションは、研究者に問題意識でパフォーマンス指標を選択するためのガイドラインとツールを提供することである。 この動的に更新された文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 現在のバージョンは、画像分析の専門家からなる国際コンソーシアムが実施するメトリクスに関するDelphiプロセスに基づいている。

While the importance of automatic image analysis is increasing at an enormous pace, recent meta-research revealed major flaws with respect to algorithm validation. Specifically, performance metrics are key for objective, transparent and comparative performance assessment, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. A common mission of several international initiatives is therefore to provide researchers with guidelines and tools to choose the performance metrics in a problem-aware manner. This dynamically updated document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts.
翻訳日:2021-04-13 13:53:12 公開日:2021-04-12
# 運転者の注意に関する行動研究と実践モデル

Behavioral Research and Practical Models of Drivers' Attention ( http://arxiv.org/abs/2104.05677v1 )

ライセンス: Link先を確認
Iuliia Kotseruba and John K. Tsotsos(参考訳) 運転は多くの人にとって日常的な活動だが、単純ではない。 ドライバーは車線に車両を配置したり、他の道路利用者の行動を観察したり予測したり、危険に反応したり、車内外の邪魔をしたりといった複数の同時作業に対処する。 周囲の物体や事象に気付いて対応できないと、事故が発生することがある。 道路インフラの継続的な改良と車両の機械設計により、運転は全体的に安全になった。 それにもかかわらず、ドライバーの不注意の問題は事故の主な原因の1つのままである。 したがって、ドライバーがどこに見え、なぜそうするかを理解することは、邪魔の原因を排除し、安全でない注意パターンを特定するのに役立ちます。 ドライバーの注意調査は、政策立案、ドライバー教育の改善、道路インフラと車載インフォテインメントシステムの改善、ドライバーの監視、運転支援、自動運転のためのシステムの設計など、多くの実用的な応用に影響を与えている。 本報告では,ドライバの視覚注意分布の変化に関する文献について報告する。 運転中の注意の側面は、心理学、人的要因、人間とコンピュータの相互作用、インテリジェントな輸送、コンピュータビジョンなど、様々な分野にまたがっており、それぞれ異なる視点、目標、観察された現象の説明を提供している。 ドライバーの注意と実践的解決策に関する学際的理論と行動研究をリンクする。 さらに,今後の研究の限界と方向性についても論じる。 このレポートは、2010年以来の175以上の行動調査、100近い実践論文、20のデータセット、70以上の調査に基づいている。 このレポートで使用されるドキュメントのキュレーションリストはhttps://github.com/ykotseruba/attention_and_driving.comで公開されている。

Driving is a routine activity for many, but it is far from simple. Drivers deal with multiple concurrent tasks, such as keeping the vehicle in the lane, observing and anticipating the actions of other road users, reacting to hazards, and dealing with distractions inside and outside the vehicle. Failure to notice and respond to the surrounding objects and events can cause accidents. The ongoing improvements of the road infrastructure and vehicle mechanical design have made driving safer overall. Nevertheless, the problem of driver inattention has remained one of the primary causes of accidents. Therefore, understanding where the drivers look and why they do so can help eliminate sources of distractions and identify unsafe attention patterns. Research on driver attention has implications for many practical applications such as policy-making, improving driver education, enhancing road infrastructure and in-vehicle infotainment systems, as well as designing systems for driver monitoring, driver assistance, and automated driving. This report covers the literature on changes in drivers' visual attention distribution due to factors, internal and external to the driver. Aspects of attention during driving have been explored across multiple disciplines, including psychology, human factors, human-computer interaction, intelligent transportation, and computer vision, each offering different perspectives, goals, and explanations for the observed phenomena. We link cross-disciplinary theoretical and behavioral research on driver's attention to practical solutions. Furthermore, limitations and directions for future research are discussed. This report is based on over 175 behavioral studies, nearly 100 practical papers, 20 datasets, and over 70 surveys published since 2010. A curated list of papers used for this report is available at https://github.com/ykotseruba/attention_and_driving.
翻訳日:2021-04-13 13:53:00 公開日:2021-04-12
# オンラインゲームにおける個人化バンドル勧告

Personalized Bundle Recommendation in Online Games ( http://arxiv.org/abs/2104.05307v1 )

ライセンス: Link先を確認
Qilin Deng, Kai Wang, Minghao Zhao, Zhene Zou, Runze Wu, Jianrong Tao, Changjie Fan, Liang Chen(参考訳) ビジネスドメインにおいて、textit{bundling} は、オンライン電子商取引やオフライン小売業者で一般的に使用される製品プロモーションを行うための最も重要なマーケティング戦略の1つである。 既存のレコメンダシステムは、ユーザーが興味を持つかもしれない個々のアイテムを推薦することに集中している。 本稿では,バンドルレコメンデーション(bundle recommendation)という,実用的かつあまり検討されていないレコメンデーション問題を対象とする。 オンラインゲームにおける \emph{virtual mall} の文脈で、この特定の推奨問題に取り組むために、歴史的相互作用から構築されたユーザ・アイテム・バンドル三部グラフ上のリンク予測問題として定式化し、グラフ構造データから直接学習可能なニューラルネットワークモデルを用いて解く。 3つの公開データセットと1つの産業ゲームデータセットに関する大規模な実験により,提案手法の有効性が示された。 さらに,Netease Gamesが開発した人気オンラインゲームにおいて,バンドルレコメンデーションモデルが1年以上生産され,バンドルの変換率が60%以上向上し,総商品量(GMV)が15%以上向上した。

In business domains, \textit{bundling} is one of the most important marketing strategies to conduct product promotions, which is commonly used in online e-commerce and offline retailers. Existing recommender systems mostly focus on recommending individual items that users may be interested in. In this paper, we target at a practical but less explored recommendation problem named bundle recommendation, which aims to offer a combination of items to users. To tackle this specific recommendation problem in the context of the \emph{virtual mall} in online games, we formalize it as a link prediction problem on a user-item-bundle tripartite graph constructed from the historical interactions, and solve it with a neural network model that can learn directly on the graph-structure data. Extensive experiments on three public datasets and one industrial game dataset demonstrate the effectiveness of the proposed method. Further, the bundle recommendation model has been deployed in production for more than one year in a popular online game developed by Netease Games, and the launch of the model yields more than 60\% improvement on conversion rate of bundles, and a relative improvement of more than 15\% on gross merchandise volume (GMV).
翻訳日:2021-04-13 13:50:10 公開日:2021-04-12
# 超大深層学習モデルの効率的な2次元学習法

An Efficient 2D Method for Training Super-Large Deep Learning Models ( http://arxiv.org/abs/2104.05343v1 )

ライセンス: Link先を確認
Qifan Xu and Shenggui Li and Chaoyu Gong and Yang You(参考訳) 巨大なニューラルネットワークモデルは、現実世界のアプリケーションで前例のないパフォーマンスを示している。 しかし、メモリ制約のため、モデル並列性は単一のデバイスのメモリに収まらない大規模なモデルをホストするために利用する必要がある。 以前の方法であるmegatronはモデル全体のパラメータを複数のデバイスに分割するが、各デバイスは前方および後方パスでの冗長なアクティベーションに対応する必要がある。 本研究では,無限大言語モデルの学習を容易にするモデル並列処理の高効率かつスケーラブルな2次元並列化パラダイムであるoptimusを提案する。 Optimusでは、アクティベーションは分割され、デバイス間で分散される。 等効率の点で、オプティマスはメガトロンを著しく上回っている。 TACC Fronteraの64GPUでは、Optimusはトレーニング用の1.48倍のスピードアップ、推論用の1.78倍のスピードアップ、Megatronよりも最大バッチサイズが8倍に向上している。 OptimusはMegatronのスケーリング効率を大きく上回っている。 コードはhttps://github.com/xuqifan897/optimusで入手できる。

Huge neural network models have shown unprecedented performance in real-world applications. However, due to memory constraints, model parallelism must be utilized to host large models that would otherwise not fit into the memory of a single device. Previous methods like Megatron partition the parameters of the entire model among multiple devices, while each device has to accommodate the redundant activations in forward and backward pass. In this work, we propose Optimus, a highly efficient and scalable 2D-partition paradigm of model parallelism that would facilitate the training of infinitely large language models. In Optimus, activations are partitioned and distributed among devices, further reducing redundancy. In terms of isoefficiency, Optimus significantly outperforms Megatron. On 64 GPUs of TACC Frontera, Optimus achieves 1.48X speedup for training, 1.78X speedup for inference, and 8X increase in maximum batch size over Megatron. Optimus surpasses Megatron in scaling efficiency by a great margin. The code is available at https://github.com/xuqifan897/Optimus.
翻訳日:2021-04-13 13:49:35 公開日:2021-04-12
# グラフニューラルネットワークを用いた異種無線ネットワークにおけるスケーラブル電力制御/ビームフォーミング

Scalable Power Control/Beamforming in Heterogeneous Wireless Networks with Graph Neural Networks ( http://arxiv.org/abs/2104.05463v1 )

ライセンス: Link先を確認
Xiaochen Zhang, Haitao Zhao, Jun Xiong, Li Zhou, Jibo Wei(参考訳) 機械学習(ml)は無線ネットワークにおける効率的なリソース割り当て(ra)に広く使われている。 しかし、既存のMLベースのアプローチのほとんどは、異種性が発生し、ネットワークサイズが大きくなると困難に直面している。 本稿では,ヘテロジニアス・デバイス間(d2d)ネットワークにおける電力制御/ビーム形成(pc/bf)に着目し,これらの課題に対処するために,教師なし学習ベースのフレームワークであるヘテロジニアス干渉グラフニューラルネットワーク(hignn)を提案する。 まず,多様化したリンク特徴と異種グラフとの干渉関係を特徴付ける。 次に、隣接リンクとの限られた情報交換の後、各リンクに個々の送信方式を付与するhignnを提案する。 注目に値するのは、HIGNNは、小型ネットワークで訓練した後、堅牢な性能で成長する無線ネットワークに対してスケーラブルであることだ。 HIGNNは、最先端のベンチマークと比較すると、高い性能を提供しながら、より高い実行効率を実現する。

Machine learning (ML) has been widely used for efficient resource allocation (RA) in wireless networks. Although superb performance is achieved on small and simple networks, most existing ML-based approaches are confronted with difficulties when heterogeneity occurs and network size expands. In this paper, specifically focusing on power control/beamforming (PC/BF) in heterogeneous device-to-device (D2D) networks, we propose a novel unsupervised learning-based framework named heterogeneous interference graph neural network (HIGNN) to handle these challenges. First, we characterize diversified link features and interference relations with heterogeneous graphs. Then, HIGNN is proposed to empower each link to obtain its individual transmission scheme after limited information exchange with neighboring links. It is noteworthy that HIGNN is scalable to wireless networks of growing sizes with robust performance after trained on small-sized networks. Numerical results show that compared with state-of-the-art benchmarks, HIGNN achieves much higher execution efficiency while providing strong performance.
翻訳日:2021-04-13 13:48:19 公開日:2021-04-12
# N-gramプロファイルを用いたニューラルネットワークによる異常検出

Using a Neural Network to Detect Anomalies given an N-gram Profile ( http://arxiv.org/abs/2104.05571v1 )

ライセンス: Link先を確認
Byunggu Yu, Junwhan Kim(参考訳) コンピュータプログラムの未知の侵入や実行エラーを検出するため、サイバーセキュリティコミュニティは様々な検出技術を開発した。 異常検出(英: Anomaly detection)とは、コンピュータプログラムの通常の実行動作をプロファイリングして、観察された正常値から異常なずれとして侵入やエラーを検出する手法である。 しかし、正常だが観察されていない行動は偽陽性を引き起こすことがある。 この制限は異常検出技術の実用性を大幅に低下させた。 この制限に対する報告されたアプローチは、制限された観測に基づいてすべての正常な振る舞いを近似するための分布モデルに対する単純な警告しきい値定義にまたがる。 しかし、それぞれの仮定や近似は、さらに大きな偽陽性率の可能性がある。 本稿では,実際のデータ分布によらず,ニューラルネットワーク,特に長期記憶を用いた異常の存在を説明する方法について述べる。 我々は3つの異常検出モデルを提示し比較し、Apache Hypertext Transfer Protocolサーバ上で異なるタイプの攻撃を実行した経験について報告する。 本研究は, 異常な正常行動による偽陽性を回避しつつ, 各モデルが攻撃開始を検出する能力に着目し, 比較研究を行った。 最良性能モデルでは,攻撃の真発生を偽陽性ゼロで検出した。

In order to detect unknown intrusions and runtime errors of computer programs, the cyber-security community has developed various detection techniques. Anomaly detection is an approach that is designed to profile the normal runtime behavior of computer programs in order to detect intrusions and errors as anomalous deviations from the observed normal. However, normal but unobserved behavior can trigger false positives. This limitation has significantly decreased the practical viability of anomaly detection techniques. Reported approaches to this limitation span a simple alert threshold definition to distribution models for approximating all normal behavior based on the limited observation. However, each assumption or approximation poses the potential for even greater false positive rates. This paper presents our study on how to explain the presence of anomalies using a neural network, particularly Long Short-Term Memory, independent of actual data distributions. We present and compare three anomaly detection models, and report on our experience running different types of attacks on an Apache Hypertext Transfer Protocol server. We performed a comparative study, focusing on each model's ability to detect the onset of each attack while avoiding false positives resulting from unknown normal behavior. Our best-performing model detected the true onset of every attack with zero false positives.
翻訳日:2021-04-13 13:47:58 公開日:2021-04-12
# 深い確率的文脈帯域の効率的なアルゴリズム

An Efficient Algorithm for Deep Stochastic Contextual Bandits ( http://arxiv.org/abs/2104.05613v1 )

ライセンス: Link先を確認
Tan Zhu, Guannan Liang, Chunjiang Zhu, Haining Li, Jinbo Bi(参考訳) 確率的文脈バンドイット(SCB)問題では、エージェントは、ある観測されたコンテキストに基づいてアクションを選択し、反復よりも累積的な報酬を最大化する。 近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われており、DNNは確率勾配に基づく方法で訓練されている。 しかし、収束解析はこれらの手法が収束するかどうかを調べるために無視されている。 本研究では,dnn 報酬関数を非凸確率最適化問題として用いる scb を定式化し,ステージワイズ確率勾配降下アルゴリズムを設計,問題を最適化し,行動方針を決定する。 高い確率で、このアルゴリズムによって選択されたアクションシーケンスは、局所最適報酬関数に関する欲求行動ポリシーに収束することを示す。 複数の実世界のデータセット上で提案アルゴリズムの有効性と有効性を示すため,大規模な実験が実施されている。

In stochastic contextual bandit (SCB) problems, an agent selects an action based on certain observed context to maximize the cumulative reward over iterations. Recently there have been a few studies using a deep neural network (DNN) to predict the expected reward for an action, and the DNN is trained by a stochastic gradient based method. However, convergence analysis has been greatly ignored to examine whether and where these methods converge. In this work, we formulate the SCB that uses a DNN reward function as a non-convex stochastic optimization problem, and design a stage-wise stochastic gradient descent algorithm to optimize the problem and determine the action policy. We prove that with high probability, the action sequence chosen by this algorithm converges to a greedy action policy respecting a local optimal reward function. Extensive experiments have been performed to demonstrate the effectiveness and efficiency of the proposed algorithm on multiple real-world datasets.
翻訳日:2021-04-13 13:47:38 公開日:2021-04-12
# 1次手法による分散学習システム

Distributed Learning Systems with First-order Methods ( http://arxiv.org/abs/2104.05245v1 )

ライセンス: Link先を確認
Ji Liu, Ce Zhang(参考訳) スケーラブルで効率的な分散学習は、最近の機械学習と人工知能の急速な進歩の背後にある大きな原動力の1つだ。 このトピックの顕著な特徴の1つは、(1)データベース、データ管理、分散システムのようなシステムコミュニティ、(2)機械学習と数学の最適化コミュニティという2つのコミュニティの研究者によって最近の進歩がなされていることである。 これら2つのコミュニティ間の相互作用と知識共有は、新しい分散学習システムと理論の急速な発展につながった。 本稿では,最近開発された分散学習技術,すなわち分散通信圧縮(量子化とスパーシフィケーション),非同期通信,分散通信の簡単な紹介を期待する。 システム側では、システムスピードアップの背後にある直感では不要な多くのシステム詳細を隠蔽する、単純化されたシステムモデルに依存しています。

Scalable and efficient distributed learning is one of the main driving forces behind the recent rapid advancement of machine learning and artificial intelligence. One prominent feature of this topic is that recent progresses have been made by researchers in two communities: (1) the system community such as database, data management, and distributed systems, and (2) the machine learning and mathematical optimization community. The interaction and knowledge sharing between these two communities has led to the rapid development of new distributed learning systems and theory. In this work, we hope to provide a brief introduction of some distributed learning techniques that have recently been developed, namely lossy communication compression (e.g., quantization and sparsification), asynchronous communication, and decentralized communication. One special focus in this work is on making sure that it can be easily understood by researchers in both communities -- On the system side, we rely on a simplified system model hiding many system details that are not necessary for the intuition behind the system speedups; while, on the theory side, we rely on minimal assumptions and significantly simplify the proof of some recent work to achieve comparable results.
翻訳日:2021-04-13 13:44:35 公開日:2021-04-12
# 深層マルチエージェント強化学習への共進化的アプローチ

A coevolutionairy approach to deep multi-agent reinforcement learning ( http://arxiv.org/abs/2104.05610v1 )

ライセンス: Link先を確認
Daan Klijn, A.E. Eiben(参考訳) 伝統的に、ディープニューラルネットワーク(DNN)は勾配降下によって訓練される。 近年の研究では、DNE(Deep Neuroevolution)は、強化学習(Reinforcement Learning, RL)の分野で特に有用であることが示されている。 これは主に、従来のmdpベースのrlメソッドに比べてスケーラビリティとシンプルさが優れているためである。 これまでのところ、DNEは複雑な単一エージェント問題にのみ適用されている。 進化的手法はマルチエージェント問題にとって自然な選択であるので、DNEが複雑なマルチエージェント設定にも適用できるかどうかが問題となる。 本稿では、Coevolutionに基づく新しいアプローチを記述し、検証する。 提案手法を検証するため,複数エージェントのAtariゲーム上で2つのDeep Coevolutionary Algorithmをベンチマークし,Ape-X DQNの結果と比較した。 以上の結果から,これらの深層共進化アルゴリズム(1)は様々なゲームをうまく練習でき,(2)一部のゲームではap-x dqnよりも優れており,(3)複雑なマルチエージェント意思決定問題に対して共進化は有効なアプローチであることが示された。

Traditionally, Deep Artificial Neural Networks (DNN's) are trained through gradient descent. Recent research shows that Deep Neuroevolution (DNE) is also capable of evolving multi-million-parameter DNN's, which proved to be particularly useful in the field of Reinforcement Learning (RL). This is mainly due to its excellent scalability and simplicity compared to the traditional MDP-based RL methods. So far, DNE has only been applied to complex single-agent problems. As evolutionary methods are a natural choice for multi-agent problems, the question arises whether DNE can also be applied in a complex multi-agent setting. In this paper, we describe and validate a new approach based on Coevolution. To validate our approach, we benchmark two Deep Coevolutionary Algorithms on a range of multi-agent Atari games and compare our results against the results of Ape-X DQN. Our results show that these Deep Coevolutionary algorithms (1) can be successfully trained to play various games, (2) outperform Ape-X DQN in some of them, and therefore (3) show that Coevolution can be a viable approach to solving complex multi-agent decision-making problems.
翻訳日:2021-04-13 13:44:20 公開日:2021-04-12
# 短期情報を用いたエンド・ツー・エンドマンダリン音分類

End-to-End Mandarin Tone Classification with Short Term Context Information ( http://arxiv.org/abs/2104.05657v1 )

ライセンス: Link先を確認
Jiyang Tang, Ming Li(参考訳) 本稿では,スペクトル情報と短期文脈情報の両方を入力として,連続音声発話から端から端までマンダリン音の分類法を提案する。 Mel-spectrogramsとコンテキストセグメント機能の両方を使用して、トーン分類器を訓練する。 まず,asrモデルによる力アライメント結果を用いて,スペクトルフレームを音節に分割した。 そして、複数の音節にまたがる文脈情報を取り込むために、短期のセグメント特徴を抽出する。 Mel-spectrogramと短期的なコンテキストセグメントの機能をエンドツーエンドモデルにフィードすることで、パフォーマンスを大幅に向上させることができる。 提案手法を評価するために,大規模オープンソースmandarin音声データセットを用いて実験を行った。 その結果、この手法は、aishell3データベース上で79.5\%$から85.7\%$に分類精度が向上した。

In this paper, we propose an end-to-end Mandarin tone classification method from continuous speech utterances utilizing both the spectrogram and the short term context information as the inputs. Both Mel-spectrograms and context segment features are used to train the tone classifier. We first divide the spectrogram frames into syllable segments using force alignment results produced by an ASR model. Then we extract the short term segment features to capture the context information across multiple syllables. Feeding both the Mel-spectrogram and the short term context segment features into an end-to-end model could significantly improve the performance. Experiments are performed on a large scale open source Mandarin speech dataset to evaluate the proposed method. Results show that the this method improves the classification accuracy from $79.5\%$ to $88.7\%$ on the AISHELL3 database.
翻訳日:2021-04-13 13:43:59 公開日:2021-04-12
# (参考訳) 機械学習モデルにおける個別説明:実践者に対する調査

Individual Explanations in Machine Learning Models: A Survey for Practitioners ( http://arxiv.org/abs/2104.04144v2 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u and Alejandro Noriega(参考訳) 近年、社会的関連性の高い領域における決定に影響を与える洗練された統計モデルの利用が増えている。 これらのモデルはしばしば組織の正確性と効率を大幅に改善するが、多くの政府、機関、企業は、その成果を人間の解釈可能な方法で説明することが難しいため、採用に消極的である。 したがって、これらのモデルは、内部メカニズムが人間の監査に不透明であるという意味で、しばしばブラックボックスと見なされる。 実世界のアプリケーションでは、特に、刑事司法、信用スコアの推定、保険リスク、健康リスクなど、決定に敏感な影響がある領域において、モデル解釈が望まれる。 近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。 この調査は、機械学習における個々のインスタンスを説明する特定の問題に対処するための最先端技術を形成する最も重要で斬新な手法についてレビューする。 データサイエンスと機械学習の実践者が、問題領域に適切な方法を探すためのガイドとなる簡潔なレビューを提供することを目指している。

In recent years, the use of sophisticated statistical models that influence decisions in domains of high societal relevance is on the rise. Although these models can often bring substantial improvements in the accuracy and efficiency of organizations, many governments, institutions, and companies are reluctant to their adoption as their output is often difficult to explain in human-interpretable ways. Hence, these models are often regarded as black-boxes, in the sense that their internal mechanisms can be opaque to human audit. In real-world applications, particularly in domains where decisions can have a sensitive impact--e.g., criminal justice, estimating credit scores, insurance risk, health risks, etc.--model interpretability is desired. Recently, the academic literature has proposed a substantial amount of methods for providing interpretable explanations to machine learning models. This survey reviews the most relevant and novel methods that form the state-of-the-art for addressing the particular problem of explaining individual instances in machine learning. It seeks to provide a succinct review that can guide data science and machine learning practitioners in the search for appropriate methods to their problem domain.
翻訳日:2021-04-13 11:48:47 公開日:2021-04-12
# (参考訳) 機械学習モデルにおける個人説明:貧困推定を事例として

Individual Explanations in Machine Learning Models: A Case Study on Poverty Estimation ( http://arxiv.org/abs/2104.04148v2 )

ライセンス: CC BY 4.0
Alfredo Carrillo, Luis F. Cant\'u, Luis Tejerina and Alejandro Noriega(参考訳) 機械学習の手法は、決定が人間の生活に影響を与える繊細な社会状況にますます適用されている。 したがって、モデルの予測を簡単に解釈可能な説明を提供する能力を構築する必要がある。 近年の学術文献では、多くの説明方法が提案されている。 残念ながら、私たちの知る限りでは、機械学習の実践者が現実のシナリオに適用する際に直面する課題についてはほとんど文書化されていません。 例えば、機能工学のような典型的な手順は、いくつかの方法論をもはや適用できなくなる。 本研究の主な目的は2つある。 まず、これらの課題とそれらが関連する新しい説明方法の使用に与える影響を明らかにする。 第二に、関連するアプリケーションドメインで説明手法を実装する際に直面するような課題を緩和する一連の戦略を示す。

Machine learning methods are being increasingly applied in sensitive societal contexts, where decisions impact human lives. Hence it has become necessary to build capabilities for providing easily-interpretable explanations of models' predictions. Recently in academic literature, a vast number of explanations methods have been proposed. Unfortunately, to our knowledge, little has been documented about the challenges machine learning practitioners most often face when applying them in real-world scenarios. For example, a typical procedure such as feature engineering can make some methodologies no longer applicable. The present case study has two main objectives. First, to expose these challenges and how they affect the use of relevant and novel explanations methods. And second, to present a set of strategies that mitigate such challenges, as faced when implementing explanation methods in a relevant application domain -- poverty estimation and its use for prioritizing access to social policies.
翻訳日:2021-04-13 11:35:57 公開日:2021-04-12
# (参考訳) 信頼度推定を用いた雑音ラベルNER

Noisy-Labeled NER with Confidence Estimation ( http://arxiv.org/abs/2104.04318v2 )

ライセンス: CC BY 4.0
Kun Liu, Yao Fu, Chuanqi Tan, Mosha Chen, Ningyu Zhang, Songfang Huang, Sheng Gao(参考訳) 深層学習における最近の研究は、名前付き実体認識(NER)において大きな進歩を示している。 既存の作品の多くはクリーンなデータアノテーションを前提としているが、現実世界のシナリオにおける基本的な課題は、様々なソース(例えば、疑似、弱、遠方のアノテーション)からの大量のノイズである。 本研究は,信頼度を校正したノイズラベル設定下でnerを学習する。 ノイズラベルとクリーンラベルの異なるトレーニングダイナミクスに関する経験的観察に基づいて,局所的およびグローバル的独立性仮定に基づく信頼度スコアの推定手法を提案する。 信頼性の低いラベルをCRFモデルで部分的にマージする。 さらに,エンティティラベルの構造に基づく信頼度スコアの校正手法を提案する。 当社のアプローチを,パフォーマンス向上のための自己学習フレームワークに統合しています。 4言語と遠隔ラベル付き設定を用いた一般雑音環境実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/liukun95/Noisy-NER-Confidence-Estimationにある。

Recent studies in deep learning have shown significant progress in named entity recognition (NER). Most existing works assume clean data annotation, yet a fundamental challenge in real-world scenarios is the large amount of noise from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method. Our code can be found at https://github.com/liukun95/Noisy-NER-Confidence-Estimation
翻訳日:2021-04-13 11:20:29 公開日:2021-04-12
# (参考訳) 地域コントラストを用いたブートストラップセマンティックセマンティックセグメンテーション

Bootstrapping Semantic Segmentation with Regional Contrast ( http://arxiv.org/abs/2104.04465v2 )

ライセンス: CC BY 4.0
Shikun Liu, Shuaifeng Zhi, Edward Johns, Andrew J. Davison(参考訳) 本稿では,セマンティックセグメンテーションの学習を支援するため,地域レベルで設計されたコントラスト学習フレームワークrecoを提案する。 ReCoは、半教師付きまたは教師付きピクセルレベルのコントラスト学習を、最小限のメモリフットプリントで、ハードネガティブピクセルのスパースセットで実行する。 ReCoは実装が容易で、既製のセグメンテーションネットワーク上に構築されており、半教師付きセグメンテーションと教師付きセグメンテーションの両方のパフォーマンスを一貫して改善し、スムーズなセグメンテーション境界とより高速な収束を実現している。 最も強い効果は、ほとんどラベルのない半教師付き学習である。 ReCoでは、CityScapesデータセットで50% mIoUを達成していますが、ラベル付きイメージは20しか必要ありません。 コードはhttps://github.com/lorenmt/recoで入手できる。

We present ReCo, a contrastive learning framework designed at a regional level to assist learning in semantic segmentation. ReCo performs semi-supervised or supervised pixel-level contrastive learning on a sparse set of hard negative pixels, with minimal additional memory footprint. ReCo is easy to implement, being built on top of off-the-shelf segmentation networks, and consistently improves performance in both semi-supervised and supervised semantic segmentation methods, achieving smoother segmentation boundaries and faster convergence. The strongest effect is in semi-supervised learning with very few labels. With ReCo, we achieve 50% mIoU in the CityScapes dataset, whilst requiring only 20 labelled images, improving by 10% relative to the previous state-of-the-art. Code is available at https://github.com/lorenmt/reco.
翻訳日:2021-04-13 11:09:13 公開日:2021-04-12