このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210313となっている論文です。

PDF登録状況(公開日: 20210313)

TitleAuthorsAbstract論文公表日・翻訳日
# スピン-ボーソン系における量子と古典力学:スペクトル相関とスカーリングの出現

Quantum vs classical dynamics in a spin-boson system: manifestations of spectral correlations and scarring ( http://arxiv.org/abs/2002.02465v2 )

ライセンス: Link先を確認
D Villasenor, S Pilatowsky-Cameo, M A Bastarrachea-Magnani, S Lerma-Hernandez, L F Santos, and J G Hirsch(参考訳) 我々は、ディッケモデルの古典的および量子的進化全体を規則的およびカオス的領域で比較する。 これは非常に実験的な関心を持つパラダイム的相互作用スピンボーソンモデルである。 初期コヒーレント状態の古典的および量子的生存確率を研究することにより、純粋に量子的である長期力学の特徴を特定し、それらの平衡時間への影響を議論する。 生存確率の量子的漸近的値と古典的漸近的値の比率は、正則系におけるセパラトリクスへの近さを判定し、量子カオスの2つの表れであるスカーリングとエルゴディシティを区別するための指標として有用であることを示した。 最大量子エルゴード性の場合、我々の結果は解析的であり、量子平衡が古典的平衡よりも長くかかることを示す。

We compare the entire classical and quantum evolutions of the Dicke model in its regular and chaotic domains. This is a paradigmatic interacting spin-boson model of great experimental interest. By studying the classical and quantum survival probabilities of initial coherent states, we identify features of the long-time dynamics that are purely quantum and discuss their impact on the equilibration times. We show that the ratio between the quantum and classical asymptotic values of the survival probability serves as a metric to determine the proximity to a separatrix in the regular regime and to distinguish between two manifestations of quantum chaos: scarring and ergodicity. In the case of maximal quantum ergodicity, our results are analytical and show that quantum equilibration takes longer than classical equilibration.
翻訳日:2023-06-04 13:55:04 公開日:2021-03-13
# ノルム関数によるコヒーレンス測度

Coherence measures induced by norm functions ( http://arxiv.org/abs/2008.04362v2 )

ライセンス: Link先を確認
Yangping Jing, Chi-Kwong Li, Edward Poon, and Chengyang Zhang(参考訳) どの行列ノルムが量子コヒーレンスを定量化する適切な測度を導くか? この問題を二つの重要なノルムのクラスで研究し i)コヒーレンス測度は、任意のユニタリ類似性不変ノルムによって誘導することができず、 (ii)$\ell_{q,p}$-norm がコヒーレンス測度を誘導するのは、$q=1$ と $1 \leq p \leq 2$ が成り立つときであり、計算が容易な単純な閉形式を持つ新しいコヒーレンス測度のクラスを与える。 これらの結果は、ノルム誘起コヒーレンス測度に関する既知事実を拡張し、統一し、関数がコヒーレンス測度になり得るかを理解するためのより広範な枠組みへと導かれる。

Which matrix norms induce proper measures for quantifying quantum coherence? We study this problem for two important classes of norms and show that (i) coherence measures cannot be induced by any unitary similarity invariant norm, and (ii) the $\ell_{q,p}$-norm induces a coherence measure if and only if $q=1$ and $1 \leq p \leq 2$, thus giving a new class of coherence measures with simple closed forms that are easy to compute. These results extend and unify previously known facts about norm-induced coherence measures, and lead to a broader framework for understanding what functionals can be coherence measures.
翻訳日:2023-05-06 15:50:12 公開日:2021-03-13
# ランダムな$k$-体相互作用を持つ平均場における相互作用ボソンの波動関数の構造

Structure of wavefunction for interacting bosons in mean-field with random $k$-body interactions ( http://arxiv.org/abs/2012.01610v2 )

ライセンス: Link先を確認
Priyanka Rao and N. D. Chavda(参考訳) 波動関数構造は1体$h(1)$の和であるhamiltonian $h$と、強度$\lambda$を持つ$k$-body interaction $v(k)$の埋め込みgoeを用いて、密接な相互作用をする多粒子系に対して解析される。 第1の分析では、$\lambda$と$k$の関数としての強度関数の分散に関する完全な分析記述が導出され、熱化領域を定義するマーカー$\lambda_t$が得られる。 強い結合極限(\lambda > \lambda_t$)において、条件付き$q$-正規密度は、相互作用のボディーランク$k$が増加するにつれて、強度関数のガウスから半円遷移を記述する。 第2の分析では、この強度関数の補間形式を用いて、$k$-body 相互作用のクエンチ後の忠実性崩壊を記述するとともに、有限相互作用多粒子系におけるカオスの尺度である主成分数に対する滑らかな形式を得る。 滑らかな形式は、すべての$k$値に対する組込みアンサンブルの結果をよく表している。

Wavefunction structure is analyzed for dense interacting many-boson systems using Hamiltonian $H$, which is a sum of one-body $h(1)$ and an embedded GOE of $k$-body interaction $V(k)$ with strength $\lambda$. In the first analysis, a complete analytical description of the variance of the strength function as a function of $\lambda$ and $k$ is derived and the marker $\lambda_t$ defining thermalization region is obtained. In the strong coupling limit ($\lambda > \lambda_t$), the conditional $q$-normal density describes Gaussian to semi-circle transition in strength functions as body rank $k$ of the interaction increases. In the second analysis, this interpolating form of the strength function is utilized to describe the fidelity decay after $k$-body interaction quench and also to obtain the smooth form for the number of principal components, a measure of chaos in finite interacting many-particle systems. The smooth form very well describes embedded ensemble results for all $k$ values.
翻訳日:2023-04-22 16:43:55 公開日:2021-03-13
# 分配則、スパンおよびzx計算

Distributive Laws, Spans and the ZX-Calculus ( http://arxiv.org/abs/2102.04386v3 )

ライセンス: Link先を確認
Cole Comfort(参考訳) 新しい生成元と関係をモジュール的に加えることで、zx-計算のより大きい断片をモジュール的に構築し、スパンのカテゴリの具体的な意味論を与えます。 これは、分配則による小道具の合成技術や、ザナシの押出立方体の技法を用いて行われる。 このことは、黒の$\pi$-phase(およびアダマール門なし)と、生成子としてゲートとを持つ断片(ZH-calculusの自然数 H-box フラグメントと等価である)と共に、ZX-calculus の断片に対して行う。 前者の場合、これは(おそらく空である)自由で有限次元のアフィン$\mathbb F_2$-ベクトル空間のスパンの完全な部分圏と同値であり、対象は空でないアフィンベクトル空間である。 後者の場合、これは対象が2つの元集合のパワーである有限集合のスパンの全部分圏と等価であることを示す。 これらのzx-計算の断片は、スパンのカテゴリの完全なサブカテゴリの意味で意味論を持つので、群体上の分配則によっては表現できない。 その代わり、我々はまず、部分同型のサブカテゴリを、付随する部分対象を持つすべての同型に関する分配則を通して構成する。 その後、単位を随伴し、対角写像と対角写像によって与えられる半フロベニウス構造を結合することにより、スパンの完全なサブカテゴリを得る。

We modularly build increasingly larger fragments of the ZX-calculus by modularly adding new generators and relations, at each point, giving some concrete semantics in terms of some category of spans. This is performed using Lack's technique of composing props via distributive laws, as well as the technique of pushout cubes of Zanasi. We do this for the fragment of the ZX-calculus with only the black $\pi$-phase (and no Hadamard gate) as well as well as the fragment which additionally has the and gate as a generator (which is equivalent to the natural number H-box fragment of the ZH-calculus). In the former case, we show that this is equivalent to the full subcategory of spans of (possibly empty) free, finite dimensional affine $\mathbb F_2$-vector spaces, where the objects are the non-empty affine vector spaces. In the latter case, we show that this is equivalent to the full subcategory of spans of finite sets where the objects are powers of the two element set. Because these fragments of the ZX-calculus have semantics in terms of full subcategories of categories of spans, they can not be presented by distributive laws over groupoids. Instead, we first construct their subcategories of partial isomorphisms via distributive laws over all isomorphims with subobjects adjoined. After which, the full subcategory of spans are obtained by freely adjoining units and counits the the semi-Frobenius structures given by the diagonal and codiagonal maps.
翻訳日:2023-04-12 05:27:25 公開日:2021-03-13
# リアルタイムウェーブパケット散乱による散乱問題

Scattering Problems via Real-time Wave Packet Scattering ( http://arxiv.org/abs/2103.01027v2 )

ライセンス: Link先を確認
M. Staelens and F. Marsiglio(参考訳) 本稿では,強結合バンド構造に基づく一次元格子における散乱モデルの簡単な数値解法を提案する。 我々は、従来の平面波のアプローチよりも直感的な物理像を示す散乱に対するウェーブパケットアプローチを用いてこれを行う。 また、量子力学の第一講座を受講する学部生に容易にアクセス可能な一般的な行列対角化法を用いる。 連続体限界におけるウェーブパケット輸送の簡単なレビューから始め、格子でそれに対応するものとの比較を行う。 対角化法を用いて得られた数値結果を解析結果に対してベンチマークする。 格子内で共振ダイマーのケースを調査し、平均波パケット運動量の共振値をいくつか同定する。 格子内の等価シナリオを調査することにより、ステップ電位と矩形障壁の平面波入射に対して得られた伝達係数を比較する。 最後に,いくつかの驚くべき現象を可視化するために,単純な手法をいかに利用できるかを強調する,散乱過程の短いシミュレーションを紹介する。

In this paper, we use a straightforward numerical method to solve scattering models in one-dimensional lattices based on a tight-binding band structure. We do this by using the wave packet approach to scattering, which presents a more intuitive physical picture than the traditional plane wave approach. Moreover, a general matrix diagonalization method that is easily accessible to undergraduate students taking a first course in quantum mechanics is used. Beginning with a brief review of wave packet transport in the continuum limit, comparisons are made with its counterpart in a lattice. The numerical results obtained through the diagonalization method are then benchmarked against analytic results. The case of a resonant dimer is investigated in the lattice, and several resonant values of the mean wave packet momentum are identified. The transmission coefficients obtained for a plane wave incident on a step potential and rectangular barrier are compared by investigating an equivalent scenario in a lattice. Lastly, we present several short simulations of the scattering process which emphasize how a simple methodology can be used to visualize some remarkable phenomena.
翻訳日:2023-04-10 03:06:31 公開日:2021-03-13
# 量子相互情報を用いた密度行列再正規化群のサイトの順序付けについて

On the Ordering of Sites in the Density Matrix Renormalization Group using Quantum Mutual Information ( http://arxiv.org/abs/2103.01111v2 )

ライセンス: Link先を確認
Mazen Ali(参考訳) ホワイト1992の密度行列再正規化群(DMRG)は、強い相関量子系を効率的にシミュレートする多くの最先端手法の積分成分として今日まで残っている。 量子化学において、qc-dmrgは非相対論的schr\"odinger方程式を用いたab initio計算の強力なツールとなった。 QC-DMRGの重要な問題は、最も正確な結果を生み出す電子軌道に対応するDMRG部位の最適順序付けといういわゆる順序付け問題である。 この目的のために一般的に用いられるヒューリスティックは、量子相互情報を用いて測定される強相関軌道のグループ化である。 本研究では,このようなヒューリスティックスが行列積状態の絡み合いエントロピーの最小化や,固定結合次元近似の切断誤差に直接関係していることを示す。 このリンクを確立する鍵はエントロピーの強い部分加法である。 これは軌道順序付け法の厳密な理論的正当化を提供し、代替順序付けの基準を提案する。

The density matrix renormalization group (DMRG) of White 1992 remains to this day an integral component of many state-of-the-art methods for efficiently simulating strongly correlated quantum systems. In quantum chemistry, QC-DMRG became a powerful tool for ab initio calculations with the non-relativistic Schr\"odinger equation. An important issue in QC-DMRG is the so-called ordering problem -- the optimal ordering of DMRG sites corresponding to electronic orbitals that produces the most accurate results. To this end, a commonly used heuristic is the grouping of strongly correlated orbitals as measured via quantum mutual information. In this work, we show how such heuristics can be directly related to minimizing the entanglement entropy of matrix product states and, consequently, to the truncation error of a fixed bond dimension approximation. Key to establishing this link is the strong subadditivity of entropy. This provides rigorous theoretical justification for the orbital ordering methods and suggests alternate ordering criteria.
翻訳日:2023-04-09 14:34:02 公開日:2021-03-13
# スピンフォトニックネットワークにおけるスケーラブルで高忠実な量子ランダムアクセスメモリ

Scalable and High-Fidelity Quantum Random Access Memory in Spin-Photon Networks ( http://arxiv.org/abs/2103.07623v1 )

ライセンス: Link先を確認
Kevin C. Chen and Wenhan Dai and Carlos Errando-Herranz and Seth Lloyd and Dirk Englund(参考訳) 量子ランダムアクセスメモリ(qRAM)は、量子情報処理における多項式スピードアップを可能にするために必要不可欠な演算ユニットであると考えられている。 提案された実装には、二元木を構築するために中性原子と超伝導回路の使用が含まれるが、これらのシステムは依然として基本成分のデモンストレーションを必要とする。 本稿では,qram構築のための実現可能なプラットフォームとして,固体記憶を統合したフォトニック集積回路(pic)アーキテクチャを提案する。 また,量子テレポーテーションに基づく代替スキームを提案し,それを量子ネットワークの文脈に拡張する。 どちらの実装も既に実証済みのコンポーネントに依存している: 電気光学変調器、マッハ・ツェンダー干渉計(MZI)ネットワーク、スピンベースのメモリ書き込みと検索のための人工原子に結合されたナノキャビティ。 さらに,光子ヘラルドに基づく誤差検出を組み込んだ手法の利点を生かした。 qRAMの効率とクエリの忠実度に関する詳細な理論的解析により、提案手法は一般的なqRAMの短期設計が可能なことを示す。

A quantum random access memory (qRAM) is considered an essential computing unit to enable polynomial speedups in quantum information processing. Proposed implementations include using neutral atoms and superconducting circuits to construct a binary tree, but these systems still require demonstrations of the elementary components. Here, we propose a photonic integrated circuit (PIC) architecture integrated with solid-state memories as a viable platform for constructing a qRAM. We also present an alternative scheme based on quantum teleportation and extend it to the context of quantum networks. Both implementations rely on already demonstrated components: electro-optic modulators, a Mach-Zehnder interferometer (MZI) network, and nanocavities coupled to artificial atoms for spin-based memory writing and retrieval. Our approaches furthermore benefit from built-in error-detection based on photon heralding. Detailed theoretical analysis of the qRAM efficiency and query fidelity shows that our proposal presents viable near-term designs for a general qRAM.
翻訳日:2023-04-08 06:38:34 公開日:2021-03-13
# 量子因果ネットワークのエントロピー

The entropy of quantum causal networks ( http://arxiv.org/abs/2103.07591v1 )

ライセンス: Link先を確認
Xian Shi, Lin Chen(参考訳) 量子ネットワークは、量子情報理論の多くのシナリオにおいて重要な役割を果たす。 ここでは、量子因果ネットワークをエントロピーの方法で考察する。 まず、量子コムの修正された滑らかな最大関係エントロピーを示し、次に仮説検定のタイプiiの誤差の下限と上限を示す。 次に、漸近等分法を持つ量子コムに対する滑らかな最大相対エントロピーの下界を示す。 最終的に、そのスコアはオペレーターのパフォーマンスを定量化するために考慮される。 量子正演算子の性能の滑らかな漸近バージョンに等しい量を示す。

Quantum networks play a key role in many scenarios of quantum information theory. Here we consider the quantum causal networks in the manner of entropy. First we present a revised smooth max-relative entropy of quantum combs, then we present a lower and upper bound of a type II error of the hypothesis testing. Next we present a lower bound of the smooth max-relative entropy for the quantum combs with asymptotic equipartition. At last, we consider the score to quantify the performance of an operator. We present a quantity equaling to the smooth asymptotic version of the performance of a quantum positive operator.
翻訳日:2023-04-08 06:38:00 公開日:2021-03-13
# 深部強化学習による量子回路最適化

Quantum circuit optimization with deep reinforcement learning ( http://arxiv.org/abs/2103.07585v1 )

ライセンス: Link先を確認
Thomas F\"osel, Murphy Yuezhen Niu, Florian Marquardt, Li Li(参考訳) 将来の量子コンピュータを運用するための中心的な側面は量子回路最適化であり、すなわちデバイスの性能から量子アルゴリズムの効率的な実現の探索である。 近年,高レベルの回路構造を最適化する強力な手法が開発されている。 しかし、これらのアプローチは考慮されておらず、量子アーキテクチャのハードウェアの詳細を最適化することはできない。 そこで本研究では,強化学習に基づく量子回路最適化手法を提案する。 ディープ畳み込みニューラルネットワークによって実現されたエージェントは、ユーザが自由に選択可能な特定のアーキテクチャ上で任意の回路を最適化するための汎用戦略を自律的に学習することができる。 12ビットのランダム回路上でのトレーニングエージェントによるこのアプローチの実現可能性を示す。そこでは,平均で27%,ゲート数で15%の深さ削減を行う。 学習用よりも大きな回路への補間について検討し、このアプローチが短期量子デバイスにどのように活用できるかを考察する。

A central aspect for operating future quantum computers is quantum circuit optimization, i.e., the search for efficient realizations of quantum algorithms given the device capabilities. In recent years, powerful approaches have been developed which focus on optimizing the high-level circuit structure. However, these approaches do not consider and thus cannot optimize for the hardware details of the quantum architecture, which is especially important for near-term devices. To address this point, we present an approach to quantum circuit optimization based on reinforcement learning. We demonstrate how an agent, realized by a deep convolutional neural network, can autonomously learn generic strategies to optimize arbitrary circuits on a specific architecture, where the optimization target can be chosen freely by the user. We demonstrate the feasibility of this approach by training agents on 12-qubit random circuits, where we find on average a depth reduction by 27% and a gate count reduction by 15%. We examine the extrapolation to larger circuits than used for training, and envision how this approach can be utilized for near-term quantum devices.
翻訳日:2023-04-08 06:37:37 公開日:2021-03-13
# シリコン中の単一スピンの光学的観察

Optical observation of single spins in silicon ( http://arxiv.org/abs/2103.07580v1 )

ライセンス: Link先を確認
A. T. K. Kurkjian, D. B. Higginbottom, C. Chartrand, E. R. MacQuarrie, J. R. Klein, N. R. Lee-Hone, J. Stacho, C. Bowness, L. Bergeron, A. DeAbreu, N. A. Brunelle, S. R. Harrigan, J. Kanaganayagam, M. Kazemi, D. W. Marsden, T. S. Richards, L. A. Stott, S. Roorda, K. J. Morse, M. L. W. Thewalt, S. Simmons(参考訳) グローバルな量子インターネットは、大規模に製造された長寿命の通信バンド光子-マターインターフェースを必要とする。 これらの要求のサブセットを満たす光子・物質界面に基づく予備量子ネットワークは、新しい高性能な代替品を特定する努力を奨励している。 シリコンは、商用規模の固体量子技術の理想的なホストである。 既に世界統合フォトニクスとマイクロエレクトロニクス産業の先進的なプラットフォームであり、長寿命スピン量子ビットの記録をホストしている。 シリコン量子プラットフォームの圧倒的なポテンシャルにもかかわらず、シリコン中の個々のアドレス可能な光子-スピン界面の光学的検出はいまだ解明されていない。 本研究では、集積シリコンフォトニック構造において、個別に対応可能な数万の光子スピン量子ビットを生成し、スピン依存型電気通信バンド光遷移を特徴付ける。 これらの結果は、シリコン集積通信バンド量子情報ネットワークを構築する即時機会を解放する。

The global quantum internet will require long-lived, telecommunications band photon-matter interfaces manufactured at scale. Preliminary quantum networks based upon photon-matter interfaces which meet a subset of these demands are encouraging efforts to identify new high-performance alternatives. Silicon is an ideal host for commercial-scale solid-state quantum technologies. It is already an advanced platform within the global integrated photonics and microelectronics industries, as well as host to record-setting long-lived spin qubits. Despite the overwhelming potential of the silicon quantum platform, the optical detection of individually addressable photon-spin interfaces in silicon has remained elusive. In this work we produce tens of thousands of individually addressable `$T$ centre' photon-spin qubits in integrated silicon photonic structures, and characterize their spin-dependent telecommunications-band optical transitions. These results unlock immediate opportunities to construct silicon-integrated, telecommunications-band quantum information networks.
翻訳日:2023-04-08 06:37:20 公開日:2021-03-13
# 中・超相対論的状態における単一粒子の絡み合い

Single particle entanglement in the mid-and ultra-relativistic regime ( http://arxiv.org/abs/2103.07744v1 )

ライセンス: Link先を確認
M. Ondra and B. C. Hiesmayr(参考訳) 本研究では、相対論的観点から、1つの質量スピン-$\frac{1}{2}$粒子のスピンと運動量の自由度に関連する絡み合いの量を分析する。 ローレンツ加速の効果は、スピンと運動量度を相関させるウィグナー回転を導入する。 本研究は, ブーストの幾何学的効果を議論するための自然な基礎が, 残りのフレームにおけるヘリシティ固有状態であることを示す。 中間相対論的状態(ウィグナー回転角が$\delta < \frac{\pi}{2}$で制限される)では、ウィグナー回転角に関する絡み合いが単調に減少していることを示すが、超相対論的状態(\delta > \frac{\pi}{2}$)では絡み合いが増大している。 状態が不等ヘリシティ固有状態の重ね合わせとして準備されると、単調な振る舞いは反転する。 これは、超相対論的な状態において、絡み合いの量が局所的な最大値または最小値を示すような幾何学的な配置が見つかることを意味する。 これは、相対的エンタングルメントの反直観的な振る舞い、内部および外部の幾何学的構成空間による効果を示し、一般にエンタングルメントのローレンツ不変な定式化を達成することの難しさを指摘する。

In this work we analyze the amount of entanglement associated with the spin and momentum degrees of freedom of a single massive spin-$\frac{1}{2}$ particle from a relativistic perspective. The effect of a Lorentz boost introduces a Wigner rotation that correlates the spin and momentum degrees of freedom. We show that the natural basis to discuss the geometrical effects of the boost are the helicity eigenstates in the rest frame. In the mid-relativistic regime (where the Wigner rotation angle is limited by $\delta < \frac{\pi}{2}$) we prove for states with equal helicity that the entanglement with respect to the Wigner rotation angle is monotonically decreasing, however, in the ultra-relativistic regime ($\delta > \frac{\pi}{2}$) the entanglement is increasing. If the states are prepared as a superposition of unequal helicity eigenstates, the monotonic behaviour is inverted. This implies that in the ultra-relativistic regime a geometrical setup can be found such that the amount of entanglement exhibits local maxima or minima. This shows a counter-intuitive behaviour of the relative amount of entanglement, an effect due to the internal and external geometrical configuration space, and points towards the difficulties in achieving a Lorentz invariant formulation of entanglement in general.
翻訳日:2023-04-08 06:33:57 公開日:2021-03-13
# シリコン量子フォトニック回路による偏光絡み合うベル状態の生成と動的操作

Generation and dynamical manipulation of polarization entangled Bell states by a silicon quantum photonic circuit ( http://arxiv.org/abs/2103.07740v1 )

ライセンス: Link先を確認
Dongning Liu, Jingyuan Zheng, Lingjie Yu, Xue Feng, Fang Liu, Kaiyu Cui, Yidong Huang, and Wei Zhang(参考訳) シリコン量子フォトニック回路が提案され、通信帯域偏光発生と動的操作のための集積量子光源として実証された。 バイフォトン状態は4つのシリコン導波路において自発的4波混合により最初に生成した。 それらはオンチップの量子干渉と量子重ね合わせによってベル状態に変換され、光ファイバーに結合された。 生成光子対における偏光絡みの性質は、2つの非直交偏光基底下の2光子干渉によって証明された。 簡易ベル状態測定実験により, 出力状態が2つの分極絡みベル状態の間で動的に切り替わることができた。 実験の結果, その操作速度は数kHzの変調速度をサポートし, 動的量子絡み合うベル状態制御を必要とする量子通信や量子情報処理の応用におけるポテンシャルを示した。

A silicon quantum photonic circuit was proposed and demonstrated as an integrated quantum light source for telecom band polarization entangled Bell state generation and dynamical manipulation. Biphoton states were firstly generated in four silicon waveguides by spontaneous four wave mixing. They were transformed to polarization entangled Bell states through on-chip quantum interference and quantum superposition, and then coupled to optical fibers. The property of polarization entanglement in generated photon pairs was demonstrated by two-photon interferences under two non-orthogonal polarization bases. The output state could be dynamically switched between two polarization entangled Bell states, which was demonstrated by the experiment of simplified Bell state measurement. The experiment results indicate that its manipulation speed supported a modulation rate of several tens kHz, showing its potential on applications of quantum communication and quantum information processing requiring dynamical quantum entangled Bell state control.
翻訳日:2023-04-08 06:33:32 公開日:2021-03-13
# 電場変動の時間領域サンプリングにおける量子感受性

Quantum susceptibilities in time-domain sampling of electric field fluctuations ( http://arxiv.org/abs/2103.07715v1 )

ライセンス: Link先を確認
Matthias Kizmann, Andrey S. Moskalenko, Alfred Leitenstorfer, Guido Burkard, Shaul Mukamel(参考訳) 電気光学サンプリングは、サブサイクル時間スケールでの電界変動の測定を可能にする新しい量子技術として登場した。 超短コヒーレントレーザーパルスによる2階非線形材料の提案は、テラヘルツ磁場のゆらぎを結果の近赤外電気光学信号に印加する。 この時間領域信号の統計は、基礎となる相互作用に関与する電場の量子的性質の開始から、理論的にどのように計算されるかを記述する。 この目的のために、非線形物質のモデルとして、非相互作用3レベル系のアンサンブルを用いた電気光学過程の微視的量子論を開発した。 非線形媒質の応答はテラヘルツ場をサンプリングする古典的部分とプローブされたテラヘルツ場の状態とは無関係な量子寄与に分離できることがわかった。 量子応答はテラヘルツ真空揺らぎによって媒介される3レベル系の相互作用によって引き起こされる。 これはカスケード過程と量子の感受性によって説明される寄与によって生じる。 量子的な寄与は実質的であり、全体の応答を支配することさえある。 また、古典応答が電気光学過程のよい近似となる条件を決定し、サンプルされたテラヘルツ場の統計が電気光学信号の統計からどのように再構成されるかを示す。 相補的な方法では、電気光学サンプリングは物質の純粋な量子感受性を研究するための分光器として機能する。

Electro-optic sampling has emerged as a new quantum technique enabling measurements of electric field fluctuations on subcycle time scales. Probing a second-order nonlinear material with an ultrashort coherent laser pulse imprints the fluctuations of a terahertz field onto the resulting near-infrared electrooptic signal. We describe how the statistics of this time-domain signal can be calculated theoretically, incorporating from the onset the quantum nature of the electric fields involved in the underlying interactions. To this end, a microscopic quantum theory of the electro-optic process is developed using an ensemble of non-interacting three-level systems as a model for the nonlinear material. We find that the response of the nonlinear medium can be separated into a classical part sampling the terahertz field and quantum contributions independent of the state of the probed terahertz field. The quantum response is caused by interactions between the three-level systems mediated by the terahertz vacuum fluctuations. It arises due to cascading processes and contributions described by quantum susceptibilities solely accessible via quantum light. We show that the quantum contributions can be substantial and might even dominate the total response. We also determine the conditions under which the classical response serves as a good approximation of the electro-optic process and demonstrate how the statistics of the sampled terahertz field can be reconstructed from the statistics of the electro-optic signal. In a complementary regime, electro-optic sampling can serve as a spectroscopic tool to study the pure quantum susceptibilities of materials.
翻訳日:2023-04-08 06:33:19 公開日:2021-03-13
# 競争市場におけるイノベーションの拡散-グローバルスマートフォン拡散に関する研究

Diffusion of Innovation In Competitive Markets-A Study on the Global Smartphone Diffusion ( http://arxiv.org/abs/2103.07707v1 )

ライセンス: Link先を確認
Semra Gunduc(参考訳) 本研究の目的は、2つの競合する製品のイノベーションの拡散を研究することである。 主な焦点は、競争力のあるダイナミック市場がイノベーションの拡散に与える影響を理解することである。 グローバルなスマートフォンOSの販売は、その例に挙げられる。 販売数とユーザ数、および将来のユーザ数を予測することで、スマートフォン拡散は、競争市場における拡散モデルの革新をテストするための新しい実験室となる。 この作品では、ブランド間の競争を組み込んだベースモデルとその拡張が使用されている。 スマートフォンの普及は製品レベルとブランドレベルという2つのレベルで考慮することができる。 スマートフォンのカテゴリとしての拡散をバス方程式(カテゴリレベルの拡散)を用いて研究する。 競合するオペレーティングシステム(iOSとAndroid)の拡散はブランドの競合と見なされ、競合する市場モデル(製品レベルの拡散)の文脈で研究される。 人的相互作用の影響は拡散過程において支配的な役割を担っていることが示されている。 さらに、将来のモデル結果の推測に役立つ適切な動的市場ポテンシャルを導入することで、近い将来の販売量を予測することができる。

In this work, the aim is to study the diffusion of innovation of two competing products. The main focus has been to understand the effects of the competitive dynamic market on the diffusion of innovation. The global smartphone operating system sales are chosen as an example. The availability of the sales and the number of users data, as well as the predictions for the future number of users, make the smartphone diffusion a new laboratory to test the innovation of diffusion models for the competitive markets. In this work, the Bass model and its extensions which incorporate the competition between the brands are used. The diffusion of smartphones can be considered on two levels: the product level and the brand level. The diffusion of the smartphone as a category is studied by using the Bass equation (category-level diffusion). The diffusion of each competing operating system (iOS and Android) are considered as the competition of the brands, and it is studied in the context of competitive market models (product-level diffusion). It is shown that the effects of personal interactions play the dominant role in the diffusion process. Moreover, the volume of near future sales can be predicted by introducing appropriate dynamic market potential which helps to extrapolate the model results for the future.
翻訳日:2023-04-08 06:32:20 公開日:2021-03-13
# 超エンタングル状態を有する2自由度単光子状態の遠隔準備

Remote preparation for single-photon state in two degrees of freedom with hyper-entangled states ( http://arxiv.org/abs/2103.07671v1 )

ライセンス: Link先を確認
Meiyu Wang, Fengli Yan, Ting Gao(参考訳) リモート状態準備(RSP)は、以前に共有された絡み合いに基づいて、2つの離れたノード間で量子情報を転送する有用な方法を提供する。 本稿では,自由度2自由度(DoFs)の任意の単光子状態のRSPについて検討する。 共有資源としてハイパーエンタングルメントを用いることで,第1の目標は偏光と周波数dofにおける単一光子状態の遠隔準備と,第2の光子状態の偏光と時間ビンdofの再構築である。 rspプロセスでは、送信者は通信される状態の知識に従って光子の各 dof における量子状態を回転させる。 送信者の光子の偏光を投影的に測定することで、2つのDoFにおける元の単一光子の状態を受信者の量子系で遠隔で再構成することができる。 この研究は、長距離量子通信の新しい能力を示す。

Remote state preparation (RSP) provides a useful way of transferring quantum information between two distant nodes based on the previously shared entanglement. In this paper, we study RSP of an arbitrary single-photon state in two degrees of freedom (DoFs). Using hyper-entanglement as a shared resource, our first goal is to remotely prepare the single-photon state in polarization and frequency DoFs and the second one is to reconstruct the single-photon state in polarization and time-bin DoFs. In the RSP process, the sender will rotate the quantum state in each DoF of the photon according to the knowledge of the state to be communicated. By performing a projective measurement on the polarization of the sender's photon, the original single-photon state in two DoFs can be remotely reconstructed at the receiver's quantum systems. This work demonstrates a novel capability for long-distance quantum communication.
翻訳日:2023-04-08 06:32:01 公開日:2021-03-13
# 第三者の信頼を伴わないプライバシー保護型感染曝露通知

Privacy-Preserving Infection Exposure Notification without Trust in Third Parties ( http://arxiv.org/abs/2103.07669v1 )

ライセンス: Link先を確認
Kenji Saito, Mitsuru Iwamura(参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、Bluetoothベースの接触追跡は、プライバシー保護のための露出通知のためのAPIを提供するスマートフォンオペレーティングシステムの開発者の助けを借りて、多くの国に展開されている。 しかし、OS開発者、スマートフォンベンダー、政府などが人々のプライバシーを侵害しないという設計から推測されている。 我々は,中間エンティティを信頼できない状況において,プライバシ保全型露出通知を提案する。 ランダム番号はOSではなくアプリケーション側で生成され、肯定的なテスト結果は政府のサーバーではなく公開台帳(例えばブロックチェーン)に報告され、医療機関からの承認は盲目な署名である。 また、新規に構築すべきならば、公開台帳のピアツーピアメンテナンスのインセンティブ化についても論じる。 ユーザグループがデプロイされたシステムのプライバシ保護を検証する場合,提案する設計では,検証可能性のレベルがはるかに高いことが分かりました。 これにより、より安全な接触追跡が可能になり、パンデミックの状況で外出したい、あるいは外出したい市民の健康的なライフスタイルに貢献できると考えています。

In response to the COVID-19 pandemic, Bluetooth-based contact tracing has been deployed in many countries with the help of the developers of smartphone operating systems that provide APIs for privacy-preserving exposure notification. However, it has been assumed by the design that the OS developers, smartphone vendors, or governments will not violate people's privacy. We propose a privacy-preserving exposure notification under situations where none of the middle entities can be trusted. We believe that it can be achieved with small changes to the existing mechanism: random numbers are generated on the application side instead of the OS, and the positive test results are reported to a public ledger (e.g. blockchain) rather than to a government server, with endorsements from the medical institutes with blind signatures. We also discuss how to incentivize the peer-to-peer maintenance of the public ledger if it should be newly built. We show that the level of verifiability is much higher with our proposed design if a consumer group were to verify the privacy protections of the deployed systems. We believe that this will allow for safer contact tracing, and contribute to healthier lifestyles for citizens who may want to or have to go out under pandemic situations.
翻訳日:2023-04-08 06:31:34 公開日:2021-03-13
# サイバー真珠湾に対する定義・評価・準備・対応

Defining, Evaluating, Preparing for and Responding to a Cyber Pearl Harbor ( http://arxiv.org/abs/2103.07662v1 )

ライセンス: Link先を確認
Jeremy Straub(参考訳) 明確な意味を持っていないにもかかわらず、公衆の認識と認識は、サイバーパールハーバーという言葉を公衆の談話の重要な部分としている。 本稿では、この用語が意味するものを考察し、1941年の真珠湾攻撃の3つの異なる側面に基づいて分解を提案し、真珠湾からの教訓を1941年の攻撃のあらゆる側面と一致しない脅威や主題に適用できるようにする。 これら3つの定義を用いて、先行攻撃と現在の脅威を評価し、サイバー真珠湾イベントの準備と対応について論じる。

Despite not having a clear meaning, public perception and awareness makes the term cyber Pearl Harbor an important part of the public discourse. This paper considers what the term has meant and proposes its decomposition based on three different aspects of the historical Pearl Harbor attack, allowing the lessons from Pearl Harbor to be applied to threats and subjects that may not align with all aspects of the 1941 attack. Using these three definitions, prior attacks and current threats are assessed and preparation for and response to cyber Pearl Harbor events is discussed.
翻訳日:2023-04-08 06:31:02 公開日:2021-03-13
# ミニマムシミュレータランを用いた産業用トラック荷降ろしロボットの最適意思決定の学習

Learning Optimal Decision Making for an Industrial Truck Unloading Robot using Minimal Simulator Runs ( http://arxiv.org/abs/2105.05019v1 )

ライセンス: Link先を確認
Manash Pratim Das, Anirudh Vemula, Mayank Pathak, Sandip Aine, Maxim Likhachev(参考訳) さまざまな大きさと未知の質量の箱で満たされたトラックと、到達可能な場所から複数の箱を降ろすことができるエンドエフェクターを備えた産業用ロボットを考えてみよう。 本研究では,ロボットがシミュレーターの助けを借りて,各アクションでアンロードされるボックスの数を最大化する方法について検討する。 私たちのような高精細なロボットシミュレータのほとんどは、時間を要する。 そこで,本研究では,必要なシミュレーション実行回数を最小限に抑えながら,上記の学習問題を考察する。 この設定下での最適意思決定問題は、多クラス分類問題として定式化することができる。 しかし,行動の結果を得るためには,時間を要するシミュレータを実行し,収集可能なトレーニングデータの量を制限する必要がある。 したがって、分類器を学習し、最小限のデータで一般化するためには、データ効率のよいアプローチが必要である。 高忠実度物理に基づくシミュレータは、多体相互作用を含む複雑な操作タスクに一般的に用いられる。 この目的のために、最適な決定木を分類器として訓練し、決定木の各枝について、確率的近似(PAC)フレームワークを用いて決定の信頼性を判断し、より多くのシミュレータデータが一定の信頼度に達するかどうかを判断する。 これにより、ある決定に対してシミュレーションを回避でき、いつシミュレーションが意思決定を改善するかを評価するメカニズムが提供される。 トラックの荷降ろし問題に対して,提案手法を用いてシミュレータの実行量を大幅に削減できることを示す実験を行った。

Consider a truck filled with boxes of varying size and unknown mass and an industrial robot with end-effectors that can unload multiple boxes from any reachable location. In this work, we investigate how would the robot with the help of a simulator, learn to maximize the number of boxes unloaded by each action. Most high-fidelity robotic simulators like ours are time-consuming. Therefore, we investigate the above learning problem with a focus on minimizing the number of simulation runs required. The optimal decision-making problem under this setting can be formulated as a multi-class classification problem. However, to obtain the outcome of any action requires us to run the time-consuming simulator, thereby restricting the amount of training data that can be collected. Thus, we need a data-efficient approach to learn the classifier and generalize it with a minimal amount of data. A high-fidelity physics-based simulator is common in general for complex manipulation tasks involving multi-body interactions. To this end, we train an optimal decision tree as the classifier, and for each branch of the decision tree, we reason about the confidence in the decision using a Probably Approximately Correct (PAC) framework to determine whether more simulator data will help reach a certain confidence level. This provides us with a mechanism to evaluate when simulation can be avoided for certain decisions, and when simulation will improve the decision making. For the truck unloading problem, our experiments show that a significant reduction in simulator runs can be achieved using the proposed method as compared to naively running the simulator to collect data to train equally performing decision trees.
翻訳日:2023-04-08 06:24:51 公開日:2021-03-13
# 膝置換手術における拡張現実を用いた新しい可視化システム:双方向最大コレントロピーアルゴリズムの強化

A Novel Visualization System of Using Augmented Reality in Knee Replacement Surgery: Enhanced Bidirectional Maximum Correntropy Algorithm ( http://arxiv.org/abs/2104.05742v1 )

ライセンス: Link先を確認
Nitish Maharjan, Abeer Alsadoon, P.W.C. Prasad, Salma Abdullah, Tarik A. Rashid(参考訳) 背景と目的: 画像登録とアライメントは、拡張現実に基づく膝置換手術の主な限界である。 本研究は,登録誤差の低減,局所ミニマに閉じ込められた結果の排除,アライメント問題の改善,咬合処理,重複部分の最大化を目的としている。 方法】Augmented Reality-based knee replacement surgeryではマーカーレス画像登録法を用いて手術のガイドと可視化を行った。 左右に境界閉塞を埋め、左右に非境界閉塞を埋めてステレオカメラによるトラッキングを強化するために,最小二乗アルゴリズムが用いられた。 結果: 本研究はビデオ精度を 0.57 mm~0.61 mmアライメント誤差に改善した。 さらに,フォワードや後方方向のクラウドポイントなど,双方向のポイントを使用することで,画像登録のイテレーションが削減された。 これにより処理時間も改善された。 ビデオフレームの処理時間は7.4~11.74 fpsに改善された。 結論: 本システムは, 患者の移動に伴う誤視の難易度を克服し, 膝置換手術時のar視認性を高めることに焦点をあてたものと思われる。 提案方式は,二つの雲点間の最適剛性変換を判定し,外れ値と非ガウス雑音を除去し,アライメント誤差の除去に有効であった。 提案された拡張現実システムは、大腿骨、ティアビア、軟骨、血管などの膝の解剖の正確な可視化とナビゲーションを支援する。

Background and aim: Image registration and alignment are the main limitations of augmented reality-based knee replacement surgery. This research aims to decrease the registration error, eliminate outcomes that are trapped in local minima to improve the alignment problems, handle the occlusion, and maximize the overlapping parts. Methodology: markerless image registration method was used for Augmented reality-based knee replacement surgery to guide and visualize the surgical operation. While weight least square algorithm was used to enhance stereo camera-based tracking by filling border occlusion in right to left direction and non-border occlusion from left to right direction. Results: This study has improved video precision to 0.57 mm~0.61 mm alignment error. Furthermore, with the use of bidirectional points, for example, forwards and backwards directional cloud point, the iteration on image registration was decreased. This has led to improve the processing time as well. The processing time of video frames was improved to 7.4~11.74 fps. Conclusions: It seems clear that this proposed system has focused on overcoming the misalignment difficulty caused by movement of patient and enhancing the AR visualization during knee replacement surgery. The proposed system was reliable and favorable which helps in eliminating alignment error by ascertaining the optimal rigid transformation between two cloud points and removing the outliers and non-Gaussian noise. The proposed augmented reality system helps in accurate visualization and navigation of anatomy of knee such as femur, tibia, cartilage, blood vessels, etc.
翻訳日:2023-04-08 06:24:25 公開日:2021-03-13
# COVID-19パンデミック、人力、空気の質に関する機械学習のレビュー

Machine Learning on the COVID-19 Pandemic, Human Mobility and Air Quality: A Review ( http://arxiv.org/abs/2104.04059v1 )

ライセンス: Link先を確認
Md. Mokhlesur Rahman, Kamal Chandra Paul (Student Member, IEEE), Md. Amjad Hossain, G. G. Md. NawazAli (Member, IEEE), Md. Shahinoor Rahman, and Jean-Claude Thill(参考訳) 新型コロナウイルス(covid-19)の世界的パンデミックは、人間の生活(公衆衛生、教育、経済、交通、環境など)のあらゆる面に影響している。 この新型パンデミックと市全体のロックダウン対策は、ウイルスの感染、人々の移動パターン、空気の質に影響を与えている。 新型コロナウイルスの拡散を予測し、パンデミックが人間の移動性や空気質に与える影響を評価し、さまざまな機械学習(ML)技術を用いてウイルス拡散に対するロックダウン対策の効果を評価するために多くの研究がなされている。 本研究は、新型コロナウイルスのパンデミック、ロックダウン対策、人体移動性、空気質の相互作用を理解するために、過去の研究の結果を分析することを目的としている。 先行研究の批判的なレビューは、都市形態、人々の社会経済的・身体的状況、社会的結束、社会的距離の測度が人間の移動とCOVID-19感染に大きな影響を及ぼすことを示している。 新型コロナウイルス(COVID-19)パンデミックの間、多くの人が、新型コロナウイルス関連の健康問題を軽減するために、旅行に必要な民間交通機関を使う傾向にある。 本研究は, 空気汚染物質の濃度を下げることで, 空気質を著しく改善し, 呼吸器関連疾患や死亡率を下げることによって, 新型コロナウイルスの状況を改善することも見出した。 MLは、世界的なパンデミックのような複雑で邪悪な問題を扱うための、強力で効果的で堅牢な分析パラダイムである、と論じられている。 本研究は,パンデミックの深刻度を緩和し,データ駆動分析手法を用いて都市環境を改善すべく,政策立案者が迅速な行動を取る上で有用な政策含意についても論じる。

The ongoing COVID-19 global pandemic is affecting every facet of human lives (e.g., public health, education, economy, transportation, and the environment). This novel pandemic and citywide implemented lockdown measures are affecting virus transmission, people's travel patterns, and air quality. Many studies have been conducted to predict the COVID-19 diffusion, assess the impacts of the pandemic on human mobility and air quality, and assess the impacts of lockdown measures on viral spread with a range of Machine Learning (ML) techniques. This review study aims to analyze results from past research to understand the interactions among the COVID-19 pandemic, lockdown measures, human mobility, and air quality. The critical review of prior studies indicates that urban form, people's socioeconomic and physical conditions, social cohesion, and social distancing measures significantly affect human mobility and COVID-19 transmission. during the COVID-19 pandemic, many people are inclined to use private transportation for necessary travel purposes to mitigate coronavirus-related health problems. This review study also noticed that COVID-19 related lockdown measures significantly improve air quality by reducing the concentration of air pollutants, which in turn improves the COVID-19 situation by reducing respiratory-related sickness and deaths of people. It is argued that ML is a powerful, effective, and robust analytic paradigm to handle complex and wicked problems such as a global pandemic. This study also discusses policy implications, which will be helpful for policymakers to take prompt actions to moderate the severity of the pandemic and improve urban environments by adopting data-driven analytic methods.
翻訳日:2023-04-08 06:24:01 公開日:2021-03-13
# 経済学における量子確率

Quantum propensity in economics ( http://arxiv.org/abs/2103.10938v1 )

ライセンス: Link先を確認
David Orrell, Monireh Houshmand(参考訳) 本稿では,量子コンピューティングに着想を得た経済学へのアプローチについて述べる。 伝統的な新古典主義的なアプローチは、合理的なユーティリティ最適化が市場の価格を安定的な均衡へと押し上げることを前提としている。 このアプローチは大きな影響を与えたが、2007/8年の金融危機以降、批判が高まっている。 対照的に量子アプローチは本質的に確率的かつ動的である。 意思決定者は、ユーティリティ関数ではなく、変換の確率を規定する拡張関数によって記述される。 本稿では,単純な量子回路を用いて選好反転や分断効果などの認知現象をモデル化し,適切な確率関数を生成する方法を示す。 逆に、一般的な確率関数は、人間の意思決定を特徴づける干渉や絡み合いのような効果を取り入れるために定量化することができる。 経済学や金融学における共通問題への応用について論じる。

This paper describes an approach to economics that is inspired by quantum computing, and is motivated by the need to develop a consistent quantum mathematical framework for economics. The traditional neoclassical approach assumes that rational utility-optimisers drive market prices to a stable equilibrium, subject to external perturbations. While this approach has been highly influential, it has come under increasing criticism following the financial crisis of 2007/8. The quantum approach, in contrast, is inherently probabilistic and dynamic. Decision-makers are described, not by a utility function, but by a propensity function which specifies the probability of transacting. We show how a number of cognitive phenomena such as preference reversal and the disjunction effect can be modelled by using a simple quantum circuit to generate an appropriate propensity function. Conversely, a general propensity function can be quantized to incorporate effects such as interference and entanglement that characterise human decision-making. Applications to some common problems in economics and finance are discussed.
翻訳日:2023-04-08 06:23:28 公開日:2021-03-13
# br\`egman操作のカテゴリと認識的(co)モナド

Categories of Br\`egman operations and epistemic (co)monads ( http://arxiv.org/abs/2103.07810v1 )

ライセンス: Link先を確認
Ryszard Pawe{\l} Kostecki(参考訳) 我々は、適切な反射的バナッハ空間の凸閉集合を対象とし、Br\\egman quasi-nonexpansive mappings(特にBr\egman relative entropiesの制約付き最大化)を射として、非線形後量子推論のカテゴリー的枠組みを構築する。 これは、状態空間間の線型正の写像の圏に関するチェンコフの幾何学的研究の非線形凸解析アナログ、ミエルニクの非線形伝達子の作用モデル、および非線形資源理論(自由操作としてのBr\\egman quasi-nonexpansive mapのモノノイド、自由集合としての漸近的不動点集合、資源単調としてのBr\\egman relative entropies)の設定を提供する。 半有限な JBW-代数と任意の W*-代数の具体例を構築する。 相対エントロピーの非対称性のため、すべての構成は左右バージョンを持ち、ルジャンドル双対性はそれらの明確に定義された制限の間のカテゴリー的同値性を引き起こす。 これらの圏の内部群は、統計同値の概念を実装している。 エントロピー射によって与えられる射の部分圏のホム集合は部分的に順序付けられた可換モノイドの構造を持つ(したがってそれらはフリッツの意味での資源理論である)。 アフィン集合に対する対象のさらなる制限は Br\`egman 相対エントロピーを関手に変える。 最後に,ローヴェアの帰納的論理の随伴性パラダイムに従うが,jaynes と chencov の統計的推論に対する見解を意味論的に表わし,モナドとコモナドの族によって実装された帰納的推論理論のカテゴリ理論的マルチ(co)エージェント設定を導入する。 br\`egmanian のアプローチがこの設定の特別なケースを提供することを示す。

We construct a categorical framework for nonlinear postquantum inference, with embeddings of convex closed sets of suitable reflexive Banach spaces as objects and pullbacks of Br\`egman quasi-nonexpansive mappings (in particular, constrained maximisations of Br\`egman relative entropies) as morphisms. It provides a nonlinear convex analytic analogue of Chencov's programme of geometric study of categories of linear positive maps between spaces of states, a working model of Mielnik's nonlinear transmitters, and a setting for nonlinear resource theories (with monoids of Br\`egman quasi-nonexpansive maps as free operations, their asymptotic fixed point sets as free sets, and Br\`egman relative entropies as resource monotones). We construct a range of concrete examples for semi-finite JBW-algebras and any W*-algebras. Due to relative entropy's asymmetry, all constructions have left and right versions, with Legendre duality inducing categorical equivalence between their well-defined restrictions. Inner groupoids of these categories implement the notion of statistical equivalence. The hom-sets of a subcategory of morphisms given by entropic projections have the structure of partially ordered commutative monoids (so, they are resource theories in Fritz's sense). Further restriction of objects to affine sets turns Br\`egman relative entropy into a functor. Finally, following Lawvere's adjointness paradigm for deductive logic, but with a semantic twist representing Jaynes' and Chencov's views on statistical inference, we introduce a category-theoretic multi-(co)agent setting for inductive inference theories, implemented by families of monads and comonads. We show that the br\`egmanian approach provides some special cases of this setting.
翻訳日:2023-04-08 06:23:09 公開日:2021-03-13
# 結合超電導伝送線路における断熱モード変換を用いた広帯域マイクロ波アイソレーション

Broadband Microwave Isolation with Adiabatic Mode Conversion in Coupled Superconducting Transmission Lines ( http://arxiv.org/abs/2103.07793v1 )

ライセンス: Link先を確認
Mahdi Naghiloo, Kaidong Peng, Yufeng Ye, Gregory Cunningham and Kevin P. O'Brien(参考訳) 一対の非線形伝送線路における断熱位相マッチング手法とともにパラメトリックモード変換を用いたブロードバンドマイクロ波分離のための進行波計画を提案する。 この方式は回路量子力学アーキテクチャ(cQED)と互換性があり、追加の量子ノイズを導入することなく分離する。 まず,本方式を一般設定で提示し,ジョセフソン接合伝送線路を用いた実装を提案する。 数値シミュレーションにより、誘電体損失が0.05dB未満の2000単位セルデバイスにおいて、オクターブ帯域(4-8\,GHz)上で20dB以上のアイソレーションを示す。

We propose a traveling wave scheme for broadband microwave isolation using parametric mode conversion in conjunction with adiabatic phase matching technique in a pair of coupled nonlinear transmission lines. This scheme is compatible with the circuit quantum electrodynamics architecture (cQED) and provides isolation without introducing additional quantum noise. We first present the scheme in a general setting then propose an implementation with Josephson junction transmission lines. Numerical simulation shows more than 20 dB isolation over an octave bandwidth (4-8\,GHz) in a 2000 unit cell device with less than 0.05 dB insertion loss dominated by dielectric loss.
翻訳日:2023-04-08 06:22:00 公開日:2021-03-13
# 後方的特徴補正:深層学習がどのように深層学習を行うか

Backward Feature Correction: How Deep Learning Performs Deep Learning ( http://arxiv.org/abs/2001.04413v5 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) 110層resnetは、比較的少ないトレーニング例と短いトレーニング時間を使って、複雑な分類器をどのように学んでいるのか? 我々はこれを階層的学習の観点から説明する理論を提示する。 本稿では,学習者が複雑な対象関数を単純な関数列に分解することで,サンプルや時間的複雑さを減らし,複雑な対象関数を表現できることを,階層学習と呼ぶ。 我々は,SGDを適用して,階層的学習を効率的に,かつ自動的に行うことができる多層ニューラルネットワークを正式に分析する。 提案する概念的側面では,従来のNOKNOWNアルゴリズムが効率的である場合,特定の階層的学習タスクにおいて,SGDを用いた深層ニューラルネットワークのサンプリングと時間効率を示すFIRST理論結果について述べる。 我々は、ネットワーク内の上位層をトレーニングすることで、下位層の特徴を改善する"後方特徴補正"と呼ばれる新しい原則を確立する。 これは、多層ニューラルネットワークのディープラーニングプロセスを理解するための鍵だと考えています。 技術的な面では、任意の入力次元 $d>0$ に対して、次数 $\omega(1)$ 多項式の概念クラスがあり、$\omega(1)$-layer neural networks を学習者として使うと、sgd はこのクラスから任意の関数を$\mathsf{poly}(d)$ で学習でき、任意の$\frac{1}{\mathsf{poly}(d)}$ error を学習することで二次関数の$\omega(1)$ 層の合成として表現できる。 対照的に、この概念クラスを任意の$d^{-0.01}$エラーに対しても$\mathsf{poly}(d)$ timeで学習できる(階層的なトレーニングやカーネルメソッドの逐次適用を含む)他の単純なアルゴリズムを知らない。 副次的な結果として,ニューラルネットワークやニューラルコンポジションカーネルを含む複数の非階層的学習者に対して,$d^{\omega(1)}$ローバウンドを証明した。

How does a 110-layer ResNet learn a high-complexity classifier using relatively few training examples and short training time? We present a theory towards explaining this in terms of Hierarchical Learning. We refer hierarchical learning as the learner learns to represent a complicated target function by decomposing it into a sequence of simpler functions to reduce sample and time complexity. We formally analyze how multi-layer neural networks can perform such hierarchical learning efficiently and automatically by applying SGD. On the conceptual side, we present, to the best of our knowledge, the FIRST theory result indicating how deep neural networks can still be sample and time efficient using SGD on certain hierarchical learning tasks, when NO KNOWN existing algorithm is efficient. We establish a new principle called "backward feature correction", where training higher-level layers in the network can improve the features of lower-level ones. We believe this is the key to understand the deep learning process in multi-layer neural networks. On the technical side, we show for regression and even binary classification, for every input dimension $d>0$, there is a concept class of degree $\omega(1)$ polynomials so that, using $\omega(1)$-layer neural networks as learners, SGD can learn any function from this class in $\mathsf{poly}(d)$ time and sample complexity to any $\frac{1}{\mathsf{poly}(d)}$ error, through learning to represent it as a composition of $\omega(1)$ layers of quadratic functions. In contrast, we do not know any other simple algorithm (including layer-wise training or applying kernel method sequentially) that can learn this concept class in $\mathsf{poly}(d)$ time even to any $d^{-0.01}$ error. As a side result, we prove $d^{\omega(1)}$ lower bounds for several non-hierarchical learners, including any kernel methods, neural tangent or neural compositional kernels.
翻訳日:2023-01-11 22:23:26 公開日:2021-03-13
# ブロックモデルの階層性

The Hierarchy of Block Models ( http://arxiv.org/abs/2002.02610v2 )

ライセンス: Link先を確認
Majid Noroozi and Marianna Pensky(参考訳) 確率ブロックモデル(sbm)、次数補正ブロックモデル(dcbm)、人気調整ブロックモデル(pabm)など、ネットワークブロックモデルには様々な種類が存在する。 これは様々な選択につながるが、ブロックモデルはネスト構造を持たない。 さらに、DCBMからPABMへのパラメータ数が大幅に増加した。 本研究の目的は,任意の識別可能性条件に依存しないブロックモデルの階層化である。 我々は,sbm,dcbm,pabmを特定のパラメータ値で特定のケースとして扱うネストブロックモデル(nbm)を提案し,さらに,dcbmよりも複雑だが未知のパラメータが少ない多数のバージョンを許容する。 後者では、予備テストなしでクラスタリングと推定を実行し、どのブロックモデルが本当に正しいかを確認することができる。

There exist various types of network block models such as the Stochastic Block Model (SBM), the Degree Corrected Block Model (DCBM), and the Popularity Adjusted Block Model (PABM). While this leads to a variety of choices, the block models do not have a nested structure. In addition, there is a substantial jump in the number of parameters from the DCBM to the PABM. The objective of this paper is formulation of a hierarchy of block model which does not rely on arbitrary identifiability conditions. We propose a Nested Block Model (NBM) that treats the SBM, the DCBM and the PABM as its particular cases with specific parameter values, and, in addition, allows a multitude of versions that are more complicated than DCBM but have fewer unknown parameters than the PABM. The latter allows one to carry out clustering and estimation without preliminary testing, to see which block model is really true.
翻訳日:2023-01-03 04:18:15 公開日:2021-03-13
# グラフクラスタリングのための埋め込みグラフオートエンコーダ

Embedding Graph Auto-Encoder for Graph Clustering ( http://arxiv.org/abs/2002.08643v2 )

ライセンス: Link先を確認
Hongyuan Zhang and Rui Zhang and Xuelong Li(参考訳) グラフクラスタリングは、教師なしアプローチによってグラフのノードをさまざまなグループに分割することを目的としている。 代表能力を向上させるために,半教師付きグラフ畳み込みネットワーク(gcn)に基づく複数のグラフオートエンコーダ(gae)モデルが開発され,従来のクラスタリング手法と比較して良好な結果を得た。 しかしながら、既存のすべてのメソッドは、GAEによって生成された表現の直交特性を利用できないか、クラスタリングとニューラルネットワークの学習を分離する。 まず、緩和されたk-平均が内積使用空間の最適分割が得られることを証明した。 緩和k平均の理論解析により,グラフクラスタリングのための特定のGAEモデル,すなわちEGAEの埋め込みグラフオートエンコーダを設計する。 一方、学習された表現は、表現が他のタスクにも使用できるように説明可能である。 特定のクラスタリングモデルに適した深い特徴を生成するために、ニューラルネットワークをさらに誘導するために、緩和k平均とGAEを同時に学習する。 したがって、緩和されたk-平均は、あるセントロイドベクトルによって線形に構築できる表現を学習しようとするデコーダと同等にみなすことができる。 したがって、EGAEは1つのエンコーダと2つのデコーダで構成される。 エゲエの優越性およびそれに対応する理論解析を証明するために広範な実験が行われている。

Graph clustering, aiming to partition nodes of a graph into various groups via an unsupervised approach, is an attractive topic in recent years. To improve the representative ability, several graph auto-encoder (GAE) models, which are based on semi-supervised graph convolution networks (GCN), have been developed and they achieve good results compared with traditional clustering methods. However, all existing methods either fail to utilize the orthogonal property of the representations generated by GAE, or separate the clustering and the learning of neural networks. We first prove that the relaxed k-means will obtain an optimal partition in the inner-products used space. Driven by theoretical analysis about relaxed k-means, we design a specific GAE-based model for graph clustering to be consistent with the theory, namely Embedding Graph Auto-Encoder (EGAE). Meanwhile, the learned representations are well explainable such that the representations can be also used for other tasks. To further induce the neural network to produce deep features that are appropriate for the specific clustering model, the relaxed k-means and GAE are learned simultaneously. Therefore, the relaxed k-means can be equivalently regarded as a decoder that attempts to learn representations that can be linearly constructed by some centroid vectors. Accordingly, EGAE consists of one encoder and dual decoders. Extensive experiments are conducted to prove the superiority of EGAE and the corresponding theoretical analyses.
翻訳日:2022-12-30 06:51:34 公開日:2021-03-13
# ArCOV-19: プロパゲーションネットワークを備えた最初のアラビアのCOVID-19 Twitterデータセット

ArCOV-19: The First Arabic COVID-19 Twitter Dataset with Propagation Networks ( http://arxiv.org/abs/2004.05861v4 )

ライセンス: Link先を確認
Fatima Haouari, Maram Hasanain, Reem Suwaileh, Tamer Elsayed(参考訳) 本稿では、2020年1月27日から2021年1月31日までの期間をカバーする、アラビア語のcovid-19twitterデータセットarcov-19を提案する。 arcov-19は、新型コロナウイルス(covid-19)のパンデミックをカバーする、初めて一般公開されたアラビア語のtwitterデータセットである。 伝搬ネットワークにはリツイートと会話スレッド(つまり返信のスレッド)の両方が含まれている。 ArCOV-19は自然言語処理、情報検索、ソーシャルコンピューティングなど、いくつかの分野における研究を可能にするように設計されている。 予備分析の結果、ArCOV-19はアラブ世界で初めて報告された疾患に関する議論の高まりを捉えている。 ソースのつぶやきや伝播ネットワークに加えて、類似したデータセットのキュレーションを促進するためにツイートを収集するために使用される検索クエリや言語に依存しないクローラもリリースします。

In this paper, we present ArCOV-19, an Arabic COVID-19 Twitter dataset that spans one year, covering the period from 27th of January 2020 till 31st of January 2021. ArCOV-19 is the first publicly-available Arabic Twitter dataset covering COVID-19 pandemic that includes about 2.7M tweets alongside the propagation networks of the most-popular subset of them (i.e., most-retweeted and -liked). The propagation networks include both retweets and conversational threads (i.e., threads of replies). ArCOV-19 is designed to enable research under several domains including natural language processing, information retrieval, and social computing. Preliminary analysis shows that ArCOV-19 captures rising discussions associated with the first reported cases of the disease as they appeared in the Arab world. In addition to the source tweets and propagation networks, we also release the search queries and language-independent crawler used to collect the tweets to encourage the curation of similar datasets.
翻訳日:2022-12-14 00:18:29 公開日:2021-03-13
# 三重情報を用いた教師なし音声分解

Unsupervised Speech Decomposition via Triple Information Bottleneck ( http://arxiv.org/abs/2004.11284v6 )

ライセンス: Link先を確認
Kaizhi Qian, Yang Zhang, Shiyu Chang, David Cox, Mark Hasegawa-Johnson(参考訳) 音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。 これらの成分の不整合表現は、多くの音声分析および生成アプリケーションで有用である。 近年,最先端音声変換システムでは,話者依存情報と独立情報とをアンタングルできる音声表現が実現している。 しかし、これらのシステムは音色だけを乱すことができ、ピッチ、リズム、内容に関する情報は依然として混ざり合っている。 残りの音声コンポーネントのさらなる分離は、各コンポーネントに対する明示的なアノテーションがない場合の未決定の問題であり、取得が困難で費用がかかる。 本稿では,注意深い3つの情報ボトルネックを導入することにより,音声をその4成分に盲目的に分解できる音声スプリットを提案する。 SpeechSplitは、テキストラベルなしで音色、ピッチ、リズムのスタイル転送を個別に実行できる最初のアルゴリズムの1つである。 私たちのコードはhttps://github.com/auspicious3000/SpeechSplit.comで公開されています。

Speech information can be roughly decomposed into four components: language content, timbre, pitch, and rhythm. Obtaining disentangled representations of these components is useful in many speech analysis and generation applications. Recently, state-of-the-art voice conversion systems have led to speech representations that can disentangle speaker-dependent and independent information. However, these systems can only disentangle timbre, while information about pitch, rhythm and content is still mixed together. Further disentangling the remaining speech components is an under-determined problem in the absence of explicit annotations for each component, which are difficult and expensive to obtain. In this paper, we propose SpeechSplit, which can blindly decompose speech into its four components by introducing three carefully designed information bottlenecks. SpeechSplit is among the first algorithms that can separately perform style transfer on timbre, pitch and rhythm without text labels. Our code is publicly available at https://github.com/auspicious3000/SpeechSplit.
翻訳日:2022-12-10 12:44:59 公開日:2021-03-13
# min-mid-maxスケーリング、合意限界、合意スコア

Min-Mid-Max Scaling, Limits of Agreement, and Agreement Score ( http://arxiv.org/abs/2006.12904v5 )

ライセンス: Link先を確認
Veli Safak(参考訳) 本稿では、コーエンの独創的な論文(1960年)によって提起された60年前の質問を解き、機会期待の合意を中心とし、わずかな強制的な合意と不一致を分離する合意措置を提案する。 これを実現するために、偶数表の対角和を最小化する新しいアルゴリズムを考案し、与えられた行と列の辺数に対する最小実現可能な合意を定式化する。 この結果に基づいて、最も一般的な合意尺度であるcohen's kappaの下限も定式化します。 最後に、最大合意の限界を低くし、合意分析のための分布類似性の統計を2つ考案する。

In this paper, I solve a 60-year old question posed by Cohen's seminal paper (1960) and offer an agreement measure centered around the chance-expected agreement while isolating marginally forced agreement and disagreement. To achieve this, I formulate the minimum feasible agreement given row and column marginals by devising a new algorithm that minimizes the sum of diagonals in contingency tables. Based on this result, I also formulate the lower limit of the most common agreement measure-Cohen's kappa. Finally, I study the lower limit of maximum feasible agreement and devise two statistics of distribution similarity for agreement analysis.
翻訳日:2022-11-17 23:38:39 公開日:2021-03-13
# サイバーセキュリティ領域における敵対的機械学習攻撃と防御手法

Adversarial Machine Learning Attacks and Defense Methods in the Cyber Security Domain ( http://arxiv.org/abs/2007.02407v3 )

ライセンス: Link先を確認
Ihai Rosenberg and Asaf Shabtai and Yuval Elovici and Lior Rokach(参考訳) 近年、機械学習アルゴリズム、特にディープラーニングアルゴリズムは、サイバーセキュリティを含む多くの分野で広く使われている。 しかし、機械学習システムは敵の攻撃に弱いため、特に実際の敵(例えばマルウェア開発者)が存在するサイバーセキュリティドメインのような非静止的で敵対的な環境において、機械学習の適用を制限する。 本稿では、機械学習技術に基づくセキュリティソリューションに対する敵意攻撃に関する最新の研究を包括的に要約し、そのリスクを解明する。 第1に、敵の攻撃方法は、その発生段階と攻撃者の目標と能力に基づいて特徴づけられる。 次に、サイバーセキュリティドメインにおける敵の攻撃と防御の方法の応用を分類する。 最後に,近年の研究で特定された特徴を浮き彫りにして,サイバーセキュリティ分野の今後の研究方向性に対する,他の敵対的学習領域における最近の進歩の影響について論じる。 本稿では,サイバーセキュリティ分野におけるエンド・ツー・エンドの敵意攻撃を実践し,それらを統一分類法にマッピングし,分類法を用いて今後の研究の方向性を強調する,ユニークな課題について論じる。

In recent years machine learning algorithms, and more specifically deep learning algorithms, have been widely used in many fields, including cyber security. However, machine learning systems are vulnerable to adversarial attacks, and this limits the application of machine learning, especially in non-stationary, adversarial environments, such as the cyber security domain, where actual adversaries (e.g., malware developers) exist. This paper comprehensively summarizes the latest research on adversarial attacks against security solutions based on machine learning techniques and illuminates the risks they pose. First, the adversarial attack methods are characterized based on their stage of occurrence, and the attacker's goals and capabilities. Then, we categorize the applications of adversarial attack and defense methods in the cyber security domain. Finally, we highlight some characteristics identified in recent research and discuss the impact of recent advancements in other adversarial learning domains on future research directions in the cyber security domain. This paper is the first to discuss the unique challenges of implementing end-to-end adversarial attacks in the cyber security domain, map them in a unified taxonomy, and use the taxonomy to highlight future research directions.
翻訳日:2022-11-13 08:03:37 公開日:2021-03-13
# 局所誤差信号を用いたオンライン連続学習のためのニューロ変調ニューラルアーキテクチャ

Neuromodulated Neural Architectures with Local Error Signals for Memory-Constrained Online Continual Learning ( http://arxiv.org/abs/2007.08159v2 )

ライセンス: Link先を確認
Sandeep Madireddy, Angel Yanguas-Gil, Prasanna Balaprakash(参考訳) 破滅的な忘れることなく、入ってくるデータストリームから継続的に学習する能力は、インテリジェントなシステムを設計する上で重要である。 継続学習への多くの既存のアプローチは確率勾配降下とその変種に依存している。 しかし、これらのアルゴリズムは、安定性、欲求、短期記憶の点で確率勾配降下法のよく知られた欠点を克服するために、メモリバッファやリプレイのような様々な戦略を実装しなければならない。 そこで我々は,局所学習とニューロ変調を取り入れた生物学的に着想を得た軽量ニューラルネットワークアーキテクチャを開発し,データストリームとオンライン学習による入力処理を実現する。 次に、トランスファーメタラーニングを実装することによって、事前に知られていないタスクのハイパーパラメータ選択の課題に対処する。 複数のローカル学習ルールとそのハイパーパラメータにまたがる設計空間をベイズ最適化を用いて探索し、古典的な単一タスクオンラインラーニングにおけるハイパフォーマンスな構成を特定し、タスク類似性を考慮した連続学習タスクに転送する。 単一タスクと連続学習環境の両方において,このアプローチの有効性を実証する。 単一のタスク学習設定では、mnist、 fashion mnist、cifar-10データセット上の他のローカル学習アプローチよりも優れたパフォーマンスを示す。 単一タスク学習環境におけるハイパフォーマンス構成を用いて,スプリットmnist,スプリットcifar-10データにおいて,他のメモリ制約学習手法と比較して優れた連続学習性能を達成し,最先端メモリ集約リプレイベースアプローチと一致させる。

The ability to learn continuously from an incoming data stream without catastrophic forgetting is critical for designing intelligent systems. Many existing approaches to continual learning rely on stochastic gradient descent and its variants. However, these algorithms have to implement various strategies, such as memory buffers or replay, to overcome well-known shortcomings of stochastic gradient descent methods in terms of stability, greed, and short-term memory. To that end, we develop a biologically-inspired light weight neural network architecture that incorporates local learning and neuromodulation to enable input processing over data streams and online learning. Next, we address the challenge of hyperparameter selection for tasks that are not known in advance by implementing transfer metalearning: using a Bayesian optimization to explore a design space spanning multiple local learning rules and their hyperparameters, we identify high performing configurations in classical single task online learning and we transfer them to continual learning tasks with task-similarity considerations. We demonstrate the efficacy of our approach on both single task and continual learning setting. For the single task learning setting, we demonstrate superior performance over other local learning approaches on the MNIST, Fashion MNIST, and CIFAR-10 datasets. Using high performing configurations metalearned in the single task learning setting, we achieve superior continual learning performance on Split-MNIST, and Split-CIFAR-10 data as compared with other memory-constrained learning approaches, and match that of the state-of-the-art memory-intensive replay-based approaches.
翻訳日:2022-11-09 22:14:56 公開日:2021-03-13
# ランダム化自動分化

Randomized Automatic Differentiation ( http://arxiv.org/abs/2007.10412v2 )

ライセンス: Link先を確認
Deniz Oktay, Nick McGreivy, Joshua Aduol, Alex Beatson, Ryan P. Adams(参考訳) 深層学習、変分推論、その他多くの分野の成功は、多次元目的の勾配を計算するための逆モード自動微分(AD)の特殊実装によって助けられている。 これらのツールの基盤となるAD技術は、数値的精度の正確な勾配を計算するために設計されたが、現代の機械学習モデルは、ほぼ常に確率的勾配降下で訓練されている。 計算と記憶を正確な(ミニバッチ)勾配に費やして、確率的最適化に使用するのはなぜでしょう? 本研究では, ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発し, 分散の見返りにメモリを減らし, 偏りのない勾配推定を計算できるようにする。 一般的なアプローチの限界を検証し、利点を実現するためには問題固有の構造を活用する必要があると論じる。 我々は、様々な単純なニューラルネットワークアーキテクチャのためのRAD技術を開発し、固定メモリ予算では、フィードフォワードネットワークの小さなバッチサイズや、リカレントネットワークの同様の数よりも、RADが少ないイテレーションで収束することを示す。 また,radを科学計算に適用できることを示すとともに,核分裂反応器を表す線形反応拡散pdeの制御パラメータを最適化する低メモリ確率勾配法を開発した。

The successes of deep learning, variational inference, and many other fields have been aided by specialized implementations of reverse-mode automatic differentiation (AD) to compute gradients of mega-dimensional objectives. The AD techniques underlying these tools were designed to compute exact gradients to numerical precision, but modern machine learning models are almost always trained with stochastic gradient descent. Why spend computation and memory on exact (minibatch) gradients only to use them for stochastic optimization? We develop a general framework and approach for randomized automatic differentiation (RAD), which can allow unbiased gradient estimates to be computed with reduced memory in return for variance. We examine limitations of the general approach, and argue that we must leverage problem specific structure to realize benefits. We develop RAD techniques for a variety of simple neural network architectures, and show that for a fixed memory budget, RAD converges in fewer iterations than using a small batch size for feedforward networks, and in a similar number for recurrent networks. We also show that RAD can be applied to scientific computing, and use it to develop a low-memory stochastic gradient method for optimizing the control parameters of a linear reaction-diffusion PDE representing a fission reactor.
翻訳日:2022-11-08 12:56:21 公開日:2021-03-13
# アクティブターゲット実験における事象識別のための教師なし学習

Unsupervised Learning for Identifying Events in Active Target Experiments ( http://arxiv.org/abs/2008.02757v3 )

ライセンス: Link先を確認
Robert Solli, Daniel Bazin, Michelle P. Kuchera, Ryan R. Strauss, Morten Hjorth-Jensen(参考訳) 本稿では、アクティブターゲット検出器(AT-TPC)におけるイベント分離問題に対する教師なし機械学習手法の新たな応用について述べる。 包括的な目標は、データ分析の初期段階で同様のイベントをグループ化し、不必要なイベントの計算に高価な処理を制限することで効率を向上させることである。 1646}$arの共鳴陽子散乱実験による粒子軌道の二次元投影解析への教師なしクラスタリングアルゴリズムの適用について紹介する。 本稿では,オートエンコーダニューラルネットワークと,事前学習したVGG16畳み込みニューラルネットワークの性能について検討する。 シミュレーションした$^{46}$Ar実験のデータとAT-TPC検出器による実イベントのクラスタリング性能について検討した。 VGG16潜伏空間のシミュレーションデータに適用した$k$-meansアルゴリズムは、ほぼ完璧なクラスタを形成する。 さらに、VGG16+$k$-meansアプローチは、実際の実験データに対するプロトンイベントの高純度クラスタを見つける。 また,イベント分離のためのオートエンコーダニューラルネットワークの潜在空間をクラスタリングする応用について検討する。 これらのネットワークの性能は高いが、結果のばらつきに悩まされている。

This article presents novel applications of unsupervised machine learning methods to the problem of event separation in an active target detector, the Active-Target Time Projection Chamber (AT-TPC). The overarching goal is to group similar events in the early stages of the data analysis, thereby improving efficiency by limiting the computationally expensive processing of unnecessary events. The application of unsupervised clustering algorithms to the analysis of two-dimensional projections of particle tracks from a resonant proton scattering experiment on $^{46}$Ar is introduced. We explore the performance of autoencoder neural networks and a pre-trained VGG16 convolutional neural network. We study clustering performance on both data from a simulated $^{46}$Ar experiment, and real events from the AT-TPC detector. We find that a $k$-means algorithm applied to simulated data in the VGG16 latent space forms almost perfect clusters. Additionally, the VGG16+$k$-means approach finds high purity clusters of proton events for real experimental data. We also explore the application of clustering the latent space of autoencoder neural networks for event separation. While these networks show strong performance, they suffer from high variability in their results.
翻訳日:2022-11-02 07:57:34 公開日:2021-03-13
# ArCOV19:誤情報検出のためのアラビアのTwitterデータセット

ArCOV19-Rumors: Arabic COVID-19 Twitter Dataset for Misinformation Detection ( http://arxiv.org/abs/2010.08768v2 )

ライセンス: Link先を確認
Fatima Haouari, Maram Hasanain, Reem Suwaileh, Tamer Elsayed(参考訳) 本稿では,2020年1月27日から4月末までのクレームを含むツイートからなる誤情報検出のためのアラビア語のtwitterデータセットarcov19-rumorsを紹介する。 本誌は138件の認証されたクレームを、主に人気ファクトチェックwebサイトから集め、9.4kの関連ツイートをそれらのクレームに特定した。 ツイートは、パンデミックで直面する大きな問題の一つである誤情報検出の研究を支援するために、正確さで手動で注釈付けされた。 フリーテキストクレーム(クレームレベル検証と呼ばれる)の検証と、ツイートで表現されたクレーム(ツイートレベル検証と呼ばれる)の検証である。 私たちのデータセットは、健康に加えて、COVID-19の影響を受けている他のカテゴリー、すなわち社会、政治、スポーツ、エンターテイメント、宗教に関する主張もカバーしています。 さらに,データセット上でのツィートレベル検証のためのベンチマーク結果も提示する。 我々は,コンテンツ,ユーザプロファイル機能,時間的特徴,ツイート検証のための会話スレッドの伝播構造を利用する多用途アプローチのsotaモデルを実験した。

In this paper we introduce ArCOV19-Rumors, an Arabic COVID-19 Twitter dataset for misinformation detection composed of tweets containing claims from 27th January till the end of April 2020. We collected 138 verified claims, mostly from popular fact-checking websites, and identified 9.4K relevant tweets to those claims. Tweets were manually-annotated by veracity to support research on misinformation detection, which is one of the major problems faced during a pandemic. ArCOV19-Rumors supports two levels of misinformation detection over Twitter: verifying free-text claims (called claim-level verification) and verifying claims expressed in tweets (called tweet-level verification). Our dataset covers, in addition to health, claims related to other topical categories that were influenced by COVID-19, namely, social, politics, sports, entertainment, and religious. Moreover, we present benchmarking results for tweet-level verification on the dataset. We experimented with SOTA models of versatile approaches that either exploit content, user profiles features, temporal features and propagation structure of the conversational threads for tweet verification.
翻訳日:2022-10-06 12:04:14 公開日:2021-03-13
# 構造文書からの類似性と情報抽出からの学習

Learning from similarity and information extraction from structured documents ( http://arxiv.org/abs/2011.07964v2 )

ライセンス: Link先を確認
Martin Hole\v{c}ek(参考訳) ドキュメント処理の自動化は、メソッドやハードウェアの改善による手作業の削減という大きな可能性から、近年注目を集めている。 ニューラルネットワークは、何百ものドキュメントを持つ比較的小さなデータセットでのみトレーニングされているにもかかわらず、これまではうまく適用されてきた。 深層学習技術を探究し、情報抽出結果を改善するために、25万以上の文書からなるデータセットがコンパイルされ、匿名化され、この研究の一部として公開されている。 コンボリューション、グラフの畳み込み、自己注意が一緒に機能し、構造化ドキュメントに存在するすべての情報を活用できることを証明した、これまでの作業を拡張します。 完全トレーニング可能な手法をさらに進めて,シアムネットワークの利用,類似性の概念,ワンショット学習,コンテキスト/意識の認識など,さまざまなアプローチを設計,検討する。 目標は、巨大な実世界のドキュメントデータセットで単語単位の分類のマイクロf1を改善することである。 その結果、トレーニング可能な(まだ異なる)ページへのアクセスと、すでに知られているターゲット情報との仮説が、情報抽出を改善する。 さらに、実験により、提案するアーキテクチャ部品はすべて、以前の結果に打ち勝つために必要であることが確認された。 最良のモデルは、以前の最先端の結果を8.25のf1スコアで改善する。 定性解析は、新しいモデルがすべてのターゲットクラスに対してより良く機能することを検証するために提供される。 さらに、いくつかの建築の過大な性能の原因に関する複数の構造的観察が明らかにされている。 ソースコード、パラメータ、実装の詳細はすべてデータセットと一緒に公開され、この作業で使用されるすべてのテクニックは問題固有のものではなく、他のタスクやコンテキストに一般化できるため、研究の境界を押し上げることを望んでいる。

The automation of document processing is gaining recent attention due to the great potential to reduce manual work through improved methods and hardware. Neural networks have been successfully applied before - even though they have been trained only on relatively small datasets with hundreds of documents so far. To successfully explore deep learning techniques and improve the information extraction results, a dataset with more than twenty-five thousand documents has been compiled, anonymized and is published as a part of this work. We will expand our previous work where we proved that convolutions, graph convolutions and self-attention can work together and exploit all the information present in a structured document. Taking the fully trainable method one step further, we will now design and examine various approaches to using siamese networks, concepts of similarity, one-shot learning and context/memory awareness. The aim is to improve micro F1 of per-word classification on the huge real-world document dataset. The results verify the hypothesis that trainable access to a similar (yet still different) page together with its already known target information improves the information extraction. Furthermore, the experiments confirm that all proposed architecture parts are all required to beat the previous results. The best model improves the previous state-of-the-art results by an 8.25 gain in F1 score. Qualitative analysis is provided to verify that the new model performs better for all target classes. Additionally, multiple structural observations about the causes of the underperformance of some architectures are revealed. All the source codes, parameters and implementation details are published together with the dataset in the hope to push the research boundaries since all the techniques used in this work are not problem-specific and can be generalized for other tasks and contexts.
翻訳日:2022-10-06 11:39:46 公開日:2021-03-13
# TensorFlow Lite Micro: TinyMLシステム上での組み込み機械学習

TensorFlow Lite Micro: Embedded Machine Learning on TinyML Systems ( http://arxiv.org/abs/2010.08678v3 )

ライセンス: Link先を確認
Robert David, Jared Duke, Advait Jain, Vijay Janapa Reddi, Nat Jeffries, Jian Li, Nick Kreeger, Ian Nappier, Meghna Natraj, Shlomi Regev, Rocky Rhodes, Tiezhen Wang, Pete Warden(参考訳) 組み込みデバイス上でのディープラーニング推論は、無数のアプリケーションで急成長している分野である。 しかし、この機会から恩恵を受ける前に、大きな課題を克服しなければなりません。 組み込みプロセッサはリソースの制約が厳しい。 最寄りのモバイル端末は、計算能力、メモリ可用性、消費電力の少なくとも100倍–1000倍の差がある。 その結果、機械学習(ML)モデルと関連するML推論フレームワークは、効率的に実行されるだけでなく、数キロバイトのメモリで動作する必要がある。 また、組み込みデバイスのエコシステムは断片化されている。 効率を最大化するために、システムベンダーは、動的メモリ割り当てや仮想メモリを含むメインストリームシステムで一般的に見られる多くの機能を省略し、クロスプラットフォームの相互運用性を実現する。 ハードウェアには多くのフレーバーがある(例えば、命令セットアーキテクチャとFPUサポート、またはその欠如)。 組み込みシステム上でディープラーニングモデルを実行するためのオープンソースのML推論フレームワークであるTensorFlow Lite Micro(TF Micro)を紹介する。 TF Microは、組み込みシステムのリソース制約によって課される効率要件と、クロスプラットフォームの相互運用性をほぼ不可能にする断片化課題に取り組む。 このフレームワークは、これらの課題を克服しながら柔軟性を提供するユニークなインタプリタベースのアプローチを採用している。 本稿では,TF Microの設計決定と実装の詳細について述べる。 また,その低リソース要件とランタイム性能のオーバーヘッドを最小限に抑える評価を行った。

Deep learning inference on embedded devices is a burgeoning field with myriad applications because tiny embedded devices are omnipresent. But we must overcome major challenges before we can benefit from this opportunity. Embedded processors are severely resource constrained. Their nearest mobile counterparts exhibit at least a 100 -- 1,000x difference in compute capability, memory availability, and power consumption. As a result, the machine-learning (ML) models and associated ML inference framework must not only execute efficiently but also operate in a few kilobytes of memory. Also, the embedded devices' ecosystem is heavily fragmented. To maximize efficiency, system vendors often omit many features that commonly appear in mainstream systems, including dynamic memory allocation and virtual memory, that allow for cross-platform interoperability. The hardware comes in many flavors (e.g., instruction-set architecture and FPU support, or lack thereof). We introduce TensorFlow Lite Micro (TF Micro), an open-source ML inference framework for running deep-learning models on embedded systems. TF Micro tackles the efficiency requirements imposed by embedded-system resource constraints and the fragmentation challenges that make cross-platform interoperability nearly impossible. The framework adopts a unique interpreter-based approach that provides flexibility while overcoming these challenges. This paper explains the design decisions behind TF Micro and describes its implementation details. Also, we present an evaluation to demonstrate its low resource requirement and minimal run-time performance overhead.
翻訳日:2022-10-06 09:12:19 公開日:2021-03-13
# 知識グラフに基づく言語モデル事前学習のための合成コーパス生成

Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training ( http://arxiv.org/abs/2010.12688v2 )

ライセンス: Link先を確認
Oshin Agarwal, Heming Ge, Siamak Shakeri, Rami Al-Rfou(参考訳) 知識グラフ(KG)を自然テキストに変換するタスクであるData-To-Text Generationは、ドメイン固有のベンチマークデータセットに焦点を当てている。 しかし,本稿では,全英Wikidata KGを言語化し,広義のオープンドメイン,大規模言語化に関わるユニークな課題について論じる。 さらに、Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。 これら2つのソースを統合するために開発された多くのアーキテクチャとは対照的に、我々のアプローチはKGを自然なテキストに変換し、既存の言語モデルにシームレスに統合する。 これは、結果の言語モデルにおいて、事実精度の改善と毒性の低減というさらなる利点をもたらす。 本研究では,検索言語モデルにおける検索コーパスの強化と,オープンドメインQAとLAMA知識プローブの知識集約タスクの大幅な改善を図った。

Prior work on Data-To-Text Generation, the task of converting knowledge graph (KG) triples into natural text, focused on domain-specific benchmark datasets. In this paper, however, we verbalize the entire English Wikidata KG, and discuss the unique challenges associated with a broad, open-domain, large-scale verbalization. We further show that verbalizing a comprehensive, encyclopedic KG like Wikidata can be used to integrate structured KGs and natural language corpora. In contrast to the many architectures that have been developed to integrate these two sources, our approach converts the KG into natural text, allowing it to be seamlessly integrated into existing language models. It carries the further advantages of improved factual accuracy and reduced toxicity in the resulting language model. We evaluate this approach by augmenting the retrieval corpus in a retrieval language model and showing significant improvements on the knowledge intensive tasks of open domain QA and the LAMA knowledge probe.
翻訳日:2022-10-03 23:02:47 公開日:2021-03-13
# クロスニュートラシング:多言語モデルにおける言語情報の共同符号化の提案

Cross-neutralising: Probing for joint encoding of linguistic information in multilingual models ( http://arxiv.org/abs/2010.12825v2 )

ライセンス: Link先を確認
Rochelle Choenni, Ekaterina Shutova(参考訳) 多言語文エンコーダは言語間でNLPモデルを転送するために広く使われている。 しかし、この伝達の成功は、言語間の類似性と変異のパターンを符号化するモデルの能力に依存する。 しかし、これらのモデルがこれを実現する方法についてはほとんど知られていない。 本稿では,言語間の関係を2つの最先端多言語モデル(M-BERTとXLM-R)にエンコードする方法を提案する。 これらの結果は,それらの情報共有機構に関する洞察を与え,これらのモデルにおける類型的類似言語間で言語特性が共同で符号化されていることを示唆している。

Multilingual sentence encoders are widely used to transfer NLP models across languages. The success of this transfer is, however, dependent on the model's ability to encode the patterns of cross-lingual similarity and variation. Yet, little is known as to how these models are able to do this. We propose a simple method to study how relationships between languages are encoded in two state-of-the-art multilingual models (i.e. M-BERT and XLM-R). The results provide insight into their information sharing mechanisms and suggest that linguistic properties are encoded jointly across typologically-similar languages in these models.
翻訳日:2022-10-03 13:02:33 公開日:2021-03-13
# DiaLex:多方言アラビア語単語埋め込みの評価ベンチマーク

DiaLex: A Benchmark for Evaluating Multidialectal Arabic Word Embeddings ( http://arxiv.org/abs/2011.10970v2 )

ライセンス: Link先を確認
Muhammad Abdul-Mageed, Shady Elbassuoni, Jad Doughman, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Yorgo Zoughby, Ahmad Shaher, Iskander Gaba, Ahmed Helal, Mohammed El-Razzaz(参考訳) 単語埋め込みは、現代の自然言語処理システムのコアコンポーネントであり、それらを徹底的に評価する能力は重要なタスクである。 DiaLexは、方言アラビア語単語の埋め込みの本質的な評価のためのベンチマークである。 アラビア語の方言はアルジェリア語、エジプト語、レバノン語、シリア語、チュニジア語である。 これらの方言全体で、DiaLexは6つの統語的・意味的な関係、すなわち男性から女性、特異から双対、特異から複数、反語、比較、属から過去の時制に関するテストバンクを提供する。 DiaLexは5つの方言のそれぞれの6つの関係を表す単語対の集合で構成されている。 DiaLexの実用性を実証するために、私たちが開発した既存のアラビア語単語と新しいアラビア語単語の埋め込みのセットを評価する。 私たちのベンチマーク、評価コード、新しい単語埋め込みモデルが公開される予定だ。

Word embeddings are a core component of modern natural language processing systems, making the ability to thoroughly evaluate them a vital task. We describe DiaLex, a benchmark for intrinsic evaluation of dialectal Arabic word embedding. DiaLex covers five important Arabic dialects: Algerian, Egyptian, Lebanese, Syrian, and Tunisian. Across these dialects, DiaLex provides a testbank for six syntactic and semantic relations, namely male to female, singular to dual, singular to plural, antonym, comparative, and genitive to past tense. DiaLex thus consists of a collection of word pairs representing each of the six relations in each of the five dialects. To demonstrate the utility of DiaLex, we use it to evaluate a set of existing and new Arabic word embeddings that we developed. Our benchmark, evaluation code, and new word embedding models will be publicly available.
翻訳日:2022-09-22 09:07:52 公開日:2021-03-13
# リスク分析によるエンティティ解決のための適応型ディープラーニング

Adaptive Deep Learning for Entity Resolution by Risk Analysis ( http://arxiv.org/abs/2012.03513v3 )

ライセンス: Link先を確認
Qun Chen, Zhaoqiang Chen, Youcef Nafa, Tianyi Duan, Zhanhuai Li(参考訳) 実体分解能(ER)の最先端性能は深層学習によって達成されている。 しかし、深層モデルは通常、正確にラベル付けされたトレーニングデータに基づいてトレーニングされ、ターゲットのワークロードに向けて簡単にチューニングできない。 残念ながら、実際のシナリオでは、十分なラベル付きトレーニングデータが存在しず、さらに悪いことに、同じドメインから来た場合でも、その分散は通常、ターゲットのワークロードと大きく、あるいはそれ以下が異なる。 この制約を緩和するため,本論文では,特定の特性により,対象ワークロードに対して深いモデルをチューニングするためのリスクベースアプローチを提案する。 ERのリスク分析の最近の進歩に基づき、提案手法はまずラベル付きトレーニングデータに基づいて深層モデルを訓練し、ラベルなしターゲットデータに対する推定誤予測リスクを最小限に抑えて微調整する。 理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。 また,実ベンチマークデータに対する提案手法の有効性を比較検討により実証的に検証した。 広範な実験により,深層モデルの性能が大幅に向上することが示された。 さらに、分布不均衡のシナリオでは、転校学習の最先端の代替手段をかなりのマージンで上回ることができる。 ERをテストケースとして使用することにより、リスクベースの適応トレーニングが様々な課題の分類タスクに適用可能な有望なアプローチであることを実証する。

The state-of-the-art performance on entity resolution (ER) has been achieved by deep learning. However, deep models are usually trained on large quantities of accurately labeled training data, and can not be easily tuned towards a target workload. Unfortunately, in real scenarios, there may not be sufficient labeled training data, and even worse, their distribution is usually more or less different from the target workload even when they come from the same domain. To alleviate the said limitations, this paper proposes a novel risk-based approach to tune a deep model towards a target workload by its particular characteristics. Built on the recent advances on risk analysis for ER, the proposed approach first trains a deep model on labeled training data, and then fine-tunes it by minimizing its estimated misprediction risk on unlabeled target data. Our theoretical analysis shows that risk-based adaptive training can correct the label status of a mispredicted instance with a fairly good chance. We have also empirically validated the efficacy of the proposed approach on real benchmark data by a comparative study. Our extensive experiments show that it can considerably improve the performance of deep models. Furthermore, in the scenario of distribution misalignment, it can similarly outperform the state-of-the-art alternative of transfer learning by considerable margins. Using ER as a test case, we demonstrate that risk-based adaptive training is a promising approach potentially applicable to various challenging classification tasks.
翻訳日:2021-05-16 21:40:43 公開日:2021-03-13
# (参考訳) 多次元スケーリングと言語理論

Multidimensional scaling and linguistic theory ( http://arxiv.org/abs/2012.04946v2 )

ライセンス: CC BY 4.0
Martijn van der Klis and Jos Tellings(参考訳) 本稿では,多次元スケーリング(MDS)技術の言語研究における意味地図作成への応用について述べる。 MDSは、オブジェクト(語彙項目、言語コンテキスト、言語など)を表す統計技術を指す。 空間内の点として、オブジェクト間の密接な類似性は、表現中の対応する点間の近接距離に対応する。 言語横断的な視点から特定の言語現象を研究するために,MDSを並列コーパスデータに適用する最近の傾向に注目した。 まず,非専門家を対象としたMDSの数学的基礎を紹介し,「固有値」,「次元化」,「ストレス値」などの概念を読者が理解できるようにする。 言語 MDS の文章に現れる。 次に, 並列コーパスデータと組み合わせたMDS技術を用いた過去の研究の概要を概観し, 特定のMDSアプリケーションのキーパラメータを簡潔に記述するための用語セットを提案する。 我々はMDSマップの助けを借りて回答された様々な研究課題について検討し、この方法論が古典型学(例)から幅広い分野のトピックをカバーしていることを示す。 言語分類) 形式言語学(例えば、英語) 一つの言語における現象の研究)。 論文で紹介されたMDS研究の知見に基づいて、今後2つの研究の行を最終的に特定する。 まず, 並列コーパス研究にはまだアプローチされていない変分研究における重要な領域である構成構造の言語間差異の調査におけるMDSの利用を検討する。 第2に,これまでの言語領域ではほとんど使われていない他の次元縮小手法と比較して,mdsの補完方法について考察する。

This paper reports on the state-of-the-art in the application of multidimensional scaling (MDS) techniques to create semantic maps in linguistic research. MDS refers to a statistical technique that represents objects (lexical items, linguistic contexts, languages, etc.) as points in a space so that close similarity between the objects corresponds to close distances between the corresponding points in the representation. We focus on the recent trend to apply MDS to parallel corpus data in order to investigate a certain linguistic phenomenon from a cross-linguistic perspective. We first introduce the mathematical foundations of MDS, intended for non-experts, so that readers understand notions such as 'eigenvalues', 'dimensionality reduction', 'stress values', etc. as they appear in linguistic MDS writing. We then give an exhaustive overview of past research that employs MDS techniques in combination with parallel corpus data, and propose a set of terminology to succinctly describe the key parameters of a particular MDS application. We go over various research questions that have been answered with the aid of MDS maps, showing that the methodology covers topics in a spectrum ranging from classic typology (e.g. language classification) to formal linguistics (e.g. study of a phenomenon in a single language). We finally identify two lines of future research that build on the insights of earlier MDS research described in the paper. First, we envisage the use of MDS in the investigation of cross-linguistic variation of compositional structures, an important area in variation research that has not been approached by parallel corpus work yet. Second, we discuss how MDS can be complemented and compared with other dimensionality reduction techniques that have seen little use in the linguistic domain so far.
翻訳日:2021-05-16 11:28:28 公開日:2021-03-13
# 連合学習におけるタイムリーコミュニケーション

Timely Communication in Federated Learning ( http://arxiv.org/abs/2012.15831v2 )

ライセンス: Link先を確認
Baturalp Buyukates and Sennur Ulukus(参考訳) 我々は,パラメータサーバ(PS)が,クラウドサーバにクライアントデータを集中的に格納することなく,$n$クライアントを用いてグローバルモデルを訓練する,連合学習フレームワークを検討する。 クライアントのデータセットが急速に変化し、時間的特性が極めて高い設定に焦点をあて、モデル更新のタイムラインを調査し、新しいタイムリーな通信方式を提案する。 提案されたスキームでは、各イテレーションでPSは$m$のクライアントを待ち、現在のモデルを送信する。 その後、PSは、$m$クライアントの早期$k$のローカルアップデートを使用して、各イテレーションでグローバルモデルを更新する。 各クライアントが経験する情報の平均年齢を見つけ、与えられた$n$の年齢最適値である$m$と$k$を数値的に特徴付ける。 提案手法は,時間軸の確保に加えて,グローバル学習タスクの収束を損なうことなくランダムクライアント選択に比べて,平均的なイテレーション時間を大幅に削減できることを示す。

We consider a federated learning framework in which a parameter server (PS) trains a global model by using $n$ clients without actually storing the client data centrally at a cloud server. Focusing on a setting where the client datasets are fast changing and highly temporal in nature, we investigate the timeliness of model updates and propose a novel timely communication scheme. Under the proposed scheme, at each iteration, the PS waits for $m$ available clients and sends them the current model. Then, the PS uses the local updates of the earliest $k$ out of $m$ clients to update the global model at each iteration. We find the average age of information experienced by each client and numerically characterize the age-optimal $m$ and $k$ values for a given $n$. Our results indicate that, in addition to ensuring timeliness, the proposed communication scheme results in significantly smaller average iteration times compared to random client selection without hurting the convergence of the global learning task.
翻訳日:2021-04-17 16:54:16 公開日:2021-03-13
# (参考訳) 株価予測のための株価データのテキストマイニング

Text Mining of Stocktwits Data for Predicting Stock Prices ( http://arxiv.org/abs/2103.16388v1 )

ライセンス: CC BY 4.0
Mukul Jaggi, Priyanka Mandal, Shreya Narang, Usman Naseem and Matloob Khushi(参考訳) 価格変動を考慮し、人々の感情を理解することで、株価予測をより効率的にすることができる。 限られた数のモデルが金融用語を理解したり、株価の変動に関するデータセットをラベル付けしている。 この課題を克服するために、株価変化に基づいてStocktwitsテキストデータをラベル付けすることで、財務分野のテキスト分類タスクを処理するために訓練されたALBERTベースのモデルであるFinALBERTを導入した。 当社は、主要な5つのFAANG(Facebook、Amazon、Apple、Netflix、Google)を含む25の企業を対象に、10年以上にわたってStocktwitsのデータを収集しました。 これらのデータセットは、株価変動に基づく3つのラベル付け技術でラベル付けされた。 提案するモデルFinALBERTは,これらのラベルを微調整して最適な結果を得る。 従来の機械学習、BERT、FinBERTモデルに基づいてラベル付きデータセットをトレーニングすることで、ラベルがさまざまなモデルアーキテクチャでどのように振る舞ったかを理解するのに役立ちました。 我々のラベル付け手法の利点は,過去のデータを効果的に分析することであり,数理関数はストック移動を予測するために容易にカスタマイズできる点である。

Stock price prediction can be made more efficient by considering the price fluctuations and understanding the sentiments of people. A limited number of models understand financial jargon or have labelled datasets concerning stock price change. To overcome this challenge, we introduced FinALBERT, an ALBERT based model trained to handle financial domain text classification tasks by labelling Stocktwits text data based on stock price change. We collected Stocktwits data for over ten years for 25 different companies, including the major five FAANG (Facebook, Amazon, Apple, Netflix, Google). These datasets were labelled with three labelling techniques based on stock price changes. Our proposed model FinALBERT is fine-tuned with these labels to achieve optimal results. We experimented with the labelled dataset by training it on traditional machine learning, BERT, and FinBERT models, which helped us understand how these labels behaved with different model architectures. Our labelling method competitive advantage is that it can help analyse the historical data effectively, and the mathematical function can be easily customised to predict stock movement.
翻訳日:2021-04-05 03:29:03 公開日:2021-03-13
# NLPトレーニングにおけるシンプソンのバイアス

Simpson's Bias in NLP Training ( http://arxiv.org/abs/2103.11795v1 )

ライセンス: Link先を確認
Fei Yuan, Longtu Zhang, Huang Bojun, Yaobo Liang(参考訳) 多くの機械学習タスクにおいて、人口レベルの指標である$F(S;M)$を測定して、与えられたデータ集団に対して$M$の評価を行う。 そのような評価基準の例としては、(バイナリ)認識の精度/リコール、マルチクラス分類のf1スコア、言語生成のためのbleuメトリックなどがある。 一方、モデル $m$ は、各学習ステップ $t$ でサンプルレベルの損失 $g(s_t;m)$ を最適化することで訓練される。 minibatch (複数形 minibatchs) G$の一般的な選択には、クロスエントロピー損失、Dice損失、文レベルのBLEUスコアがある。 このパラダイムの背後にある基本的な仮定は、サンプルレベルの損失の平均値は、すべての可能なサンプルの平均値であれば、そのタスクの集団レベルのメトリックであるf$(例えば、$\mathbb{e}[g(s_t;m) ] \approx f(s;m)$)を効果的に表すべきであるということである。 本稿では,いくつかのNLPタスクにおいて,上記の仮定を体系的に検討する。 理論的および実験的に、サンプルレベルの損失のいくつかの一般的な設計は、真の人口レベルのメートル法であるf$と矛盾する可能性があるため、前者を最適化するために訓練されたモデルが後者に実質的に最適ではないことが示されている、それは我々がシムプソンのバイアスと呼ぶ現象であり、それは、統計学と社会科学におけるシムプソンの逆転パラドックスとして知られる古典的なパラドックスと深い関係があるためである。

In most machine learning tasks, we evaluate a model $M$ on a given data population $S$ by measuring a population-level metric $F(S;M)$. Examples of such evaluation metric $F$ include precision/recall for (binary) recognition, the F1 score for multi-class classification, and the BLEU metric for language generation. On the other hand, the model $M$ is trained by optimizing a sample-level loss $G(S_t;M)$ at each learning step $t$, where $S_t$ is a subset of $S$ (a.k.a. the mini-batch). Popular choices of $G$ include cross-entropy loss, the Dice loss, and sentence-level BLEU scores. A fundamental assumption behind this paradigm is that the mean value of the sample-level loss $G$, if averaged over all possible samples, should effectively represent the population-level metric $F$ of the task, such as, that $\mathbb{E}[ G(S_t;M) ] \approx F(S;M)$. In this paper, we systematically investigate the above assumption in several NLP tasks. We show, both theoretically and experimentally, that some popular designs of the sample-level loss $G$ may be inconsistent with the true population-level metric $F$ of the task, so that models trained to optimize the former can be substantially sub-optimal to the latter, a phenomenon we call it, Simpson's bias, due to its deep connections with the classic paradox known as Simpson's reversal paradox in statistics and social sciences.
翻訳日:2021-04-05 01:04:39 公開日:2021-03-13
# マルチモーダル情報検出に関する調査研究

A Survey on Multimodal Disinformation Detection ( http://arxiv.org/abs/2103.12541v1 )

ライセンス: Link先を確認
Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, Preslav Nakov(参考訳) 近年では、偽ニュース、プロパガンダ、偽情報、偽情報をオンラインで拡散している。 当初はテキストコンテンツが中心だったが、時間が経つにつれて画像やビデオの人気が高まり、利用が容易になり、より注目を集め、単純なテキストよりも広く普及した。 その結果、研究者は異なるモダリティと組み合わせを標的にし始めた。 異なるモダリティが異なる研究コミュニティで研究されているため、我々は、テキスト、画像、音声、ビデオ、ネットワーク構造、時間的情報といった様々なモダリティの組み合わせをカバーするマルチモダリティ情報検出に関する最先端の調査結果を提供する。 また、事実性に着目した研究もあるが、コンテンツの有害性について調査する研究もある。 偽情報の定義におけるこれら2つの要素 -- (i) 事実性、および (ii) 有害性は等しく重要であるが、通常は孤立して研究されている。 したがって、同一の枠組みにおいて、複数のモダリティを考慮し、事実と有害性の両方を考慮し、偽情報検出に取り組む必要性を論じる。 最後に,現在の課題と今後の研究方向性について論じる。

Recent years have witnessed the proliferation of fake news, propaganda, misinformation, and disinformation online. While initially this was mostly about textual content, over time images and videos gained popularity, as they are much easier to consume, attract much more attention, and spread further than simple text. As a result, researchers started targeting different modalities and combinations thereof. As different modalities are studied in different research communities, with insufficient interaction, here we offer a survey that explores the state-of-the-art on multimodal disinformation detection covering various combinations of modalities: text, images, audio, video, network structure, and temporal information. Moreover, while some studies focused on factuality, others investigated how harmful the content is. While these two components in the definition of disinformation -- (i) factuality and (ii) harmfulness, are equally important, they are typically studied in isolation. Thus, we argue for the need to tackle disinformation detection by taking into account multiple modalities as well as both factuality and harmfulness, in the same framework. Finally, we discuss current challenges and future research directions.
翻訳日:2021-04-05 01:04:11 公開日:2021-03-13
# 新型コロナウイルスの流行がイタリアの国の評価と株式市場のパフォーマンスに及ぼす影響--感情分析による分析

Impact of the COVID-19 outbreak on Italy's country reputation and stock market performance: a sentiment analysis approach ( http://arxiv.org/abs/2103.13871v1 )

ライセンス: Link先を確認
Gianpaolo Zammarchi, Francesco Mola, Claudio Conversano(参考訳) 最近のコロナウイルス感染症(COVID-19)の流行で、Twitterはイベントに対する意見や反応を共有するために広く利用されている。 イタリアは、感染拡大によって深刻な影響を受けた最初のヨーロッパ諸国の一つであり、ロックダウンと在宅勤務の命令を確立した。 われわれは、新型コロナウイルスの感染拡大前後にTwitterで報告されたイタリアの意見の変化を調べるために感情分析を利用する。 異なるレキシコンベースの手法を用いて、イタリアで最初に確立された新型コロナウイルスの症例の日付に対応するブレークポイントを見つけ、国の評判の代理として使用される感情スコアに関連性のある変化を引き起こす。 次に、イタリアのセンチメントスコアは、ftse-mibの値の変化の早期検出信号として機能するため、イタリア証券取引所主要株価指数であるftse-mib指数のレベルと強く関連していることを示す。 最後に、コンテンツに基づくツイートを肯定的・否定的に分類し、2つの機械学習分類器を用いて、発生前後に投稿されたツイートの割り当てられた極性を検証する。

During the recent Coronavirus disease 2019 (COVID-19) outbreak, the microblogging service Twitter has been widely used to share opinions and reactions to events. Italy was one of the first European countries to be severely affected by the outbreak and to establish lockdown and stay-at-home orders, potentially leading to country reputation damage. We resort to sentiment analysis to investigate changes in opinions about Italy reported on Twitter before and after the COVID-19 outbreak. Using different lexicons-based methods, we find a breakpoint corresponding to the date of the first established case of COVID-19 in Italy that causes a relevant change in sentiment scores used as proxy of the country reputation. Next, we demonstrate that sentiment scores about Italy are strongly associated with the levels of the FTSE-MIB index, the Italian Stock Exchange main index, as they serve as early detection signals of changes in the values of FTSE-MIB. Finally, we make a content-based classification of tweets into positive and negative and use two machine learning classifiers to validate the assigned polarity of tweets posted before and after the outbreak.
翻訳日:2021-04-05 01:03:19 公開日:2021-03-13
# 機械学習による同期予測

Anticipating synchronization with machine learning ( http://arxiv.org/abs/2103.13358v1 )

ライセンス: Link先を確認
Huawei Fan, Ling-Wei Kong, Ying-Cheng Lai, Xingang Wang(参考訳) 動的システムのアプリケーションでは、同期の開始を予測することが望まれる状況が発生する可能性がある。 実験と実環境では、システム方程式はしばしば未知であり、モデルフリーで完全にデータ駆動の予測フレームワークを開発する必要性が高まる。 この難しい問題は機械学習で解決できると考えています。 特に、貯水池計算やエコー状態ネットワークを利用して、同期の開始前のパラメータ状態において、非同期時系列を用いてニューラルマシンをトレーニングする"パラメータ認識"スキームを考案する。 適切に訓練されたマシンは、所定のパラメータドリフト量で同期遷移を予測する能力を持ち、システムが非同期のままなのか同期ダイナミクスを示すのかを正確に予測することができる。 代表的なカオスモデルと,連続的(第2次)あるいは突然(第1次)遷移を示す小さなネットワークシステムを用いて,機械学習ベースのフレームワークを実演する。 注目すべき特徴は、爆発的な(一階の)遷移とヒステリシスループを同期に示すネットワークシステムにおいて、機械学習スキームは、前方および後方の遷移経路に関連する遷移点の正確な位置を含むこれらの特徴を正確に予測することができることである。

In applications of dynamical systems, situations can arise where it is desired to predict the onset of synchronization as it can lead to characteristic and significant changes in the system performance and behaviors, for better or worse. In experimental and real settings, the system equations are often unknown, raising the need to develop a prediction framework that is model free and fully data driven. We contemplate that this challenging problem can be addressed with machine learning. In particular, exploiting reservoir computing or echo state networks, we devise a "parameter-aware" scheme to train the neural machine using asynchronous time series, i.e., in the parameter regime prior to the onset of synchronization. A properly trained machine will possess the power to predict the synchronization transition in that, with a given amount of parameter drift, whether the system would remain asynchronous or exhibit synchronous dynamics can be accurately anticipated. We demonstrate the machine-learning based framework using representative chaotic models and small network systems that exhibit continuous (second-order) or abrupt (first-order) transitions. A remarkable feature is that, for a network system exhibiting an explosive (first-order) transition and a hysteresis loop in synchronization, the machine learning scheme is capable of accurately predicting these features, including the precise locations of the transition points associated with the forward and backward transition paths.
翻訳日:2021-04-05 01:00:55 公開日:2021-03-13
# (参考訳) 分散学習と民主的埋め込み:通信制約下での分散グラディエントに最小限の低境界を達成できる多項式時間音源符号化方式

Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints ( http://arxiv.org/abs/2103.07578v1 )

ライセンス: CC BY 4.0
Rajarshi Saha, Mert Pilanci, Andrea J. Goldsmith(参考訳) 本研究では,計算ノードとパラメータサーバ間の情報交換を最大ビット予算で行う分散最適化について考察する。 まず, n-次元ユークリッド空間においてベクトルを圧縮する問題を考える。 これらの符号化スキームは、結果の量子化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味で(ほぼ)最適であることを示す。 そこで,本稿では,分散最適化アルゴリズムDGD-DEFを提案する。DGD-DEFは,提案した符号化戦略を用いて,通信制約のある分散最適化アルゴリズムのクラスに対して,(ほぼ)定数要素内における最小収束率を実現する。 さらに,提案手法が他の圧縮方式と併用することで,性能を著しく向上できることを示すことにより,提案手法の有用性を拡大する。 数値シミュレーションにより理論的主張を検証する。 キーワード:fast democratic (kashin)埋め込み、分散最適化、データレート制約、量子化勾配降下、エラーフィードバック。

In this work, we consider the distributed optimization setting where information exchange between the computation nodes and the parameter server is subject to a maximum bit-budget. We first consider the problem of compressing a vector in the n-dimensional Euclidean space, subject to a bit-budget of R-bits per dimension, for which we introduce Democratic and Near-Democratic source-coding schemes. We show that these coding schemes are (near) optimal in the sense that the covering efficiency of the resulting quantizer is either dimension independent, or has a very weak logarithmic dependence. Subsequently, we propose a distributed optimization algorithm: DGD-DEF, which employs our proposed coding strategy, and achieves the minimax optimal convergence rate to within (near) constant factors for a class of communication-constrained distributed optimization algorithms. Furthermore, we extend the utility of our proposed source coding scheme by showing that it can remarkably improve the performance when used in conjunction with other compression schemes. We validate our theoretical claims through numerical simulations. Keywords: Fast democratic (Kashin) embeddings, Distributed optimization, Data-rate constraint, Quantized gradient descent, Error feedback.
翻訳日:2021-03-18 07:47:21 公開日:2021-03-13
# (参考訳) DeepGroup: 暗黙のフィードバックを伴うグループ推薦のための表現学習

DeepGroup: Representation Learning for Group Recommendation with Implicit Feedback ( http://arxiv.org/abs/2103.07597v1 )

ライセンス: CC BY 4.0
Sarina Sajadi Ghaemmaghami and Amirali Salehi-Abari(参考訳) グループ推薦システムは、個人(例えば、友人のグループ、チーム、企業など)のためのグループ意思決定を促進する。 しかし、これらのシステムの多くは、(i)ユーザーの選好が導かれる(または推論される)ことができると仮定し、グループ選好に集約するか(ii)グループ選好が部分的に観察/導かれるかのどちらかである。 我々は、好みが不明な新しいユーザーグループへの推薦に重点を置いているが、他のグループの決定や選択が与えられている。 この問題をグループ内暗黙的フィードバックからのグループ推薦として定式化することにより,グループ決定予測とリバース・ソーシャル選択の2つの実践例に焦点を当てた。 グループの集合とその観察された決定が与えられた場合、グループ決定予測は、新しいグループのユーザの決定を予測しようとするが、逆に社会的選択は、観察されたグループ決定に関与するユーザの好みを推測することを目的としている。 これら2つの問題は、グループレコメンデーションだけでなく、ユーザが個人の好みを隠すだけでなく、グループ決定に参加した場合の個人のプライバシーにも関心がある。 この2つの問題に取り組むために,deepgroup - グループ暗黙のデータを用いたグループ推薦のためのディープラーニングアプローチを提案する。 様々な実世界のデータセットにおけるdeepgroupの予測能力、グループ条件(例えば、ホモフィリーやヘテロフィリー)、グループ決定(あるいは投票)ルールを実証的に評価する。 DeepGroupの有効性を実証するだけでなく、意思決定プロセスのプライバシー保護に関する懸念にも光を当てています。

Group recommender systems facilitate group decision making for a set of individuals (e.g., a group of friends, a team, a corporation, etc.). Many of these systems, however, either assume that (i) user preferences can be elicited (or inferred) and then aggregated into group preferences or (ii) group preferences are partially observed/elicited. We focus on making recommendations for a new group of users whose preferences are unknown, but we are given the decisions/choices of other groups. By formulating this problem as group recommendation from group implicit feedback, we focus on two of its practical instances: group decision prediction and reverse social choice. Given a set of groups and their observed decisions, group decision prediction intends to predict the decision of a new group of users, whereas reverse social choice aims to infer the preferences of those users involved in observed group decisions. These two problems are of interest to not only group recommendation, but also to personal privacy when the users intend to conceal their personal preferences but have participated in group decisions. To tackle these two problems, we propose and study DeepGroup -- a deep learning approach for group recommendation with group implicit data. We empirically assess the predictive power of DeepGroup on various real-world datasets, group conditions (e.g., homophily or heterophily), and group decision (or voting) rules. Our extensive experiments not only demonstrate the efficacy of DeepGroup, but also shed light on the privacy-leakage concerns of some decision making processes.
翻訳日:2021-03-18 06:45:02 公開日:2021-03-13
# (参考訳) シングルヘッドアテンションの学習方法の近似

Approximating How Single Head Attention Learns ( http://arxiv.org/abs/2103.07601v1 )

ライセンス: CC BY 4.0
Charlie Snell, Ruiqi Zhong, Dan Klein, Jacob Steinhardt(参考訳) なぜモデルは敬語にしばしば出席するのか、トレーニングを通じてどのように進化するのか? 2段階のプロセスとしてモデルトレーニングを近似する: 注意重みが一様であれば、トレーニングの早い段階でモデルが個々の入力語 `i` を ‘o' に変換することを学習する。 その後、モデルは `i` に出席することを学習し、正しい出力は `i` が `o` に翻訳されるので $o$ となる。 形式化するために、モデルプロパティ、KTIW(Knowledge to Translate Individual Words)を定義する(例)。 i` が `o` に翻訳されていることを知り、注意の学習を促進すると主張している。 この主張は、注意機構が学習される前に、KTIWは単語共起統計から学習できるが、その逆ではないという事実に裏付けられている。 特に、ktiwを学習しにくくし、注意の学習が失敗し、モデルが入力語を出力にコピーする簡単なタスクさえも学習できないトレーニング分布を構築することができる。 我々の近似は、モデルが有能な単語に付随する理由を説明し、マルチヘッドアテンションモデルが、表現性よりも学習力学を改善することで、上記のハードトレーニング分布を克服できるおもちゃの例を刺激する。

Why do models often attend to salient words, and how does this evolve throughout training? We approximate model training as a two stage process: early on in training when the attention weights are uniform, the model learns to translate individual input word `i` to `o` if they co-occur frequently. Later, the model learns to attend to `i` while the correct output is $o$ because it knows `i` translates to `o`. To formalize, we define a model property, Knowledge to Translate Individual Words (KTIW) (e.g. knowing that `i` translates to `o`), and claim that it drives the learning of the attention. This claim is supported by the fact that before the attention mechanism is learned, KTIW can be learned from word co-occurrence statistics, but not the other way around. Particularly, we can construct a training distribution that makes KTIW hard to learn, the learning of the attention fails, and the model cannot even learn the simple task of copying the input words to the output. Our approximation explains why models sometimes attend to salient words, and inspires a toy example where a multi-head attention model can overcome the above hard training distribution by improving learning dynamics rather than expressiveness.
翻訳日:2021-03-18 06:24:10 公開日:2021-03-13
# (参考訳) OmniFair: 機械学習におけるモデル非依存グループフェアネスの宣言システム

OmniFair: A Declarative System for Model-Agnostic Group Fairness in Machine Learning ( http://arxiv.org/abs/2103.09055v1 )

ライセンス: CC BY 4.0
Hantian Zhang, Xu Chu, Abolfazl Asudeh, Shamkant B. Navathe(参考訳) 機械学習(ML)は、私たちの社会における意思決定にますます使われています。 しかし、MLモデルは、様々な公正度指標に従って特定の人口集団(アフリカ系アメリカ人や女性など)に対して不公平である可能性がある。 フェアなMLモデルを生成する既存の技術は、処理可能なフェアネス制約の種類(例えば前処理)に制限されるか、下流のMLトレーニングアルゴリズム(例えば、内処理)に非自明な修正を必要とする。 MLにおけるグループフェアネスを支援するための宣言型システムOmniFairを提案する。 omnifairは、ユーザが希望するグループフェアネス制約を指定できる宣言型インターフェースを備えており、統計パリティ、等化オッズ、予測パリティを含む、一般的に使用されるすべてのグループフェアネス概念をサポートしている。 OmniFairは、選択したMLアルゴリズムの変更を必要としないという意味でも、モデルに依存しない。 OmniFairは複数のユーザが宣言した公正性制約を同時に実施する機能もサポートしている。 OmniFairのアルゴリズムは、指定された公正性制約を満たしながらモデル精度を最大化し、その効率は、我々のシステムに特有の正確性と公正性のトレードオフに関する理論的に証明可能な単調性特性に基づいて最適化される。 フェアネス文学における少数派に対する偏見を示すために、よく使われるデータセットの実験を行う。 我々は、OmniFairが既存のアルゴリズムフェアネスアプローチよりも、サポートされたフェアネス制約と下流MLモデルの両方の観点から、より汎用的であることを示す。 OmniFairは、第2のベストメソッドと比較して、9,4.8\%の精度損失を減らす。 OmniFairは、プリプロセッシングメソッドと同じような実行時間を実現しており、インプロセッシングメソッドよりも最大270\times$高速である。

Machine learning (ML) is increasingly being used to make decisions in our society. ML models, however, can be unfair to certain demographic groups (e.g., African Americans or females) according to various fairness metrics. Existing techniques for producing fair ML models either are limited to the type of fairness constraints they can handle (e.g., preprocessing) or require nontrivial modifications to downstream ML training algorithms (e.g., in-processing). We propose a declarative system OmniFair for supporting group fairness in ML. OmniFair features a declarative interface for users to specify desired group fairness constraints and supports all commonly used group fairness notions, including statistical parity, equalized odds, and predictive parity. OmniFair is also model-agnostic in the sense that it does not require modifications to a chosen ML algorithm. OmniFair also supports enforcing multiple user declared fairness constraints simultaneously while most previous techniques cannot. The algorithms in OmniFair maximize model accuracy while meeting the specified fairness constraints, and their efficiency is optimized based on the theoretically provable monotonicity property regarding the trade-off between accuracy and fairness that is unique to our system. We conduct experiments on commonly used datasets that exhibit bias against minority groups in the fairness literature. We show that OmniFair is more versatile than existing algorithmic fairness approaches in terms of both supported fairness constraints and downstream ML models. OmniFair reduces the accuracy loss by up to $94.8\%$ compared with the second best method. OmniFair also achieves similar running time to preprocessing methods, and is up to $270\times$ faster than in-processing methods.
翻訳日:2021-03-18 05:40:50 公開日:2021-03-13
# (参考訳) タスク削減による構成強化学習問題の解法

Solving Compositional Reinforcement Learning Problems via Task Reduction ( http://arxiv.org/abs/2103.07607v1 )

ライセンス: CC BY 4.0
Yunfei Li, Yilin Wu, Huazhe Xu, Xiaolong Wang, Yi Wu(参考訳) 本稿では,合成強化学習問題を解決するための新しい学習パラダイム,SIR(Self-Imitation via Reduction)を提案する。 SIRは2つの中核的な考え方に基づいている。 タスクリダクションは、RLエージェントによって解が知られている簡単なタスクに積極的に還元することで、解決し難いタスクに取り組む。 タスク削減によって元のハードタスクがうまく解決されると、エージェントは自然に模倣する自己生成のソリューション軌跡を得る。 このようなデモンストレーションを継続的に収集し模倣することにより、エージェントはタスク空間全体において解決された部分空間を徐々に拡張することができる。 実験の結果,sirは,構成構造を持つ難易度の低い連続制御問題において,学習を著しく促進し改善できることが示されている。

We propose a novel learning paradigm, Self-Imitation via Reduction (SIR), for solving compositional reinforcement learning problems. SIR is based on two core ideas: task reduction and self-imitation. Task reduction tackles a hard-to-solve task by actively reducing it to an easier task whose solution is known by the RL agent. Once the original hard task is successfully solved by task reduction, the agent naturally obtains a self-generated solution trajectory to imitate. By continuously collecting and imitating such demonstrations, the agent is able to progressively expand the solved subspace in the entire task space. Experiment results show that SIR can significantly accelerate and improve learning on a variety of challenging sparse-reward continuous-control problems with compositional structures.
翻訳日:2021-03-18 04:52:17 公開日:2021-03-13
# (参考訳) 圧縮レンズレス撮影のための無訓練ネットワーク

Untrained networks for compressive lensless photography ( http://arxiv.org/abs/2103.07609v1 )

ライセンス: CC BY 4.0
Kristina Monakhova, Vi Tran, Grace Kuo, Laura Waller(参考訳) 圧縮レンズレス撮像装置は、センサーの近くに位相または振幅マスクを配置するだけで、非常にコンパクトなデバイスで新しい応用を可能にする。 2dおよび3d顕微鏡、シングルショットビデオ、シングルショットハイパースペクトラルイメージングで実証されており、それぞれの場合において、2d計測から3dデータキューブを回収するために圧縮センシングに基づく逆問題を解く。 通常、これは凸最適化とハンドピックプリエントを使って達成される。 あるいは、ディープラーニングに基づく再構築手法は、より良い事前の約束を提供するが、何千もの真実のトレーニングペアを必要とするため、取得は困難または不可能である。 本研究では,圧縮画像回復のための非トレーニングネットワークを提案する。 我々の手法はラベル付きトレーニングデータを必要としないが、代わりに測定自体を使ってネットワークの重みを更新する。 我々は、レンズレス圧縮2Dイメージングの非トレーニングアプローチと、カメラのローリングシャッターを用いたシングルショット高速ビデオリカバリ、シングルショットハイパースペクトルイメージングを実証した。 シミュレーションと実験による検証を行い,既存の手法よりも画質が向上したことを示す。

Compressive lensless imagers enable novel applications in an extremely compact device, requiring only a phase or amplitude mask placed close to the sensor. They have been demonstrated for 2D and 3D microscopy, single-shot video, and single-shot hyperspectral imaging; in each of these cases, a compressive-sensing-based inverse problem is solved in order to recover a 3D data-cube from a 2D measurement. Typically, this is accomplished using convex optimization and hand-picked priors. Alternatively, deep learning-based reconstruction methods offer the promise of better priors, but require many thousands of ground truth training pairs, which can be difficult or impossible to acquire. In this work, we propose the use of untrained networks for compressive image recovery. Our approach does not require any labeled training data, but instead uses the measurement itself to update the network weights. We demonstrate our untrained approach on lensless compressive 2D imaging as well as single-shot high-speed video recovery using the camera's rolling shutter, and single-shot hyperspectral imaging. We provide simulation and experimental verification, showing that our method results in improved image quality over existing methods.
翻訳日:2021-03-18 04:23:40 公開日:2021-03-13
# (参考訳) 株価予測のための特徴学習はアナリストレーティングの重要な役割を示す

Feature Learning for Stock Price Prediction Shows a Significant Role of Analyst Rating ( http://arxiv.org/abs/2103.09106v1 )

ライセンス: CC BY 4.0
Jaideep Singh and Matloob Khushi(参考訳) 効率的な市場仮説を拒絶するために、5つの技術的指標と23の基本的な指標が特定され、株式市場で過剰なリターンを生み出す可能性を確立した。 これらのデータポイントと各種分類機械学習モデルを用いて,過去20年間の米国s&p500株505株のトレーディングデータを解析し,本研究に有効な分類器を開発した。 いずれの日でも、価格変更の方向性を10日以内の1%まで予測できたのです。 全体的な精度は83.62%で、購入信号の精度は85%、販売信号のリコールは100%だった。 さらに,株式をセクタ別にグループ化し,類似資産の集団化が肯定的な効果を示したが,セクタベース分析の考え方を否定する性能に有意な改善は認められなかったと結論づけた。 また、機能ランキングを使用することで、オリジナルの28機能と同様の精度を維持しながら、6つの指標のより小さなセットを特定できると同時に、モデルのトップコントリビュータとなったアナリスト評価の購入、保持、販売の重要性を明らかにしました。 最後に,実生活環境における分類器の有効性を評価するために,テストデータセットの期間において60%を超える高いリターンを生んだモデム取引戦略を用いてFAANG株をバックテストした。 結論として,提案手法は目的に選択された特徴を組み合わせることで従来の研究よりも改善し,信頼度が高く,かつ十分なバッファでロボット取引システムを構築することが可能な10日目の価格変化の方向を予測した。

To reject the Efficient Market Hypothesis a set of 5 technical indicators and 23 fundamental indicators was identified to establish the possibility of generating excess returns on the stock market. Leveraging these data points and various classification machine learning models, trading data of the 505 equities on the US S&P500 over the past 20 years was analysed to develop a classifier effective for our cause. From any given day, we were able to predict the direction of change in price by 1% up to 10 days in the future. The predictions had an overall accuracy of 83.62% with a precision of 85% for buy signals and a recall of 100% for sell signals. Moreover, we grouped equities by their sector and repeated the experiment to see if grouping similar assets together positively effected the results but concluded that it showed no significant improvements in the performance rejecting the idea of sector-based analysis. Also, using feature ranking we could identify an even smaller set of 6 indicators while maintaining similar accuracies as that from the original 28 features and also uncovered the importance of buy, hold and sell analyst ratings as they came out to be the top contributors in the model. Finally, to evaluate the effectiveness of the classifier in real-life situations, it was backtested on FAANG equities using a modest trading strategy where it generated high returns of above 60% over the term of the testing dataset. In conclusion, our proposed methodology with the combination of purposefully picked features shows an improvement over the previous studies, and our model predicts the direction of 1% price changes on the 10th day with high confidence and with enough buffer to even build a robotic trading system.
翻訳日:2021-03-18 03:49:23 公開日:2021-03-13
# (参考訳) SMOTE-ENC: 名目および連続的な特徴のための合成データを生成する新しいSMOTEベース手法

SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for nominal and continuous features ( http://arxiv.org/abs/2103.07612v1 )

ライセンス: CC BY 4.0
Mimi Mukherjee and Matloob Khushi(参考訳) 現実世界のデータセットは、いくつかのクラスが他のクラスに比較してかなり歪んでいる。 これらの状況では、機械学習アルゴリズムは、これらの未表現のインスタンスを予測しながら、実質的な有効性を達成することができない。 この問題を解決するために、連続的な特徴を扱うデータセットのバランスをとるために、合成マイノリティオーバーサンプリング法(SMOTE)の多くのバリエーションが提案されている。 しかし、名目上かつ連続的な特徴を持つデータセットの場合、SMOTE-NCはデータのバランスをとる唯一のSMOTEベースのオーバーサンプリング技術である。 本稿では,名目特徴を数値としてエンコードし,その2つの数値の差がマイノリティクラスとの関連の変化量を反映した,新たなマイノリティオーバーサンプリング法であるsmote-enc(smote)を提案する。 実験により,smote-enc法を用いた分類モデルは,データセットが相当数の名目的特徴を持つ場合と,分類的特徴と対象クラスとの相関がある場合において,smote-ncを用いたモデルよりも優れた予測を提供することが示された。 さらに,提案手法はSMOTE-NCアルゴリズムの主要な制約の一つに対処する。 SMOTE-NCは、連続的な特徴と名目的特徴の両方からなる特徴を持つ混合データセットにのみ適用でき、データセットのすべての機能が名目上は機能しない。 我々の新しい手法は混合データセットと名目のみのデータセットの両方に適用できるように一般化されている。 コードはmkhushi.github.ioから入手できる。

Real world datasets are heavily skewed where some classes are significantly outnumbered by the other classes. In these situations, machine learning algorithms fail to achieve substantial efficacy while predicting these under-represented instances. To solve this problem, many variations of synthetic minority over-sampling methods (SMOTE) have been proposed to balance the dataset which deals with continuous features. However, for datasets with both nominal and continuous features, SMOTE-NC is the only SMOTE-based over-sampling technique to balance the data. In this paper, we present a novel minority over-sampling method, SMOTE-ENC (SMOTE - Encoded Nominal and Continuous), in which, nominal features are encoded as numeric values and the difference between two such numeric value reflects the amount of change of association with minority class. Our experiments show that the classification model using SMOTE-ENC method offers better prediction than model using SMOTE-NC when the dataset has a substantial number of nominal features and also when there is some association between the categorical features and the target class. Additionally, our proposed method addressed one of the major limitations of SMOTE-NC algorithm. SMOTE-NC can be applied only on mixed datasets that have features consisting of both continuous and nominal features and cannot function if all the features of the dataset are nominal. Our novel method has been generalized to be applied on both mixed datasets and on nominal only datasets. The code is available from mkhushi.github.io
翻訳日:2021-03-18 03:31:17 公開日:2021-03-13
# (参考訳) 顔アライメント、頭部ポーズ推定、顔追跡のための効率的なマルチタスクニューラルネットワーク

An Efficient Multitask Neural Network for Face Alignment, Head Pose Estimation and Face Tracking ( http://arxiv.org/abs/2103.07615v1 )

ライセンス: CC BY 4.0
Jiahao Xia, Haimin Zhang, Shiping Wen, Shuo Yang and Min Xu(参考訳) 畳み込みニューラルネットワーク(CNN)は顔関連アルゴリズムの性能を大幅に向上させたが、実用上は精度と効率を同時に維持することは困難である。 近年の研究では、多数のボトムアップ層とトップダウン層からなる砂時計モジュールのカスケードを用いて、顔アライメントのための顔構造情報を抽出し、精度を向上させることが示されている。 しかし、従来の研究では、浅い畳み込み層が生み出す特徴がエッジと非常に一致していることが示されている。 これらの機能は、追加コストなしで構造情報を提供するために直接使用できる。 この直感により,効率的なマルチタスク顔アライメント,顔追跡,頭部ポーズ推定ネットワーク(ATPN)を提案する。 具体的には,浅層特徴と深層特徴とのショートカット接続を導入し,顔アライメントの構造情報を提供し,最後の数層にcoordconvを適用して座標情報を提供する。 予測された顔のランドマークは、頭部ポーズ推定のための幾何情報と外観情報の両方を含む安価なヒートマップを生成することができ、顔追跡のための注意情報も提供する。 さらに、顔追跡タスクは、各フレームの顔検出手順を省き、ビデオベースタスクのパフォーマンス向上に寄与する。 提案手法は,WFLW,300VW,WIDER Face,300W-LPの4つのベンチマークデータセットを用いて評価した。 実験の結果,ATPNは従来の最先端手法に比べて性能が向上し,パラメータやFLOPSは少ないことがわかった。

While convolutional neural networks (CNNs) have significantly boosted the performance of face related algorithms, maintaining accuracy and efficiency simultaneously in practical use remains challenging. Recent study shows that using a cascade of hourglass modules which consist of a number of bottom-up and top-down convolutional layers can extract facial structural information for face alignment to improve accuracy. However, previous studies have shown that features produced by shallow convolutional layers are highly correspond to edges. These features could be directly used to provide the structural information without addition cost. Motivated by this intuition, we propose an efficient multitask face alignment, face tracking and head pose estimation network (ATPN). Specifically, we introduce a shortcut connection between shallow-layer features and deep-layer features to provide the structural information for face alignment and apply the CoordConv to the last few layers to provide coordinate information. The predicted facial landmarks enable us to generate a cheap heatmap which contains both geometric and appearance information for head pose estimation and it also provides attention clues for face tracking. Moreover, the face tracking task saves us the face detection procedure for each frame, which is significant to boost performance for video-based tasks. The proposed framework is evaluated on four benchmark datasets, WFLW, 300VW, WIDER Face and 300W-LP. The experimental results show that the ATPN achieves improved performance compared to previous state-of-the-art methods while having less number of parameters and FLOPS.
翻訳日:2021-03-18 03:16:57 公開日:2021-03-13
# (参考訳) 公衆衛生のための多モジュール統合システムに基づくエスカレーター関連傷害の同定と予防

Potential Escalator-related Injury Identification and Prevention Based on Multi-module Integrated System for Public Health ( http://arxiv.org/abs/2103.07620v1 )

ライセンス: CC BY 4.0
Zeyu Jiao, Huan Lei, Hengshan Zong, Yingjie Cai, Zhenyu Zhong(参考訳) エスカレーター関連外傷は、エスカレーターの普及によって公衆衛生を脅かす。 既存の研究は、エスカレーターによる怪我の影響を減らすために、元の設計と欠陥の使用を反映した事後統計に焦点を当てる傾向があるが、現在進行中の負傷や差し迫った負傷にはほとんど注意が払われていない。 本研究では,コンピュータビジョンに基づくマルチモジュールエスカレーター安全監視システムを設計し,バランスの低下やハンドレールの保持,大型品の運搬など,3つの主な障害トリガーの同時監視と対処について提案する。 エスカレーター識別モジュールは、エスカレーター領域、すなわち関心領域を決定するために使用される。 乗客監視モジュールを利用して乗客の姿勢を推定し、エスカレーター上の安全でない行動を認識する。 危険な物体検出モジュールはエスカレーターに入る可能性のある大きなアイテムを検出し、警報を発する。 上記の3つのモジュールの処理結果は、システムのインテリジェントな決定の基礎として、安全性評価モジュールにまとめられている。 実験の結果,提案システムの性能は良好であり,応用可能性も高いことがわかった。

Escalator-related injuries threaten public health with the widespread use of escalators. The existing studies tend to focus on after-the-fact statistics, reflecting on the original design and use of defects to reduce the impact of escalator-related injuries, but few attention has been paid to ongoing and impending injuries. In this study, a multi-module escalator safety monitoring system based on computer vision is designed and proposed to simultaneously monitor and deal with three major injury triggers, including losing balance, not holding on to handrails and carrying large items. The escalator identification module is utilized to determine the escalator region, namely the region of interest. The passenger monitoring module is leveraged to estimate the passengers' pose to recognize unsafe behaviors on the escalator. The dangerous object detection module detects large items that may enter the escalator and raises alarms. The processing results of the above three modules are summarized in the safety assessment module as the basis for the intelligent decision of the system. The experimental results demonstrate that the proposed system has good performance and great application potential.
翻訳日:2021-03-18 03:01:08 公開日:2021-03-13
# (参考訳) 深層学習法による網膜芽細胞腫の早期診断

Early Prediction and Diagnosis of Retinoblastoma Using Deep Learning Techniques ( http://arxiv.org/abs/2103.07622v1 )

ライセンス: CC0 1.0
C. Anand Deva Durai, T Jemima Jebaseeli, Salem Alelyani, Azath Mubharakali(参考訳) 網膜芽細胞腫(Retinoblastoma)は、世界中の子供や成人の視覚に影響を及ぼす小児眼内悪性腫瘍である。 成人と比較・比較すると、ウビアルメラノーマである。 眼と周囲の構造物を埋めて破壊できる攻撃的な腫瘍である。 そのため、小児の網膜芽細胞腫の早期発見が鍵となる。 この研究の主な影響は、網膜の腫瘍細胞を特定することである。 また、腫瘍のステージとその対応するグループを見つけることを目的とする。 提案システムは、早期に網膜芽細胞腫の正確な予測と診断を眼科医に支援する。 提案手法の貢献は、幼児と成人児の視覚障害から命を救うことである。 提案手法は,前処理,分割,分類の3段階からなる。 当初、基底画像はLinner Predictive Decision based Median Filter (LPDMF)を用いて前処理される。 患者の眼を捉えたりスキャンしたりしながら、照明によって画像に発生するノイズを除去する。 前処理された画像は畳み込みニューラルネットワーク(cnn)を使用してセグメンテーションされ、前景の腫瘍細胞を背景から区別する。

Retinoblastoma is the most prominent childhood primary intraocular malignancy that impacts the vision of children and adults worldwide. In contrasting and comparing with adults it is uveal melanoma. It is an aggressive tumor that can fill and destroy the eye and the surrounding structures. Therefore early detection of retinoblastoma in childhood is the key. The major impact of the research is to identify the tumor cells in the retina. Also is to find out the stages of the tumor and its corresponding group. The proposed systems assist the ophthalmologists for accurate prediction and diagnosis of retinoblastoma cancer disease at the earliest. The contribution of the proposed approach is to save the life of infants and the grown-up children from vision impairment. The proposed methodology consists of three phases namely, preprocessing, segmentation, and classification. Initially, the fundus images are preprocessed using the Liner Predictive Decision based Median Filter (LPDMF). It removes the noise introduced in the image due to illumination while capturing or scanning the eye of the patients. The preprocessed images are segmented using the Convolutional Neural Network (CNN) to distinguish the foreground tumor cells from the background.
翻訳日:2021-03-18 02:44:56 公開日:2021-03-13
# (参考訳) 雑音ラベル補正のためのマニフォールドデータ分割によるアンサンブル学習

Ensemble Learning with Manifold-Based Data Splitting for Noisy Label Correction ( http://arxiv.org/abs/2103.07641v1 )

ライセンス: CC BY 4.0
Hao-Chiang Shao, Hsin-Chieh Wang, Weng-Tai Su, and Chia-Wen Lin(参考訳) トレーニングデータのラベルノイズは、教師付き学習タスクに対するモデルの一般化性能を著しく低下させる。 ここでは,ノイズラベルが,一様分布ではなく,決定境界付近に集中する傾向があり,その特徴が等価であるという問題に焦点をあてる。 そこで本研究では,特徴多様体の局所構造を利用して雑音ラベルを補正するアンサンブル学習手法を提案する。 ある損失項を通じてサブモデル間の予測の多様性を増大させる典型的なアンサンブル戦略とは異なり、本手法は分離部分集合上のサブモデルを訓練し、それぞれがデータ多様体上のランダムに選択されたシードサンプルの最も近い近辺の結合である。 その結果、各サブモデルは対応するグラフと共にデータ多様体の粗い表現を学習することができる。 さらに、局所集中型ノイズラベルの影響を受けるのは限られたサブモデルのみである。 構築したグラフはラベル補正候補の連続を示唆するために用いられ、その結果、不一致の提案を投票してラベル補正結果を導出する。 実世界の雑音ラベルデータセットに関する実験により,提案手法が既存の最先端技術よりも優れていることを示す。

Label noise in training data can significantly degrade a model's generalization performance for supervised learning tasks. Here we focus on the problem that noisy labels are primarily mislabeled samples, which tend to be concentrated near decision boundaries, rather than uniformly distributed, and whose features should be equivocal. To address the problem, we propose an ensemble learning method to correct noisy labels by exploiting the local structures of feature manifolds. Different from typical ensemble strategies that increase the prediction diversity among sub-models via certain loss terms, our method trains sub-models on disjoint subsets, each being a union of the nearest-neighbors of randomly selected seed samples on the data manifold. As a result, each sub-model can learn a coarse representation of the data manifold along with a corresponding graph. Moreover, only a limited number of sub-models will be affected by locally-concentrated noisy labels. The constructed graphs are used to suggest a series of label correction candidates, and accordingly, our method derives label correction results by voting down inconsistent suggestions. Our experiments on real-world noisy label datasets demonstrate the superiority of the proposed method over existing state-of-the-arts.
翻訳日:2021-03-18 02:31:15 公開日:2021-03-13
# (参考訳) 深層仮説を用いたロバストモデル圧縮

Robust Model Compression Using Deep Hypotheses ( http://arxiv.org/abs/2103.07668v1 )

ライセンス: CC BY 4.0
Omri Armstrong, Ran Gilad-Bachrach(参考訳) 機械学習モデルは理想的にはコンパクトで堅牢であるべきです。 コンパクト性は効率性と理解性を提供し、堅牢性はレジリエンスを提供する。 どちらの話題も近年研究されているが、孤立している。 ここでは,モデルタイプに依存しないロバストなモデル圧縮スキームを提案する。アンサンブルやニューラルネットワーク,その他のモデルを,さまざまな種類の小型モデルに圧縮することができる。 主要なビルディングブロックは、ロバスト統計から導かれる深さの概念である。 もともとの深さは、中央値が最も深い点であるようなサンプル内の点の中央値の尺度として導入された。 この概念は、仮説の深さと中央値仮説を定義することができる分類関数にまで拡張された。 アルゴリズムは中央値に近似するよう提案されているが、バイナリ分類に制限されている。 本研究では,マルチクラスタスクにおける深い仮説を発見し,その正当性を証明した新しいアルゴリズム,MEMOアルゴリズムを提案する。 これにより、堅牢なモデル圧縮のためのコンパクトロバスト推定メディア信念最適化(CREMBO)アルゴリズムが実現される。 ニューラルネットワークとランダムフォレストを、解釈可能なモデルである小さな決定木に圧縮することで、このアルゴリズムの成功を実証し、他の同等の手法よりも正確かつ堅牢であることを示す。 さらに,本手法がDNNからDNN圧縮における知識蒸留よりも優れていることを示す実験的検討を行った。

Machine Learning models should ideally be compact and robust. Compactness provides efficiency and comprehensibility whereas robustness provides resilience. Both topics have been studied in recent years but in isolation. Here we present a robust model compression scheme which is independent of model types: it can compress ensembles, neural networks and other types of models into diverse types of small models. The main building block is the notion of depth derived from robust statistics. Originally, depth was introduced as a measure of the centrality of a point in a sample such that the median is the deepest point. This concept was extended to classification functions which makes it possible to define the depth of a hypothesis and the median hypothesis. Algorithms have been suggested to approximate the median but they have been limited to binary classification. In this study, we present a new algorithm, the Multiclass Empirical Median Optimization (MEMO) algorithm that finds a deep hypothesis in multi-class tasks, and prove its correctness. This leads to our Compact Robust Estimated Median Belief Optimization (CREMBO) algorithm for robust model compression. We demonstrate the success of this algorithm empirically by compressing neural networks and random forests into small decision trees, which are interpretable models, and show that they are more accurate and robust than other comparable methods. In addition, our empirical study shows that our method outperforms Knowledge Distillation on DNN to DNN compression.
翻訳日:2021-03-18 01:48:27 公開日:2021-03-13
# (参考訳) uTHCD: タミル手書きOCRの新しいベンチマーク

uTHCD: A New Benchmarking for Tamil Handwritten OCR ( http://arxiv.org/abs/2103.07676v1 )

ライセンス: CC BY 4.0
Noushath Shaffi, Faizal Hajamohideen(参考訳) 手書き文字認識は文書画像解析の分野で数十年にわたって挑戦的な研究であり、大きな書き込みスタイルの変化、データ固有のノイズ、それが提供する拡張性のあるアプリケーション、ベンチマークデータベースの非使用性など多くの理由がある。 いくつかのIndicスクリプトのデータベース作成に関する文献ではかなりの研究が報告されているが、Tamilスクリプトは1つのデータベースにのみ報告されているため、まだ初期段階にある。 本稿では,完全かつ大規模に制約のないタミル手書き文字データベース(uthcd)の作成作業について述べる。 データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。 データベースはオンラインとオフラインの両方のサンプルの統合コレクションである。 オフラインサンプルは、ボランティアに特定のグリッド内のフォームにサンプルを書くように依頼することで収集された。 オンラインサンプルでは、ボランティアにデジタルライティングパッドを使って同様のグリッドを書かせました。 収集されたサンプルには、オフラインスキャンプロセスのビズストローク不連続性、ストロークの変動厚さ、歪みなど、さまざまな書き込みスタイルが含まれている。 このようなデータに耐性のあるアルゴリズムは、リアルタイムアプリケーションに事実上デプロイできる。 サンプルは、学校に行く子供たち、ホームメイカー、大学生、教員を含む約650人のタミル人ボランティアから得られた。 分離された文字データベースは、生画像と階層データファイル(HDF)圧縮ファイルとして公開されます。 このデータベースでは、タミル手書き文字認識の新しいベンチマークを設定し、文書画像解析ドメインの多くの分野のローンチパッドとして機能することを期待する。 また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。

Handwritten character recognition is a challenging research in the field of document image analysis over many decades due to numerous reasons such as large writing styles variation, inherent noise in data, expansive applications it offers, non-availability of benchmark databases etc. There has been considerable work reported in literature about creation of the database for several Indic scripts but the Tamil script is still in its infancy as it has been reported only in one database [5]. In this paper, we present the work done in the creation of an exhaustive and large unconstrained Tamil Handwritten Character Database (uTHCD). Database consists of around 91000 samples with nearly 600 samples in each of 156 classes. The database is a unified collection of both online and offline samples. Offline samples were collected by asking volunteers to write samples on a form inside a specified grid. For online samples, we made the volunteers write in a similar grid using a digital writing pad. The samples collected encompass a vast variety of writing styles, inherent distortions arising from offline scanning process viz stroke discontinuity, variable thickness of stroke, distortion etc. Algorithms which are resilient to such data can be practically deployed for real time applications. The samples were generated from around 650 native Tamil volunteers including school going kids, homemakers, university students and faculty. The isolated character database will be made publicly available as raw images and Hierarchical Data File (HDF) compressed file. With this database, we expect to set a new benchmark in Tamil handwritten character recognition and serve as a launchpad for many avenues in document image analysis domain. Paper also presents an ideal experimental set-up using the database on convolutional neural networks (CNN) with a baseline accuracy of 88% on test data.
翻訳日:2021-03-17 13:12:59 公開日:2021-03-13
# (参考訳) 鉱物探査のためのリモートセンシングデータ処理における機械学習の展望

A review of machine learning in processing remote sensing data for mineral exploration ( http://arxiv.org/abs/2103.07678v1 )

ライセンス: CC BY 4.0
Hojat Shirmard, Ehsan Farahbakhsh, Dietmar Muller, Rohitash Chandra(参考訳) 鉱物探査の第一段階として、リソロジー単位、変質タイプ、構造、鉱物などの様々な特徴がマッピングされる。 これらの特徴は鉱床をターゲットとした意思決定を支援するために抽出される。 衛星光とレーダー、空飛ぶ、およびドローンに基づくデータを含む異なる種類のリモートセンシングデータにより、これらの重要なパラメータをフィールドにマッピングする際の問題を克服することができる。 異なるプラットフォームから得られたリモートセンシングデータの量の増加により、科学者は高度で革新的で強力なデータ処理手法を開発できるようになった。 機械学習手法は、広範囲のリモートセンシングデータを処理し、反射率連続体と興味のある特徴との関係を決定するのに役立つ。 さらに、これらの手法は、ノイズや不確実性に対するスペクトルおよび地中真理測定の処理において堅牢である。 近年,リモートセンシングデータによる地質調査を補完して多くの研究が行われ,現在では地学研究のホットスポットとなっている。 本稿では,最近確立したリモートセンシングデータ処理のための機械学習手法の実装と適応について概説し,異なる鉱石鉱床を探索するための応用について検討する。 最後に,この学際的分野における課題と今後の方向性について考察する。

As a primary step in mineral exploration, a variety of features are mapped such as lithological units, alteration types, structures, and minerals. These features are extracted to aid decision-making in targeting ore deposits. Different types of remote sensing data including satellite optical and radar, airborne, and drone-based data make it possible to overcome problems associated with mapping these important parameters on the field. The rapid increase in the volume of remote sensing data obtained from different platforms has allowed scientists to develop advanced, innovative, and powerful data processing methodologies. Machine learning methods can help in processing a wide range of remote sensing data and in determining the relationship between the reflectance continuum and features of interest. Moreover, these methods are robust in processing spectral and ground truth measurements against noise and uncertainties. In recent years, many studies have been carried out by supplementing geological surveys with remote sensing data, and this area is now considered a hotspot in geoscience research. This paper reviews the implementation and adaptation of some popular and recently established machine learning methods for remote sensing data processing and investigates their applications for exploring different ore deposits. Lastly, the challenges and future directions in this critical interdisciplinary field are discussed.
翻訳日:2021-03-17 12:55:10 公開日:2021-03-13
# (参考訳) neuralhumanfvv: rgbカメラを用いたリアルタイム神経容積ヒトパフォーマンスレンダリング

NeuralHumanFVV: Real-Time Neural Volumetric Human Performance Rendering using RGB Cameras ( http://arxiv.org/abs/2103.07700v1 )

ライセンス: CC BY 4.0
Xin Suo and Yuheng Jiang and Pei Lin and Yingliang Zhang and Kaiwen Guo and Minye Wu and Lan Xu(参考訳) 没入型VR/AR体験において, 人間の活動の4次元再構成とレンダリングは重要であり, 近年の進歩は, 少ないマルチビューRGBカメラから入力画像の細部まで, 微細な形状やテクスチャの再現に失敗している。 本稿では,人間の活動の高品質な形状とフォトリアリスティックなテクスチャを任意の視点で生成する,リアルタイムのニューラルネットワークによるパフォーマンスキャプチャとレンダリングシステムであるneuralhumanfvvを提案する。 本研究では,リアルタイム暗黙的幾何推論のための階層的サンプリング戦略と,高分解能(1kなど)とフォトリアリスティックなテクスチャを新たに生成するニューラルブレンディング方式を提案する。 さらに、我々はニューラルノーマルブレンディングを採用し、幾何学の詳細を高め、ニューラルジオメトリーとテクスチャレンダリングをマルチタスク学習フレームワークに定式化する。 広範な実験により,高品質な幾何学とフォトリアリスティックな自由視点再構成を実現するためのアプローチの有効性が実証された。

4D reconstruction and rendering of human activities is critical for immersive VR/AR experience.Recent advances still fail to recover fine geometry and texture results with the level of detail present in the input images from sparse multi-view RGB cameras. In this paper, we propose NeuralHumanFVV, a real-time neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of human activities in arbitrary novel views. We propose a neural geometry generation scheme with a hierarchical sampling strategy for real-time implicit geometry inference, as well as a novel neural blending scheme to generate high resolution (e.g., 1k) and photo-realistic texture results in the novel views. Furthermore, we adopt neural normal blending to enhance geometry details and formulate our neural geometry and texture rendering into a multi-task learning framework. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and photo-realistic free view-point reconstruction for challenging human performances.
翻訳日:2021-03-17 11:11:53 公開日:2021-03-13
# (参考訳) エラー対応政策学習:部分的に観察可能な動的環境におけるゼロショット一般化

Error-Aware Policy Learning: Zero-Shot Generalization in Partially Observable Dynamic Environments ( http://arxiv.org/abs/2103.07732v1 )

ライセンス: CC BY 4.0
Visak Kumar, Sehoon Ha, C. Karen Liu(参考訳) シミュレーションは、複雑なロボットタスクを学習するための有用なデータを生成する安全で効率的な方法を提供する。 しかし、シミュレーションと実世界のダイナミクスのマッチングは非常に困難であり、特に多くの未観測または計測不可能なパラメータを持つシステムでは、ロボット自身やロボットが相互作用する環境にある可能性がある。 我々は,新しい環境に適応可能なポリシーをゼロショット方式で開発することにより,このようなシム・トゥ・リアルな問題に取り組むための新しいアプローチを提案する。 このアプローチの鍵となるのは、トレーニング中に観測不能な要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。 EAPは、エラー予測関数によって提供されるターゲット環境で予測される将来の状態エラーをEAPと同時にトレーニングする。 我々は、人間の外部からのプッシュからの回復を支援するために訓練された補助歩行装置に対するアプローチを検証する。 ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。 さらに,本手法は他の標準RL制御タスクにも適用可能であることを示す。

Simulation provides a safe and efficient way to generate useful data for learning complex robotic tasks. However, matching simulation and real-world dynamics can be quite challenging, especially for systems that have a large number of unobserved or unmeasurable parameters, which may lie in the robot dynamics itself or in the environment with which the robot interacts. We introduce a novel approach to tackle such a sim-to-real problem by developing policies capable of adapting to new environments, in a zero-shot manner. Key to our approach is an error-aware policy (EAP) that is explicitly made aware of the effect of unobservable factors during training. An EAP takes as input the predicted future state error in the target environment, which is provided by an error-prediction function, simultaneously trained with the EAP. We validate our approach on an assistive walking device trained to help the human user recover from external pushes. We show that a trained EAP for a hip-torque assistive device can be transferred to different human agents with unseen biomechanical characteristics. In addition, we show that our method can be applied to other standard RL control tasks.
翻訳日:2021-03-17 10:47:50 公開日:2021-03-13
# (参考訳) ReDet: 空中物体検出のための回転同変検出器

ReDet: A Rotation-equivariant Detector for Aerial Object Detection ( http://arxiv.org/abs/2103.07733v1 )

ライセンス: CC BY 4.0
Jiaming Han and Jian Ding and Nan Xue and Gui-Song Xia(参考訳) 近年,空中画像における物体検出がコンピュータビジョンにおいて注目されている。 自然画像の物体と異なり、空中の物体はしばしば任意の方向で分布する。 したがって、検出器は方向情報を符号化するためにより多くのパラメータを必要とする。 さらに、通常のcnnは方位変化を明示的にモデル化しないので、正確な物体検出器の訓練には大量の回転拡張データが必要である。 本稿では、回転同変検出器(redet)を提案し、回転同変と回転不変性を明示的に符号化する。 より正確には、回転同変ネットワークを検出器に組み込んで回転同変特性を抽出し、方位を正確に予測し、モデルサイズを大幅に削減する。 回転同値な特徴に基づいて、回転不変なroiアライメント(riroiアライメント)も提示し、roiの向きに応じて同値な特徴から回転不変な特徴を適応的に抽出する。 航空画像データセット DOTA-v1.0, DOTA-v1.5, HRSC2016 の大規模実験により, 本手法は空中物体検出のタスクにおいて, 最先端の性能を実現することができることを示した。 従来の結果と比較すると, DOTA-v1.0, DOTA-v1.5, HRSC2016では1.2, 3.5, 2.6mAP, パラメータ数は60\%減少する(313Mb vs. 121Mb)。 コードは: \url{https://github.com/csuhan/ReDet}で入手できる。

Recently, object detection in aerial images has gained much attention in computer vision. Different from objects in natural images, aerial objects are often distributed with arbitrary orientation. Therefore, the detector requires more parameters to encode the orientation information, which are often highly redundant and inefficient. Moreover, as ordinary CNNs do not explicitly model the orientation variation, large amounts of rotation augmented data is needed to train an accurate object detector. In this paper, we propose a Rotation-equivariant Detector (ReDet) to address these issues, which explicitly encodes rotation equivariance and rotation invariance. More precisely, we incorporate rotation-equivariant networks into the detector to extract rotation-equivariant features, which can accurately predict the orientation and lead to a huge reduction of model size. Based on the rotation-equivariant features, we also present Rotation-invariant RoI Align (RiRoI Align), which adaptively extracts rotation-invariant features from equivariant features according to the orientation of RoI. Extensive experiments on several challenging aerial image datasets DOTA-v1.0, DOTA-v1.5 and HRSC2016, show that our method can achieve state-of-the-art performance on the task of aerial object detection. Compared with previous best results, our ReDet gains 1.2, 3.5 and 2.6 mAP on DOTA-v1.0, DOTA-v1.5 and HRSC2016 respectively while reducing the number of parameters by 60\% (313 Mb vs. 121 Mb). The code is available at: \url{https://github.com/csuhan/ReDet}.
翻訳日:2021-03-17 10:28:56 公開日:2021-03-13
# (参考訳) 非破壊試験用画像分割法

Image Segmentation Methods for Non-destructive testing Applications ( http://arxiv.org/abs/2103.07754v1 )

ライセンス: CC BY 4.0
EL-Hachemi Guerrout, Ramdane Mahiou, Randa Boukabene, and Assia Ouali(参考訳) 本稿では,隠れマルコフ確率場(HMRF)とカッコウ探索(CS)の変種に基づく画像分割手法を提案する。 HMRFはセグメンテーション問題をエネルギー関数の最小化としてモデル化する。 CSアルゴリズムは最近の強力な最適化手法の1つである。 したがって、CSアルゴリズムの5つの変種が解を計算するために用いられる。 テストを通じて,良好な結果を与えるパラメータ(セグメンテーションの実行時間と品質)を持つcs変種を選択するための研究を行った。 非破壊検査(NDT)画像を誤分類誤差(ME)基準を用いて評価し,比較した。

In this paper, we present new image segmentation methods based on hidden Markov random fields (HMRFs) and cuckoo search (CS) variants. HMRFs model the segmentation problem as a minimization of an energy function. CS algorithm is one of the recent powerful optimization techniques. Therefore, five variants of the CS algorithm are used to compute a solution. Through tests, we conduct a study to choose the CS variant with parameters that give good results (execution time and quality of segmentation). CS variants are evaluated and compared with non-destructive testing (NDT) images using a misclassification error (ME) criterion.
翻訳日:2021-03-17 10:10:44 公開日:2021-03-13
# (参考訳) 特徴依存ラベルノイズによる学習の進歩的アプローチ

Learning with Feature Dependent Label Noise: a Progressive Approach ( http://arxiv.org/abs/2103.07756v1 )

ライセンス: CC BY 4.0
Yikai Zhang, Songzhu Zheng, Pengxiang Wu, Mayank Goswami, Chao Chen(参考訳) ラベルノイズは、現実世界の大規模データセットで頻繁に観測される。 ノイズは様々な理由で導入され、不均一で特徴に依存している。 ノイズラベルを扱う既存のアプローチのほとんどは、理想的な機能非依存のノイズを仮定するか、理論的保証なしにヒューリスティックであるかの2つのカテゴリに分類される。 本稿では,一般的なi.i.d.よりもはるかに一般的な特徴依存ラベルノイズの新たなファミリーを対象とする。 ノイズをラベル付けし、幅広いノイズパターンを包含する。 本稿では,この一般ノイズファミリーに着目し,ラベルを反復的に修正し,モデルを洗練するプログレッシブラベル補正アルゴリズムを提案する。 我々は、様々な(未知)ノイズパターンに対して、この戦略で訓練された分類器がベイズ分類器と一致するように収束することを示す理論的保証を提供する。 実験では,sotaベースラインを上回り,様々なノイズタイプやレベルに対して頑健である。

Label noise is frequently observed in real-world large-scale datasets. The noise is introduced due to a variety of reasons; it is heterogeneous and feature-dependent. Most existing approaches to handling noisy labels fall into two categories: they either assume an ideal feature-independent noise, or remain heuristic without theoretical guarantees. In this paper, we propose to target a new family of feature-dependent label noise, which is much more general than commonly used i.i.d. label noise and encompasses a broad spectrum of noise patterns. Focusing on this general noise family, we propose a progressive label correction algorithm that iteratively corrects labels and refines the model. We provide theoretical guarantees showing that for a wide variety of (unknown) noise patterns, a classifier trained with this strategy converges to be consistent with the Bayes classifier. In experiments, our method outperforms SOTA baselines and is robust to various noise types and levels.
翻訳日:2021-03-17 10:01:37 公開日:2021-03-13
# (参考訳) 好奇心駆動型アクティブラーニングによるオブジェクトのオンライン学習

Online Learning of Objects through Curiosity-Driven Active Learning ( http://arxiv.org/abs/2103.07758v1 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) 子供たちは最も興味のある概念について質問することで継続的に学習します。 ロボットが社会の不可欠な部分になるにつれ、人間に問いかけることによって、未知の概念を継続的に学ばなければならない。 本稿では,好奇心駆動型オンライン学習のための新しいフレームワークを提案する。 本稿は,最近の最先端学習手法を応用し,オブジェクトのオンライン学習に適用する。 さらに, 学習したクラスの内部表現を用いて, 環境内の不確かさのほとんどを探索する自己教師あり手法を開発した。 ロボット上で連続学習を行うためのベンチマークデータセットで,本手法をテストした。 その結果,我々の好奇心駆動型オンライン学習手法は,分類精度と学習クラス数でランダムサンプリングとソフトマックスに基づく不確実性サンプリングに勝っていることがわかった。

Children learn continually by asking questions about the concepts they are most curious about. With robots becoming an integral part of our society, they must also learn unknown concepts continually by asking humans questions. This paper presents a novel framework for curiosity-driven online learning of objects. The paper utilizes a recent state-of-the-art approach for continual learning and adapts it for online learning of objects. The paper further develops a self-supervised technique to find most of the uncertain objects in an environment by utilizing an internal representation of previously learned classes. We test our approach on a benchmark dataset for continual learning on robots. Our results show that our curiosity-driven online learning approach beats random sampling and softmax-based uncertainty sampling in terms of classification accuracy and the total number of classes learned.
翻訳日:2021-03-17 09:33:50 公開日:2021-03-13
# (参考訳) OkwuGb\'e: FonとIgboのエンドツーエンド音声認識

OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo ( http://arxiv.org/abs/2103.07762v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 言語は人間のコミュニケーションには本質的に必須である。 書き言葉か話し言葉かにかかわらず、同じ地域の人々と異なる地域の人々の間での理解が保証される。 NLP研究に低リソース言語を取り入れることへの認識と努力が高まり、近年、アフリカ言語は機械翻訳やその他のNLPのテキストベースの分野の研究の中心となっている。 しかし、いまだにアフリカの言語の音声認識に匹敵する研究は少ない。 興味深いことに、nlpに影響を及ぼすアフリカ語の特徴、例えばダイアクリティカルや声調の複合性は、言語の主要な根源であり、注意深い音声解釈は、テキストベースのnlpのためのアフリカの言語の言語的複雑さに対処するためのより直感的な方法をもたらす可能性があることを示唆している。 OkwuGb\'eは、アフリカの低リソース言語のための音声認識システムを構築するためのステップである。 Fon と Igbo をケーススタディとして,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。 本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。 我々の言語分析(FonとIgbo)は、他のアフリカの低リソース言語のための音声認識モデルの作成に関する貴重な洞察とガイダンスを提供し、FonとIgboの今後のNLP研究をガイドする。 FonとIgboモデルのソースコードが公開されている。

Language is inherent and compulsory for human communication. Whether expressed in a written or spoken way, it ensures understanding between people of the same and different regions. With the growing awareness and effort to include more low-resourced languages in NLP research, African languages have recently been a major subject of research in machine translation, and other text-based areas of NLP. However, there is still very little comparable research in speech recognition for African languages. Interestingly, some of the unique properties of African languages affecting NLP, like their diacritical and tonal complexities, have a major root in their speech, suggesting that careful speech interpretation could provide more intuition on how to deal with the linguistic complexities of African languages for text-based NLP. OkwuGb\'e is a step towards building speech recognition systems for African low-resourced languages. Using Fon and Igbo as our case study, we conduct a comprehensive linguistic analysis of each language and describe the creation of end-to-end, deep neural network-based speech recognition models for both languages. We present a state-of-art ASR model for Fon, as well as benchmark ASR model results for Igbo. Our linguistic analyses (for Fon and Igbo) provide valuable insights and guidance into the creation of speech recognition models for other African low-resourced languages, as well as guide future NLP research for Fon and Igbo. The Fon and Igbo models source code have been made publicly available.
翻訳日:2021-03-17 09:23:48 公開日:2021-03-13
# (参考訳) ネットワーク侵入のための画像分類器

Image Classifiers for Network Intrusions ( http://arxiv.org/abs/2103.07765v1 )

ライセンス: CC BY-SA 4.0
David A. Noever, Samantha E. Miller Noever(参考訳) 本研究では,UNSW-NB15のネットワーク攻撃データセットを画像空間の侵入検出問題として再放送する。 1ホットエンコーディングを使うことで、グレースケールのサムネイルはディープラーニングアルゴリズムの4分の1の例を提供する。 MobileNetV2の畳み込みニューラルネットワークアーキテクチャを適用することで、通常のトラフィックとアタックトラフィックを区別する精度が97%向上した。 9つの攻撃ファミリー(爆発、ワーム、シェルコード)に対するさらなるクラス改良は、全体の56%の精度を示している。 特徴の重要度ランクを用いることで、サブセット上のランダムフォレストソリューションは、主にあいまいなプロトコルとして最も重要なソース運命要因と最重要でない要素を示す。 データセットはKaggleで入手できる。

This research recasts the network attack dataset from UNSW-NB15 as an intrusion detection problem in image space. Using one-hot-encodings, the resulting grayscale thumbnails provide a quarter-million examples for deep learning algorithms. Applying the MobileNetV2's convolutional neural network architecture, the work demonstrates a 97% accuracy in distinguishing normal and attack traffic. Further class refinements to 9 individual attack families (exploits, worms, shellcodes) show an overall 56% accuracy. Using feature importance rank, a random forest solution on subsets show the most important source-destination factors and the least important ones as mainly obscure protocols. The dataset is available on Kaggle.
翻訳日:2021-03-17 08:58:20 公開日:2021-03-13
# (参考訳) 知識グラフを用いた会話質問応答のための重み付きポインタネットワークを用いた文脈変換器

Context Transformer with Stacked Pointer Networks for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2103.07766v1 )

ライセンス: CC BY 4.0
Joan Plepi, Endri Kacupaj, Kuldeep Singh, Harsh Thakkar, Jens Lehmann(参考訳) ニューラルセマンティックパーシングアプローチは知識グラフ上の質問応答(QA)システムに広く用いられている。 このような方法は複雑なクエリと多数のエンティティでQAデータセットを処理する柔軟性を提供する。 本研究では,大規模知識グラフ上での対話型質問応答問題を扱うために,マルチタスク意味解析を行うcartonという新しいフレームワークを提案する。 本フレームワークは,入力質問と対話履歴を解析するコンテキストトランスフォーマーモデルの拡張として,ポインタネットワークのスタックで構成されている。 このフレームワークは、知識グラフ上で実行できる一連のアクションを生成する。 我々は、cartonがすべてのベースラインを上回る複雑な逐次質問応答のための標準データセット上でcartonを評価する。 具体的には,10問中8問において,F1スコアの性能改善を先行技術と比較した。 論理的な推論問題では、11の絶対点の改善が達成される。

Neural semantic parsing approaches have been widely used for Question Answering (QA) systems over knowledge graphs. Such methods provide the flexibility to handle QA datasets with complex queries and a large number of entities. In this work, we propose a novel framework named CARTON, which performs multi-task semantic parsing for handling the problem of conversational question answering over a large-scale knowledge graph. Our framework consists of a stack of pointer networks as an extension of a context transformer model for parsing the input question and the dialog history. The framework generates a sequence of actions that can be executed on the knowledge graph. We evaluate CARTON on a standard dataset for complex sequential question answering on which CARTON outperforms all baselines. Specifically, we observe performance improvements in F1-score on eight out of ten question types compared to the previous state of the art. For logical reasoning questions, an improvement of 11 absolute points is reached.
翻訳日:2021-03-17 08:52:37 公開日:2021-03-13
# (参考訳) paraqa: 単ターン会話のためのparaphrase応答付き質問応答データセット

ParaQA: A Question Answering Dataset with Paraphrase Responses for Single-Turn Conversation ( http://arxiv.org/abs/2103.07771v1 )

ライセンス: CC BY 4.0
Endri Kacupaj, Barshana Banerjee, Kuldeep Singh, Jens Lehmann(参考訳) 本稿では,知識グラフ(KG)上での1ターン会話に対して,複数のパラフレーズ応答を持つ質問応答(QA)データセットParaQAを提案する。 データセットは半自動的なフレームワークを使って、バックトランスレーションのようなテクニックを使って、さまざまな回答のパラフレージングを生成する。 kgs(single-turn/multi-turn)を超える会話型質問応答のための既存のデータセットは、質問パラフレーズに注目し、最大1つの回答のみを提供する。 しかし、ParaQAには5000の質問応答対があり、各質問に対して最低2つ、最大8つの独自のパラフレーズ応答がある。 ベースラインモデルでデータセットを補完し、BLEUやMETEORといった一般的なメトリクスを通じて複数のパラフレーズの答えを持つ利点を示す。 ParaQAデータセットは、研究コミュニティで広く使用および適応するために、永続的なURIで公開されています。

This paper presents ParaQA, a question answering (QA) dataset with multiple paraphrased responses for single-turn conversation over knowledge graphs (KG). The dataset was created using a semi-automated framework for generating diverse paraphrasing of the answers using techniques such as back-translation. The existing datasets for conversational question answering over KGs (single-turn/multi-turn) focus on question paraphrasing and provide only up to one answer verbalization. However, ParaQA contains 5000 question-answer pairs with a minimum of two and a maximum of eight unique paraphrased responses for each question. We complement the dataset with baseline models and illustrate the advantage of having multiple paraphrased answers through commonly used metrics such as BLEU and METEOR. The ParaQA dataset is publicly available on a persistent URI for broader usage and adaptation in the research community.
翻訳日:2021-03-17 08:33:29 公開日:2021-03-13
# (参考訳) インテリジェントチュータシステムにおけるパーソナライズされたフィードバック生成のためのディープ・ディスコース解析

Deep Discourse Analysis for Generating Personalized Feedback in Intelligent Tutor Systems ( http://arxiv.org/abs/2103.07785v1 )

ライセンス: CC BY 4.0
Matt Grenander, Robert Belfer, Ekaterina Kochmar, Iulian V. Serban, Fran\c{c}ois St-Hilaire, Jackie C. K. Cheung(参考訳) 知的学習システム(ITS)における自動的、パーソナライズされたフィードバックの作成について検討する。 我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。 パーソナライズされたフィードバックを提供するための自動手法は存在するが、どの概念が正しいかは学生に明確に知らせるものではない。 提案手法は,ニューラルな談話セグメンテーションと分類手法を用いて,学生の回答を分解する。 この分解は、参照解と学生の回答によってカバーされる全ての談話単位上の関係グラフをもたらす。 この推論関係グラフ構造とニューラル分類器を用いて,生徒の回答を参照解とマッチングし,パーソナライズされたフィードバックを生成する。 プロセスは完全に自動化され、データ駆動であるが、パーソナライズされたフィードバックは、高度にコンテキストに依存し、ドメイン認識され、各学生の誤解や知識ギャップを効果的に狙う。 本手法は対話型itsでテストし,高品質なフィードバックが得られ,学生の学習効果が著しく向上することを示す。

We explore creating automated, personalized feedback in an intelligent tutoring system (ITS). Our goal is to pinpoint correct and incorrect concepts in student answers in order to achieve better student learning gains. Although automatic methods for providing personalized feedback exist, they do not explicitly inform students about which concepts in their answers are correct or incorrect. Our approach involves decomposing students answers using neural discourse segmentation and classification techniques. This decomposition yields a relational graph over all discourse units covered by the reference solutions and student answers. We use this inferred relational graph structure and a neural classifier to match student answers with reference solutions and generate personalized feedback. Although the process is completely automated and data-driven, the personalized feedback generated is highly contextual, domain-aware and effectively targets each student's misconceptions and knowledge gaps. We test our method in a dialogue-based ITS and demonstrate that our approach results in high-quality feedback and significantly improved student learning gains.
翻訳日:2021-03-17 08:20:10 公開日:2021-03-13
# (参考訳) ゼロショットクロスリンガルインテント予測とスロット充填のための多言語コードスイッチング

Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent Prediction and Slot Filling ( http://arxiv.org/abs/2103.07792v1 )

ライセンス: CC BY 4.0
Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, and Huzefa Rangwala(参考訳) ユーザーの意図を予測し、テキストから対応するスロットを検出することは、自然言語理解(NLU)の2つの重要な問題です。 ゼロショット学習の文脈では、このタスクは通常、mBERTのような事前訓練された多言語変換器の表現を使用するか、または、ソースデータを既知のターゲット言語に翻訳し、微調整することでアプローチされる。 私達の仕事は訓練の間にターゲット言語が未知である特定のシナリオに焦点を合わせます。 そこで本研究では,マルチリンガルコード切替をランダム翻訳で用いることにより,下流タスクの微調整時にトランスの言語中立性を高めるために,モノリンガルソースデータを強化する新しい手法を提案する。 この方法は、世界中の異なる言語家族とのコードスイッチングがターゲット言語のパフォーマンスにどのように影響するかという、新しい洞察の発見にも役立ちます。 MultiATIS++のベンチマークデータセットに関する実験では、インテントタスクの精度は平均4.2%、スロットタスクの+1.8%を8つの異なる言語で最先端の手法で改善した。 さらに,ハイチ地震時に収集された英語およびハイチクレオールのスロット充填の新たな人為的ツイートデータセットを用いて,危機情報学への応用について述べる。

Predicting user intent and detecting the corresponding slots from text are two key problems in Natural Language Understanding (NLU). In the context of zero-shot learning, this task is typically approached by either using representations from pre-trained multilingual transformers such as mBERT, or by machine translating the source data into the known target language and then fine-tuning. Our work focuses on a particular scenario where the target language is unknown during training. To this goal, we propose a novel method to augment the monolingual source data using multilingual code-switching via random translations to enhance a transformer's language neutrality when fine-tuning it for a downstream task. This method also helps discover novel insights on how code-switching with different language families around the world impact the performance on the target language. Experiments on the benchmark dataset of MultiATIS++ yielded an average improvement of +4.2% in accuracy for intent task and +1.8% in F1 for slot task using our method over the state-of-the-art across 8 different languages. Furthermore, we present an application of our method for crisis informatics using a new human-annotated tweet dataset of slot filling in English and Haitian Creole, collected during Haiti earthquake disaster.
翻訳日:2021-03-17 07:31:47 公開日:2021-03-13
# (参考訳) ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution Images

ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution Images ( http://arxiv.org/abs/2103.07798v1 )

ライセンス: CC BY-SA 4.0
Yaoyu Hu, Wenshan Wang, Huai Yu, Weikun Zhen, Sebastian Scherer(参考訳) 小さな画像でトレーニングされたステレオ再構成モデルは、高解像度データにうまく一般化しない。 高解像度画像サイズでモデルをトレーニングすることは、データ可用性の難しさに直面している。 本研究では,これらの問題に対処すべく,利用可能な低偏差域ステレオ画像のみを訓練するOcclusion-aware Recurrent Binocular Stereo Match (ORStereo) を提案する。 ORStereoは、タスクを初期予測の残差更新と改善として定式化し、大きな異なる範囲の高解像度画像を目にしないように一般化する。 ORStereoは256ピクセルに制限のある画像でトレーニングされているが、4K解像度の入力を1000以上の差分で動作させることができる。 合成画像と実世界の高解像度画像の両方でモデルの能力をテストします。 実験結果は、ORStereoが4K解像度画像に対して比較性能を発揮することを実証した。 低解像度画像でのみ訓練される他の方法と比較して、4K解像度画像でより70%精度が高い。

Stereo reconstruction models trained on small images do not generalize well to high-resolution data. Training a model on high-resolution image size faces difficulties of data availability and is often infeasible due to limited computing resources. In this work, we present the Occlusion-aware Recurrent binocular Stereo matching (ORStereo), which deals with these issues by only training on available low disparity range stereo images. ORStereo generalizes to unseen high-resolution images with large disparity ranges by formulating the task as residual updates and refinements of an initial prediction. ORStereo is trained on images with disparity ranges limited to 256 pixels, yet it can operate 4K-resolution input with over 1000 disparities using limited GPU memory. We test the model's capability on both synthetic and real-world high-resolution images. Experimental results demonstrate that ORStereo achieves comparable performance on 4K-resolution images compared to state-of-the-art methods trained on large disparity ranges. Compared to other methods that are only trained on low-resolution images, our method is 70% more accurate on 4K-resolution images.
翻訳日:2021-03-17 06:54:12 公開日:2021-03-13
# (参考訳) 機械学習システムのトレーニングのためのハイブリッドコンピュータアプローチ

Hybrid computer approach to train a machine learning system ( http://arxiv.org/abs/2103.07802v1 )

ライセンス: CC BY 4.0
Mirko Holzer, Bernd Ulmann(参考訳) 本章では,ハイブリッドコンピュータによる機械学習システムの学習への新しいアプローチについて述べる。 アナログコンピュータと密に結合されたデジタルコンピュータ。 例えば、強化学習システムは、アナログコンピュータ上でシミュレートされた逆振子のバランスをとるために訓練され、強化学習の環境を適切にシミュレートする大きな課題に対する解決策が示される。

This book chapter describes a novel approach to training machine learning systems by means of a hybrid computer setup i.e. a digital computer tightly coupled with an analog computer. As an example a reinforcement learning system is trained to balance an inverted pendulum which is simulated on an analog computer, thus demonstrating a solution to the major challenge of adequately simulating the environment for reinforcement learning.
翻訳日:2021-03-17 06:37:15 公開日:2021-03-13
# 騒音状態における教師付き学習:ICD-10コード分類への応用

Supervised Learning in the Presence of Noise: Application in ICD-10 Code Classification ( http://arxiv.org/abs/2103.07808v1 )

ライセンス: Link先を確認
Youngwoo Kim, Cheng Li, Bingyang Ye, Amir Tahmasebi and Javed Aslam(参考訳) ICDコーディングは、健康状態の把握と報告、およびヘルスケアにおける収益サイクル管理のための診断のための国際標準です。 手動でICDコードを割り当てるのは、大きなコードの語彙とコード間の類似性のためにヒューマンエラーになりがちです。 機械学習に基づくアプローチは基礎的真理トレーニングデータを必要とするため、人間のコーダ間の不整合はラベリングのノイズとして表され、そのようなノイズの存在下でICD分類器のトレーニングと評価が困難になります。 本稿では,手作業で割り当てられたicd-10符号の雑音特性について検討し,ラベルノイズが存在する場合に頑健なicd-10分類器を訓練する方法を提案する。 我々の研究は、そのような騒音の性質は体系的であると結論づけた。 ラベルノイズを処理する既存の方法のほとんどは、ノイズが完全にランダムであり、機能やラベルに依存しないことを前提としています。 そこで,体系的雑音の存在下でロバスト分類器を訓練する新しい手法を開発した。 まず、ICD-10階層内のコードの位置、コードの種類、ベースライン分類器の予測行動に基づいて、人間のコーダが誤用または混同する傾向にあるICD-10コードを特定し、そのようなノイズを考慮に入れた新たなトレーニング戦略を開発する。 提案手法は,ラベルノイズを扱わないベースラインとランダムノイズを想定するベースラインを比較し,専門家の検証ラベルで評価した場合,提案手法がすべてのベースラインを上回ることを示した。

ICD coding is the international standard for capturing and reporting health conditions and diagnosis for revenue cycle management in healthcare. Manually assigning ICD codes is prone to human error due to the large code vocabulary and the similarities between codes. Since machine learning based approaches require ground truth training data, the inconsistency among human coders is manifested as noise in labeling, which makes the training and evaluation of ICD classifiers difficult in presence of such noise. This paper investigates the characteristics of such noise in manually-assigned ICD-10 codes and furthermore, proposes a method to train robust ICD-10 classifiers in the presence of labeling noise. Our research concluded that the nature of such noise is systematic. Most of the existing methods for handling label noise assume that the noise is completely random and independent of features or labels, which is not the case for ICD data. Therefore, we develop a new method for training robust classifiers in the presence of systematic noise. We first identify ICD-10 codes that human coders tend to misuse or confuse, based on the codes' locations in the ICD-10 hierarchy, the types of the codes, and baseline classifier's prediction behaviors; we then develop a novel training strategy that accounts for such noise. We compared our method with the baseline that does not handle label noise and the baseline methods that assume random noise, and demonstrated that our proposed method outperforms all baselines when evaluated on expert validated labels.
翻訳日:2021-03-16 14:33:16 公開日:2021-03-13
# ヒューマンファクトチェッカー支援のための自動ファクトチェック

Automated Fact-Checking for Assisting Human Fact-Checkers ( http://arxiv.org/abs/2103.07769v1 )

ライセンス: Link先を確認
Preslav Nakov, David Corney, Maram Hasanain, Firoj Alam, Tamer Elsayed, Alberto Barr\'on-Cede\~no, Paolo Papotti, Shaden Shaar, Giovanni Da San Martino(参考訳) 世界中の現在のイベントの報告と分析は、プロの編集者主導のジャーナリズムから市民ジャーナリズムまで広がっています。 政治家や他の主要なプレイヤーは、公式のケーブルや伝統的なメディアのフィルターをバイパスして、ソーシャルメディアを通じて聴衆に直接アクセスすることを楽しむ。 しかし、フリースピーチとダイレクトコミュニケーションの複数の利点は、不正確または誤解を招く主張を広めるためにメディアの誤用によって薄められています。 これらの現象はファクトチェッカーの現代化につながり、その主な目的は、自分の正確性を評価するために利用可能な証拠を使って主張を調べることである。 他のテキストフォレンジックタスクと同様に、利用可能な情報の量はファクトチェッカーの仕事をより困難にします。 このことを念頭において、プロのファクトチェック者の視点から、ファクトチェック活動のさまざまなステップにおいて、人間専門家を支援することのできる知的な技術について調査する。 これには、ファクトチェックに値するクレームの特定、関連するファクトチェックされたクレームの検出、ファクトチェックのための関連する証拠の検索、クレームの実際の検証が含まれる。 いずれの場合も,今後の作業における課題と,実世界のファクトチェックへの影響に注意を払っています。

The reporting and analysis of current events around the globe has expanded from professional, editor-lead journalism all the way to citizen journalism. Politicians and other key players enjoy direct access to their audiences through social media, bypassing the filters of official cables or traditional media. However, the multiple advantages of free speech and direct communication are dimmed by the misuse of the media to spread inaccurate or misleading claims. These phenomena have led to the modern incarnation of the fact-checker -- a professional whose main aim is to examine claims using available evidence to assess their veracity. As in other text forensics tasks, the amount of information available makes the work of the fact-checker more difficult. With this in mind, starting from the perspective of the professional fact-checker, we survey the available intelligent technologies that can support the human expert in the different steps of her fact-checking endeavor. These include identifying claims worth fact-checking; detecting relevant previously fact-checked claims; retrieving relevant evidence to fact-check a claim; and actually verifying a claim. In each case, we pay attention to the challenges in future work and the potential impact on real-world fact-checking.
翻訳日:2021-03-16 14:32:25 公開日:2021-03-13
# クリーン入力からノイズ入力への学生教師の学習

Student-Teacher Learning from Clean Inputs to Noisy Inputs ( http://arxiv.org/abs/2103.07600v1 )

ライセンス: Link先を確認
Guanzhe Hong, Zhiyuan Mao, Xiaojun Lin, Stanley H. Chan(参考訳) 教師ネットワークを模倣するために生徒の隠れた機能を奨励する学習手法である特徴ベース学習は,事前学習した教師ネットワークから生徒ネットワークへの知識の伝達に経験的に成功している。 さらに,最近の実験結果から,教師の特徴は,生徒の入力サンプルがノイズにより破損した場合でも,生徒ネットワークの一般化を促進することが示されている。 しかしながら、このような異種タスク間で知識を転送する手法が成功する理由や方法に関する理論的洞察が欠落している。 本手法はディープリニアネットワークを用いて理論的に解析し,非線形ネットワークを用いて実験的に解析する。 本手法の成功には,(1)生徒が訓練損失ゼロに訓練されているか,(2)教師がクリーンインプット問題にどの程度知識を持っているか,(3)教師がその知識を隠れた特徴に分解するか,の3つの重要な要因を明らかにする。 3つの要因のいずれかで適切な制御の欠如は、学生教師の学習方法の失敗につながります。

Feature-based student-teacher learning, a training method that encourages the student's hidden features to mimic those of the teacher network, is empirically successful in transferring the knowledge from a pre-trained teacher network to the student network. Furthermore, recent empirical results demonstrate that, the teacher's features can boost the student network's generalization even when the student's input sample is corrupted by noise. However, there is a lack of theoretical insights into why and when this method of transferring knowledge can be successful between such heterogeneous tasks. We analyze this method theoretically using deep linear networks, and experimentally using nonlinear networks. We identify three vital factors to the success of the method: (1) whether the student is trained to zero training loss; (2) how knowledgeable the teacher is on the clean-input problem; (3) how the teacher decomposes its knowledge in its hidden features. Lack of proper control in any of the three factors leads to failure of the student-teacher learning method.
翻訳日:2021-03-16 14:32:00 公開日:2021-03-13
# OCID-Ref: クラッタ・シーン・グラウンディングのための言語を具体化した3Dロボットデータセット

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding ( http://arxiv.org/abs/2103.07679v1 )

ライセンス: Link先を確認
Ke-Jyun Wang, Yun-Hsuan Liu, Hung-Ting Su, Jen-Wei Wang, Yu-Siang Wang, Winston H. Hsu, Wen-Chin Chen(参考訳) 作業環境にロボットを効果的に適用し,人間を支援するためには,視覚接地(vg)が被写体における機械性能にどのように影響するかを発達・評価することが不可欠である。 ただし、現在のVG作業は、オフィスや倉庫などの作業環境に制限されており、スペース利用の問題のためにオブジェクトが通常含まれます。 本研究では,occludedオブジェクトの表現を参照する参照表現セグメンテーションタスクを特徴とするocid-refデータセットを提案する。 OCID-Refは、RGBイメージとポイントクラウド入力を提供する2,300シーンから305,694の表現を参照する。 難解な閉塞問題を解決するには、難解な閉塞問題を解決するために2D信号と3D信号の両方を利用することが重要です。 実験の結果,2次元信号と3次元信号の集約の有効性が示されたが,隠蔽物体の参照は現代的な視覚的接地システムでは依然として困難である。 OCID-Refはhttps://github.com/lluma/OCID-Refで公開されている。

To effectively apply robots in working environments and assist humans, it is essential to develop and evaluate how visual grounding (VG) can affect machine performance on occluded objects. However, current VG works are limited in working environments, such as offices and warehouses, where objects are usually occluded due to space utilization issues. In our work, we propose a novel OCID-Ref dataset featuring a referring expression segmentation task with referring expressions of occluded objects. OCID-Ref consists of 305,694 referring expressions from 2,300 scenes with providing RGB image and point cloud inputs. To resolve challenging occlusion issues, we argue that it's crucial to take advantage of both 2D and 3D signals to resolve challenging occlusion issues. Our experimental results demonstrate the effectiveness of aggregating 2D and 3D signals but referring to occluded objects still remains challenging for the modern visual grounding systems. OCID-Ref is publicly available at https://github.com/lluma/OCID-Ref
翻訳日:2021-03-16 14:30:57 公開日:2021-03-13
# 効率的なスパースニューラルネットワーク

Efficient Sparse Artificial Neural Networks ( http://arxiv.org/abs/2103.07674v1 )

ライセンス: Link先を確認
Seyed Majid Naji, Azra Abtahi, Farokh Marvasti(参考訳) この脳は、ANN(Artificial Neural Networks)のインスピレーションの源として、スパース構造に基づいている。 このスパース構造は、脳のエネルギー消費を減らし、より容易に学習し、パターンを他のどのANNよりも一般化するのに役立ちます。 本論文では,ANNにスパース性を導入するための2つの進化的手法を提案する。 提案手法では, ネットワークのスパース構造とそのパラメータの値が学習プロセス中に訓練され, 更新される。 シミュレーションの結果,この2つの手法は,スパース法と非スパース法と比較してトレーニングサンプルを少なくする一方で,精度が向上し,収束が速くなることがわかった。 さらに,提案手法は一般化能力を大幅に向上し,パラメータ数を削減する。 たとえば、ImageNetデータセットの画像分類のための提案手法を利用してResNet47ネットワークのスパース化は、40%少ないパラメータを使用し、モデルのトップ1の精度は、高密度ネットワークとそのスパース対応と比較して12%と5%向上します。 別の例として、CIFAR10データセットの手法はスパースよりも7倍早く最終構造に収束するが、最終的な精度は6%向上する。

The brain, as the source of inspiration for Artificial Neural Networks (ANN), is based on a sparse structure. This sparse structure helps the brain to consume less energy, learn easier and generalize patterns better than any other ANN. In this paper, two evolutionary methods for adopting sparsity to ANNs are proposed. In the proposed methods, the sparse structure of a network as well as the values of its parameters are trained and updated during the learning process. The simulation results show that these two methods have better accuracy and faster convergence while they need fewer training samples compared to their sparse and non-sparse counterparts. Furthermore, the proposed methods significantly improve the generalization power and reduce the number of parameters. For example, the sparsification of the ResNet47 network by exploiting our proposed methods for the image classification of ImageNet dataset uses 40 % fewer parameters while the top-1 accuracy of the model improves by 12% and 5% compared to the dense network and their sparse counterpart, respectively. As another example, the proposed methods for the CIFAR10 dataset converge to their final structure 7 times faster than its sparse counterpart, while the final accuracy increases by 6%.
翻訳日:2021-03-16 14:28:59 公開日:2021-03-13
# 多変量時系列予測のためのスペクトル時間グラフニューラルネットワーク

Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting ( http://arxiv.org/abs/2103.07719v1 )

ライセンス: Link先を確認
Defu Cao, Yujing Wang, Juanyong Duan, Ce Zhang, Xia Zhu, Conguri Huang, Yunhai Tong, Bixiong Xu, Jing Bai, Jie Tong, Qi Zhang(参考訳) 多変量時系列予測は多くの実世界のアプリケーションにおいて重要な役割を果たす。 系列内時間相関と系列間相関を同時に考える必要があるため、これは難しい問題である。 近年、二つの相関関係を捉えようとする複数の研究があるが、時間領域における時間的相関のみを捉えてはいるものの、ほとんどが時系列間の関係として事前に定義された事前関係を参照している。 本稿では,多変量時系列予測の精度を向上させるために,スペクトル時間グラフニューラルネットワーク(StemGNN)を提案する。 stemgnn は \textit{spectral domain} 内の系列間の相関と時間依存性をキャプチャする。 これは、GFT(Graph Fourier Transform)とDFT(Discrete Fourier Transform)を組み合わせて、エンドツーエンドのフレームワークで時間依存性をモデル化する。 GFTおよびDFTを通過した後、スペクトル表現は明確なパターンを保持し、畳み込みおよび逐次学習モジュールによって効果的に予測できる。 さらに、StemGNNは事前に定義されたプリミティブを使用せずに、データからシリーズ間の相関を自動的に学習します。 StemGNNの有効性を示すために、10の実世界のデータセットに関する広範な実験を実施します。 コードはhttps://github.com/microsoft/StemGNN/で入手できる。

Multivariate time-series forecasting plays a crucial role in many real-world applications. It is a challenging problem as one needs to consider both intra-series temporal correlations and inter-series correlations simultaneously. Recently, there have been multiple works trying to capture both correlations, but most, if not all of them only capture temporal correlations in the time domain and resort to pre-defined priors as inter-series relationships. In this paper, we propose Spectral Temporal Graph Neural Network (StemGNN) to further improve the accuracy of multivariate time-series forecasting. StemGNN captures inter-series correlations and temporal dependencies \textit{jointly} in the \textit{spectral domain}. It combines Graph Fourier Transform (GFT) which models inter-series correlations and Discrete Fourier Transform (DFT) which models temporal dependencies in an end-to-end framework. After passing through GFT and DFT, the spectral representations hold clear patterns and can be predicted effectively by convolution and sequential learning modules. Moreover, StemGNN learns inter-series correlations automatically from the data without using pre-defined priors. We conduct extensive experiments on ten real-world datasets to demonstrate the effectiveness of StemGNN. Code is available at https://github.com/microsoft/StemGNN/
翻訳日:2021-03-16 14:28:40 公開日:2021-03-13
# ニューラルネットワークの概念的容量と有効複雑性

Conceptual capacity and effective complexity of neural networks ( http://arxiv.org/abs/2103.07614v1 )

ライセンス: Link先を確認
Lech Szymanski, Brendan McCane, Craig Atkinson(参考訳) 本稿では,異なる入力からの接空間の集合の多様性に基づくニューラルネットワークマッピング関数の複雑度測定法を提案する。 各接空間を線形pac概念として扱うために、ネットワークの概念的容量を推定するために、概念束のエントロピーに基づく測度を用いる。 ReLUネットワークの理論的最大容量は、そのニューロンの数と等価である。 しかし実際には、ネットワーク内のニューロン活動間の相関のため、非常に大きなネットワークであっても実際の能力は著しく小さい。 経験的評価は、この新しい尺度がマッピング関数の複雑さと対応するネットワークの一般化能力と相関していることを示している。 ネットワーク機能の理論的複雑さとは対照的に、効果的にキャプチャされる。 また、トレーニングニューラルネットワークモデルの解析と比較のための提案手法のいくつかの利用についても紹介する。

We propose a complexity measure of a neural network mapping function based on the diversity of the set of tangent spaces from different inputs. Treating each tangent space as a linear PAC concept we use an entropy-based measure of the bundle of concepts in order to estimate the conceptual capacity of the network. The theoretical maximal capacity of a ReLU network is equivalent to the number of its neurons. In practice however, due to correlations between neuron activities within the network, the actual capacity can be remarkably small, even for very big networks. Empirical evaluations show that this new measure is correlated with the complexity of the mapping function and thus the generalisation capabilities of the corresponding network. It captures the effective, as oppose to the theoretical, complexity of the network function. We also showcase some uses of the proposed measure for analysis and comparison of trained neural network models.
翻訳日:2021-03-16 14:26:34 公開日:2021-03-13
# helmholtzian eigenmap: ポイントクラウドデータからのトポロジ的特徴発見とエッジフロー学習

Helmholtzian Eigenmap: Topological feature discovery & edge flow learning from point cloud data ( http://arxiv.org/abs/2103.07626v1 )

ライセンス: Link先を確認
Yu-Chia Chen, Marina Meil\u{a}, Ioannis G. Kevrekidis(参考訳) 多様体 helmholtzian (1-laplacian) operator $\delta_1$ はラプラス・ベルトラミ作用素を多様体 $\mathcal m$ 上のベクトル場にエレガントに一般化する。 本研究では,重み付き 1-ラプラシアン $\mathbf{\mathcal l}_1$ による点雲データからの多様体 helmholtzian の推定を提案する。 高次ラプラシアンが導入され研究されたが、この研究は非パラメトリック設定における連続作用素の推定値として、単純複素から構築されたヘルムホルツグラフを初めて提示した。 ヘルムホルツ多様体 (Helmholtzian) は、$\mathcal M$ に関する幾何学的およびトポロジカルな情報を備え、ヘルムホルツ=ホッジ定理を通じて $\mathcal M$ 上のフローとベクトル場の解析に有用なツールである。 さらに、$\mathbf{\mathcal L}_1$ は流れの平滑化、予測、特徴抽出を可能にします。 これらの可能性を、非自明な位相構造を持つ合成および実点クラウドデータセットのかなりの集合上で示し、$\mathbf{\mathcal L}_1$ から$\Delta_1$ の極限に関する理論的結果を提供する。

The manifold Helmholtzian (1-Laplacian) operator $\Delta_1$ elegantly generalizes the Laplace-Beltrami operator to vector fields on a manifold $\mathcal M$. In this work, we propose the estimation of the manifold Helmholtzian from point cloud data by a weighted 1-Laplacian $\mathbf{\mathcal L}_1$. While higher order Laplacians ave been introduced and studied, this work is the first to present a graph Helmholtzian constructed from a simplicial complex as an estimator for the continuous operator in a non-parametric setting. Equipped with the geometric and topological information about $\mathcal M$, the Helmholtzian is a useful tool for the analysis of flows and vector fields on $\mathcal M$ via the Helmholtz-Hodge theorem. In addition, the $\mathbf{\mathcal L}_1$ allows the smoothing, prediction, and feature extraction of the flows. We demonstrate these possibilities on substantial sets of synthetic and real point cloud datasets with non-trivial topological structures; and provide theoretical results on the limit of $\mathbf{\mathcal L}_1$ to $\Delta_1$.
翻訳日:2021-03-16 14:26:23 公開日:2021-03-13
# 不変リスク最小化による治療効果推定

Treatment Effect Estimation using Invariant Risk Minimization ( http://arxiv.org/abs/2103.07788v1 )

ライセンス: Link先を確認
Abhin Shah, Kartik Ahuja, Karthikeyan Shanmugam, Dennis Wei, Kush Varshney, Amit Dhurandhar(参考訳) 観察データから因果的個人的治療効果(ite)を推測することは、治療課題バイアスの存在によって困難が悪化する課題である。 本研究では,不変リスク最小化(IRM)の領域一般化フレームワークを用いてITEを推定する新しい手法を提案する。 IRMは、複数のドメインからのデータを使用し、急激なドメイン依存要因を活用せずに予測器を学び、目に見えないドメインに最適化する。 対照群と治療群の間に支持重なりがほとんどない場合に治療割り当てバイアスに取り組むことを目的としたIRMベースのITE推定器を提案する。 1つのデータセットが与えられたら、データを複数のドメインに人工的に分割します。 これらの多様なドメインはIRMによって利用され、レグレッションベースのモデルをサポートの重複のないデータ領域により効果的に一般化します。 サポートミスマッチがより顕著な設定では,ITE推定に対する古典的回帰アプローチよりも向上することを示す。

Inferring causal individual treatment effect (ITE) from observational data is a challenging problem whose difficulty is exacerbated by the presence of treatment assignment bias. In this work, we propose a new way to estimate the ITE using the domain generalization framework of invariant risk minimization (IRM). IRM uses data from multiple domains, learns predictors that do not exploit spurious domain-dependent factors, and generalizes better to unseen domains. We propose an IRM-based ITE estimator aimed at tackling treatment assignment bias when there is little support overlap between the control group and the treatment group. We accomplish this by creating diversity: given a single dataset, we split the data into multiple domains artificially. These diverse domains are then exploited by IRM to more effectively generalize regression-based models to data regions that lack support overlap. We show gains over classical regression approaches to ITE estimation in settings when support mismatch is more pronounced.
翻訳日:2021-03-16 14:26:00 公開日:2021-03-13
# 3パラメータによる制限のない敵対例の生成

Generating Unrestricted Adversarial Examples via Three Parameters ( http://arxiv.org/abs/2103.07640v1 )

ライセンス: Link先を確認
Hanieh Naderi and Leili Goli and Shohreh Kasaei(参考訳) ディープニューラルネットワークは、被害者モデルの誤って分類するために意図的に構築された敵の例に弱いことが示されている。 ほとんどの敵対的例は、それらの摂動を$L_{p}$-ノルムに制限しているため、既存の防御方法はこれらのタイプの摂動に焦点を当てており、制限のない敵対的例にはあまり注意が払われていない。 この問題に対処するため,提案手法は限定されたパラメータを持つ非制限型攻撃例を生成する。 攻撃は入力画像上の3点を選択し、その位置に基づいて画像を逆の例に変換する。 これら3点の移動範囲と位置を制限し、識別ネットワークを使用することで、提案する非制限的な敵対的例は画像の出現を保存できる。 実験の結果,mnistとsvhnのデータセットにおいて,提案手法の平均成功率は93.5%であった。 また、MNIST、FMNIST、SVHN、CIFAR10、CIFAR100、ImageNetの6つのデータセットでモデル精度を平均73%削減します。 攻撃の場合、犠牲者モデルの低い精度は、より成功した攻撃を示すことに注意する必要がある。 攻撃の対向列車は、ランダムに変換された画像に対するモデルロバスト性も向上する。

Deep neural networks have been shown to be vulnerable to adversarial examples deliberately constructed to misclassify victim models. As most adversarial examples have restricted their perturbations to $L_{p}$-norm, existing defense methods have focused on these types of perturbations and less attention has been paid to unrestricted adversarial examples; which can create more realistic attacks, able to deceive models without affecting human predictions. To address this problem, the proposed adversarial attack generates an unrestricted adversarial example with a limited number of parameters. The attack selects three points on the input image and based on their locations transforms the image into an adversarial example. By limiting the range of movement and location of these three points and using a discriminatory network, the proposed unrestricted adversarial example preserves the image appearance. Experimental results show that the proposed adversarial examples obtain an average success rate of 93.5% in terms of human evaluation on the MNIST and SVHN datasets. It also reduces the model accuracy by an average of 73% on six datasets MNIST, FMNIST, SVHN, CIFAR10, CIFAR100, and ImageNet. It should be noted that, in the case of attacks, lower accuracy in the victim model denotes a more successful attack. The adversarial train of the attack also improves model robustness against a randomly transformed image.
翻訳日:2021-03-16 14:24:48 公開日:2021-03-13
# マルチビュークラスタリングにおける表現アライメントの再考

Reconsidering Representation Alignment for Multi-view Clustering ( http://arxiv.org/abs/2103.07738v1 )

ライセンス: Link先を確認
Daniel J. Trosten, Sigurd L{\o}kse, Robert Jenssen, Michael Kampffmeyer(参考訳) ビュー表現の分布の調整は、ディープマルチビュークラスタリングのための現在の最先端のアートモデルのコアコンポーネントである。 しかし、na\"ively aligning representation distributions を持ついくつかの欠点を同定する。 これらの欠点は、表現空間における分離可能なクラスタの減少と、ビューを優先するモデルの能力の抑制の両方につながることを実証する。 これらの観測に基づいて,深層マルチビュークラスタリングのための簡易ベースラインモデルを開発した。 我々のベースラインモデルは、表現のアライメントを完全に回避すると同時に、現在の最先端と同じような、あるいはより優れたパフォーマンスを実現しています。 コントラスト学習コンポーネントを追加することで、ベースラインモデルも拡張します。 これは、ビューを優先するモデルの能力を保持する選択的アライメント手順を導入する。 本実験では,コントラスト学習コンポーネントがベースラインモデルを強化し,複数のデータセットにおいて,最先端の技術を大きなマージンで改善することを示す。

Aligning distributions of view representations is a core component of today's state of the art models for deep multi-view clustering. However, we identify several drawbacks with na\"ively aligning representation distributions. We demonstrate that these drawbacks both lead to less separable clusters in the representation space, and inhibit the model's ability to prioritize views. Based on these observations, we develop a simple baseline model for deep multi-view clustering. Our baseline model avoids representation alignment altogether, while performing similar to, or better than, the current state of the art. We also expand our baseline model by adding a contrastive learning component. This introduces a selective alignment procedure that preserves the model's ability to prioritize views. Our experiments show that the contrastive learning component enhances the baseline model, improving on the current state of the art by a large margin on several datasets.
翻訳日:2021-03-16 14:24:26 公開日:2021-03-13
# ポートフォリオ最適化のための大規模勧告

Large-scale Recommendation for Portfolio Optimization ( http://arxiv.org/abs/2103.07768v1 )

ライセンス: Link先を確認
Robin Swezey, Bruno Charron(参考訳) 個人投資家は現在、オンラインブローカーを使って、便利なインターフェースと低い手数料で株式を取引しているが、従来のフルサービスブローカーによるアドバイスやパーソナライゼーションは失われている。 私たちは、このレベルのサービスを非常に多くのユーザーのために低コストで自動化された方法で複製するオンラインブローカーが直面する問題をフレーム化します。 金融商品のレコメンデーションに必要なケアのため、各ユーザのポートフォリオとリスクプロファイルに合わせたリスク管理アプローチに重点を置いています。 現代のポートフォリオ理論と協調フィルタリングに基づくハイブリッドアプローチが,健全かつ効果的なソリューションを提供することを示す。 この方法は他の金融資産と同様に株式にも適用でき、様々な金融予測モデルと容易に組み合わせることができる。 ドメインエキスパートに基づく研究において、提案をいくつかのベースラインと比較することで、提案を検証します。

Individual investors are now massively using online brokers to trade stocks with convenient interfaces and low fees, albeit losing the advice and personalization traditionally provided by full-service brokers. We frame the problem faced by online brokers of replicating this level of service in a low-cost and automated manner for a very large number of users. Because of the care required in recommending financial products, we focus on a risk-management approach tailored to each user's portfolio and risk profile. We show that our hybrid approach, based on Modern Portfolio Theory and Collaborative Filtering, provides a sound and effective solution. The method is applicable to stocks as well as other financial assets, and can be easily combined with various financial forecasting models. We validate our proposal by comparing it with several baselines in a domain expert-based study.
翻訳日:2021-03-16 14:21:21 公開日:2021-03-13
# ゴルフ予約サービスにおける短命な動的パッケージの推薦

Recommending Short-lived Dynamic Packages for Golf Booking Services ( http://arxiv.org/abs/2103.07779v1 )

ライセンス: Link先を確認
Robin Swezey, Young-joo Chung(参考訳) ゴルフ予約サービスに短命ダイナミックパッケージを推奨するアプローチを紹介します。 この作業では2つの課題が解決される。 1つ目は、アイテムの短い寿命で、システムは恒久的なコールドスタートの状態になります。 2つ目は、パッケージ属性の非形式的性質であり、クラスタ化や潜在パッケージの特定が困難になる。 このような設定は広く普及しているが、従来の推奨研究では研究されておらず、レコメンダシステムに対する独自のアプローチを求める声もある。 本稿では,ユーザ分析とパッケージとの関係,パッケージの価格設定と環境分析,従来の協調フィルタリングを活用したハイブリッド手法を提案する。 提案手法はベースラインと比較して精度が向上した。

We introduce an approach to recommending short-lived dynamic packages for golf booking services. Two challenges are addressed in this work. The first is the short life of the items, which puts the system in a state of a permanent cold start. The second is the uninformative nature of the package attributes, which makes clustering or figuring latent packages challenging. Although such settings are fairly pervasive, they have not been studied in traditional recommendation research, and there is thus a call for original approaches for recommender systems. In this paper, we introduce a hybrid method that leverages user analysis and its relation to the packages, as well as package pricing and environmental analysis, and traditional collaborative filtering. The proposed approach achieved appreciable improvement in precision compared with baselines.
翻訳日:2021-03-16 14:21:11 公開日:2021-03-13
# CACTUS: 目的関数における競合の検出と解決

CACTUS: Detecting and Resolving Conflicts in Objective Functions ( http://arxiv.org/abs/2103.07805v1 )

ライセンス: Link先を確認
Subhajit Das and Alex Endert(参考訳) 機械学習(ML)モデルは、さまざまなコーディング言語を使用して、与えられた問題領域に対するハイパーパラメータと学習アルゴリズムをチューニングし、選択する専門家ML実践者によって構築される。 彼らはまた、分類、回帰などの所定のmlタスクの望ましい出力をキャプチャする目的関数や損失関数(しばしば複数の目的を持つ)を慎重に設計する。 多対象最適化において、矛盾する目的と制約は大きな関心事である。 このような問題では、望ましい全ての目的を同時に満たす単一の最適解が見つからないいくつかの競合する目的が見出される。 過去VAシステムでは、ユーザーが分類器の客観的関数をインタラクティブに構築することができました。 本論文では,ユピターノートブックで定義される多対象目的関数を可視化する手法や,対話型ビジュアルインターフェースを用いて,ユーザが複雑な数学的用語を知覚・解釈し,競合する目的を検出・解決する手法を試作することにより,この作業範囲を拡大する。 目的関数の可視化は、望ましいMLタスクまたは目標の正しいソリューションの選択を妨げる潜在的な矛盾する目標を啓蒙します。 また、分類器選択のための多目的目的関数の目的仕様における潜在的な競合を列挙する。 さらに,係り合う目的や制約を検知して解決することにより,ユーザが意味のある目的関数を分類器に指定するのを支援するVAシステムにおいて,我々のアプローチを実証する。 本研究では,対象内定量的および定性的ユーザスタディを通じて,分類タスクの潜在的な競合を解くことによって,ユーザが有意な客観的関数をインタラクティブに特定できることを示す。

Machine learning (ML) models are constructed by expert ML practitioners using various coding languages, in which they tune and select models hyperparameters and learning algorithms for a given problem domain. They also carefully design an objective function or loss function (often with multiple objectives) that captures the desired output for a given ML task such as classification, regression, etc. In multi-objective optimization, conflicting objectives and constraints is a major area of concern. In such problems, several competing objectives are seen for which no single optimal solution is found that satisfies all desired objectives simultaneously. In the past VA systems have allowed users to interactively construct objective functions for a classifier. In this paper, we extend this line of work by prototyping a technique to visualize multi-objective objective functions either defined in a Jupyter notebook or defined using an interactive visual interface to help users to: (1) perceive and interpret complex mathematical terms in it and (2) detect and resolve conflicting objectives. Visualization of the objective function enlightens potentially conflicting objectives that obstructs selecting correct solution(s) for the desired ML task or goal. We also present an enumeration of potential conflicts in objective specification in multi-objective objective functions for classifier selection. Furthermore, we demonstrate our approach in a VA system that helps users in specifying meaningful objective functions to a classifier by detecting and resolving conflicting objectives and constraints. Through a within-subject quantitative and qualitative user study, we present results showing that our technique helps users interactively specify meaningful objective functions by resolving potential conflicts for a classification task.
翻訳日:2021-03-16 14:21:01 公開日:2021-03-13
# 自律材料研究における複雑意思決定のための問題拡散モデル

Problem-fluent models for complex decision-making in autonomous materials research ( http://arxiv.org/abs/2103.07776v1 )

ライセンス: Link先を確認
Soojung Baek, Kristofer G. Reyes(参考訳) 自律材料研究の分野における最近の研究成果を概観し、機械学習手法とモデルとの結合と、より問題対応のモデリングを強調した。 我々は,多数の自律材料プラットフォームが採用する閉ループ設計のための一般ベイズ的枠組みを概観する。 その後、そのようなプラットフォームでの作業例を提供します。 最後に,現在の統計モデルとmlモデルを拡張し,物理モデルの利用や運用上の考慮事項を意思決定手順に組み込むなど,問題固有の構造をよりよく反映する手法について検討する。

We review our recent work in the area of autonomous materials research, highlighting the coupling of machine learning methods and models and more problem-aware modeling. We review the general Bayesian framework for closed-loop design employed by many autonomous materials platforms. We then provide examples of our work on such platforms. We finally review our approaches to extend current statistical and ML models to better reflect problem-specific structure including the use of physics-based models and incorporation of operational considerations into the decision-making procedure.
翻訳日:2021-03-16 14:18:31 公開日:2021-03-13
# PhotoApp: ヘッドポートレートのフォトリアルな外観編集

PhotoApp: Photorealistic Appearance Editing of Head Portraits ( http://arxiv.org/abs/2103.07658v1 )

ライセンス: Link先を確認
Mallikarjun B R, Ayush Tewari, Abdallah Dib, Tim Weyrich, Bernd Bickel, Hans-Peter Seidel, Hanspeter Pfister, Wojciech Matusik, Louis Chevallier, Mohamed Elgharib, Christian Theobalt(参考訳) ポートレートのフォトリアリズム編集は、人間が顔の不一致に非常に敏感であるため、難しい作業です。 本稿では,ポートレート画像におけるカメラ視点とシーン照明の高品質な直感的編集手法を提案する。 これにより,画像中の人物のフルリフレクタンスフィールドをキャプチャし,制御する手法が求められている。 ほとんどの編集アプローチは、光やカメラステージといった設定でキャプチャされたトレーニングデータを使用した教師あり学習に依存している。 このようなデータセットは、取得するのに高価であり、容易に入手できず、ワイルドポートレート画像のすべての豊富なバリエーションをキャプチャしません。 加えて、ほとんどの監督されたアプローチはライトアップのみに焦点を当てており、カメラ視点の編集を許可していない。 したがって、反射フィールドのサブセットのみをキャプチャして制御します。 近年,StyleGAN の生成モデル空間で動作することで,肖像画編集が実証されている。 このようなアプローチは直接の監視を必要としないが、監督されたアプローチと比較すると品質が大幅に低下する。 本稿では,限られた教師付きトレーニングデータから学習する手法を提案する。 トレーニング画像には、髪や背景のバリエーションがほとんどなく、目を閉じた固定された中性表現の人々しか含まれていない。 一人ひとりが1回150回、カメラが8回撮影されます。 画像空間で直接トレーニングする代わりに、StyleGANの潜在的な空間で変換を学ぶ監督された問題を設計します。 これは、教師付き学習と生成的敵対的モデリングのベストを組み合わせる。 StyleGANの前には,表現,髪型,背景の一般化が可能であることを示す。 これにより、インザワイルド画像のための高品質のフォトリアリズム結果が生成され、既存の方法を大幅に上回ります。 本手法は照明とポーズを同時に編集し,インタラクティブな速度で動作させる。

Photorealistic editing of portraits is a challenging task as humans are very sensitive to inconsistencies in faces. We present an approach for high-quality intuitive editing of the camera viewpoint and scene illumination in a portrait image. This requires our method to capture and control the full reflectance field of the person in the image. Most editing approaches rely on supervised learning using training data captured with setups such as light and camera stages. Such datasets are expensive to acquire, not readily available and do not capture all the rich variations of in-the-wild portrait images. In addition, most supervised approaches only focus on relighting, and do not allow camera viewpoint editing. Thus, they only capture and control a subset of the reflectance field. Recently, portrait editing has been demonstrated by operating in the generative model space of StyleGAN. While such approaches do not require direct supervision, there is a significant loss of quality when compared to the supervised approaches. In this paper, we present a method which learns from limited supervised training data. The training images only include people in a fixed neutral expression with eyes closed, without much hair or background variations. Each person is captured under 150 one-light-at-a-time conditions and under 8 camera poses. Instead of training directly in the image space, we design a supervised problem which learns transformations in the latent space of StyleGAN. This combines the best of supervised learning and generative adversarial modeling. We show that the StyleGAN prior allows for generalisation to different expressions, hairstyles and backgrounds. This produces high-quality photorealistic results for in-the-wild images and significantly outperforms existing methods. Our approach can edit the illumination and pose simultaneously, and runs at interactive rates.
翻訳日:2021-03-16 14:17:05 公開日:2021-03-13
# 逆確率重み付けによるニューラルテキスト生成の多様性向上

Improving Diversity of Neural Text Generation via Inverse Probability Weighting ( http://arxiv.org/abs/2103.07649v1 )

ライセンス: Link先を確認
Xinran Zhang, Maosong Sun, Jiafeng Liu and Xiaobing Li(参考訳) ニューラルネットワークベースのテキスト生成は、繰り返しなどのテキスト劣化問題に悩まされる。 トップkサンプリングと核サンプリングはビーム探索に基づく復号法よりも優れているが、それらは分布の「テール」の切り換えにのみ焦点をあて、繰り返しループにつながる確率の高い退屈で反復的な候補を含む可能性がある「ヘッド」部分には対処しない。 また、人間の文章が必ずしも高い確率の単語を好まないという問題にも完全に対処していない。 テキスト生成の多様性を改善するために,逆確率重み付けに触発されたヒューリスティックサンプリング法を提案する。 本研究では,予測分布の四分位範囲を用いて「頭部」部分を決定し,逆確率で「頭部」を置換・再スケールする手法を提案する。 これは、退屈で反復的な候補の確率を高い確率で減少させ、有理だがより意外な候補の確率を低い確率で増加させることを目的としている。 提案手法は,分布の合理性を損なうことなく多様性を高める予測分布の制御可能な変動を与える。 プリトレーニングされた言語モデルを使用して、アルゴリズムと核サンプリングを比較します。 結果から,本アルゴリズムは,人文に近づきながら,生成したサンプルの多様性を効果的に向上させることができることがわかった。

The neural network based text generation suffers from the text degeneration issue such as repetition. Although top-k sampling and nucleus sampling outperform beam search based decoding methods, they only focus on truncating the "tail" of the distribution and do not address the "head" part, which we show might contain tedious or even repetitive candidates with high probability that lead to repetition loops. They also do not fully address the issue that human text does not always favor high probability words. To explore improved diversity for text generation, we propose a heuristic sampling method inspired by inverse probability weighting. We propose to use interquartile range of the predicted distribution to determine the "head" part, then permutate and rescale the "head" with inverse probability. This aims at decreasing the probability for the tedious and possibly repetitive candidates with higher probability, and increasing the probability for the rational but more surprising candidates with lower probability. The proposed algorithm provides a controllable variation on the predicted distribution which enhances diversity without compromising rationality of the distribution. We use pre-trained language model to compare our algorithm with nucleus sampling. Results show that our algorithm can effectively increase the diversity of generated samples while achieving close resemblance to human text.
翻訳日:2021-03-16 14:16:22 公開日:2021-03-13
# Aspect Sentiment Triplet Extraction のための双方向機械読解解法

Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2103.07665v1 )

ライセンス: Link先を確認
Shaowei Chen, Yu Wang, Jie Liu, Yuelin Wang(参考訳) レビュー文の側面とそれに対応する意見表現と感情を識別することを目的としたアスペクト感情トリプレット抽出(ASTE)は、きめ細かい意見マイニングにおける新たなタスクです。 asteは、意見エンティティ抽出、関係検出、感情分類を含む複数のサブタスクから構成されているため、それらの関連を適切に捉えて活用することが重要かつ困難である。 本稿では、ASTEタスクをマルチターン機械読解(MTMRC)タスクに変換し、この課題に対処するための双方向MRC(BMRC)フレームワークを提案する。 具体的には,非制限抽出クエリ,制限抽出クエリ,感情分類クエリの3種類のクエリを考案し,異なるサブタスク間の関連性を構築する。 さらに、アスペクト感情三重項がアスペクトまたは意見表現から派生する可能性があることを考慮し、双方向mrc構造を設計する。 1つの方向はアスペクト、意見表現、感情を順次認識し、3つ目を得る一方、もう1つの方向は意見表現をまずアスペクト、そして最後に感情を識別する。 2つの方向を相互補完させることで、我々のフレームワークはより包括的に三つ子を識別できる。 提案手法の有効性を検証するため,4つのベンチマークデータセットに対して広範な実験を行った。 実験の結果,BMRCは最先端の性能を達成できた。

Aspect sentiment triplet extraction (ASTE), which aims to identify aspects from review sentences along with their corresponding opinion expressions and sentiments, is an emerging task in fine-grained opinion mining. Since ASTE consists of multiple subtasks, including opinion entity extraction, relation detection, and sentiment classification, it is critical and challenging to appropriately capture and utilize the associations among them. In this paper, we transform ASTE task into a multi-turn machine reading comprehension (MTMRC) task and propose a bidirectional MRC (BMRC) framework to address this challenge. Specifically, we devise three types of queries, including non-restrictive extraction queries, restrictive extraction queries and sentiment classification queries, to build the associations among different subtasks. Furthermore, considering that an aspect sentiment triplet can derive from either an aspect or an opinion expression, we design a bidirectional MRC structure. One direction sequentially recognizes aspects, opinion expressions, and sentiments to obtain triplets, while the other direction identifies opinion expressions first, then aspects, and at last sentiments. By making the two directions complement each other, our framework can identify triplets more comprehensively. To verify the effectiveness of our approach, we conduct extensive experiments on four benchmark datasets. The experimental results demonstrate that BMRC achieves state-of-the-art performances.
翻訳日:2021-03-16 14:16:02 公開日:2021-03-13
# 臨床ガイドラインの継続的適用へのコンプライアンスの双方向知識に基づく評価手法

A Methodology for Bi-Directional Knowledge-Based Assessment of Compliance to Continuous Application of Clinical Guidelines ( http://arxiv.org/abs/2103.07789v1 )

ライセンス: Link先を確認
Avner Hatsek and Yuval Shahar(参考訳) 臨床医はしばしば、各患者の状況に敏感な方法で、エビデンスに基づく臨床ガイドラインに十分に固執しない。 臨床医と政策立案者の両方に知らせるためには、検出が振り返って行われる場合でも、通常、冗長または欠落した行動を含むそのような偏差を検出することが重要です。 さらに、そのような偏差を偏差のレベルに比例した方法で検出することは有益であり、任意のカットオフ値を使うのではない。 本研究では,ケアプロセスのガイドラインに基づく品質評価を自動化するための新しいアプローチ,BiKBAC(Bi direction knowledge-based Assessment of compliance)手法を提案する。 当社のbikbac手法は,ガイドラインのさまざまな側面(ガイドラインのプロセスや成果目標など)に関して,臨床ガイドラインを適用する際のコンプライアンスの程度を評価します。 この評価は、ガイドラインの形式的表現とそのプロセスと結果の意図(その目的のためにasbru言語を使用します)と、トップダウンとボトムアップの両方のアプローチを用いて、かなりの期間にわたって、その継続的な応用に関する縦断的な電子医療記録を比較した、高度に詳細な品質評価の振り返り分析によって実施されます。 ファジィ時間論理を用いて、プロセスと結果の目的に対するデータの部分一致を解消する。 また,BiKBAC 方式を実装した DiscovErr システムを導入し,そのアーキテクチャについて述べる。 2型糖尿病管理ドメインの別の研究で、3人の臨床医のパネルのパフォーマンスを比較して評価し、コメントの完全性と正確性に関して非常に有意な結果を得た。

Clinicians often do not sufficiently adhere to evidence-based clinical guidelines in a manner sensitive to the context of each patient. It is important to detect such deviations, typically including redundant or missing actions, even when the detection is performed retrospectively, so as to inform both the attending clinician and policy makers. Furthermore, it would be beneficial to detect such deviations in a manner proportional to the level of the deviation, and not to simply use arbitrary cut-off values. In this study, we introduce a new approach for automated guideline-based quality assessment of the care process, the bidirectional knowledge-based assessment of compliance (BiKBAC) method. Our BiKBAC methodology assesses the degree of compliance when applying clinical guidelines, with respect to multiple different aspects of the guideline (e.g., the guideline's process and outcome objectives). The assessment is performed through a highly detailed, automated quality-assessment retrospective analysis, which compares a formal representation of the guideline and of its process and outcome intentions (we use the Asbru language for that purpose) with the longitudinal electronic medical record of its continuous application over a significant time period, using both a top-down and a bottom-up approach, which we explain in detail. Partial matches of the data to the process and to the outcome objectives are resolved using fuzzy temporal logic. We also introduce the DiscovErr system, which implements the BiKBAC approach, and present its detailed architecture. The DiscovErr system was evaluated in a separate study in the type 2 diabetes management domain, by comparing its performance to a panel of three clinicians, with highly encouraging results with respect to the completeness and correctness of its comments.
翻訳日:2021-03-16 14:14:28 公開日:2021-03-13
# ResNetを再訪:トレーニングとスケーリング戦略の改善

Revisiting ResNets: Improved Training and Scaling Strategies ( http://arxiv.org/abs/2103.07579v1 )

ライセンス: Link先を確認
Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind Srinivas, Tsung-Yi Lin, Jonathon Shlens, Barret Zoph(参考訳) 新しいコンピュータビジョンアーキテクチャはスポットライトを独占するが、モデルアーキテクチャの影響は、しばしばトレーニング方法論とスケーリング戦略の同時変化と混同される。 私たちの仕事は正規の ResNet (He et al., 2015) を再考し、それらを解くためにこれらの3つの側面を研究します。 おそらく驚くべきことに、トレーニングとスケーリングの戦略はアーキテクチャの変更よりも重要であり、その結果、ResNetsは最新のモデルと一致します。 1)過剰フィッティングが発生しうるシステムにおけるスケールモデル深さ(width scalingが好ましい場合)、(2)これまで推奨されていたよりも画像解像度を遅くする(tan & le, 2019)、という2つの新しいスケーリング戦略が提供されている。 改善されたトレーニングとスケーリング戦略を使用して、ResNetアーキテクチャのファミリーを設計する。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍から2.7倍速く、ImageNetでも同様の精度を達成している。 大規模な半教師付き学習セットアップでは、ResNet-RSは86.2%の画像ネット精度を達成し、EfficientNet NoisyStudentよりも4.7倍高速である。 トレーニング手法は,一連の下流タスク(最先端の自己教師型アルゴリズム)の転送性能を改善し,Kinetics-400の動画分類に拡張する。 このシンプルなResNetを今後の研究のベースラインとして使うことをおすすめします。

Novel computer vision architectures monopolize the spotlight, but the impact of the model architecture is often conflated with simultaneous changes to training methodology and scaling strategies. Our work revisits the canonical ResNet (He et al., 2015) and studies these three aspects in an effort to disentangle them. Perhaps surprisingly, we find that training and scaling strategies may matter more than architectural changes, and further, that the resulting ResNets match recent state-of-the-art models. We show that the best performing scaling strategy depends on the training regime and offer two new scaling strategies: (1) scale model depth in regimes where overfitting can occur (width scaling is preferable otherwise); (2) increase image resolution more slowly than previously recommended (Tan & Le, 2019). Using improved training and scaling strategies, we design a family of ResNet architectures, ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while achieving similar accuracies on ImageNet. In a large-scale semi-supervised learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being 4.7x faster than EfficientNet NoisyStudent. The training techniques improve transfer performance on a suite of downstream tasks (rivaling state-of-the-art self-supervised algorithms) and extend to video classification on Kinetics-400. We recommend practitioners use these simple revised ResNets as baselines for future research.
翻訳日:2021-03-16 14:12:25 公開日:2021-03-13
# 生成逆数ネットワークによる教師なし画像変換学習

Unsupervised Image Transformation Learning via Generative Adversarial Networks ( http://arxiv.org/abs/2103.07751v1 )

ライセンス: Link先を確認
Kaiwen Zha, Yujun Shen, Bolei Zhou(参考訳) 本研究では,gans(generative adversarial network)を用いて画像の集合から基礎となる変換を学習し,画像変換問題を研究する。 具体的には、生成器と識別器が共有する変換空間に画像を投影する、TrGANと呼ばれる教師なし学習フレームワークを提案する。 この射影空間の任意の2つの点は、画像生成プロセスを導く変換を定義し、連続的な意味的変化をもたらす。 一対の画像を変換空間に投影することにより、画像間の意味的変化を適切に抽出し、抽出した意味を画像編集を容易にするために、画像スタイル(例えば、昼から夜への移動)だけでなく、画像内容(例えば、空に雲を加える)を操作することができる。 コードとモデルはhttps://genforce.github.io/trganで入手できる。

In this work, we study the image transformation problem by learning the underlying transformations from a collection of images using Generative Adversarial Networks (GANs). Specifically, we propose an unsupervised learning framework, termed as TrGAN, to project images onto a transformation space that is shared by the generator and the discriminator. Any two points in this projected space define a transformation that can guide the image generation process, leading to continuous semantic change. By projecting a pair of images onto the transformation space, we are able to adequately extract the semantic variation between them and further apply the extracted semantic to facilitating image editing, including not only transferring image styles (e.g., changing day to night) but also manipulating image contents (e.g., adding clouds in the sky). Code and models are available at https://genforce.github.io/trgan.
翻訳日:2021-03-16 14:11:57 公開日:2021-03-13
# ターゲット・アスペクトに基づくマルチモーダル感情分析:注意カプセル抽出とマルチヘッド融合ネットワーク

Targeted aspect based multimodal sentiment analysis:an attention capsule extraction and multi-head fusion network ( http://arxiv.org/abs/2103.07659v1 )

ライセンス: Link先を確認
Jiaqian Wang, Donghong Gu, Chi Yang, Yun Xue, Zhengxin Song, Haoliang Zhao, Luwei Xiao(参考訳) マルチモーダル感情分析は、様々な領域においてその重要性を認識している。 感情分析のために、1つのターゲットに対応するモダリティを区別するさまざまな側面を処理し、分析します。 本研究では,目標とするアスペクトベースのマルチモーダル感情分析(TABMSA)を初めて提案する。 さらに,TABMSAの課題に対する注意カプセル抽出と多頭部核融合ネットワーク(EF-Net)を考案した。 MHA(Multi-head attention)ベースのネットワークとResNet-152は、それぞれテキストと画像を扱うために使用される。 MHAとカプセルネットワークの統合は、マルチモーダル入力間の相互作用を捉えることを目的としている。 対象の側面に加えて、コンテキストとイメージからの情報は、配信感情のためにも組み込まれています。 提案したモデルを手動アノテーション付き2つのデータセット上で評価する。 実験結果から,本課題に対する提案したモデルの有効性が示された。

Multimodal sentiment analysis has currently identified its significance in a variety of domains. For the purpose of sentiment analysis, different aspects of distinguishing modalities, which correspond to one target, are processed and analyzed. In this work, we propose the targeted aspect-based multimodal sentiment analysis (TABMSA) for the first time. Furthermore, an attention capsule extraction and multi-head fusion network (EF-Net) on the task of TABMSA is devised. The multi-head attention (MHA) based network and the ResNet-152 are employed to deal with texts and images, respectively. The integration of MHA and capsule network aims to capture the interaction among the multimodal inputs. In addition to the targeted aspect, the information from the context and the image is also incorporated for sentiment delivered. We evaluate the proposed model on two manually annotated datasets. the experimental results demonstrate the effectiveness of our proposed model for this new task.
翻訳日:2021-03-16 14:03:46 公開日:2021-03-13
# グラフ畳み込みネットワークを用いた大規模車両ネットワークの時空間モデリング

Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph Convolutional Networks ( http://arxiv.org/abs/2103.07636v1 )

ライセンス: Link先を確認
Juntong Liu, Yong Xiao, Yingyu Li, Guangming Shiyz, Walid Saad, and H. Vincent Poor(参考訳) 接続された車両網の効果的な展開は、空間的および時間的領域にまたがる所望の性能を維持することに寄与する。 本稿では,大規模な地理的領域におけるV2I通信遅延の空間的および時間的統計をモデル化し,追跡するためのグラフベースのフレームワークSMARTを提案する。 SMARTはまず、各頂点がV2I遅延の類似した統計的特徴を有する隣接位置点の集合からなる部分領域に対応するグラフとして、車両ネットワークの時空間性能を定式化し、各エッジは、2つの連結頂点の遅延統計間の時空間相関を表します。 車両網の時間的および空間的遅延性能を限られた数の頂点とエッジの関係から再構築できるという観測に動機づけられ,大規模車両網における特徴マップpfレイテンシ性能の空間的および時間的統計を捉えるために,ディープq-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構成に基づくアプローチを開発した。 商用LTEネットワーク上での5ヶ月の遅延測定に基づく広範なシミュレーションが行われている。 提案手法は,大規模車両網の遅延性能をモデル化し,再構成するための精度と効率を大幅に向上できることを示す。

The effective deployment of connected vehicular networks is contingent upon maintaining a desired performance across spatial and temporal domains. In this paper, a graph-based framework, called SMART, is proposed to model and keep track of the spatial and temporal statistics of vehicle-to-infrastructure (V2I) communication latency across a large geographical area. SMART first formulates the spatio-temporal performance of a vehicular network as a graph in which each vertex corresponds to a subregion consisting of a set of neighboring location points with similar statistical features of V2I latency and each edge represents the spatio-correlation between latency statistics of two connected vertices. Motivated by the observation that the complete temporal and spatial latency performance of a vehicular network can be reconstructed from a limited number of vertices and edge relations, we develop a graph reconstruction-based approach using a graph convolutional network integrated with a deep Q-networks algorithm in order to capture the spatial and temporal statistic of feature map pf latency performance for a large-scale vehicular network. Extensive simulations have been conducted based on a five-month latency measurement study on a commercial LTE network. Our results show that the proposed method can significantly improve both the accuracy and efficiency for modeling and reconstructing the latency performance of large vehicular networks.
翻訳日:2021-03-16 14:00:01 公開日:2021-03-13
# オンラインDouble Oracle

Online Double Oracle ( http://arxiv.org/abs/2103.07780v1 )

ライセンス: Link先を確認
Le Cong Dinh, Yaodong Yang, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Jun Wang(参考訳) アクションスペースが制限的に大きい戦略的ゲームを解くことは、経済学、コンピュータサイエンス、人工知能において、未解決のトピックである。 本論文では,純粋な戦略の数が巨大あるいは無限である2プレイヤーゼロサムゲームにおける新しい学習アルゴリズムを提案する。 具体的には,オンライン学習のノンレグレット分析とゲーム理論のダブルオラクル手法を組み合わせる。 我々の方法 -- \emph{Online Double Oracle (ODO)} -- は、ゲームのサイズではなく、ナッシュ平衡の支持サイズに線形に依存する \emph{ Effective Strategy set} のサイズであるセルフプレイ設定において、$\mathcal{O}(\sqrt{T k \log(k)})$の後悔境界を達成する。 純粋戦略が3.936$のLeduc Pokerを含む数種類の現実世界ゲームにおいて、我々の手法は、Nash平衡への収束率と戦略的敵に対する平均ペイオフの両方において、非regretアルゴリズムと二重オラクル手法を大きなマージンで上回ります。

Solving strategic games whose action space is prohibitively large is a critical yet under-explored topic in economics, computer science and artificial intelligence. This paper proposes new learning algorithms in two-player zero-sum games where the number of pure strategies is huge or even infinite. Specifically, we combine no-regret analysis from online learning with double oracle methods from game theory. Our method -- \emph{Online Double Oracle (ODO)} -- achieves the regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ in self-play setting where $k$ is NOT the size of the game, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the Nash equilibrium. On tens of different real-world games, including Leduc Poker that contains $3^{936}$ pure strategies, our methods outperform no-regret algorithms and double oracle methods by a large margin, both in convergence rate to Nash equilibrium and average payoff against strategic adversary.
翻訳日:2021-03-16 13:59:35 公開日:2021-03-13
# 効率的な計画のための人間予測モデルを動的に切り替える

Dynamically Switching Human Prediction Models for Efficient Planning ( http://arxiv.org/abs/2103.07815v1 )

ライセンス: Link先を確認
Arjun Sripathy, Andreea Bobu, Daniel S. Brown, and Anca D. Dragan(参考訳) ロボットと人間の両方が関わる環境がますます一般的になるにつれて、計画中は人々も考慮する必要がある。 効果的に計画するには、ロボットは人間の行動に反応し、時には影響を及ぼす必要がある。 これは将来の人間の行動を予測する人間モデルを必要とする。 単純なモデルは、人間が以前にしたことを継続すると仮定し、より複雑なモデルは、ロボットを無視して、人間が最適に行動することを予測し、さらに複雑なモデルは、ロボットが人間に影響を及ぼす能力を捉えるかもしれない。 これらのモデルでは、計算時間と結果のロボット計画のパフォーマンスのトレードオフが異なる。 人間の1つのモデルのみが計算資源を浪費するか、重要な状況に対処できないかのいずれかを使用する。 本研究では,ロボットが人間のモデル群にアクセスし,性能計算のトレードオフをオンラインで評価できるようにする。 代替モデルがどのように人間の予測を改善し、それがパフォーマンス向上につながるかを推定することにより、ロボットは追加の計算が正当化されるたびに、人間のモデルを動的に切り替えることができます。 ドライビングシミュレータの実験では、ロボットが常に最高の人間モデルに匹敵する性能を達成できるが、計算量は大幅に削減された。

As environments involving both robots and humans become increasingly common, so does the need to account for people during planning. To plan effectively, robots must be able to respond to and sometimes influence what humans do. This requires a human model which predicts future human actions. A simple model may assume the human will continue what they did previously; a more complex one might predict that the human will act optimally, disregarding the robot; whereas an even more complex one might capture the robot's ability to influence the human. These models make different trade-offs between computational time and performance of the resulting robot plan. Using only one model of the human either wastes computational resources or is unable to handle critical situations. In this work, we give the robot access to a suite of human models and enable it to assess the performance-computation trade-off online. By estimating how an alternate model could improve human prediction and how that may translate to performance gain, the robot can dynamically switch human models whenever the additional computation is justified. Our experiments in a driving simulator showcase how the robot can achieve performance comparable to always using the best human model, but with greatly reduced computation.
翻訳日:2021-03-16 13:59:13 公開日:2021-03-13
# オートレグレッシブトランスを用いた音楽セマンティック類似度の埋め込みキャリブレーション

Embedding Calibration for Music Semantic Similarity using Auto-regressive Transformer ( http://arxiv.org/abs/2103.07656v1 )

ライセンス: Link先を確認
Xinran Zhang, Maosong Sun, Jiafeng Liu and Xiaobing Li(参考訳) 音楽に自然言語処理(NLP)技術を使用する利点の1つは、意味的類似性のような古典的なタスクを容易に扱える埋め込みベースの表現学習パラダイムを十分に活用することである。 しかし,近年の研究では,NLPにおける意味的類似性に対する共通ベースライン手法の性能上の問題点が指摘されている。 これらの結果から, 簡易組込み校正法によっては, 追加の訓練を必要とせず, 意味的類似性の向上が容易であることがわかった。 それにもかかわらず、キャリブレーション方法の最良の組み合わせはどれか、そしてそのような方法でパフォーマンスをさらに改善できるかどうかはまだ不明です。 最も重要なのは、以前の作品は自動エンコーダトランスフォーマーに基づいているため、音楽の自動回帰モデルによるパフォーマンスは不明です。 埋め込みベースのセマンティクス類似性は自己回帰型音楽モデルにも当てはまるか、セマンティクス類似性に関するベースラインの問題が貧弱であるか、もしそうであれば、音楽セマンティクス類似性のパフォーマンスを促進するための未検討の埋め込みキャリブレーション方法があるか? 本稿では,シンボリック音楽における自動回帰型言語モデルにおける埋め込みキャリブレーションの異なる組み合わせについて検討する。 その結果,音楽の意味的類似性は自己回帰モデルの下で機能し,NLPのような低ベースライン問題にも苦しむことが示された。 さらに,これまでの研究で検討されていない埋込校正の最適組み合わせを提案する。 その結果、埋め込みキャリブレーションの組み合わせは、さらなるトレーニングタスクなしで音楽意味の類似性を大幅に改善することができます。

One of the advantages of using natural language processing (NLP) technology for music is to fully exploit the embedding based representation learning paradigm that can easily handle classical tasks such as semantic similarity. However, recent researches have revealed the poor performance issue of common baseline methods for semantic similarity in NLP. They show that some simple embedding calibration methods can easily promote the performance of semantic similarity without extra training hence is ready-to-use. Nevertheless, it is still unclear which is the best combination of calibration methods and by how much can we further improve the performance with such methods. Most importantly, previous works are based on auto-encoder Transformer, hence the performance under auto-regressive model for music is unclear. These render the following open questions: does embedding based semantic similarity also apply for auto-regressive music model, does poor baseline issue for semantic similarity also exists, and if so, are there unexplored embedding calibration methods to better promote the performance of music semantic similarity? In this paper, we answer these questions by exploring different combination of embedding calibration under auto-regressive language model for symbolic music. Our results show that music semantic similarity works under auto-regressive model, and also suffers from poor baseline issues like in NLP. Furthermore, we provide optimal combination of embedding calibration that has not been explored in previous researches. Results show that such combination of embedding calibration can greatly improve music semantic similarity without further training tasks.
翻訳日:2021-03-16 13:57:31 公開日:2021-03-13
# Attentive Selection Generative Adversarial Networks を用いたきめ細かいMRI画像再構成

Fine-grained MRI Reconstruction using Attentive Selection Generative Adversarial Networks ( http://arxiv.org/abs/2103.07672v1 )

ライセンス: Link先を確認
Jingshuai Liu, Mehrdad Yaghoobi(参考訳) 圧縮センシング(CS)は、高速磁気共鳴イメージング(fastMRI)の基礎を提供する前に、間隔を活用します。 しかし、不適切な問題に対する反復ソルバは、時間クリティカルなアプリケーションへの適応を妨げる。 さらに、そのような前者は複雑な解剖学的構造を捉えたり、現代MRIにおける高忠実度再構成の需要を満たすには適さない。 画像生成における最先端の手法にインスパイアされ、新しい注意に基づく深層学習フレームワークを提案し、高品質のMRI再構築を提供します。 我々は,gan(generative adversarial network)フレームワークに大規模文脈的特徴統合と注意選択を組み込んだ。 提案モデルは,画像品質の点で他の深層学習法と比較して優れた結果が得られること,および極めて低いサンプリング率食におけるmri再構成との関連性を示す。

Compressed sensing (CS) leverages the sparsity prior to provide the foundation for fast magnetic resonance imaging (fastMRI). However, iterative solvers for ill-posed problems hinder their adaption to time-critical applications. Moreover, such a prior can be neither rich to capture complicated anatomical structures nor applicable to meet the demand of high-fidelity reconstructions in modern MRI. Inspired by the state-of-the-art methods in image generation, we propose a novel attention-based deep learning framework to provide high-quality MRI reconstruction. We incorporate large-field contextual feature integration and attention selection in a generative adversarial network (GAN) framework. We demonstrate that the proposed model can produce superior results compared to other deep learning-based methods in terms of image quality, and relevance to the MRI reconstruction in an extremely low sampling rate diet.
翻訳日:2021-03-16 13:55:46 公開日:2021-03-13
# VMAFと変数:統一VQAに向けて

VMAF And Variants: Towards A Unified VQA ( http://arxiv.org/abs/2103.07770v1 )

ライセンス: Link先を確認
Pankaj Topiwala, Wei Dai, Jiangfeng Pian(参考訳) ビデオ品質アセスメント (VQA) は急速に成長し, フルレファレンス (FR) 症例では成熟し始めたが, ハイレファレンス (NR) 症例はいまだに困難である。 FRの場合,サポートベクトル回帰とフィードフォワードニューラルネットワークを用いて,一般的なVMAFビデオ品質評価アルゴリズムの変種を調査し,同じ学習アーキテクチャを用いてNRケースに拡張し,VQAのための部分的に統一されたフレームワークを開発する。 高度にトレーニングされた場合、VMAFのようなアルゴリズムは90%以上のマッチでテストデータセット上でうまく動作します。 FRでは、ゼロからでも90%以上のパフォーマンスを実現し、VMAFを上回ります。 そして、最近のNRアルゴリズムであるVIDEVAL、RAPIQUEに比べて複雑さを大幅に減らし、SRCCの80%を超えています。 予備テストでは、トレーサビリティの改善と計算の複雑さの制約が極めて有望であり、さらなる研究と分析を示唆しています。

Video quality assessment (VQA) is now a fastgrowing subject, beginning to mature in the full reference (FR) case, while the burgeoning no reference (NR) case remains challenging. We investigate variants of the popular VMAF video quality assessment algorithm for the FR case, using support vector regression and feedforward neural networks, and extend it to the NR case, using the same learning architectures, to develop a partially unified framework for VQA. When heavily trained, algorithms such as VMAF perform well on test datasets, with 90%+ match; but predicting performance in the wild is better done by training/testing from scratch, as we do. Even from scratch, we achieve 90%+ performance in FR, with gains over VMAF. And we greatly reduce complexity vs. leading recent NR algorithms, VIDEVAL, RAPIQUE, yet exceed 80% in SRCC. In our preliminary testing, we find the improvements in trainability, while also constraining computational complexity, as quite encouraging, suggesting further study and analysis.
翻訳日:2021-03-16 13:55:32 公開日:2021-03-13
# データ駆動型と主観駆動型を融合した加速度MRIのための数ショット学習手法

A Few-Shot Learning Approach for Accelerated MRI via Fusion of Data-Driven and Subject-Driven Priors ( http://arxiv.org/abs/2103.07790v1 )

ライセンス: Link先を確認
Salman Ul Hassan Dar, Mahmut Yurt, Tolga \c{C}ukur(参考訳) deep neural networks (dnns) は最近、mriの高速化に新しく使われている。 DNNは通常、アンダーサンプルとフルサンプルの取得からなる大規模なデータセットからデータ駆動の事前学習を行う。 しかし、そのような大規模なデータセットを取得することは現実的ではない。 この制限を緩和するために、いくつかのトレーニングサンプルから得られた物理信号モデルとデータ駆動先行データとを融合した、加速MRIのための数ショットの学習手法を提案する。 NYU fastMRIデータセットからの脳MR画像のデモは、提案手法が従来の並列画像とDNNアルゴリズムを上回り、少数のサンプルを必要とすることを示している。

Deep neural networks (DNNs) have recently found emerging use in accelerated MRI reconstruction. DNNs typically learn data-driven priors from large datasets constituting pairs of undersampled and fully-sampled acquisitions. Acquiring such large datasets, however, might be impractical. To mitigate this limitation, we propose a few-shot learning approach for accelerated MRI that merges subject-driven priors obtained via physical signal models with data-driven priors obtained from a few training samples. Demonstrations on brain MR images from the NYU fastMRI dataset indicate that the proposed approach requires just a few samples to outperform traditional parallel imaging and DNN algorithms.
翻訳日:2021-03-16 13:55:14 公開日:2021-03-13
# 防衛としての攻撃:ロバスト性を用いた敵対的例の特定

Attack as Defense: Characterizing Adversarial Examples using Robustness ( http://arxiv.org/abs/2103.07633v1 )

ライセンス: Link先を確認
Zhe Zhao, Guangke Chen, Jingyi Wang, Yiwei Yang, Fu Song, Jun Sun(参考訳) 新しいプログラミングパラダイムとして、ディープラーニングは多くの現実世界の問題に応用を広げた。 同時に、ディープラーニングベースのソフトウェアは、敵の攻撃に対して脆弱であることが分かる。 ディープラーニングソフトウェアの堅牢性を改善するために様々な防御メカニズムが提案されているが、その多くは適応攻撃に対して効果的ではない。 本研究では,敵対例が敵対例よりも著しく堅牢でないという観測に基づいて,敵対例と良性例を区別する新しい特徴付けを提案する。 既存のロバスト性測定が大規模ネットワークにスケールしないため,本研究では,サンプルのロバスト性を効果的に評価することにより,敵対的事例を検出するための新しい防御フレームワークであるattack as defense (a2d)を提案する。 a2dは入力を攻撃してロバスト性を評価するコストを使い、ロバスト性の低い例の方が攻撃しやすいため、これらのロバスト性の低い例を敵視する。 MNIST、CIFAR10、ImageNetの広範な実験結果は、A2Dが最近の有望なアプローチよりも効果的であることを示しています。 また、潜在的なアダプティブ攻撃に対する防御を評価し、A2Dが慎重に設計されたアダプティブ攻撃、例えばCIFAR10の攻撃成功率は0%に低下する。

As a new programming paradigm, deep learning has expanded its application to many real-world problems. At the same time, deep learning based software are found to be vulnerable to adversarial attacks. Though various defense mechanisms have been proposed to improve robustness of deep learning software, many of them are ineffective against adaptive attacks. In this work, we propose a novel characterization to distinguish adversarial examples from benign ones based on the observation that adversarial examples are significantly less robust than benign ones. As existing robustness measurement does not scale to large networks, we propose a novel defense framework, named attack as defense (A2D), to detect adversarial examples by effectively evaluating an example's robustness. A2D uses the cost of attacking an input for robustness evaluation and identifies those less robust examples as adversarial since less robust examples are easier to attack. Extensive experiment results on MNIST, CIFAR10 and ImageNet show that A2D is more effective than recent promising approaches. We also evaluate our defence against potential adaptive attacks and show that A2D is effective in defending carefully designed adaptive attacks, e.g., the attack success rate drops to 0% on CIFAR10.
翻訳日:2021-03-16 13:52:05 公開日:2021-03-13
# Slip-based autonomous zuPT through Gaussian process to improveing Planetary Rover Localization

Slip-Based Autonomous ZUPT through Gaussian Process to Improve Planetary Rover Localization ( http://arxiv.org/abs/2103.07587v1 )

ライセンス: Link先を確認
Cagri Kilic, Nicholas Ohi, Yu Gu, Jason N. Gross(参考訳) ゼロ速度更新(ZUPT)アルゴリズムは、静止条件を満たす場合、慣性ナビゲーションシステム(INS)の信頼性を維持するために貴重な状態情報を提供する。 zuptと非ホロノミック制約を活用することで、車輪付き移動ロボットによる位置推定精度の大幅な向上が期待できる。 しかし、どのくらいの頻度で採用すべきかを決定するには、惑星ローバーのローカライズ精度とトラバーサルレートのバランスを考慮する必要がある。 これに対処するため、ZUPTによるホイール慣性ドオメトリー(WIO)のローカリゼーション性能を改善するため、停止を自律的に開始するタイミングを調査します。 そこで本研究では,ローバーの動作中に車輪のすべりを予測し,ローバーのハードウェアや主要ローバー操作を変更することなく停止時間を予測する3次元デッドレコンディング手法を提案する。 私たちのアプローチが異なる地形タイプで実行可能であることをフィールドテストで検証し、荒れた地形上の650 mドライブよりも97%以上の3Dローカリゼーション精度を実現します。

The zero-velocity update (ZUPT) algorithm provides valuable state information to maintain the inertial navigation system (INS) reliability when stationary conditions are satisfied. Employing ZUPT along with leveraging non-holonomic constraints can greatly benefit wheeled mobile robot dead-reckoning localization accuracy. However, determining how often they should be employed requires consideration to balance localization accuracy and traversal rate for planetary rovers. To address this, we investigate when to autonomously initiate stops to improve wheel-inertial odometry (WIO) localization performance with ZUPT. To do this, we propose a 3D dead-reckoning approach that predicts wheel slippage while the rover is in motion and forecasts the appropriate time to stop without changing any rover hardware or major rover operations. We validate with field tests that our approach is viable on different terrain types and achieves a 3D localization accuracy of more than 97% over 650 m drives on rough terrain.
翻訳日:2021-03-16 13:49:57 公開日:2021-03-13
# 敵攻撃に対する防衛変圧器の学習

Learning Defense Transformers for Counterattacking Adversarial Examples ( http://arxiv.org/abs/2103.07595v1 )

ライセンス: Link先を確認
Jincheng Li, Jiezhang Cao, Yifan Zhang, Jian Chen, Mingkui Tan(参考訳) ディープニューラルネットワーク(DNN)は、小さな摂動を伴う逆例に対して脆弱である。 したがって、敵防衛は、敵の例に対抗してDNNの堅牢性を向上する重要な手段である。 既存の防御メソッドは、特定のタイプの敵の例に焦点を当てており、現実世界のアプリケーションでは防御に失敗する可能性がある。 実際、現実世界のアプリケーションにおける正確なタイプの敵の例が不明な多くのタイプの攻撃に直面する可能性がある。 本論文では, 対人事例が分類境界付近に出現する可能性が高いことを動機として, 対人事例を元のクリーン分布に戻すことで, 対人例を防御できるか否かを新たな視点から検討する。 反逆例を復元する防衛アフィン変換の存在を理論的および実証的に検証する。 そこで我々は,アフィン変換をパラメータ化し,DNNの境界情報を活用することで,敵の例に対抗できるディフェンストランスフォーマーを学習する。 おもちゃと実世界のデータセットに関する広範な実験は、防衛変圧器の有効性と一般化を示しています。

Deep neural networks (DNNs) are vulnerable to adversarial examples with small perturbations. Adversarial defense thus has been an important means which improves the robustness of DNNs by defending against adversarial examples. Existing defense methods focus on some specific types of adversarial examples and may fail to defend well in real-world applications. In practice, we may face many types of attacks where the exact type of adversarial examples in real-world applications can be even unknown. In this paper, motivated by that adversarial examples are more likely to appear near the classification boundary, we study adversarial examples from a new perspective that whether we can defend against adversarial examples by pulling them back to the original clean distribution. We theoretically and empirically verify the existence of defense affine transformations that restore adversarial examples. Relying on this, we learn a defense transformer to counterattack the adversarial examples by parameterizing the affine transformations and exploiting the boundary information of DNNs. Extensive experiments on both toy and real-world datasets demonstrate the effectiveness and generalization of our defense transformer.
翻訳日:2021-03-16 13:49:36 公開日:2021-03-13
# 敵対攻撃と防衛のための内部Wasserstein距離

Internal Wasserstein Distance for Adversarial Attack and Defense ( http://arxiv.org/abs/2103.07598v1 )

ライセンス: Link先を確認
Jincheng Li, Jiezhang Cao, Shuhai Zhang, Yanwu Xu, Jian Chen, Mingkui Tan(参考訳) ディープニューラルネットワーク(DNNs)は、DNNの誤分類を引き起こす可能性があるが、人間の知覚には受け入れられない可能性がある逆の例に対して脆弱である。 敵攻撃はDNNの堅牢性を評価する重要な方法である。 攻撃例の構築における既存の攻撃方法は、摂動サンプルとの類似度指標として$\ell_p$ 距離を用いる。 しかし、この種の計量は、基礎となる現実世界の画像形成や人間の視覚知覚と相容れない。 本稿では,まず,サンプルとその逆例としての画像類似性を測定する内部wasserstein距離(iwd)を提案する。 我々はiwdを攻撃と防御に応用する。 具体的には,原試料中のパッチの分布を捉えた新しい攻撃手法を開発した。 この場合,本手法は,既存の防御手法により防御が困難である,意味的に類似するが多様な敵の例を生成することができる。 iwdに依拠して、我々はまた、目に見えない敵の例から防御するための堅牢なモデルを学ぶための新しい防御方法を構築します。 理論的および実証的な証拠を徹底して提供し、方法をサポートします。

Deep neural networks (DNNs) are vulnerable to adversarial examples that can trigger misclassification of DNNs but may be imperceptible to human perception. Adversarial attack has been an important way to evaluate the robustness of DNNs. Existing attack methods on the construction of adversarial examples use such $\ell_p$ distance as a similarity metric to perturb samples. However, this kind of metric is incompatible with the underlying real-world image formation and human visual perception. In this paper, we first propose an internal Wasserstein distance (IWD) to measure image similarity between a sample and its adversarial example. We apply IWD to perform adversarial attack and defense. Specifically, we develop a novel attack method by capturing the distribution of patches in original samples. In this case, our approach is able to generate semantically similar but diverse adversarial examples that are more difficult to defend by existing defense methods. Relying on IWD, we also build a new defense method that seeks to learn robust models to defend against unseen adversarial examples. We provide both thorough theoretical and empirical evidence to support our methods.
翻訳日:2021-03-16 13:49:19 公開日:2021-03-13
# Poisson Multi-Bernoulli Mixture Filtering を用いた多対象追跡

Multi-Object Tracking using Poisson Multi-Bernoulli Mixture Filtering for Autonomous Vehicles ( http://arxiv.org/abs/2103.07783v1 )

ライセンス: Link先を確認
Su Pang and Hayder Radha(参考訳) 自動運転車が3Dトラッキングを行う能力は、散らかった環境における安全な計画とナビゲーションに不可欠である。 自動運転アプリケーションにおけるマルチオブジェクトトラッキング(MOT)の主な課題は、オブジェクトの数、オブジェクトの出現および消失の時期および場所、およびオブジェクトの状態に関する不確実性に関する固有の不確実性にあります。 ランダム有限集合(RFS)に基づくアプローチは、これらの不確実性を正確かつエレガントにモデル化することができる。 本研究では、3D LiDARデータのためのRFSベースのMOTフレームワークを開発した。 本稿では,自動走行アプリケーションにおけるアモーダルMOT問題を解決するため,Poisson Multi-Bernoulli Mixing (PMBM)フィルタを提案する。 私たちの知る限りでは、これは業界リーダーが利用できる挑戦的なデータセットを使用して包括的な検証とMOTアプリケーションの3D LiDARデータと一緒にRFSベースのアプローチを採用するための最初の試みです。 公開WaymoおよびArgoverseデータセット上でのPMBMトラッカーの優れた実験結果から、RFSベースのトラッカーは最先端のディープラーニングベースおよびカルマンフィルタベースの多くの手法より優れており、これらの結果は、RFSベースの3DMOTアプリケーションのためのフレームワークをさらに探究する大きな可能性を示唆している。

The ability of an autonomous vehicle to perform 3D tracking is essential for safe planing and navigation in cluttered environments. The main challenges for multi-object tracking (MOT) in autonomous driving applications reside in the inherent uncertainties regarding the number of objects, when and where the objects may appear and disappear, and uncertainties regarding objects' states. Random finite set (RFS) based approaches can naturally model these uncertainties accurately and elegantly, and they have been widely used in radar-based tracking applications. In this work, we developed an RFS-based MOT framework for 3D LiDAR data. In partiuclar, we propose a Poisson multi-Bernoulli mixture (PMBM) filter to solve the amodal MOT problem for autonomous driving applications. To the best of our knowledge, this represents a first attempt for employing an RFS-based approach in conjunction with 3D LiDAR data for MOT applications with comprehensive validation using challenging datasets made available by industry leaders. The superior experimental results of our PMBM tracker on public Waymo and Argoverse datasets clearly illustrate that an RFS-based tracker outperforms many state-of-the-art deep learning-based and Kalman filter-based methods, and consequently, these results indicate a great potential for further exploration of RFS-based frameworks for 3D MOT applications.
翻訳日:2021-03-16 13:46:42 公開日:2021-03-13
# RL-Controller: アクティブ構造制御のための強化学習フレームワーク

RL-Controller: a reinforcement learning framework for active structural control ( http://arxiv.org/abs/2103.07616v1 )

ライセンス: Link先を確認
Soheila Sadeghi Eshkevari, Soheil Sadeghi Eshkevari, Debarshi Sen, Shamim N. Pakzad(参考訳) 構造物の設計ライフサイクルにおける構造的整合性と機能を維持するため、技術者は自然災害や運用負荷レベルに対応することが期待されている。 アクティブ制御システムは、構造が予期せぬ極端な負荷を受けるとき、構造応答制御の効率的なソリューションである。 しかし、従来の手法によるこれらのシステムの開発は、モデル依存の性質によって制限される。 近年の適応学習手法,特に強化学習(RL)の進歩は,リアルタイムな意思決定問題や,高速な計算資源の急速な成長とともに,古典的なモデルに基づくアクティブコントロール問題を純粋にデータ駆動型に変換する上で有効である。 本稿では, フレキシブルでスケーラブルなシミュレーション環境であるRL-Controllerを導入することで, アクティブコントローラを設計するための新しいRLベースのアプローチを提案する。 rlコントローラには、アクティブな構造制御機構を詳細にモデル化するために定義された属性と機能が含まれている。 提案されたフレームワークは,強震動を受けると,ISD(Inter Story drifts)の平均65%削減した5階建てベンチマークビルのトレーニングが容易であることを示した。 lqg能動制御法との比較研究において,提案するモデルフリーアルゴリズムは,システムの機械的特性に関する事前情報を用いずに,lqgに対して平均で25%以上のisd低減を行うような,より最適なアクチュエータ強制戦略を学習できることを実証する。

To maintain structural integrity and functionality during the designed life cycle of a structure, engineers are expected to accommodate for natural hazards as well as operational load levels. Active control systems are an efficient solution for structural response control when a structure is subjected to unexpected extreme loads. However, development of these systems through traditional means is limited by their model dependent nature. Recent advancements in adaptive learning methods, in particular, reinforcement learning (RL), for real-time decision making problems, along with rapid growth in high-performance computational resources, help structural engineers to transform the classic model-based active control problem to a purely data-driven one. In this paper, we present a novel RL-based approach for designing active controllers by introducing RL-Controller, a flexible and scalable simulation environment. The RL-Controller includes attributes and functionalities that are defined to model active structural control mechanisms in detail. We show that the proposed framework is easily trainable for a five story benchmark building with 65% reductions on average in inter story drifts (ISD) when subjected to strong ground motions. In a comparative study with LQG active control method, we demonstrate that the proposed model-free algorithm learns more optimal actuator forcing strategies that yield higher performance, e.g., 25% more ISD reductions on average with respect to LQG, without using prior information about the mechanical properties of the system.
翻訳日:2021-03-16 13:45:51 公開日:2021-03-13
# Simeon - 反復フィルタリングによるセキュアなフェデレーション機械学習

Simeon -- Secure Federated Machine Learning Through Iterative Filtering ( http://arxiv.org/abs/2103.07704v1 )

ライセンス: Link先を確認
Nicholas Malecki and Hye-young Paik and Aleksandar Ignjatovic and Alan Blair and Elisa Bertino(参考訳) フェデレーションラーニングは、トレーニングデータとそのハードウェアのプライバシーを維持したいと願う分散的で信頼できない学習エージェントによって、グローバルな機械学習モデルを共同でトレーニングすることを可能にします。 グローバルモデルは、トレーニングを行うクライアントに配布され、新しく訓練されたモデルを優れたモデルに集約します。 しかし、連合学習システムは、結果として生じるグローバルモデルにおいて、トレーニングを防ぎ、ターゲットとする誤分類を誘発したい悪質な学習エージェントからの干渉に対して脆弱である。 ビザンチン耐性のあるアグリゲーションアルゴリズムのクラスが登場し、これらの攻撃に対して様々な程度の堅牢性を提供し、しばしば攻撃者の数は訓練前に知られている量に制限されている。 本稿では,任意の行動を示すアタッカーの存在下でもロバスト性を達成するために,評価に基づく反復フィルタリング手法を適用した新しいアグリゲーション手法であるSimeonを提案する。 Simeonを最先端のアグリゲーション技術と比較し、Simeonがさまざまな攻撃に匹敵する、または優れた堅牢性を達成することを見つけます。 特に、Simeonは他のアルゴリズムではないシビル攻撃に対して寛容であり、私たちのアプローチの重要な利点を示しています。

Federated learning enables a global machine learning model to be trained collaboratively by distributed, mutually non-trusting learning agents who desire to maintain the privacy of their training data and their hardware. A global model is distributed to clients, who perform training, and submit their newly-trained model to be aggregated into a superior model. However, federated learning systems are vulnerable to interference from malicious learning agents who may desire to prevent training or induce targeted misclassification in the resulting global model. A class of Byzantine-tolerant aggregation algorithms has emerged, offering varying degrees of robustness against these attacks, often with the caveat that the number of attackers is bounded by some quantity known prior to training. This paper presents Simeon: a novel approach to aggregation that applies a reputation-based iterative filtering technique to achieve robustness even in the presence of attackers who can exhibit arbitrary behaviour. We compare Simeon to state-of-the-art aggregation techniques and find that Simeon achieves comparable or superior robustness to a variety of attacks. Notably, we show that Simeon is tolerant to sybil attacks, where other algorithms are not, presenting a key advantage of our approach.
翻訳日:2021-03-16 13:45:27 公開日:2021-03-13
# wenlan: 大規模マルチモーダル事前学習によるビジョンと言語橋渡し

WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training ( http://arxiv.org/abs/2103.06561v2 )

ライセンス: Link先を確認
Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, and Ji-Rong Wen(参考訳) マルチモーダル事前学習モデルは近年,視覚と言語を橋渡しする試みが盛んに行われている。 しかし、それらのほとんどは、テキストと画像のモダリティの間に強い意味的相関が存在すると仮定して、画像とテキストのペア間の相互モーダル相互作用を明示的にモデル化する。 この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である大規模マルチモーダル事前学習の相互モーダル相関を暗黙的にモデル化することを選択します。 具体的には,画像テキスト対に対する弱い相関仮定を用いて,交叉型コントラスト学習フレームワークにおいて,brivlと呼ばれる2層事前学習モデルを提案する。 単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。 大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。 さらに,我々の BriVL モデルを事前学習するための RUC-CAS-WenLan という,中国の大規模マルチソース画像テキストデータセットを構築した。 広範な実験は、事前に訓練されたBriVLモデルが様々な下流タスクでUNITERとOpenAI CLIPの両方を上回っていることを示しています。

Multi-modal pre-training models have been intensively explored to bridge vision and language in recent years. However, most of them explicitly model the cross-modal interaction between image-text pairs, by assuming that there exists strong semantic correlation between the text and image modalities. Since this strong assumption is often invalid in real-world scenarios, we choose to implicitly model the cross-modal correlation for large-scale multi-modal pre-training, which is the focus of the Chinese project `WenLan' led by our team. Specifically, with the weak correlation assumption over image-text pairs, we propose a two-tower pre-training model called BriVL within the cross-modal contrastive learning framework. Unlike OpenAI CLIP that adopts a simple contrastive learning method, we devise a more advanced algorithm by adapting the latest method MoCo into the cross-modal scenario. By building a large queue-based dictionary, our BriVL can incorporate more negative samples in limited GPU resources. We further construct a large Chinese multi-source image-text dataset called RUC-CAS-WenLan for pre-training our BriVL model. Extensive experiments demonstrate that the pre-trained BriVL model outperforms both UNITER and OpenAI CLIP on various downstream tasks.
翻訳日:2021-03-16 11:54:59 公開日:2021-03-13