このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201107となっている論文です。

PDF登録状況(公開日: 20201107)

TitleAuthorsAbstract論文公表日・翻訳日
# 変分法の幾何学:閉量子系のダイナミクス

Geometry of variational methods: dynamics of closed quantum systems ( http://arxiv.org/abs/2004.01015v4 )

ライセンス: Link先を確認
Lucas Hackl, Tommaso Guaita, Tao Shi, Jutho Haegeman, Eugene Demler, J. Ignacio Cirac(参考訳) 最適に選択された変分族に基づく閉量子系を研究するための体系的幾何学的枠組みを提案する。 A) 実時間発展、(B) 励起スペクトル、(C) スペクトル関数、(D) 虚時間発展の目的のために、幾何学的アプローチが多様体のクラス K\"ahler と "non-K\ahler" を区別する必要性を強調していることを示す。 伝統的な変分法は、典型的には変分族を K\'ahler 多様体でなければならないが、虚数単位による乗法は接空間を保存する。 これは、文献で研究されているほとんどの事例をカバーしている。 しかし、最近提案された一般化されたガウス状態のクラスは、時折遭遇した非K\ahlerケースも含める必要がある。 本稿では,多様体の幾何学的構造が特に関係する具体例について,そのアプローチを詳細に解説する。 これらはガウス状態と群論的コヒーレント状態から一般化ガウス状態へと移行する。

We present a systematic geometric framework to study closed quantum systems based on suitably chosen variational families. For the purpose of (A) real time evolution, (B) excitation spectra, (C) spectral functions and (D) imaginary time evolution, we show how the geometric approach highlights the necessity to distinguish between two classes of manifolds: K\"ahler and non-K\"ahler. Traditional variational methods typically require the variational family to be a K\"ahler manifold, where multiplication by the imaginary unit preserves the tangent spaces. This covers the vast majority of cases studied in the literature. However, recently proposed classes of generalized Gaussian states make it necessary to also include the non-K\"ahler case, which has already been encountered occasionally. We illustrate our approach in detail with a range of concrete examples where the geometric structures of the considered manifolds are particularly relevant. These go from Gaussian states and group theoretic coherent states to generalized Gaussian states.
翻訳日:2023-05-27 03:27:23 公開日:2020-11-07
# 線形深度回路を持つ量子コンピュータ上でのLaughlin型$\nu=1/3$分数量子ホール状態の生成と操作

Creating and manipulating a Laughlin-type $\nu=1/3$ fractional quantum Hall state on a quantum computer with linear depth circuits ( http://arxiv.org/abs/2005.02399v2 )

ライセンス: Link先を確認
Armin Rahmani, Kevin J. Sung, Harald Putterman, Pedram Roushan, Pouyan Ghaemi, Zhang Jiang(参考訳) ここでは,数値化された量子コンピュータ上で,hrylinの$\nu=1/3$分数量子ホール状態と同等の多体状態を生成する効率的な量子アルゴリズムを提案する。 我々のアルゴリズムは、隣接する量子ビットに作用する量子ゲートを準1次元設定でのみ使用し、その回路深さは、量子化された第2画像中のランダウ軌道の数であるキュービット数で線形である。 我々は、ラウリン状態のシグネチャとして機能する相関関数を特定し、量子コンピュータ上でそれらを得る方法について議論する。 また、ラウリン状態における準粒子生成アルゴリズムの一般化についても論じる。 これは、非平衡力学の量子シミュレーションや量子ホール状態の準粒子のブレイディングなど、いくつかの重要な研究の道を開く。

Here we present an efficient quantum algorithm to generate an equivalent many-body state to Laughlin's $\nu=1/3$ fractional quantum Hall state on a digitized quantum computer. Our algorithm only uses quantum gates acting on neighboring qubits in a quasi-one-dimensional setting, and its circuit depth is linear in the number of qubits, i.e., the number of Landau orbitals in the second quantized picture. We identify correlation functions that serve as signatures of the Laughlin state and discuss how to obtain them on a quantum computer. We also discuss a generalization of the algorithm for creating quasiparticles in the Laughlin state. This paves the way for several important studies, including quantum simulation of nonequilibrium dynamics and braiding of quasiparticles in quantum Hall states.
翻訳日:2023-05-21 02:49:38 公開日:2020-11-07
# 一般化非文脈オントロジモデルに対する構造定理

A structure theorem for generalized-noncontextual ontological models ( http://arxiv.org/abs/2005.07161v2 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Matthew F. Pusey, and Robert W. Spekkens(参考訳) 操作理論の予測が古典的に説明可能であると考えるべき時期の基準を持つことは有用である。 ここでは、この理論が一般化された非文脈的存在論モデルを認めるという条件を定めている。 一般化された非コンテクスト性に関する既存の研究は、単純な構造を持つ実験的なシナリオに焦点を当ててきた。 ここでは、オントロジモデルの枠組みと一般化された非文脈性の原理を任意の構成シナリオに拡張する。 我々は、この過程論的枠組みを利用して、いくつかの合理的な仮定の下で、トモグラフィ的局所的操作理論のすべての一般化非文脈的オントロジモデルが驚くほど厳格で単純な数学的構造を持つことを証明する。 この定理の結果として、そのようなモデルで可能な最も多くのオンティック状態は、関連する一般化確率論の次元によって与えられる。 この制約は、非文脈性ノーゴー定理の生成や、実験的に文脈性を証明する手法に有用である。 その過程で,古典性の概念の同値性に関する既知結果を,準備シナリオから任意の構成シナリオまで拡張する。 具体的には、操作理論の古典的説明可能性の3つの概念の対応を証明する。 (i)非文脈的存在論的モデルを認めること。 (ii)正の準確率表現を認めること、及び (iii)簡易組込み可能。

It is useful to have a criterion for when the predictions of an operational theory should be considered classically explainable. Here we take the criterion to be that the theory admits of a generalized-noncontextual ontological model. Existing works on generalized noncontextuality have focused on experimental scenarios having a simple structure, typically, prepare-measure scenarios. Here, we formally extend the framework of ontological models as well as the principle of generalized noncontextuality to arbitrary compositional scenarios. We leverage this process-theoretic framework to prove that, under some reasonable assumptions, every generalized-noncontextual ontological model of a tomographically local operational theory has a surprisingly rigid and simple mathematical structure; in short, it corresponds to a frame representation which is not overcomplete. One consequence of this theorem is that the largest number of ontic states possible in any such model is given by the dimension of the associated generalized probabilistic theory. This constraint is useful for generating noncontextuality no-go theorems as well as techniques for experimentally certifying contextuality. Along the way, we extend known results concerning the equivalence of different notions of classicality from prepare-measure scenarios to arbitrary compositional scenarios. Specifically, we prove a correspondence between the following three notions of classical explainability of an operational theory: (i) admitting a noncontextual ontological model, (ii) admitting of a positive quasiprobability representation, and (iii) being simplex-embeddable.
翻訳日:2023-05-20 05:22:06 公開日:2020-11-07
# 非線形導波路アレイにおける量子状態工学

Quantum state engineering in arrays of nonlinear waveguides ( http://arxiv.org/abs/2005.07240v2 )

ライセンス: Link先を確認
David Barral, Mattia Walschaers, Kamel Bencheikh, Valentina Parigi, Juan Ariel Levenson, Nicolas Treps and Nadia Belabas(参考訳) 連続変数系におけるマルチモードスクイーズと絡み合いの実装のための、現在効率的かつ実験的に実現可能なプラットフォームを求めて、baral et al., physによって提示された非線形導波路アレイにおける多モード絡み合いとクラスター状態の生成を基礎とし、その結果を補完する。 Rev. Appl。 $\bf{14}$, 044025 (2020)。 本システムを通して光の伝播を記述する方程式の詳細な導出を行い,これらの方程式を解析的に解けるパラメータ状態に着目した。 これらの分析解は、ポンプ、カップリング、測定スキームの活性化を通じてアクセス可能な量子状態の広い風景の直観を構築する。 さらに,空間線形クラスタ状態の生成,最適化,拡張性を示すために,特定した分析解の1つを用いて得られた知見を示す。

In the current quest for efficient and experimentally feasible platforms for implementation of multimode squeezing and entanglement in the continuous variable regime, we underpin and complement our results on the generation of versatile multimode entanglement and cluster states in nonlinear waveguide arrays presented by Barral et al., Phys. Rev. Appl. $\bf{14}$, 044025 (2020). We present detailed derivations of the equations that describe the propagation of light through this system, and then we focus on parameter regimes where these equations can be solved analytically. These analytical solutions build an intuition for the wide landscape of quantum states that are accessible through the activation of pumping, coupling and measurement schemes. Furthermore, we showcase the acquired insights by using one of the identified analytical solutions to exhibit the generation, optimization and scalability of spatial linear cluster states.
翻訳日:2023-05-20 05:10:02 公開日:2020-11-07
# 2次元ハバード模型のドーピング駆動モット遷移における絡み合いと古典相関

Entanglement and classical correlations at the doping-driven Mott transition in the two-dimensional Hubbard model ( http://arxiv.org/abs/2007.00562v2 )

ライセンス: Link先を確認
C. Walsh, P. S\'emon, D. Poulin, G. Sordi, A.-M. S. Tremblay(参考訳) 量子情報理論のツールは、相互作用する多体量子系における相と相転移を特徴付ける新しい視点を提供する。 ハバードモデルはそのような系の根本的モデルであり、最小の仮定で量子物質の豊富な現象を説明することができる。 近年の光学格子における超低温原子を用いたこのモデルの絡み合い関連特性の測定は、絡み合いが擬ギャップ相の顕著な性質を含むドープハバードモデルの解答の鍵となることを示唆している。 これらの実験結果は理論的な枠組みと新しい予測を必要とする。 ここでは、量子情報理論の観点から、ドープされたハバードモデルに2次元でアプローチする。 本研究では, 局所エントロピーとドーピング駆動型モット遷移の全体的相互情報について検討した。 これら2つの絡み合い関連特性をドーピングすると,モット絶縁相,強い相関を持つ擬ギャップ相,金属相が検出される。 エンタングルメント関連の性質にインプリントされたpseudogapは、金属一階転移、有限温度臨界端、超臨界交差とも相関している。 この足跡を通して、量子相関と古典相関の予期せぬ相互作用が明らかになる。 本研究は, 交絡関連特性の急激な変化と対称性の破れが, 有限温度での擬ギャップ位相の開始を特徴付けることを示す。

Tools of quantum information theory offer a new perspective to characterize phases and phase transitions in interacting many-body quantum systems. The Hubbard model is the archetypal model of such systems and can explain rich phenomena of quantum matter with minimal assumptions. Recent measurements of entanglement-related properties of this model using ultracold atoms in optical lattices hint that entanglement could provide the key to understanding open questions of the doped Hubbard model, including the remarkable properties of the pseudogap phase. These experimental findings call for a theoretical framework and new predictions. Here we approach the doped Hubbard model in two dimensions from the perspective of quantum information theory. We study the local entropy and the total mutual information across the doping-driven Mott transition within plaquette cellular dynamical mean-field theory. We find that upon varying doping these two entanglement-related properties detect the Mott insulating phase, the strongly correlated pseudogap phase, and the metallic phase. Imprinted in the entanglement-related properties we also find the pseudogap to correlated metal first-order transition, its finite temperature critical endpoint, and its supercritical crossovers. Through this footprint we reveal an unexpected interplay of quantum and classical correlations. Our work shows that sharp variation in the entanglement-related properties and not broken symmetry phases characterizes the onset of the pseudogap phase at finite temperature.
翻訳日:2023-05-11 23:13:45 公開日:2020-11-07
# 局所操作下における2量子状態の正準形式

Canonical forms of two-qubit states under local operations ( http://arxiv.org/abs/2007.00697v2 )

ライセンス: Link先を確認
Sudha, H. S. Karthik, Rajarshi Pal, K. S. Akhilesh, Sibashish Ghosh, K. S. Mallesh and A. R. Usha Devi(参考訳) 確率的局所演算と古典的通信(SLOCC)の作用の下での2量子ビットの標準形式は、それらが共有する非局所性と絡み合いを理解する上で大きな洞察を与える。 また、ブロッホボール内の2量子状態の幾何学的図式も可能となる。 展示されている(Verstraete et.al)。 である。 a, 64, 010101(r) (2001) は、任意の2量子ビット状態がsloccの下で2つの異なる標準形式のいずれかに変換されることを示した。 そのうちの1つは2量子状態のベル対角形であり、他の非対角正準形式は2量子状態のランク不足の族に対して得られる。 Verstraeteらによる方法。 非定値計量を持つ n$ 次元空間における行列分解の非常に非自明な結果が必要となる。 ここでは、古典偏光光学においてrao et. al. (j. mod. opt. 45, 955 (1998)) によって開発された手法に着想を得た、全く異なるアプローチを採用する。 さらに,本手法はSLOCC標準形を用いて2量子状態の簡易な幾何学的可視化を実現する。

Canonical forms of two-qubits under the action of stochastic local operations and classical communications (SLOCC) offer great insight for understanding non-locality and entanglement shared by them. They also enable geometric picture of two-qubit states within the Bloch ball. It has been shown (Verstraete et.al. {Phys. Rev. A, 64, 010101(R) (2001)) that an arbitrary two-qubit state gets transformed under SLOCC into one of the {\em two} different canonical forms. One of these happens to be the Bell diagonal form of two-qubit states and the other non-diagonal canonical form is obtained for a family of rank deficient two-qubit states. The method employed by Verstraete et.al. required highly non-trivial results on matrix decompositions in $n$ dimensional spaces with indefinite metric. Here we employ an entirely different approach -- inspired by the methods developed by Rao et. al., (J. Mod. Opt. 45, 955 (1998)) in classical polarization optics -- which leads naturally towards the identification of two inequivalent SLOCC invariant canonical forms for two-qubit states. In addition, our approach results in a simple geometric visualization of two-qubit states in terms of their SLOCC canonical forms.
翻訳日:2023-05-11 23:01:52 公開日:2020-11-07
# Ising Quantum Wiresを用いたプログラマブル量子アニーリングアーキテクチャ

Programmable Quantum Annealing Architectures with Ising Quantum Wires ( http://arxiv.org/abs/2008.00006v2 )

ライセンス: Link先を確認
Xingze Qiu, Peter Zoller, and Xiaopeng Li(参考訳) 量子アニールは、イジングスピン-ハミルトン量子の基底状態を機械的に準備することで最適化問題を効率的に解くことを目的としている。 量子アニール器構築の前提条件は、プログラム可能な長距離2-、3-またはマルチスピンイジング相互作用の実装である。 本稿では、必要なスピン相互作用を2ポートで実装するアーキテクチャ、あるいは一般的にはスピンを接続するマルチポート量子イジングワイヤについて論じる。 量子線のイジングによって接続されるスピンの量子アニール構造は、光学格子中の原子やrydberg tweezer配列を含む原子プラットフォームの3次元(3d)特性を利用して実現することができる。 この実現は、近傍の量子ビット間の工学的なオンサイト項と2体相互作用のみを必要とする。 3次元立方格子上の局所結合スピンモデルは、任意の全対全結合イジングハミルトニアンを効果的に生成するのに十分である。 最大カッツおよび素因数分解問題を解く少数のスピンデバイスに対するアプローチを概説し、大型原子系へのスケーリングの可能性について論じる。

Quantum annealing aims at solving optimization problems efficiently by preparing the ground state of an Ising spin-Hamiltonian quantum mechanically. A prerequisite of building a quantum annealer is the implementation of programmable long-range two-, three- or multi-spin Ising interactions. We discuss an architecture, where the required spin interactions are implemented via two-port, or in general multi-port quantum Ising wires connecting the spins of interest. This quantum annealing architecture of spins connected by Ising quantum wires can be realized by exploiting the three dimensional (3D) character of atomic platforms, including atoms in optical lattices and Rydberg tweezer arrays. The realization only requires engineering on-site terms and two-body interactions between nearest neighboring qubits. The locally coupled spin model on a 3D cubic lattice is sufficient to effectively produce arbitrary all-to-all coupled Ising Hamiltonians. We illustrate the approach for few spin devices solving Max-Cut and prime factorization problems, and discuss the potential scaling to large atom based systems.
翻訳日:2023-05-07 12:34:36 公開日:2020-11-07
# 液体ヘリウム上の表面電子の励起リドバーグ状態の緩和

Relaxation of the Excited Rydberg States of Surface Electrons on Liquid Helium ( http://arxiv.org/abs/2009.11502v2 )

ライセンス: Link先を確認
Erika Kawakami, Asem Elarabi, Denis Konstantinov(参考訳) 液体ヘリウム表面に閉じ込められた電子の励起状態の集団の崩壊を初めて直接観察したことを報告する。 系の非弾性散乱過程によって制御される緩和ダイナミクスは、パルスマイクロ波励起に対する電子のリアルタイム応答によって探索される。 理論計算との比較により、異なる温度における非弾性散乱の支配機構を確立できる。 最も長く測定された緩和時間は135mKの最低温度で約1usであり、自然発生の2リッポン放出過程による非弾性散乱によって決定される。 さらに,マイクロ波照射を施した直後のイメージチャージ応答は,マルチサブバンド構造による興味深い人口動態を示す。

We report the first direct observation of the decay of the excited-state population in electrons trapped on the surface of liquid helium. The relaxation dynamics, which are governed by inelastic scattering processes in the system, are probed by the real-time response of the electrons to a pulsed microwave excitation. Comparison with theoretical calculations allows us to establish the dominant mechanisms of inelastic scattering for different temperatures. The longest measured relaxation time is around 1 us at the lowest temperature of 135 mK, which is determined by the inelastic scattering due to the spontaneous two-ripplon emission process. Furthermore, the image-charge response shortly after applying microwave radiation reveals interesting population dynamics due to the multisubband structure of the system.
翻訳日:2023-05-01 02:51:41 公開日:2020-11-07
# 沈み込み体積における絡み合い共有の突然の凍結と解凍

Sudden Freezing and Thawing of Entanglement Sharing in a Shrunken Volume ( http://arxiv.org/abs/2009.12449v2 )

ライセンス: Link先を確認
Yi Ding, Songbo Xie and Joseph H. Eberly(参考訳) 共振器と相互作用する2つの同じ2つの原子の1つの励起文脈内で、各量子ビットと系の残りの部分の間の全ての2部1対他の絡み合いのダイナミクスを調べる。 エンタングルメントの非解析的「sudden」動的挙動が新たに発見された。 具体的には、システムの3つの1対他の絡み合いの和を、その最大値で突然凍結したり、この値から周期的に解凍することができる。 いくつかの異なる初期条件下で急激な凍結と急激な解凍の開始タイミングを計算する。 エンタングルメントの永久凍結現象も見いだされる。 また, 3つの個別の絡み合いの総和に対する非自明な上限を同定し, 絡み合い共有の概念を縮小した「体積」で明らかにした。 凍結および解凍過程に関するさらなる分析は、絡み合い共有の量的および質的な法則を明らかにする。

Within the one-excitation context of two identical two-level atoms interacting with a common cavity, we examine the dynamics of all bipartite one-to-other entanglements between each qubit and the remaining part of the whole system. We find a new non-analytic "sudden" dynamical behavior of entanglement. Specifically, the sum of the three one-to-other entanglements of the system can be suddenly frozen at its maximal value or can be suddenly thawed from this value in a periodic manner. We calculate the onset timing of sudden freezing and sudden thawing under several different initial conditions. The phenomenon of permanent freezing for entanglement is also found. We also identify a non-trivial upper limit for the sum of three individual entanglements, which exposes the concept of entanglement sharing in a shrunken "volume". Further analyses about freezing and thawing processes reveal quantitative and qualitative laws of entanglement sharing.
翻訳日:2023-05-01 00:32:44 公開日:2020-11-07
# チューナブルカプラと結合した超伝導量子ビットにおける断熱CZゲートの実現

Realisation of adiabatic and diabatic CZ gates in superconducting qubits coupled with a tunable coupler ( http://arxiv.org/abs/2010.14053v5 )

ライセンス: Link先を確認
Huikai Xu, Weiyang Liu, Zhiyuan Li, Jiaxiu Han, Jingning Zhang, Kehuan Linghu, Yongchao Li, Mo Chen, Zhen Yang, Junhua Wang, Teng Ma, Guangming Xue, Yirong Jin, Haifeng Yu(参考訳) 高忠実度2ビットゲートは超伝導数のスケールアップに基本となる。 結合強度を調整可能な周波数可変カプラを介して2つの量子ビットを結合し,断熱法と断熱法という2つの異なるスキームを用いてczゲートを実演する。 czゲート忠実度の評価と最適化にはclifford based randomized benchmarking (rb) 法が用いられる。 断熱性CZゲートの忠実度はそれぞれ99.53(8)%と98.72(2)%である。 また、デコヒーレンスによって引き起こされる誤差も分析する。 ダイアバティックCZゲートの30 ns持続時間と比較すると、ダイアバティックCZゲートの持続時間は19 nsであり、r'_{\rm{incoherent, int}}$ = 0.0197(5) より低い非コヒーレンス誤差率 $r'_{\rm{incoherent, int}}$ = 0.0223(3) を示す。

High fidelity two-qubit gates are fundamental for scaling up the superconducting number. We use two qubits coupled via a frequency-tunable coupler which can adjust the coupling strength, and demonstrate the CZ gate using two different schemes, adiabatic and diabatic methods. The Clifford based Randomized Benchmarking (RB) method is used to assess and optimize the CZ gate fidelity. The fidelity of adiabatic and diabatic CZ gates are 99.53(8)% and 98.72(2)%, respectively. We also analyze the errors induced by the decoherence. Comparing to 30 ns duration time of adiabatic CZ gate, the duration time of diabatic CZ gate is 19 ns, revealing lower incoherence error rate $r'_{\rm{incoherent, int}}$ = 0.0197(5) than $r_{\rm{incoherent, int}}$ = 0.0223(3).
翻訳日:2023-04-27 08:50:47 公開日:2020-11-07
# 局所量子現実感

Local Quantum Reality ( http://arxiv.org/abs/2011.01039v2 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) 測定結果が得られない。 観測されていない結果は将来の測定に影響を及ぼす可能性がある。

Unperformed measurements have no results. Unobserved results can affect future measurements.
翻訳日:2023-04-26 07:31:48 公開日:2020-11-07
# 室温アルカリ蒸気中の量子メモリの狭い速度分布の調製

Preparing Narrow Velocity Distributions for Quantum Memories in Room-Temperature Alkali Vapours ( http://arxiv.org/abs/2011.03766v1 )

ライセンス: Link先を確認
D. Main, T. M. Hird, S. Gao, E. Oguz, D. J. Saunders, I. A. Walmsley, P. M. Ledingham(参考訳) 量子メモリは、確率演算の同期による大規模量子ネットワークを実現する上で重要な技術である。 このようなネットワークは、ストレージ時間、検索効率、帯域幅、スケーラビリティなどの量子メモリに厳しい要件を課している。 ウォームアトミック蒸気プラットフォーム上のオン・オフ共振ラダープロトコルは、効率的な高帯域幅動作と低ノイズオンデマンド検索を組み合わせた、有望な候補である。 しかし, 蒸気を含む原子の広い速度分布に起因する運動誘起脱落により, 保存時間が著しく制限される。 本稿では,このデコヒーレンス機構を克服するために,速度選択型光ポンピングを実証する。 これにより、蒸気メモリのメモリ保存時間を短縮できる。 この技術は、例えば原子周波数コム吸収特性を準備するなど、任意の形状の吸収プロファイルを作成するためにも使用できる。

Quantum memories are a crucial technology for enabling large-scale quantum networks through synchronisation of probabilistic operations. Such networks impose strict requirements on quantum memory, such as storage time, retrieval efficiency, bandwidth, and scalability. On- and off-resonant ladder protocols on warm atomic vapour platforms are promising candidates, combining efficient high-bandwidth operation with low-noise on-demand retrieval. However, their storage time is severely limited by motion-induced dephasing caused by the broad velocity distribution of atoms comprising the vapour. In this paper, we demonstrate velocity selective optical pumping to overcome this decoherence mechanism. This will increase the achievable memory storage time of vapour memories. This technique can also be used for preparing arbitrarily shaped absorption profiles, for instance, preparing an atomic frequency comb absorption feature.
翻訳日:2023-04-25 01:22:53 公開日:2020-11-07
# 光用室温原子周波数コムメモリ

Room Temperature Atomic Frequency Comb Memory for Light ( http://arxiv.org/abs/2011.03765v1 )

ライセンス: Link先を確認
D. Main, T. M. Hird, S. Gao, I. A. Walmsley, P. M. Ledingham(参考訳) 室温アルカリ蒸気中における原子周波数コム量子メモリプロトコルを用いたパルス光のコヒーレント保存と検索を実証する。 セシウムの超微細基底状態において,速度選択型光ポンピングを用いて複数の速度クラスを調製する。 クラスの周波数間隔は、6^2$p$_{3/2}$の励起状態の$f'=4 - f'=5$の超微粒子分裂と一致し、通常ドップラーで膨らんだ2つの光遷移からなる広帯域の周期吸収構造となる。 2\,\mathrm{ns}$の弱いコヒーレント状態はこの原子周波数コムにマッピングされ、事前プログラムされたリコール時間は8\,\mathrm{ns}$と12\,\mathrm{ns}$であり、マルチタイムモードストレージとリコールが実証されている。 コンブに2つの遷移を利用すると、リコール効率を高めるために追加の干渉効果が生じる。

We demonstrate coherent storage and retrieval of pulsed light using the atomic frequency comb quantum memory protocol in a room temperature alkali vapour. We utilise velocity-selective optical pumping to prepare multiple velocity classes in the $F=4$ hyperfine ground state of caesium. The frequency spacing of the classes is chosen to coincide with the $F'=4 - F'=5$ hyperfine splitting of the $6^2$P$_{3/2}$ excited state resulting in a broadband periodic absorbing structure consisting of two usually Doppler-broadened optical transitions. Weak coherent states of duration $2\,\mathrm{ns}$ are mapped into this atomic frequency comb with pre-programmed recall times of $8\,\mathrm{ns}$ and $12\,\mathrm{ns}$, with multi-temporal mode storage and recall demonstrated. Utilising two transitions in the comb leads to an additional interference effect upon rephasing that enhances the recall efficiency.
翻訳日:2023-04-25 01:22:39 公開日:2020-11-07
# 非エルミートライス・ミールモデルにおける射影的位相的例外点

Projectively topological exceptional points in non-Hermitian Rice-Mele model ( http://arxiv.org/abs/2011.03743v1 )

ライセンス: Link先を確認
C. Li and Z. Song(参考訳) Su-Schrieffer-Heeger (SSH) 鎖と, 地上の想像力とを組み合わせた非Hermitian Rice-Mele 鎖について検討した。 2次元(2次元)熱力学的極限では、例外点 (eps) は位相的特徴を示す: eps は、非エルミートハミルトニアンのブロッホ状態から得られる k 空間内の実補助2次元ベクトル場の位相的欠陥に対応する。 位相不変量として、EPの位相電荷は、巻数計算によって得られる$\pm$1/2である。 注目すべきことに、そのような位相的特徴付けは、一方向の運動量が離散である有限個の連結鎖(一方向の鎖でさえも)に対して残っている。 これは、準-1d系におけるepsが依然として位相的特性を示しており、摂動に頑健な対称保護epを持つ2次元系では、対応する2次元極限系の射影から準-1d系に対する位相不変量を抽出することができることを証明している。

We study coupled non-Hermitian Rice-Mele chains, which consist of Su-Schrieffer-Heeger (SSH) chain system with staggered on-site imaginary potentials. In two dimensional (2D) thermodynamic limit, the exceptional points (EPs) are shown to exhibit topological feature: EPs correspond to topological defects of a real auxiliary 2D vector field in k space, which is obtained from the Bloch states of the non-Hermitian Hamiltonian. As a topological invariant, the topological charges of EPs can be $\pm$1/2, obtained by the winding number calculation. Remarkably, we find that such a topological characterization remains for a finite number of coupled chains, even a single chain, in which the momentum in one direction is discrete. It shows that the EPs in the quasi-1D system still exhibit topological characteristics and can be an abridged version for a 2D system with symmetry protected EPs that are robust in perturbations, which proves that topological invariants for a quasi-1D system can be extracted from the projection of the corresponding 2D limit system on it.
翻訳日:2023-04-25 01:22:07 公開日:2020-11-07
# 二次結合光機械システムからなる高精度フォノン遮断検出器

Accurate phonon blockade detector composed of a quadratically coupled optomechanical system ( http://arxiv.org/abs/2011.03727v1 )

ライセンス: Link先を確認
Ye-Xiong Zeng, Tesfay Gebremariam, Jian Shen, Biao Xiong, Chong Li(参考訳) ナノメカニカル発振器におけるフォノン遮断の観測は、その量子的性質の明らかな証拠である。 しかし, 非線形カップリングを効果的に行う光学系において, 強いフォノン遮断を測定することは依然として深刻な課題である。 本稿では,教師付き機械学習を活用し,二次結合光力学系におけるフォノン遮断効果を理論的に検出する手法を提案する。 検出された光学信号は入力としてニューラルネットワークに注入され、出力は機械的等時二階相関となる。 提案手法はフォノン遮断の検出において優れた性能を示す。 特に、非線形結合系では効率的であり、強い光子遮断に対して高精度に作用し、システムパラメータの小さな乱れに対して頑健である。 我々の研究は、フォノン遮断検出器を構築するための有望な方法を開く。

The observation of phonon blockade in a nanomechanical oscillator is clear evidence of its quantum nature. However, it is still a severe challenge to measure the strong phonon blockade in an optomechanical system with effective nonlinear coupling. In this paper, we propose a theoretical proposal for detecting the phonon blockade effect in a quadratically coupled optomechanical system by exploiting supervised machine learning. The detected optical signals are injected into the neural network as the input, while the output is the mechanical equal-time second-order correlation. Our results show our scheme performs superior performance on detecting phonon blockade. Specifically, it is efficient for nonlinear coupling systems; it performs a high precision for strong photon blockade; it is robust against the small disturbance of system parameters. Our work opens a promising way to build a phonon blockade detector.
翻訳日:2023-04-25 01:21:42 公開日:2020-11-07
# airsense-to-act:人工知能アルゴリズムとマルチソースデータ処理に基づくcovid-19対策のコンセプトペーパー

AIRSENSE-TO-ACT: A Concept Paper for COVID-19 Countermeasures based on Artificial Intelligence algorithms and multi-sources Data Processing ( http://arxiv.org/abs/2011.05808v1 )

ライセンス: Link先を確認
A. Sebastianelli, F. Mauro, G. Di Cosmo, F. Passarini, M. Carminati, S. L. Ullo(参考訳) 本稿の目的は,現在の新型コロナウイルスのパンデミックのような緊急事態対策と闘うための,定量的かつ多元的な要素を基盤として,対策の実施を支援する新たなツールについて述べることである。 このツールは集中型システム(Webアプリケーション)であり、単一のマルチユーザプラットフォームであり、異種データの処理に人工知能(AI)アルゴリズムに依存しており、出力レベルのリスクを生み出すことができる。 このモデルは、興味のある場合に、選択された入力間の相関を学習するために最初に訓練される特定のニューラルネットワークを含む:環境変数(気象学のような化学的・物理的に)、人間の活動(交通や群集など)、汚染レベル(特に粒子状物質の濃度)、および感染の進化に関連する疫学的変数。 プロジェクトの第1フェーズで実現されたツールは、実際の測定データによって供給された際の予測能力を備えた意思決定支援システム(DSS)や、特定の入力値のチューニングを行うシミュレーションベンチとして機能し、そのどれがリスクの程度を減少させるかを特定する。 このようにして、著者らは、異なる制限戦略と実際の期待する利益を比較するために異なるシナリオをデザインし、実際のニーズに大きめの措置を採用し、特定の分析領域に適応し、人間の健康を保護するのに役立つだけでなく、その選択の経済的および社会的影響も考慮することを目的としている。

Aim of this paper is the description of a new tool to support institutions in the implementation of targeted countermeasures, based on quantitative and multi-scale elements, for the fight and prevention of emergencies, such as the current COVID-19 pandemic. The tool is a centralized system (web application), single multi-user platform, which relies on Artificial Intelligence (AI) algorithms for the processing of heterogeneous data, and which can produce an output level of risk. The model includes a specific neural network which will be first trained to learn the correlation between selected inputs, related to the case of interest: environmental variables (chemical-physical, such as meteorological), human activity (such as traffic and crowding), level of pollution (in particular the concentration of particulate matter), and epidemiological variables related to the evolution of the contagion. The tool realized in the first phase of the project will serve later both as a decision support system (DSS) with predictive capacity, when fed by the actual measured data, and as a simulation bench performing the tuning of certain input values, to identify which of them lead to a decrease in the degree of risk. In this way, the authors aim to design different scenarios to compare different restrictive strategies and the actual expected benefits, to adopt measures sized to the actual need, and adapted to the specific areas of analysis, useful to safeguard human health, but also the economic and social impact of the choices.
翻訳日:2023-04-25 01:17:02 公開日:2020-11-07
# コンテキスト性:パラドックスの境界で

Contextuality: At the Borders of Paradox ( http://arxiv.org/abs/2011.04899v1 )

ライセンス: Link先を確認
Samson Abramsky(参考訳) 文脈性は量子力学の重要な特徴である。 我々は,abramsky と brandenburger によって導入された文脈性に対する層理論的なアプローチを示し,パラドックスの境界における論理現象や物理現象をいかにカバーするかを示す。

Contextuality is a key feature of quantum mechanics. We present the sheaf-theoretic approach to contextuality introduced by Abramsky and Brandenburger, and show how it covers a range of logical and physical phenomena "at the borders of paradox".
翻訳日:2023-04-25 01:16:32 公開日:2020-11-07
# 車椅子ナビゲーション改善のためのオープンエリアパス探索

Open Area Path Finding to Improve Wheelchair Navigation ( http://arxiv.org/abs/2011.03850v1 )

ライセンス: Link先を確認
Anahid Basiri(参考訳) ナビゲーションは位置情報ベースサービス(LBS)の最も広く使われている応用の1つであり、デジタル化された日常生活の一部となった。 しかし、ナビゲーションサービスは通常、歩行者や車椅子のような他のユーザーよりもドライバーのために設計されている。 これらのユーザにとって、道路や道路の有向ネットワークは動きを制限しないが、動きの速度の低下や、天候や舗装面の状態に依存している他の制限があるかもしれない。 本稿では,草地や公園などの経路のネットワークを持たない領域において,従来のグラフベースのアルゴリズムが実質的にトラバース可能な経路を計算できない領域に対して,新しい経路探索アルゴリズムを提案し,実装する。 この新しい手法は,現在利用可能なソリューションと比較して高い性能,効率,ユーザ満足度を有するマルチモーダリティを提供する。 提案アルゴリズムは, 車椅子利用者にとって重要な要因に基づいて, 障害物や障壁を考慮し, 経路を計算し, オープンエリアに新たなグラフを作成する。 路面の傾斜,幅,表面状態などの要因は,車いす利用者の実際の軌跡を軌跡マイニングや機械学習技術を用いてマイニングすることによって認識される。 rasterベースの技術とは異なり、グラフベースのオープンエリアパス探索アルゴリズムは、ルーティングを現在のトランスポートルーティングサービスと完全に互換性を持たせ、完全なマルチモーダルルーティングサービスを可能にする。 実装とテストは、提案アルゴリズムの出力と実際の車椅子利用者の軌跡の少なくとも76.4%の類似性を示している。

Navigation is one of the most widely used applications of the Location Based Services (LBS) which have become part of our digitally informed daily lives. Navigation services, however, have generally been designed for drivers rather than other users such as pedestrians or wheelchair users. For these users the directed networks of streets and roads do not limit their movements, but their movements may have other limitations, including lower speed of movement, and being more dependent on weather and the pavement surface conditions. This paper proposes and implements a novel path finding algorithm for open areas, i.e. areas with no network of pathways such as grasslands and parks where the conventional graph-based algorithms fail to calculate a practically traversable path. The new method provides multimodality, a higher level of performance, efficiency, and user satisfaction in comparison with currently available solutions. The proposed algorithm creates a new graph in the open area, which can consider the obstacles and barriers and calculate the path based on the factors that are important for wheelchair users. Factors, including slope, width, and surface condition of the routes, are recognised by mining the actual trajectories of wheelchairs users using trajectory mining and machine learning techniques. Unlike raster-based techniques, a graph-based open area path finding algorithm allows the routing to be fully compatible with current transportation routing services, and enables a full multimodal routing service. The implementations and tests show at least a 76.4% similarity between the proposed algorithm outputs and actual wheelchair users trajectories.
翻訳日:2023-04-25 01:16:24 公開日:2020-11-07
# 大面積検出器を用いた自由空間量子コヒーレント通信のリンク距離の増大

Increasing the link-distance of free-space quantum coherent communication with large area detectors ( http://arxiv.org/abs/2011.03843v1 )

ライセンス: Link先を確認
Rupesh Kumar, Igor Konieczniak, Gerald Bonner, Tim Spiller(参考訳) 自由空間量子コヒーレント通信のための大面積フォトダイオードベースホモダイン検出器について報告する。 この検出器の性能は、ショットノイズ制限量子信号検出のための検出帯域幅と電子ノイズの観点から研究されている。 広い領域のフォトダイオードを使用することで、典型的なファイバーベースの自由空間ホモダイン検出器と比較して、乱流大気チャネルからの信号収集効率が向上する。 同一の大気乱流と受信開口条件下では, 直径1mmのフォトダイオードに基づくホモダイン検出器は乱流による0dBの損失を経験し, 10umファイバー検出器は700km自由空間リンク上で13.5dBの信号損失を90度で経験する。

We report a large area photo-diode based homodyne detector for free-space quantum coherent communication. The detector's performance is studied in terms of detection bandwidth and electronic noise for shot-noise limited quantum signal detection. Using large area photo-diodes increases signal collection efficiency from turbulent atmospheric channels, in comparison with typical fibre based free-space homodyne detectors. Under identical atmospheric turbulence and receiver aperture conditions, our homodyne detector based on 1mm diameter photo-diode experiences 0dB loss due to turbulence while a 10um fibre based detector experiences 13.5dB of signal loss over a 700km free-space link, at 90 degree elevation angle.
翻訳日:2023-04-25 01:15:42 公開日:2020-11-07
# いわゆる非定常超伝導フラックス回路の効率的なシミュレーション

Efficient simulation of so-called non-stoquastic superconducting flux circuits ( http://arxiv.org/abs/2011.03831v1 )

ライセンス: Link先を確認
Tom Halverson, Lalit Gupta, Moshe Goldstein, and Itay Hen(参考訳) 量子アニーリングプロトコルにおけるスピードアップのデモンストレーションにおいて、これらの回路は古典的なアプローチではシミュレーションできないと考えられており、量子ビット表現において正の対角行列要素を持つ超伝導フラックス回路を作製することに大きな関心がある。 しかし, フラックス回路の直接シミュレーションにより, 効率的なシミュレーションが可能であることを示す。 我々のアプローチは、キュービット表現への還元を省略するだけでなく、実験的なセットアップの精神に強い結果を生み出す。 私たちは仕事の意義について話し合う。 具体的には、超伝導フラックス回路は普遍的断熱量子コンピュータの正しい経路を表すという概念に疑問を投げかけた。

There is a tremendous interest in fabricating superconducting flux circuits that are nonstoquastic---i.e., have positive off-diagonal matrix elements---in their qubit representation, as these circuits are thought to be unsimulable by classical approaches and thus could play a key role in the demonstration of speedups in quantum annealing protocols. We show however that the efficient simulation of these systems is possible by the direct simulation of the flux circuits. Our approach not only obviates the reduction to a qubit representation but also produces results that are more in the spirit of the experimental setup. We discuss the implications of our work. Specifically we argue that our results cast doubt on the conception that superconducting flux circuits represent the correct avenue for universal adiabatic quantum computers.
翻訳日:2023-04-25 01:15:25 公開日:2020-11-07
# 三成分直交積状態の非局所性

Nonlocality of tripartite orthogonal product states ( http://arxiv.org/abs/2011.03830v1 )

ライセンス: Link先を確認
Atanu Bhunia, Indrani Chattopadhyay and Debasis Sarkar(参考訳) 直交積状態の局所的識別性は、量子情報理論における活発な研究の領域である。 しかしながら、2部量子系で見られる局所微分可能性に関する関連する結果のほとんどは、多部量子系で知られているものはほとんどない。 本研究では,${\mathbb{c}}^{2d}\bigotimes{\mathbb{c}}^{2d}\bigotimes{\mathbb{c}}^{2d}$, $d\geq2$ という,18(d-1)$直交積状態を含む局所的識別不能部分集合を構成する。 さらに、この手法を任意の三部分量子系 ${\mathbb{C}}^{k}\bigotimes{\mathbb{C}}^{l}\bigotimes{\mathbb{C}}^{m}$ に一般化する。 この結果,マルチパーティタイト量子システムにおける非局所性の役割をより深く理解することが可能となった。 最後に、3量子GHZ状態は、上記の状態のそれぞれを区別する資源として十分であることを示す。

Local distinguishability of orthogonal product states is an area of active research in quantum information theory. However, most of the relevant results about local distinguishability found in bipartite quantum systems and very few are known in multipartite systems. In this work, we construct a locally indistinguishable subset in ${\mathbb{C}}^{2d}\bigotimes{\mathbb{C}}^{2d}\bigotimes{\mathbb{C}}^{2d}$, $d\geq2$ that contains $18(d-1)$ orthogonal product states. Further, we generalize our method to arbitrary tripartite quantum systems ${\mathbb{C}}^{k}\bigotimes{\mathbb{C}}^{l}\bigotimes{\mathbb{C}}^{m}$. This result enables us to understand further the role of nonlocality without entanglement in multipartite quantum systems. Finally, we prove that a three-qubit GHZ state is sufficient as a resource to distinguish each of the above classes of states.
翻訳日:2023-04-25 01:15:10 公開日:2020-11-07
# 環境誘起非マルコビアン性とサブシステムダイナミクスの区別

Distinguishing environment-induced non-Markovianity from subsystem dynamics ( http://arxiv.org/abs/2011.03817v1 )

ライセンス: Link先を確認
Subhashish Banerjee, Javid Naikoo, R. Srikanth(参考訳) 量子非マルコフ性はシステムの環境デコヒーレンスを変更する。 この状況はサブシステム間の相互作用によって複雑なシステムに富む。 我々は,ジャイネス・カミングス型ハミルトニアンを介して他の量子ビットと相互作用する量子ビットに適用し,ランダムなテレグラフノイズや非マルコフ振幅減衰といった,マルコフ的および異なるパラメータ範囲の非マルコフ的ダイナミックスを示すような,よく知られたノイズチャネルに適応する,単純なパワースペクトル技術を用いて,非マルコフ性源を識別する問題を考察する。

Quantum non-Markovianity modifies the environmental decoherence of a system. This situation is enriched in complex systems owing to interactions among subsystems. We consider the problem of distinguishing the multiple sources of non-Markovianity using a simple power spectrum technique, applied to a qubit interacting with another qubit via a Jaynes-Cummings type Hamiltonian and simultaneously subjected to some well known noise channels, such as, the random telegraph noise and non-Markovian amplitude damping, which exhibit both Markovian as well as non-Markovian dynamics under different parameter ranges.
翻訳日:2023-04-25 01:14:50 公開日:2020-11-07
# 光ポンピング磁力計のフロッケ記述

Floquet description of Optically Pumped Magnetometers ( http://arxiv.org/abs/2011.03785v1 )

ライセンス: Link先を確認
Hans Marin Florez and Tadas Pyragius(参考訳) Floquet展開を用いたVoigtとFaraday効果に基づく光ポンピング磁気センサの理論記述について述べる。 解析では, 第一項, $\hat{F}(t)$, 第二項, $\hat{F}^2(t)$, 次数モーメントのスピン演算ダイナミクスを記述し, ポンプの形状やデコヒーレンスの影響を考慮に入れた。 また, 実験結果と実験結果が一致し, 実験結果が広範囲に及び, 揚水条件も良好であることが判明した。 最後に、ここで提示される理論解析は一般化され、任意の励起プロファイルと複数の高周波場を持つ異なる磁気メトリースキームに拡張することができる。

We present theoretical description of Voigt and Faraday effect based optically pumped magnetometers using the Floquet expansion. Our analysis describes the spin-operator dynamics of the first, $\hat{F}(t)$, and second, $\hat{F}^2(t)$, order moments and takes into account of different pumping profiles and decoherence effects. We find that the theoretical results are in good agreement with the experimental demonstrations over a wide range of fields and pumping conditions. Finally, the theoretical analysis presented here is generalized and can be extended to different magnetometry schemes with arbitrary pumping profiles and multiple radio-frequency fields.
翻訳日:2023-04-25 01:14:27 公開日:2020-11-07
# データ駆動決定のためのオフライン因果推論とオンライン帯域学習を組み合わせる

Combining Offline Causal Inference and Online Bandit Learning for Data Driven Decision ( http://arxiv.org/abs/2001.05699v2 )

ライセンス: Link先を確認
Li Ye, Yishi Lin, Hong Xie, John C.S. Lui(参考訳) 大量のログデータを持つ企業にとっての基本的な疑問は、次のようなものだ。 現在、多くの企業がオンラインA/Bテストを通じて意思決定を行っているが、テスト中の間違った決定はユーザの経験を損ね、不可逆的なダメージを引き起こす。 典型的な選択肢はオフライン因果推論で、ログデータのみを分析して意思決定する。 しかし、これらの決定は新しいデータに適応できないため、誤った判断はユーザーの体験を損なうことになる。 上記の制限を克服するため、オフライン因果推論アルゴリズム(重み付け、マッチングなど)とオンライン学習アルゴリズム(UCB、LinUCBなど)を統合するためのフレームワークを提案する。 本稿では,新しいアルゴリズムを提案し,"regret"という概念を用いて決定精度を導出する。 森林をベースとしたオンラインバンディットアルゴリズムに初めて後悔する。 2つの実際のデータセットの実験では、当社のアルゴリズムは、ログデータやオンラインフィードバックのみを使用するアルゴリズム、あるいはデータを適切に使用していないアルゴリズムよりも優れています。

A fundamental question for companies with large amount of logged data is: How to use such logged data together with incoming streaming data to make good decisions? Many companies currently make decisions via online A/B tests, but wrong decisions during testing hurt users' experiences and cause irreversible damage. A typical alternative is offline causal inference, which analyzes logged data alone to make decisions. However, these decisions are not adaptive to the new incoming data, and so a wrong decision will continuously hurt users' experiences. To overcome the aforementioned limitations, we propose a framework to unify offline causal inference algorithms (e.g., weighting, matching) and online learning algorithms (e.g., UCB, LinUCB). We propose novel algorithms and derive bounds on the decision accuracy via the notion of "regret". We derive the first upper regret bound for forest-based online bandit algorithms. Experiments on two real datasets show that our algorithms outperform other algorithms that use only logged data or online feedbacks, or algorithms that do not use the data properly.
翻訳日:2023-01-10 23:46:24 公開日:2020-11-07
# 雑音に対する頑健性を考慮した承認型マルチウィンナー投票の評価

Evaluating approval-based multiwinner voting in terms of robustness to noise ( http://arxiv.org/abs/2002.01776v2 )

ライセンス: Link先を確認
Ioannis Caragiannis, Christos Kaklamanis, Nikos Karanikolas, George A. Krimpas(参考訳) 承認ベースのマルチウィンナー投票規則は最近、計算社会選択文学において多くの注目を集めている。 これらの規則は承認投票を集計し、代替案の勝利委員会を決定する。 有効性を評価するため,承認票や委員会に適した新しいノイズモデルを提案する。 これらのモデルは、根拠真理委員会の入力として、無作為な承認票を返却し、根拠真理の騒がしい推定と見なす。 承認ベースのマルチウィンナー投票ルールの最小ロバスト性要件は、十分な数のノイズの多い投票のプロファイルに適用された場合に基礎的な真実を返すことである。 その結果、承認ベースのマルチウィンナー投票は妥当なノイズに対して常に頑健であることが示された。 ノイズに対する頑丈さの観点からルール階層を提示することで、この発見をさらに洗練します。

Approval-based multiwinner voting rules have recently received much attention in the Computational Social Choice literature. Such rules aggregate approval ballots and determine a winning committee of alternatives. To assess effectiveness, we propose to employ new noise models that are specifically tailored for approval votes and committees. These models take as input a ground truth committee and return random approval votes to be thought of as noisy estimates of the ground truth. A minimum robustness requirement for an approval-based multiwinner voting rule is to return the ground truth when applied to profiles with sufficiently many noisy votes. Our results indicate that approval-based multiwinner voting is always robust to reasonable noise. We further refine this finding by presenting a hierarchy of rules in terms of how robust to noise they are.
翻訳日:2023-01-03 21:47:13 公開日:2020-11-07
# 逆向型ディープフェイク:逆向型ディープフェイク検出器の脆弱性評価

Adversarial Deepfakes: Evaluating Vulnerability of Deepfake Detectors to Adversarial Examples ( http://arxiv.org/abs/2002.12749v3 )

ライセンス: Link先を確認
Shehzeen Hussain, Paarth Neekhara, Malhar Jere, Farinaz Koushanfar and Julian McAuley(参考訳) ビデオ操作技術の最近の進歩は、偽ビデオの生成をこれまで以上にアクセスしやすくしている。 操作されたビデオは偽情報を燃やし、メディアの信頼を減らすことができる。 そのため、偽ビデオの検出は学術と産業に大きな関心を集めている。 近年開発されたDeepfake検出方法は、AI生成した偽ビデオと実際のビデオとを区別するために、ディープニューラルネットワーク(DNN)に依存している。 本研究では,既存のDeepfake生成手法を用いて合成した偽動画を逆修正することで,そのような検出を回避できることを実証する。 さらに、我々の敵対的摂動は画像圧縮コーデックやビデオ圧縮コーデックに対して堅牢であり、現実世界の脅威であることを示す。 我々は、DNNベースのDeepfake検出器を騙して偽動画を本物と分類できる、ホワイトボックスとブラックボックスの両方の攻撃シナリオにパイプラインを提示する。

Recent advances in video manipulation techniques have made the generation of fake videos more accessible than ever before. Manipulated videos can fuel disinformation and reduce trust in media. Therefore detection of fake videos has garnered immense interest in academia and industry. Recently developed Deepfake detection methods rely on deep neural networks (DNNs) to distinguish AI-generated fake videos from real videos. In this work, we demonstrate that it is possible to bypass such detectors by adversarially modifying fake videos synthesized using existing Deepfake generation methods. We further demonstrate that our adversarial perturbations are robust to image and video compression codecs, making them a real-world threat. We present pipelines in both white-box and black-box attack scenarios that can fool DNN based Deepfake detectors into classifying fake videos as real.
翻訳日:2023-01-02 14:54:33 公開日:2020-11-07
# 隠れ変数データからの一意かつ偏りのない因果効果推定へ向けて

Towards unique and unbiased causal effect estimation from data with hidden variables ( http://arxiv.org/abs/2002.10091v2 )

ライセンス: Link先を確認
Debo Cheng (1), Jiuyong Li (1), Lin Liu (1), Kui Yu (2), Thuc Duy Lee (1), Jixue Liu (1) ((1) School of Information Technology and Mathematical Sciences, University of South Australia (2) School of Computer Science and Information Engineering, Hefei University of Technology)(参考訳) 観測データからの因果効果推定は不可欠だが難しい課題である。 現在、限られた数のデータ駆動因果効果推定方法しか利用できない。 これらの方法は、結果に対する処理の因果効果の有界推定のみを提供するか、因果効果の独特な推定を生成するが、データに対して強い仮定をし、効率を低くする。 本稿では,実際的な問題の設定を特定し,隠れた変数を持つデータから因果効果を一意かつ偏りなく推定する手法を提案する。 このアプローチのために,調整(調整集合)を組み込むための適切な共変量集合の発見を支援するための定理を開発した。 この定理に基づき,隠れ変数を持つデータから適切な調整集合を見つけ,偏りのない一意な因果効果推定を得るための2つのアルゴリズムが提案されている。 5つのベンチマークベイズネットワークと4つの実世界のデータセットを用いて生成された合成データセットを用いた実験は、提案アルゴリズムの効率性と有効性を実証し、特定された問題設定の実用性と実世界応用における提案手法の可能性を示した。

Causal effect estimation from observational data is a crucial but challenging task. Currently, only a limited number of data-driven causal effect estimation methods are available. These methods either provide only a bound estimation of the causal effect of a treatment on the outcome, or generate a unique estimation of the causal effect, but making strong assumptions on data and having low efficiency. In this paper, we identify a practical problem setting and propose an approach to achieving unique and unbiased estimation of causal effects from data with hidden variables. For the approach, we have developed the theorems to support the discovery of the proper covariate sets for confounding adjustment (adjustment sets). Based on the theorems, two algorithms are proposed for finding the proper adjustment sets from data with hidden variables to obtain unbiased and unique causal effect estimation. Experiments with synthetic datasets generated using five benchmark Bayesian networks and four real-world datasets have demonstrated the efficiency and effectiveness of the proposed algorithms, indicating the practicability of the identified problem setting and the potential of the proposed approach in real-world applications.
翻訳日:2022-12-29 04:24:27 公開日:2020-11-07
# 有限パラメータ化多腕バンディットに対する有界な後悔

Bounded Regret for Finitely Parameterized Multi-Armed Bandits ( http://arxiv.org/abs/2003.01328v5 )

ライセンス: Link先を確認
Kishan Panaganti and Dileep Kalathil(参考訳) 確率環境のモデルが未知のパラメータに基づいて特徴づけられるような有限パラメータ化マルチアームバンドの問題を考える。 学習者にとって真のパラメータは未知である。 しかし、可能なパラメータの集合は有限であり、事前性が知られている。 本稿では,有限パラメータ化uper confidence bound (fp-ucb) アルゴリズムとよばれる,単純で実装が容易なアルゴリズムを提案する。 特に、FP-UCBアルゴリズムは、下層のパラメータ集合上の何らかの構造条件下で、有界後悔を実現する。 また,FP-UCBアルゴリズムは,基本パラメータ集合が必要な構造条件を満たさない場合,対数的後悔を実現するが,標準 UCB アルゴリズムと比較して先行定数は小さくなることを示す。 また、FP-UCBアルゴリズムの性能を広範囲な数値シミュレーションにより検証する。

We consider the problem of finitely parameterized multi-armed bandits where the model of the underlying stochastic environment can be characterized based on a common unknown parameter. The true parameter is unknown to the learning agent. However, the set of possible parameters, which is finite, is known a priori. We propose an algorithm that is simple and easy to implement, which we call Finitely Parameterized Upper Confidence Bound (FP-UCB) algorithm, which uses the information about the underlying parameter set for faster learning. In particular, we show that the FP-UCB algorithm achieves a bounded regret under some structural condition on the underlying parameter set. We also show that, if the underlying parameter set does not satisfy the necessary structural condition, the FP-UCB algorithm achieves a logarithmic regret, but with a smaller preceding constant compared to the standard UCB algorithm. We also validate the superior performance of the FP-UCB algorithm through extensive numerical simulations.
翻訳日:2022-12-26 22:00:17 公開日:2020-11-07
# 統一画像とビデオ・サイレンシ・モデリング

Unified Image and Video Saliency Modeling ( http://arxiv.org/abs/2003.05477v3 )

ライセンス: Link先を確認
Richard Droste, Jianbo Jiao, J. Alison Noble(参考訳) 近年のコンピュータビジョン文献では、画像とビデオの視覚的相性モデリングが2つの独立したタスクとして扱われている。 SALICONやMIT300などのベンチマークの進捗は遅くなっているが、最近のDHF1Kベンチマークでは、ビデオサリエンシモデルが急速に向上している。 イメージとビデオの相性モデリングは、相互に利益のある統一されたモデルによってアプローチできますか? 画像と映像のサリエンシーデータと異なるビデオサリエンシーデータセット間の異なる領域シフト源を特定することは,効果的なジョイントモデリングの重要な課題である。 そこで本研究では,ドメイン適応優先法,ドメイン適応融合法,ドメイン適応平滑化法,Bypass-RNNという4つの新しいドメイン適応手法を提案する。 これらの手法を, 単純で軽量なエンコーダ-rnn-デコーダ型ネットワーク unisal に統合し, 画像と映像のバックアップデータと協調して訓練する。 本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像データを用いて評価を行った。 パラメータセットの1つで、UNISALはすべてのビデオサリエンシデータセットの最先端のパフォーマンスを達成し、より高速なランタイムと、競合するディープメソッドと比較して5~20倍のモデルサイズにもかかわらず、イメージサリエンシデータセットの最先端のパフォーマンスと同等である。 ドメインシフトモデリングの重要性を確認するためのふりかえり分析とアブレーション研究を提供する。 コードはhttps://github.com/rdroste/unisalで入手できる。

Visual saliency modeling for images and videos is treated as two independent tasks in recent computer vision literature. While image saliency modeling is a well-studied problem and progress on benchmarks like SALICON and MIT300 is slowing, video saliency models have shown rapid gains on the recent DHF1K benchmark. Here, we take a step back and ask: Can image and video saliency modeling be approached via a unified model, with mutual benefit? We identify different sources of domain shift between image and video saliency data and between different video saliency datasets as a key challenge for effective joint modelling. To address this we propose four novel domain adaptation techniques - Domain-Adaptive Priors, Domain-Adaptive Fusion, Domain-Adaptive Smoothing and Bypass-RNN - in addition to an improved formulation of learned Gaussian priors. We integrate these techniques into a simple and lightweight encoder-RNN-decoder-style network, UNISAL, and train it jointly with image and video saliency data. We evaluate our method on the video saliency datasets DHF1K, Hollywood-2 and UCF-Sports, and the image saliency datasets SALICON and MIT300. With one set of parameters, UNISAL achieves state-of-the-art performance on all video saliency datasets and is on par with the state-of-the-art for image saliency datasets, despite faster runtime and a 5 to 20-fold smaller model size compared to all competing deep methods. We provide retrospective analyses and ablation studies which confirm the importance of the domain shift modeling. The code is available at https://github.com/rdroste/unisal
翻訳日:2022-12-24 14:06:09 公開日:2020-11-07
# spf2によるポーズ予測パイプラインの反転:シーケンシャルなポーズ予測のための逐次的ポイントクラウド予測

Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud Forecasting for Sequential Pose Forecasting ( http://arxiv.org/abs/2003.08376v3 )

ライセンス: Link先を確認
Xinshuo Weng and Jianren Wang and Sergey Levine and Kris Kitani and Nicholas Rhinehart(参考訳) 多くの自律システムは意思決定を支援するために未来を予測している。 例えば、自動運転車とロボット操作システムは、最初に物体を検出し追跡することで、将来の物体のポーズを予測することが多い。 ポーズ予測アルゴリズムは一般に3次元空間で取得するのにコストがかかるオブジェクトポーズのラベル付きシーケンスを必要とする。 ラベルを追加せずにパフォーマンスをスケールできますか? yes を仮定し, detection-then-forecast パイプラインの反転を提案する。 オブジェクトを検出し,追跡し,次に予測する代わりに,まず3Dセンサデータ(例えば100ドル相当の点雲)を予測し,予測された点雲列上の物体を検出し,追跡し,将来のポーズ,すなわち予測テーマ検出パイプラインを得る。 この反転は、センサデータ予測タスクにラベルを必要としないため、ポーズ予測をスケールするコストが低くなる。 この作業の焦点の一部は、挑戦的な第一歩であるSPF(Sequential Pointcloud Forecasting)に焦点を当てています。 予測・予測・検出パイプラインを検出・予測パイプラインと比較するために,評価手順と2つの指標を提案する。 ロボット操作データセットと2つの駆動データセットの実験により、SPFNetがSPFタスクに有効であること、予測-検出-検出パイプラインが比較した検出-予測-予測アプローチより優れていること、ラベルなしデータの追加により予測性能が向上すること、などが示されている。

Many autonomous systems forecast aspects of the future in order to aid decision-making. For example, self-driving vehicles and robotic manipulation systems often forecast future object poses by first detecting and tracking objects. However, this detect-then-forecast pipeline is expensive to scale, as pose forecasting algorithms typically require labeled sequences of object poses, which are costly to obtain in 3D space. Can we scale performance without requiring additional labels? We hypothesize yes, and propose inverting the detect-then-forecast pipeline. Instead of detecting, tracking and then forecasting the objects, we propose to first forecast 3D sensor data (e.g., point clouds with $100$k points) and then detect/track objects on the predicted point cloud sequences to obtain future poses, i.e., a forecast-then-detect pipeline. This inversion makes it less expensive to scale pose forecasting, as the sensor data forecasting task requires no labels. Part of this work's focus is on the challenging first step -- Sequential Pointcloud Forecasting (SPF), for which we also propose an effective approach, SPFNet. To compare our forecast-then-detect pipeline relative to the detect-then-forecast pipeline, we propose an evaluation procedure and two metrics. Through experiments on a robotic manipulation dataset and two driving datasets, we show that SPFNet is effective for the SPF task, our forecast-then-detect pipeline outperforms the detect-then-forecast approaches to which we compared, and that pose forecasting performance improves with the addition of unlabeled data.
翻訳日:2022-12-22 09:33:07 公開日:2020-11-07
# molweni: 談話構造を持つ多人数対話型機械読解データセットへの挑戦

Molweni: A Challenge Multiparty Dialogues-based Machine Reading Comprehension Dataset with Discourse Structure ( http://arxiv.org/abs/2004.05080v3 )

ライセンス: Link先を確認
Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu and Bing Qin(参考訳) 近年,多人数対話の分野の研究が盛んに行われている。 マルチパーティダイアログ上に構築された談話構造を持つ機械読解データセットであるMolweniデータセットを提案する。 molweniのソースサンプルはubuntuチャットコーパスにあり、88,303発話からなる10,000のダイアログが含まれている。 私たちはこのコーパスについて30,066の質問を注釈付けします。 モルウェニはまた、修正されたSegmented Discourse Representation Theory (SDRT; Asher et al., 2016) スタイルで、マルチパーティダイアログのすべてのダイアログに対して、談話依存アノテーションをユニークな形で提供し、マルチパーティダイアログパーシングのタスクに対処するための大規模な(78,245 の注釈付きディスコース関係)データを提供している。 私たちの実験では、molweniは現在のmrcモデルの挑戦的なデータセットであることが示されています。現在の強力なsquad 2.0パフォーマンスであるbert-wwmは、molweniの質問に対してわずか67.7%のf1を達成しています。

Research into the area of multiparty dialog has grown considerably over recent years. We present the Molweni dataset, a machine reading comprehension (MRC) dataset with discourse structure built over multiparty dialog. Molweni's source samples from the Ubuntu Chat Corpus, including 10,000 dialogs comprising 88,303 utterances. We annotate 30,066 questions on this corpus, including both answerable and unanswerable questions. Molweni also uniquely contributes discourse dependency annotations in a modified Segmented Discourse Representation Theory (SDRT; Asher et al., 2016) style for all of its multiparty dialogs, contributing large-scale (78,245 annotated discourse relations) data to bear on the task of multiparty dialog discourse parsing. Our experiments show that Molweni is a challenging dataset for current MRC models: BERT-wwm, a current, strong SQuAD 2.0 performer, achieves only 67.7% F1 on Molweni's questions, a 20+% significant drop as compared against its SQuAD 2.0 performance.
翻訳日:2022-12-14 20:52:38 公開日:2020-11-07
# ニューラルネットワークにおけるメタラーニング:調査

Meta-Learning in Neural Networks: A Survey ( http://arxiv.org/abs/2004.05439v2 )

ライセンス: Link先を確認
Timothy Hospedales, Antreas Antoniou, Paul Micaelli, Amos Storkey(参考訳) メタラーニング(英: meta-learning)またはラーニング・トゥ・ラーン(英: learning-to-learn)の分野は近年劇的に関心が高まっている。 固定学習アルゴリズムを用いてタスクをゼロから解く従来のAIアプローチとは対照的に、メタ学習は複数の学習エピソードの経験から学習アルゴリズム自体を改善することを目的としている。 このパラダイムは、データや計算のボトルネック、一般化など、ディープラーニングの多くの従来の課題に取り組む機会を提供する。 本調査は,現代メタラーニングの展望について述べる。 まず,メタラーニングの定義を議論し,転送学習やハイパーパラメータ最適化といった関連分野に位置づける。 次に,今日のメタラーニング手法の空間をより包括的に分解する新しい分類法を提案する。 少人数学習や強化学習といったメタラーニングの有望な応用と成功について調査する。 最後に,今後の課題と今後の研究分野について論じる。

The field of meta-learning, or learning-to-learn, has seen a dramatic rise in interest in recent years. Contrary to conventional approaches to AI where tasks are solved from scratch using a fixed learning algorithm, meta-learning aims to improve the learning algorithm itself, given the experience of multiple learning episodes. This paradigm provides an opportunity to tackle many conventional challenges of deep learning, including data and computation bottlenecks, as well as generalization. This survey describes the contemporary meta-learning landscape. We first discuss definitions of meta-learning and position it with respect to related fields, such as transfer learning and hyperparameter optimization. We then propose a new taxonomy that provides a more comprehensive breakdown of the space of meta-learning methods today. We survey promising applications and successes of meta-learning such as few-shot learning and reinforcement learning. Finally, we discuss outstanding challenges and promising areas for future research.
翻訳日:2022-12-14 10:07:42 公開日:2020-11-07
# CAggNet:医療画像セグメンテーションのためのクロスアグリゲーションネットワーク

CAggNet: Crossing Aggregation Network for Medical Image Segmentation ( http://arxiv.org/abs/2004.08237v2 )

ライセンス: Link先を確認
Xu Cao, Yanghao Lin(参考訳) 本稿では,医療画像解析のための新しい密結合意味セグメンテーション手法であるcross crossing aggregation network (caggnet)を提案する。 クロスアグリゲーションネットワークは、ディープレイヤアグリゲーションからアイデアを改善し、セマンティックおよび空間情報融合において大きな革新をもたらす。 caggnetでは、一般的なu-netの単純なスキップ接続構造は、ネストしたスキップ接続の新しい形態であるマルチレベルダウンサンプリング層とアップサンプリング層の集約に置き換えられる。 このアグリゲーションアーキテクチャにより、ネットワークはセマンティックセグメンテーションで対話的に粗い機能と細かな機能を融合することができる。 また、ネットワークの最後にマルチスケール出力をアップサンプルする重み付けアグリゲーションモジュールも導入している。 我々は、2018年データサイエンスボウル核検出データセットと2015年MICCAI腺セグメンテーションコンペティションデータセットを含む、2つの公開医療画像データセットにおいて、我々のCAggNetといくつかの高度なU-Netベースの方法を評価し、比較した。 実験の結果,CAggNetは既存の改良されたU-NetやUNet++構造と比較して,医療オブジェクト認識を改善し,より正確かつ効率的なセグメンテーションを実現することがわかった。

In this paper, we present Crossing Aggregation Network (CAggNet), a novel densely connected semantic segmentation approach for medical image analysis. The crossing aggregation network improves the idea from deep layer aggregation and makes significant innovations in semantic and spatial information fusion. In CAggNet, the simple skip connection structure of general U-Net is replaced by aggregations of multi-level down-sampling and up-sampling layers, which is a new form of nested skip connection. This aggregation architecture enables the network to fuse both coarse and fine features interactively in semantic segmentation. It also introduces weighted aggregation module to up-sample multi-scale output at the end of the network. We have evaluated and compared our CAggNet with several advanced U-Net based methods in two public medical image datasets, including the 2018 Data Science Bowl nuclei detection dataset and the 2015 MICCAI gland segmentation competition dataset. Experimental results indicate that CAggNet improves medical object recognition and achieves a more accurate and efficient segmentation compared to existing improved U-Net and UNet++ structure.
翻訳日:2022-12-12 21:19:21 公開日:2020-11-07
# ディープラーニングにおけるプライバシ:調査

Privacy in Deep Learning: A Survey ( http://arxiv.org/abs/2004.12254v5 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Mohammadkazem Taram, Praneeth Vepakomma, Abhishek Singh, Ramesh Raskar, Hadi Esmaeilzadeh(参考訳) ビジョンやレコメンデーションシステム、自然言語処理など、多くの分野でのディープラーニングの進歩は、生産システムにおけるDeep Neural Networks(DNN)の採用につながっている。 大規模なデータセットと高い計算能力がこれらの進歩の主な貢献者です。 データセットは通常クラウドソースされ、機密情報を含むこともある。 このデータはさまざまな脆弱性によって誤用または漏洩される可能性があるため、プライバシー上の深刻な懸念が生じる。 たとえクラウドプロバイダと通信リンクが信頼できるとしても、攻撃者がトレーニングに使用するデータのプロパティを推測したり、基盤となるモデルアーキテクチャとパラメータを見つけることができるような、推論攻撃の脅威はまだ残っている。 本稿では,ディープラーニングによって引き起こされるプライバシー問題と,これらの問題に取り組むために導入される緩和技術について概説する。 また,テスト時間推論のプライバシーに関する文献にギャップがあることも示し,今後の研究方向性を提案する。

The ever-growing advances of deep learning in many areas including vision, recommendation systems, natural language processing, etc., have led to the adoption of Deep Neural Networks (DNNs) in production systems. The availability of large datasets and high computational power are the main contributors to these advances. The datasets are usually crowdsourced and may contain sensitive information. This poses serious privacy concerns as this data can be misused or leaked through various vulnerabilities. Even if the cloud provider and the communication link is trusted, there are still threats of inference attacks where an attacker could speculate properties of the data used for training, or find the underlying model architecture and parameters. In this survey, we review the privacy concerns brought by deep learning, and the mitigating techniques introduced to tackle these issues. We also show that there is a gap in the literature regarding test-time inference privacy, and propose possible future research directions.
翻訳日:2022-12-09 21:33:46 公開日:2020-11-07
# アラビア語情報抽出のための事前学習トランスの実証的研究

An Empirical Study of Pre-trained Transformers for Arabic Information Extraction ( http://arxiv.org/abs/2004.14519v5 )

ライセンス: Link先を確認
Wuwei Lan, Yang Chen, Wei Xu and Alan Ritter(参考訳) mBERT (Devlin et al., 2019) や XLM-RoBERTa (Conneau et al., 2020a) のような多言語事前訓練トランスフォーマーは、効果的な言語間ゼロショット転送を可能にすることが示されている。 しかし、アラビア語情報抽出(ie)タスクの性能は十分に研究されていない。 本稿では、アラビア語NLPと英語からアラビア語へのゼロショット変換学習に特化した、カスタマイズされたバイリンガルBERT(GigaBERT)を事前訓練する。 4つのieタスク(名前付きエンティティ認識、part-of-speech tagging、引数ロールラベリング、リレーション抽出)におけるgigabertの有効性について検討した。 我々はmBERT, XLM-RoBERTa, AraBERT (Antoun et al., 2020) を教師付きおよびゼロショット転送設定で大きく上回っている。 トレーニング済みのモデルをhttps://github.com/lanwuwei/GigaBERT.comで公開しています。

Multilingual pre-trained Transformers, such as mBERT (Devlin et al., 2019) and XLM-RoBERTa (Conneau et al., 2020a), have been shown to enable the effective cross-lingual zero-shot transfer. However, their performance on Arabic information extraction (IE) tasks is not very well studied. In this paper, we pre-train a customized bilingual BERT, dubbed GigaBERT, that is designed specifically for Arabic NLP and English-to-Arabic zero-shot transfer learning. We study GigaBERT's effectiveness on zero-short transfer across four IE tasks: named entity recognition, part-of-speech tagging, argument role labeling, and relation extraction. Our best model significantly outperforms mBERT, XLM-RoBERTa, and AraBERT (Antoun et al., 2020) in both the supervised and zero-shot transfer settings. We have made our pre-trained models publicly available at https://github.com/lanwuwei/GigaBERT.
翻訳日:2022-12-08 03:58:55 公開日:2020-11-07
# 分散ディープラーニングにおける通信最適化の定量的調査

A Quantitative Survey of Communication Optimizations in Distributed Deep Learning ( http://arxiv.org/abs/2005.13247v2 )

ライセンス: Link先を確認
Shaohuai Shi, Zhenheng Tang, Xiaowen Chu, Chengjian Liu, Wei Wang, Bo Li(参考訳) 今日では、大規模かつ複雑なディープラーニング(DL)モデルは、労働者間の広範なコミュニケーションが深刻なスケーリング問題を引き起こす複数のワーカーマシンに分散的に訓練されている。 本稿では,データ並列分散DLにおける通信最適化手法の定量的検討を行う。 まず、主要なコミュニケーション課題を特定し、既存のソリューションを学習アルゴリズム、システムアーキテクチャ、ネットワークインフラストラクチャという3つのレベルに分類する。 本稿では,最先端の通信最適化手法を提案し,100gbps infiniband (ib) の32gpuクラスタ上での7つの共通ロスレス分散dl法の比較検討を行う。 本稿では,(1)低モデル強度のDLモデル(BERTやBERT-Largeなど)は,100Gbps IBを超える最高のロスレスアルゴリズムであってもスケールアウトが困難であること,(2)システムアーキテクチャとスケジューリングアルゴリズムがスケーリング特性に重大な影響を与えること,を示す。 本稿は、今後の調査に向けた公開課題に関する議論をまとめてまとめる。

Nowadays, large and complex deep learning (DL) models are increasingly trained in a distributed manner across multiple worker machines, in which extensive communications between workers pose serious scaling problems. In this article, we present a quantitative survey of communication optimization techniques for data parallel distributed DL. We first identify the major communication challenges and classify the existing solutions into three levels, namely the learning algorithm, the system architecture, and the network infrastructure. We present the state-of-the-art communication optimization techniques and conduct a comparative study of seven common lossless distributed DL methods on a 32-GPU cluster with 100Gbps InfiniBand (IB). We show that (1) the DL models with low model intensity (such as BERT and BERT-Large) are difficult to scale out even with the best available lossless algorithm over 100Gbps IB; (2) the system architecture and scheduling algorithms have a critical impact on the scaling property. We conclude the article with discussions on the open issues for further investigations.
翻訳日:2022-11-28 09:58:24 公開日:2020-11-07
# 非ユークリッド普遍近似

Non-Euclidean Universal Approximation ( http://arxiv.org/abs/2006.02341v3 )

ライセンス: Link先を確認
Anastasis Kratsios, Eugene Bilokopytov(参考訳) ニューラルネットワークの入出力層の変更は、ほとんどの実用的な学習タスクの特異性に対応するためにしばしば必要となる。 しかし、そのような変化がアーキテクチャの近似能力に与える影響はほとんど理解されていない。 連続関数をコンパクトに近似するアーキテクチャの能力を保った特徴写像と読み出し写像を記述する一般的な条件を示す。 アプリケーションとして、アーキテクチャが普遍的な近似が可能な場合、最終層を変更してバイナリ値を生成すると、決定論的に分類器を近似できる新しいアーキテクチャが生成される。 特に,ディープcnnとディープフィードフォワードネットワークの保証を得る。 我々の結果は幾何学的深層学習の範囲内でも結果をもたらす。 具体的には、入力空間と出力空間がカルタン・アダマール多様体であるとき、我々の基準を満たす幾何学的に意味のある特徴と可読写像を得る。 したがって、対称正定値行列の空間の間の非ユークリッド回帰モデルは普遍dnnに拡張される。 同じ結果、階層学習に使用される双曲的フィードフォワードネットワークが普遍的であることを示すことができる。 また,DNNの最後の2層を除いてランダム化を行う一般的な手法は,確率 1 の関数群を普遍的に生成することを示した。 また、dnnの第1(resp. last)層の接続および活性化関数の条件を提供し、これらの層が入力(resp. output)空間の次元に等しい幅を持つことができることを保証し、アーキテクチャの近似能力に負の影響を及ぼさない。

Modifications to a neural network's input and output layers are often required to accommodate the specificities of most practical learning tasks. However, the impact of such changes on architecture's approximation capabilities is largely not understood. We present general conditions describing feature and readout maps that preserve an architecture's ability to approximate any continuous functions uniformly on compacts. As an application, we show that if an architecture is capable of universal approximation, then modifying its final layer to produce binary values creates a new architecture capable of deterministically approximating any classifier. In particular, we obtain guarantees for deep CNNs and deep feed-forward networks. Our results also have consequences within the scope of geometric deep learning. Specifically, when the input and output spaces are Cartan-Hadamard manifolds, we obtain geometrically meaningful feature and readout maps satisfying our criteria. Consequently, commonly used non-Euclidean regression models between spaces of symmetric positive definite matrices are extended to universal DNNs. The same result allows us to show that the hyperbolic feed-forward networks, used for hierarchical learning, are universal. Our result is also used to show that the common practice of randomizing all but the last two layers of a DNN produces a universal family of functions with probability one. We also provide conditions on a DNN's first (resp. last) few layer's connections and activation function which guarantee that these layers can have a width equal to the input (resp. output) space's dimension while not negatively affecting the architecture's approximation capabilities.
翻訳日:2022-11-25 17:10:32 公開日:2020-11-07
# 人工知能(AI)-現代の分散コンピューティングシステムにおける資源の集中管理

Artificial Intelligence (AI)-Centric Management of Resources in Modern Distributed Computing Systems ( http://arxiv.org/abs/2006.05075v2 )

ライセンス: Link先を確認
Shashikant Ilager, Rajeev Muralidhar and Rajkumar Buyya(参考訳) クラウドデータセンターのような現代の分散コンピューティングシステム(DCS)は大規模で複雑で異質であり、複数のネットワークと地理的境界に分散している。 一方、モノのインターネット(IoT)駆動のアプリケーションは、リアルタイム処理と迅速な応答を必要とする膨大な量のデータを生成しています。 これらのリソースを効率的に管理して、エンドユーザやアプリケーションに信頼できるサービスを提供するのは、難しい作業です。 既存のリソース管理システム(RMS)は、そのような複合システムや動的システムに不適切な静的またはヒューリスティックなソリューションに依存している。 データ可用性と処理能力による人工知能(AI)の出現は、適応的で正確で効率的なRMSタスクにおいて、データ駆動型ソリューションを探索する可能性に現れました。 本稿では,資源管理におけるデータ駆動型ソリューションのモチベーションと必要性について考察する。 それはそれに関連する課題を特定し、異なるrmsタスクにデータ駆動技術を適用する場所と方法を詳述する将来の研究の方向性を概説する。 最後に、DCS用の概念的データ駆動RMSモデルを提供し、AI中心のアプローチの実現可能性を示す2つのリアルタイムユースケース(GPU周波数スケーリングとGoogle CloudとMicrosoft Azureのデータセンタリソース管理)を提示する。

Contemporary Distributed Computing Systems (DCS) such as Cloud Data Centres are large scale, complex, heterogeneous, and distributed across multiple networks and geographical boundaries. On the other hand, the Internet of Things (IoT)-driven applications are producing a huge amount of data that requires real-time processing and fast response. Managing these resources efficiently to provide reliable services to end-users or applications is a challenging task. The existing Resource Management Systems (RMS) rely on either static or heuristic solutions inadequate for such composite and dynamic systems. The advent of Artificial Intelligence (AI) due to data availability and processing capabilities manifested into possibilities of exploring data-driven solutions in RMS tasks that are adaptive, accurate, and efficient. In this regard, this paper aims to draw the motivations and necessities for data-driven solutions in resource management. It identifies the challenges associated with it and outlines the potential future research directions detailing where and how to apply the data-driven techniques in the different RMS tasks. Finally, it provides a conceptual data-driven RMS model for DCS and presents the two real-time use cases (GPU frequency scaling and data centre resource management from Google Cloud and Microsoft Azure) demonstrating AI-centric approaches' feasibility.
翻訳日:2022-11-23 15:37:41 公開日:2020-11-07
# 0-MMS:単眼イベントカメラによるゼロショットマルチモーションセグメンテーション

0-MMS: Zero-Shot Multi-Motion Segmentation With A Monocular Event Camera ( http://arxiv.org/abs/2006.06158v2 )

ライセンス: Link先を確認
Chethan M. Parameshwara, Nitin J. Sanket, Chahat Deep Singh, Cornelia Ferm\"uller, and Yiannis Aloimonos(参考訳) 動的シーンにおける移動オブジェクトのセグメンテーションは、ナビゲーションタスクのシーン理解において重要なプロセスである。 このようなシナリオでは、古典的なカメラは動きのぼやけに苦しんでいる。 逆に、イベントカメラは、時間分解能が高く、動きのぼやけがないため、この問題のために仕組まれている。 本稿では,ボトムアップ機能トラッキングとトップダウン動作補償を組み合わせたモノラルなマルチモーションセグメンテーションのアプローチを提案する。 タイムインターバル内のイベントを用いて,シーンを分割・融合することで複数の動作に分割する。 動き伝播とクラスターキースの概念を用いて, 提案手法をさらに高速化する。 このアプローチは、EV-IMO、EED、MODのデータセットからの挑戦的な実世界のシナリオと合成シナリオの両方で評価され、上記のデータセットでは、新しい最先端の平均検出率である81.06%、94.2%、82.35%を達成した。 マルチモーションセグメンテーションのさらなる研究と体系的評価を可能にするため、mod++と呼ばれる新しいデータセット/ベンチマークを、カメラと物体の動き、速度の大きさ、方向、回転速度の短期的な挑戦的なシーケンスと広範なデータ階層化を含む形で、公開・公開しました。

Segmentation of moving objects in dynamic scenes is a key process in scene understanding for navigation tasks. Classical cameras suffer from motion blur in such scenarios rendering them effete. On the contrary, event cameras, because of their high temporal resolution and lack of motion blur, are tailor-made for this problem. We present an approach for monocular multi-motion segmentation, which combines bottom-up feature tracking and top-down motion compensation into a unified pipeline, which is the first of its kind to our knowledge. Using the events within a time-interval, our method segments the scene into multiple motions by splitting and merging. We further speed up our method by using the concept of motion propagation and cluster keyslices. The approach was successfully evaluated on both challenging real-world and synthetic scenarios from the EV-IMO, EED, and MOD datasets and outperformed the state-of-the-art detection rate by 12\%, achieving a new state-of-the-art average detection rate of 81.06%, 94.2% and 82.35% on the aforementioned datasets. To enable further research and systematic evaluation of multi-motion segmentation, we present and open-source a new dataset/benchmark called MOD++, which includes challenging sequences and extensive data stratification in-terms of camera and object motion, velocity magnitudes, direction, and rotational speeds.
翻訳日:2022-11-22 14:00:23 公開日:2020-11-07
# 高次元パーセプトロンにおける一般化誤差:凸最適化によるベイズ誤差の接近

Generalization error in high-dimensional perceptrons: Approaching Bayes error with convex optimization ( http://arxiv.org/abs/2006.06560v2 )

ライセンス: Link先を確認
Benjamin Aubin, Florent Krzakala, Yue M. Lu, Lenka Zdeborov\'a(参考訳) 本稿では,一層ニューラルネットワークにランダムiid入力を供給することによりラベルを生成する合成データセットの教師付き分類について検討する。 我々は、高次元の$d$とサンプル数$n$の極限で$\alpha=n/d$を有限に保った高次元状態における標準分類器の一般化性能について検討する。 まず、凸損失を最小化する$\ell_2$正規化分類器によって達成される一般化誤差の式を証明します。 この公式は統計物理学のヒューリスティックレプリカ法によって初めて得られた。 第二に、よく使われる損失関数に着目し、$\ell_2$正規化強度を最適化すると、リッジ回帰性能は劣るが、ロジスティックおよびヒンジ回帰は驚くほどベイズ最適一般化誤差に近づくことができる。 $\alpha \to \infty$ はベイズ最適化率につながるが、これはマージンベースの一般化誤差境界の予測から従わない。 第三に、ベイズ最適一般化誤差につながる最適損失と正則化器を設計する。

We consider a commonly studied supervised classification of a synthetic dataset whose labels are generated by feeding a one-layer neural network with random iid inputs. We study the generalization performances of standard classifiers in the high-dimensional regime where $\alpha=n/d$ is kept finite in the limit of a high dimension $d$ and number of samples $n$. Our contribution is three-fold: First, we prove a formula for the generalization error achieved by $\ell_2$ regularized classifiers that minimize a convex loss. This formula was first obtained by the heuristic replica method of statistical physics. Secondly, focussing on commonly used loss functions and optimizing the $\ell_2$ regularization strength, we observe that while ridge regression performance is poor, logistic and hinge regression are surprisingly able to approach the Bayes-optimal generalization error extremely closely. As $\alpha \to \infty$ they lead to Bayes-optimal rates, a fact that does not follow from predictions of margin-based generalization error bounds. Third, we design an optimal loss and regularizer that provably leads to Bayes-optimal generalization error.
翻訳日:2022-11-22 13:41:12 公開日:2020-11-07
# トープリッツ行列理論を用いた畳み込み層のリプシッツ正則化について

On Lipschitz Regularization of Convolutional Layers using Toeplitz Matrix Theory ( http://arxiv.org/abs/2006.08391v2 )

ライセンス: Link先を確認
Alexandre Araujo, Benjamin Negrevergne, Yann Chevaleyre, Jamal Atif(参考訳) 本稿では,畳み込みニューラルネットワークのリプシッツ正則化の問題に取り組む。 リプシッツ正則性は現在、訓練安定性、一般化、敵の例に対する堅牢性など、現代のディープラーニングの重要な性質として確立されている。 しかし、ニューラルネットワークのリプシッツ定数の正確な値はNPハードであることが知られている。 論文の最近の試みでは、効率的だがゆるく、正確だが計算コストが高いこの定数を近似するために上界を導入する。 本研究では, トイプリッツ行列の理論を活用することにより, より厳密かつ容易に計算できる畳み込み層に対する新しい上限を導入する。 この結果に基づき、リプシッツ正規化畳み込みニューラルネットワークを訓練するアルゴリズムを考案する。

This paper tackles the problem of Lipschitz regularization of Convolutional Neural Networks. Lipschitz regularity is now established as a key property of modern deep learning with implications in training stability, generalization, robustness against adversarial examples, etc. However, computing the exact value of the Lipschitz constant of a neural network is known to be NP-hard. Recent attempts from the literature introduce upper bounds to approximate this constant that are either efficient but loose or accurate but computationally expensive. In this work, by leveraging the theory of Toeplitz matrices, we introduce a new upper bound for convolutional layers that is both tight and easy to compute. Based on this result we devise an algorithm to train Lipschitz regularized Convolutional Neural Networks.
翻訳日:2022-11-21 03:05:35 公開日:2020-11-07
# Anderson Acceleration, Nesterov Accelerationおよび非線形GMRESの漸近線形収束速度について

On the Asymptotic Linear Convergence Speed of Anderson Acceleration, Nesterov Acceleration, and Nonlinear GMRES ( http://arxiv.org/abs/2007.01996v4 )

ライセンス: Link先を確認
Hans De Sterck and Yunhui He(参考訳) 固定点反復 $x_{k+1}=q(x_k)$ に対する非線形収束加速度法は、アンダーソン加速度(AA)、非線形GMRES(NGMRES)、ネステロフ型加速度(窓サイズ1のAAに対応する)を含む。 我々は, 収束係数$\rho<1$で漸近的に線形に収束し, 基礎となる完全滑らかかつ非凸最適化問題を解く固定点法に着目した。 AAとNGMRESは固定点反復の漸近収束挙動を著しく改善するが、この改善は理論的には定量化されていない。 我々はこの問題を簡易な条件で検討する。 まず AA と NGMRES の定常バージョンを検討し、固定点 $x^*$ における$q'(x)$ のスペクトルの知識が与えられたとき、最適な漸近収束因子をもたらす係数を決定する。 これにより、AA と NGMRES の非線形事前条件として $x_{k+1}=q(x_k)$ を眺めながら、非線形収束加速度によって得られる漸近収束改善の理解と定量化が可能になる。 第二に、無限ウィンドウサイズの場合、約$x^*$ で線型化された固定点反復に適用されたGMRESの線形漸近収束境界を考える。 線形の場合、AA と NGMRES は GMRES と等価であるため、GMRES 収束係数は AA と NGMRES に$x_k \rightarrow x^*$ として関係していると期待できる。 AAとNGMRESによって加速される固定点反復として、最も急降下と最小二乗(ALS)を交互に比較し、正準テンソル分解による一連の試験問題を数値的に示す。 数値実験により,非定常AAおよびNGMRESの漸近収束速度を有限ウィンドウサイズで推定できることがわかった。

We consider nonlinear convergence acceleration methods for fixed-point iteration $x_{k+1}=q(x_k)$, including Anderson acceleration (AA), nonlinear GMRES (NGMRES), and Nesterov-type acceleration (corresponding to AA with window size one). We focus on fixed-point methods that converge asymptotically linearly with convergence factor $\rho<1$ and that solve an underlying fully smooth and non-convex optimization problem. It is often observed that AA and NGMRES substantially improve the asymptotic convergence behavior of the fixed-point iteration, but this improvement has not been quantified theoretically. We investigate this problem under simplified conditions. First, we consider stationary versions of AA and NGMRES, and determine coefficients that result in optimal asymptotic convergence factors, given knowledge of the spectrum of $q'(x)$ at the fixed point $x^*$. This allows us to understand and quantify the asymptotic convergence improvement that can be provided by nonlinear convergence acceleration, viewing $x_{k+1}=q(x_k)$ as a nonlinear preconditioner for AA and NGMRES. Second, for the case of infinite window size, we consider linear asymptotic convergence bounds for GMRES applied to the fixed-point iteration linearized about $x^*$. Since AA and NGMRES are equivalent to GMRES in the linear case, one may expect the GMRES convergence factors to be relevant for AA and NGMRES as $x_k \rightarrow x^*$. Our results are illustrated numerically for a class of test problems from canonical tensor decomposition, comparing steepest descent and alternating least squares (ALS) as the fixed-point iterations that are accelerated by AA and NGMRES. Our numerical tests show that both approaches allow us to estimate asymptotic convergence speed for nonstationary AA and NGMRES with finite window size.
翻訳日:2022-11-13 14:00:06 公開日:2020-11-07
# ハイブリッド前処理型リモートセンシング画像を用いたlstm分類器を用いたヒト群粒子群最適化アルゴリズムによる土地利用と土地被覆分類

Land Use and Land Cover Classification using a Human Group based Particle Swarm Optimization Algorithm with a LSTM classifier on hybrid-pre-processing Remote Sensing Images ( http://arxiv.org/abs/2008.01635v2 )

ライセンス: Link先を確認
R. Ganesh Babu, K. Uma Maheswari, C. Zarro, B. D. Parameshachari, and S. L. Ullo(参考訳) リモートセンシング画像を用いた土地利用・土地被覆分類(LULC)は多くの環境モデルや土地利用在庫において重要な役割を担っている。 本研究では,LLC分類の性能向上,野生生物の生息環境の予測,環境品質の劣化,ハファザードなどを支援するために,ディープラーニング分類器とハイブリッド特徴最適化アルゴリズムを提案する。 LULC分類は、Sat 4、Sat 6、Eurosatデータセットを用いて評価される。 リモートセンシング画像の選択後、画像の品質を向上させるために正規化とヒストグラム等化法が使用される。 そして、選択した画像からの特徴抽出のために、局所gaborバイナリパターンヒストグラム配列(lgbphs)、配向勾配ヒストグラム(hog)、ハラリックテクスチャ特徴を用いてハイブリッド最適化を行う。 このハイブリッド最適化の利点は、色とグレースケールの画像に対する高い識別力と不変性である。 次に,高速な収束率と実装が容易な最適な特徴を選択するために,人間群に基づく粒子群最適化(pso)アルゴリズムを適用した。 最適な特徴値を選択した後、Long Short Term Memory (LSTM)ネットワークを使用してLULCクラスを分類する。 LSTM分類器を用いたHuman GroupベースのPSOアルゴリズムは,分類精度,リコール,精度の観点から,土地利用と土地被覆クラスを効果的に区別することを示した。 提案手法を適用すると,既存のモデルであるGoogleNet,VGG,AlexNet,ConvNetと比較して2.56%の精度向上が達成される。

Land use and land cover (LULC) classification using remote sensing imagery plays a vital role in many environment modeling and land use inventories. In this study, a hybrid feature optimization algorithm along with a deep learning classifier is proposed to improve the performance of LULC classification, helping to predict wildlife habitat, deteriorating environmental quality, haphazard, etc. LULC classification is assessed using Sat 4, Sat 6 and Eurosat datasets. After the selection of remote sensing images, normalization and histogram equalization methods are used to improve the quality of the images. Then, a hybrid optimization is accomplished by using the Local Gabor Binary Pattern Histogram Sequence (LGBPHS), the Histogram of Oriented Gradient (HOG) and Haralick texture features, for the feature extraction from the selected images. The benefits of this hybrid optimization are a high discriminative power and invariance to color and grayscale images. Next, a Human Group based Particle Swarm Optimization (PSO) algorithm is applied to select the optimal features, whose benefits are fast convergence rate and easy to implement. After selecting the optimal feature values, a Long Short Term Memory (LSTM) network is utilized to classify the LULC classes. Experimental results showed that the Human Group based PSO algorithm with a LSTM classifier effectively well differentiates the land use and land cover classes in terms of classification accuracy, recall and precision. An improvement of 2.56% in accuracy is achieved compared to the existing models GoogleNet, VGG, AlexNet, ConvNet, when the proposed method is applied.
翻訳日:2022-11-03 00:58:03 公開日:2020-11-07
# 神経運動計画のための学習障害物表現

Learning Obstacle Representations for Neural Motion Planning ( http://arxiv.org/abs/2008.11174v4 )

ライセンス: Link先を確認
Robin Strudel, Ricardo Garcia, Justin Carpentier, Jean-Paul Laumond, Ivan Laptev, Cordelia Schmid(参考訳) モーションプランニングと障害物回避はロボットアプリケーションにおける重要な課題である。 これまでの研究は、既知の環境に優れたソリューションを提供することに成功したが、新しい動的環境におけるセンサベースのモーションプランニングは、依然として困難である。 本研究は,センサを用いたモーションプランニングを学習の観点から扱う。 近年の視覚認識の進歩に動機づけられ,動き計画における適切な表現の学習の重要性を論じた。 我々は,pointnetアーキテクチャに基づく新しい障害物表現を提案し,障害物回避のためのポリシーと共同で訓練する。 課題環境における剛体運動計画のアプローチを実験的に評価し, 精度と効率の面で, 最先端の技術の改善を実証した。

Motion planning and obstacle avoidance is a key challenge in robotics applications. While previous work succeeds to provide excellent solutions for known environments, sensor-based motion planning in new and dynamic environments remains difficult. In this work we address sensor-based motion planning from a learning perspective. Motivated by recent advances in visual recognition, we argue the importance of learning appropriate representations for motion planning. We propose a new obstacle representation based on the PointNet architecture and train it jointly with policies for obstacle avoidance. We experimentally evaluate our approach for rigid body motion planning in challenging environments and demonstrate significant improvements of the state of the art in terms of accuracy and efficiency.
翻訳日:2022-10-25 02:50:42 公開日:2020-11-07
# 3次元物体検出学習による点クラウド意味セグメンテーションの改善

Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection ( http://arxiv.org/abs/2009.10569v3 )

ライセンス: Link先を確認
Ozan Unal, Luc Van Gool, Dengxin Dai(参考訳) ポイントクラウドセマンティックセグメンテーションは、自律運転において不可欠な役割を担い、乾燥可能な表面や、経路計画や衝突回避といった高度なタスクを支援する近くの物体について重要な情報を提供する。 現在の3dセマンティクスセグメンテーションネットワークは、よく表現されたクラスでよく機能する畳み込みアーキテクチャにフォーカスしているが、同様の幾何学的特徴を持つ未表現のクラスではパフォーマンスが大幅に低下している。 本稿では,補助的な3次元オブジェクト検出タスクから局所化機能を明示的に活用する,DASS(Decepting Aware 3D Semantic Segmentation)フレームワークを提案する。 マルチタスク学習を利用することで、ネットワークの共有特徴表現は、幾何学的に類似したクラスの分化に取り組むのに役立つクラス検出機能ごとの認識をガイドする。 さらに,DASSを用いて既存の2段検出器の高精度なリコール提案を発生させるパイプラインを提供し,付加したオーバシィ信号が3次元配向推定能力の向上に有効であることを示す。 SemanticKITTIとKITTIのオブジェクトデータセットの大規模な実験により、DASSは画像FOVにおいて37.8%のIoUまで幾何学的に類似したクラスの3Dセマンティックセマンティックセグメンテーション結果を改善することができ、高精度の鳥眼ビュー(BEV)検出結果を維持することができる。

Point cloud semantic segmentation plays an essential role in autonomous driving, providing vital information about drivable surfaces and nearby objects that can aid higher level tasks such as path planning and collision avoidance. While current 3D semantic segmentation networks focus on convolutional architectures that perform great for well represented classes, they show a significant drop in performance for underrepresented classes that share similar geometric features. We propose a novel Detection Aware 3D Semantic Segmentation (DASS) framework that explicitly leverages localization features from an auxiliary 3D object detection task. By utilizing multitask training, the shared feature representation of the network is guided to be aware of per class detection features that aid tackling the differentiation of geometrically similar classes. We additionally provide a pipeline that uses DASS to generate high recall proposals for existing 2-stage detectors and demonstrate that the added supervisory signal can be used to improve 3D orientation estimation capabilities. Extensive experiments on both the SemanticKITTI and KITTI object datasets show that DASS can improve 3D semantic segmentation results of geometrically similar classes up to 37.8% IoU in image FOV while maintaining high precision bird's-eye view (BEV) detection results.
翻訳日:2022-10-15 22:43:03 公開日:2020-11-07
# 機械読解評価のためのベトナム語データセット

A Vietnamese Dataset for Evaluating Machine Reading Comprehension ( http://arxiv.org/abs/2009.14725v3 )

ライセンス: Link先を確認
Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 9900万人以上がベトナム語を母国語として話す。 しかし、ベトナム語で機械読解(mrc)についての研究は少なく、テキストの理解とそれに関連する質問に答える作業が行なわれている。 ベトナム語のためのベンチマークデータセットが欠如しているため、ベトナム語でmrcモデルを評価するための新しいデータセットであるベトナム語質問応答データセット(uit-viquad)を提示する。 このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。 特に,ベトナムmrcのためのデータセット作成の新しいプロセスを提案する。 私たちのデータセットは、単語マッチングのような単純な推論以上の能力を必要とし、単一文と複数文の推論を要求する。 さらに,UIT-ViQuAD 上での実験モデルとして,英語と中国語の最先端 MRC 手法の実験を行った。 また、データセット上での人間のパフォーマンスを推定し、強力な機械学習モデルの実験結果と比較する。 その結果、人間のパフォーマンスとデータセットの最良のモデルパフォーマンスとの大きな違いは、将来の研究においてUIT-ViQuADの改善が可能であることを示している。 我々のデータセットは、ベトナムのMRCの課題を克服するよう研究コミュニティに促すために、私たちのウェブサイトで無料で利用可能です。

Over 97 million people speak Vietnamese as their native language in the world. However, there are few research studies on machine reading comprehension (MRC) for Vietnamese, the task of understanding a text and answering questions related to it. Due to the lack of benchmark datasets for Vietnamese, we present the Vietnamese Question Answering Dataset (UIT-ViQuAD), a new dataset for the low-resource language as Vietnamese to evaluate MRC models. This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia. In particular, we propose a new process of dataset creation for Vietnamese MRC. Our in-depth analyses illustrate that our dataset requires abilities beyond simple reasoning like word matching and demands single-sentence and multiple-sentence inferences. Besides, we conduct experiments on state-of-the-art MRC methods for English and Chinese as the first experimental models on UIT-ViQuAD. We also estimate human performance on the dataset and compare it to the experimental results of powerful machine learning models. As a result, the substantial differences between human performance and the best model performance on the dataset indicate that improvements can be made on UIT-ViQuAD in future research. Our dataset is freely available on our website to encourage the research community to overcome challenges in Vietnamese MRC.
翻訳日:2022-10-12 23:26:02 公開日:2020-11-07
# 制約単調性、認識的分割と確立性は、一般に、解集合プログラミングにおいて強すぎる可能性がある

Constraint Monotonicity, Epistemic Splitting and Foundedness Could in General Be Too Strong in Answer Set Programming ( http://arxiv.org/abs/2010.00191v2 )

ライセンス: Link先を確認
Yi-Dong Shen and Thomas Eiter(参考訳) 近年, 主観的制約の単調性, エピステミック分割, 創始性の概念が, それぞれの直観を主観的基準として用い, それらの直観にどのように準拠するかについて, 文献で提案された異なる解集合のセマンティクスを比較することを目的として導入されている。 本論では,これら3つの概念を考察し,これらの概念が一般に強すぎる可能性があり,それぞれの世界観から所望の回答集合を除外できることを示す。 結論として、これらの性質は全ての回答集合の意味論が一般に満たさなければならない必須の性質とはみなされてはならない。

Recently, the notions of subjective constraint monotonicity, epistemic splitting, and foundedness have been introduced for epistemic logic programs, with the aim to use them as main criteria respectively intuitions to compare different answer set semantics proposed in the literature on how they comply with these intuitions. In this note, we consider these three notions and demonstrate on some examples that they may be too strong in general and may exclude some desired answer sets respectively world views. In conclusion, these properties should not be regarded as mandatory properties that every answer set semantics must satisfy in general.
翻訳日:2022-10-12 08:27:14 公開日:2020-11-07
# 情報理論は本質的に因果論か?

Is Information Theory Inherently a Theory of Causation? ( http://arxiv.org/abs/2010.01932v4 )

ライセンス: Link先を確認
David Sigtermans(参考訳) 情報理論は変数間の関係をテンソルとして表現することで因果骨格の発見の新しい方法をもたらす。 このテンソルベースのアプローチは条件独立性をテストするのに必要なデータの次元を減らし、例えば3つの変数からなる系の場合、因果骨格はペアワイズ決定テンソルで決定できる。 この結果に到達するために,追加情報尺度であるパス情報を提案する。

Information theory gives rise to a novel method for causal skeleton discovery by expressing associations between variables as tensors. This tensor-based approach reduces the dimensionality of the data needed to test for conditional independence, e.g., for systems comprising three variables, the causal skeleton can be determined using pair-wise determined tensors. To arrive at this result, an additional information measure, path information, is proposed.
翻訳日:2022-10-10 21:15:32 公開日:2020-11-07
# ニューラル言語モデルの言語学的プロファイリング

Linguistic Profiling of a Neural Language Model ( http://arxiv.org/abs/2010.01869v3 )

ライセンス: Link先を確認
Alessio Miaschi, Dominique Brunato, Felice Dell'Orletta, Giulia Venturi(参考訳) 本稿では,ニューラルネットワークモデル(NLM)による微調整前後の言語知識と,その知識がいくつかの分類問題における予測に与える影響について検討する。 言語アノテーションの異なるレベルから抽出された異なる文レベルの特徴に対応する,幅広い探索タスクを使用する。 BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向がある。 また、bertの異なる種類の言語特性をエンコードする能力は、その予測に肯定的な影響を与えている: 文章の読みやすい言語情報を保存すればするほど、その文に割り当てられたラベルを予測する能力が高くなる。

In this paper we investigate the linguistic knowledge learned by a Neural Language Model (NLM) before and after a fine-tuning process and how this knowledge affects its predictions during several classification problems. We use a wide set of probing tasks, each of which corresponds to a distinct sentence-level feature extracted from different levels of linguistic annotation. We show that BERT is able to encode a wide range of linguistic characteristics, but it tends to lose this information when trained on specific downstream tasks. We also find that BERT's capacity to encode different kind of linguistic properties has a positive influence on its predictions: the more it stores readable linguistic information of a sentence, the higher will be its capacity of predicting the expected label assigned to that sentence.
翻訳日:2022-10-10 20:01:41 公開日:2020-11-07
# ハイブリッドS2S:リカレントネットワークと対応マッチングによるビデオオブジェクトセグメンテーション

Hybrid-S2S: Video Object Segmentation with Recurrent Networks and Correspondence Matching ( http://arxiv.org/abs/2010.05069v2 )

ライセンス: Link先を確認
Fatemeh Azimi and Stanislav Frolov and Federico Raue and Joern Hees and Andreas Dengel(参考訳) One-shot Video Object Segmentation~(VOS)は、第1フレームのセグメンテーションマスクが推論時に与えられるビデオシーケンス内の被写体をピクセル単位で追跡するタスクである。 近年、VOSタスクにはリカレントニューラルネットワーク~(RNN)が広く使われているが、ドリフトやエラー伝搬といった制限に悩まされることが多い。 本研究では,RNNベースのアーキテクチャについて検討し,対応マッチングから得られる情報を組み込む2つのマスク伝搬戦略を用いて,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。 本実験は,対応マッチングによるrnnの強化がドリフト問題の軽減に極めて有効な解であることを示す。 追加情報は、モデルがより正確なマスクを予測し、エラーの伝播に対して堅牢になるのに役立つ。 DAVIS2017データセットとYoutube-VOSを用いたHS2Sモデルの評価を行った。 後者では、VOSにおけるRNNに基づく最先端手法よりも、全体のセグメント化精度が11.2pp向上した。 咬合や長いシーケンスなどの困難なケースでモデルの振る舞いを分析し,これらの困難なシナリオにおいて,ハイブリッドアーキテクチャがセグメンテーション品質を著しく向上させることを示す。

One-shot Video Object Segmentation~(VOS) is the task of pixel-wise tracking an object of interest within a video sequence, where the segmentation mask of the first frame is given at inference time. In recent years, Recurrent Neural Networks~(RNNs) have been widely used for VOS tasks, but they often suffer from limitations such as drift and error propagation. In this work, we study an RNN-based architecture and address some of these issues by proposing a hybrid sequence-to-sequence architecture named HS2S, utilizing a dual mask propagation strategy that allows incorporating the information obtained from correspondence matching. Our experiments show that augmenting the RNN with correspondence matching is a highly effective solution to reduce the drift problem. The additional information helps the model to predict more accurate masks and makes it robust against error propagation. We evaluate our HS2S model on the DAVIS2017 dataset as well as Youtube-VOS. On the latter, we achieve an improvement of 11.2pp in the overall segmentation accuracy over RNN-based state-of-the-art methods in VOS. We analyze our model's behavior in challenging cases such as occlusion and long sequences and show that our hybrid architecture significantly enhances the segmentation quality in these difficult scenarios.
翻訳日:2022-10-08 23:21:07 公開日:2020-11-07
# 神経細胞オートマトンによる画像生成

Image Generation With Neural Cellular Automatas ( http://arxiv.org/abs/2010.04949v2 )

ライセンス: Link先を確認
Mingxiang Chen, Zhecheng Wang(参考訳) 本稿では,ニューラルセルオートマトン(NCAs)を用いて画像(あるいは他のアートワーク)を生成する新しい手法を提案する。 単一画像に基づいてNAAを1つずつ訓練する代わりに、このアイデアを可変オートエンコーダ(VAE)と組み合わせ、画像復元やスタイル融合といったいくつかの応用を探索した。 モデル実装のコードはオンラインで入手できる。

In this paper, we propose a novel approach to generate images (or other artworks) by using neural cellular automatas (NCAs). Rather than training NCAs based on single images one by one, we combined the idea with variational autoencoders (VAEs), and hence explored some applications, such as image restoration and style fusion. The code for model implementation is available online.
翻訳日:2022-10-08 23:11:49 公開日:2020-11-07
# マルウェアの交通分類:アルゴリズムの評価と地上自動生成パイプライン

Malware Traffic Classification: Evaluation of Algorithms and an Automated Ground-truth Generation Pipeline ( http://arxiv.org/abs/2010.11627v2 )

ライセンス: Link先を確認
Syed Muhammad Kumail Raza and Juan Caballero(参考訳) 暗号化されたネットワークトラフィックフローにおける脅威を特定することは、一意に難しい。 一方、現代の暗号化アルゴリズムによってトラフィックを復号することは極めて困難である。 一方で、このような暗号化ストリームをパターンマッチングアルゴリズムで渡すことは、暗号化が存在しないことを保証しているため、役に立たない。 さらに、ラベル付き良性データセットやマルウェアデータセットがないため、これらのモデルの評価も難しい。 他のアプローチでは、フローから収集された観測可能なメタデータを利用することで、この問題に対処しようと試みている。 観測可能なメタデータを用いて、半教師付きマルウェア分類パイプラインに拡張することで、このアプローチを強化しようとしている。 この目的のために私たちは、この観測可能なメタデータから抽出されたユニークで多様な機能セットを利用する、さまざまな種類のクラスタリングアプローチを探求し、テストします。 また,上述の分類器,その他の検出モデルを評価するためのベースラインとして機能する地上データを生成するための,パケットデータラベルの自動化パイプラインを提案する。

Identifying threats in a network traffic flow which is encrypted is uniquely challenging. On one hand it is extremely difficult to simply decrypt the traffic due to modern encryption algorithms. On the other hand, passing such an encrypted stream through pattern matching algorithms is useless because encryption ensures there aren't any. Moreover, evaluating such models is also difficult due to lack of labeled benign and malware datasets. Other approaches have tried to tackle this problem by employing observable meta-data gathered from the flow. We try to augment this approach by extending it to a semi-supervised malware classification pipeline using these observable meta-data. To this end, we explore and test different kind of clustering approaches which make use of unique and diverse set of features extracted from this observable meta-data. We also, propose an automated packet data-labeling pipeline to generate ground-truth data which can serve as a base-line to evaluate the classifiers mentioned above in particular, or any other detection model in general.
翻訳日:2022-10-04 08:11:26 公開日:2020-11-07
# 埋め込み型エンティティアライメントの産業評価

An Industry Evaluation of Embedding-based Entity Alignment ( http://arxiv.org/abs/2010.11522v2 )

ライセンス: Link先を確認
Ziheng Zhang and Jiaoyan Chen and Xi Chen and Hualuo Liu and Yuejia Xiang and Bo Liu and Yefeng Zheng(参考訳) 埋め込み型エンティティアライメントは近年広く研究されているが、ほとんどの提案手法は、トレーニングと検証のために多数の未バイアスのシードマッピングを持つ理想的な教師付き学習環境に依存している。 本研究では,異なるサイズと異なるバイアスを持つ種マッピングの影響を考察する産業的文脈において,これらの最先端手法を評価する。 DBpedia と Wikidata の一般的なベンチマークに加えて,医療応用のための展開中の2つのヘテロジニアス知識グラフ (KG) から抽出した新しい産業ベンチマークをコントリビュートし,評価する。 実験により,これらのアライメント手法の利点とデメリットの分析と,産業展開に適した戦略のさらなる議論が可能となった。

Embedding-based entity alignment has been widely investigated in recent years, but most proposed methods still rely on an ideal supervised learning setting with a large number of unbiased seed mappings for training and validation, which significantly limits their usage. In this study, we evaluate those state-of-the-art methods in an industrial context, where the impact of seed mappings with different sizes and different biases is explored. Besides the popular benchmarks from DBpedia and Wikidata, we contribute and evaluate a new industrial benchmark that is extracted from two heterogeneous knowledge graphs (KGs) under deployment for medical applications. The experimental results enable the analysis of the advantages and disadvantages of these alignment methods and the further discussion of suitable strategies for their industrial deployment.
翻訳日:2022-10-04 04:45:56 公開日:2020-11-07
# KFC:$k$-center Fair Clusteringのためのスケーラブルな近似アルゴリズム

KFC: A Scalable Approximation Algorithm for $k$-center Fair Clustering ( http://arxiv.org/abs/2010.13949v2 )

ライセンス: Link先を確認
Elfarouk Harb and Ho Shan Lam(参考訳) 本稿では,$k-$center 目標における公平なクラスタリングの問題について検討する。 公平なクラスタリングでは、入力はn$ポイントであり、それぞれが男性、女性、アジア人、ヒスパニックなどの保護されたグループのうちの少なくとも1つに属している。 目的は、従来のクラスタリング目的関数を最小化するために、$n$ポイントを$k$クラスタにクラスタすることである。 しかし、公平性の概念の下では、各クラスタが公平である必要があるという追加の制約がある。 これにより、どのクラスタにおいても、どのグループも"過剰表現"または"アンダー表現"されないことが保証される。 我々の研究は、Chierichetti et al. (NIPS 2017)、Bella et al. (NeurIPS 2019)、Ahmadian et al. (KDD 2019)、Bercea et al. (APPROX 2019)の成果に基づいている。 我々は、k-$center の目的関数に対してランダム化された 3-$approximation アルゴリズムを取得し、以前の art ($4-$approximation) の状態を上回った。 実際のデータセット上でアルゴリズムをテストした結果、我々のアルゴリズムは過剰表現や過剰表現なしによいクラスタを見つけるのに効果的であり、実行時速度、クラスタリングコスト、および同様の公平性違反を実現できることを示した。

In this paper, we study the problem of fair clustering on the $k-$center objective. In fair clustering, the input is $N$ points, each belonging to at least one of $l$ protected groups, e.g. male, female, Asian, Hispanic. The objective is to cluster the $N$ points into $k$ clusters to minimize a classical clustering objective function. However, there is an additional constraint that each cluster needs to be fair, under some notion of fairness. This ensures that no group is either "over-represented" or "under-represented" in any cluster. Our work builds on the work of Chierichetti et al. (NIPS 2017), Bera et al. (NeurIPS 2019), Ahmadian et al. (KDD 2019), and Bercea et al. (APPROX 2019). We obtain a randomized $3-$approximation algorithm for the $k-$center objective function, beating the previous state of the art ($4-$approximation). We test our algorithm on real datasets, and show that our algorithm is effective in finding good clusters without over-representation or under-representation, surpassing the current state of the art in runtime speed, clustering cost, while achieving similar fairness violations.
翻訳日:2022-10-02 20:16:11 公開日:2020-11-07
# ヒト感情合成における生成的敵ネットワーク:レビュー

Generative Adversarial Networks in Human Emotion Synthesis:A Review ( http://arxiv.org/abs/2010.15075v2 )

ライセンス: Link先を確認
Noushin Hajarolasvadi, Miguel Arjona Ram\'irez and Hasan Demirel(参考訳) リアルなデータサンプルを合成することは、学術と産業の両方にとって大きな価値がある。 コンピュータビジョンや信号処理など、さまざまな研究分野において、深層生成モデルが注目されている。 コンピュータビジョン社会における幅広い関心のトピックであるAffective Computingは例外ではなく、生成モデルの恩恵を受けている。 実際、情緒計算は過去20年間で生成モデルの急速な導出を観察した。 このようなモデルの適用には、感情認識と分類、単調な感情合成、モーダルな感情合成が含まれる。 その結果,音声とビデオの2つの主要なコミュニケーションモダリティを考慮したトレーニング戦略とともに,生成モデルの利用可能なデータベース,アドバンテージ,デメリットを考察し,人間の感情合成の最近の進歩を概観した。 この文脈では、表情合成、音声感情合成、音声視覚(クロスモーダル)感情合成が様々な応用シナリオで広く検討されている。 今後,研究領域の境界を押し上げるために,オープン研究の課題を徐々に議論する。

Synthesizing realistic data samples is of great value for both academic and industrial communities. Deep generative models have become an emerging topic in various research areas like computer vision and signal processing. Affective computing, a topic of a broad interest in computer vision society, has been no exception and has benefited from generative models. In fact, affective computing observed a rapid derivation of generative models during the last two decades. Applications of such models include but are not limited to emotion recognition and classification, unimodal emotion synthesis, and cross-modal emotion synthesis. As a result, we conducted a review of recent advances in human emotion synthesis by studying available databases, advantages, and disadvantages of the generative models along with the related training strategies considering two principal human communication modalities, namely audio and video. In this context, facial expression synthesis, speech emotion synthesis, and the audio-visual (cross-modal) emotion synthesis is reviewed extensively under different application scenarios. Gradually, we discuss open research problems to push the boundaries of this research area for future works.
翻訳日:2022-10-02 05:14:39 公開日:2020-11-07
# AutoPrompt: 自動生成プロンプトによる言語モデルからの知識の排除

AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts ( http://arxiv.org/abs/2010.15980v2 )

ライセンス: Link先を確認
Taylor Shin, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, Sameer Singh(参考訳) 事前訓練された言語モデルの顕著な成功は、これらのモデルが事前訓練中にどのような知識を学ぶかを研究する動機となった。 タスクを補間問題(例えば、クローゼテスト)として再定義することは、そのような知識を掘り下げるための自然なアプローチであるが、その使い方は、適切なプロンプトを書くのに必要な手作業や推測作業によって制限される。 これに対処するために,グラデーションガイドによる検索に基づいて,さまざまなタスクのプロンプトを生成する自動手法であるautopromptを開発した。 AutoPromptを用いて、マスク付き言語モデル(MLM)は、追加パラメータや微調整を伴わずに感情分析や自然言語推論を行う能力があり、最近の最先端の教師付きモデルと同等のパフォーマンスを達成できることが示される。 また, LAMAベンチマークでは, 手作業で作成したプロンプトよりも, MLMからより正確な事実知識を抽出し, MLMを教師付き関係抽出モデルよりも効率的に関係抽出器として利用できることを示す。 これらの結果から, 自動生成プロンプトは既存の探索手法に代わるパラメータフリーな代替手段であり, 事前学習されたLMはより高度で能力が高くなり, 微調整の代替となる可能性が示唆された。

The remarkable success of pretrained language models has motivated the study of what kinds of knowledge these models learn during pretraining. Reformulating tasks as fill-in-the-blanks problems (e.g., cloze tests) is a natural approach for gauging such knowledge, however, its usage is limited by the manual effort and guesswork required to write suitable prompts. To address this, we develop AutoPrompt, an automated method to create prompts for a diverse set of tasks, based on a gradient-guided search. Using AutoPrompt, we show that masked language models (MLMs) have an inherent capability to perform sentiment analysis and natural language inference without additional parameters or finetuning, sometimes achieving performance on par with recent state-of-the-art supervised models. We also show that our prompts elicit more accurate factual knowledge from MLMs than the manually created prompts on the LAMA benchmark, and that MLMs can be used as relation extractors more effectively than supervised relation extraction models. These results demonstrate that automatically generated prompts are a viable parameter-free alternative to existing probing methods, and as pretrained LMs become more sophisticated and capable, potentially a replacement for finetuning.
翻訳日:2022-10-01 22:10:43 公開日:2020-11-07
# HOI分析:人間と物体の相互作用の統合と分解

HOI Analysis: Integrating and Decomposing Human-Object Interaction ( http://arxiv.org/abs/2010.16219v2 )

ライセンス: Link先を確認
Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Yizhuo Li, Cewu Lu(参考訳) ヒューマン・オブジェクト・インタラクション(Human-Object Interaction、HOI)は、人間、オブジェクト、暗黙のインタラクション/動詞からなる。 画素をhoiセマンティクスに直接マッピングする従来の手法とは異なり,解析的手法によるhoi学習のための新しい視点を提案する。 基本波の重畳による信号の表現方法を研究することを目的とした高調波解析と類似して,HOI解析を提案する。 我々は,コヒーレントHOIを分離した人間と物体に分解できると主張している。 一方、孤立した人間とオブジェクトは再びcoherent hoiに統合することもできる。 さらに、同一のHOIを持つ人間と対象のペア間の変換は、統合と分解で容易にアプローチできる。 その結果、暗黙の動詞は変換関数空間で表現される。 そこで本研究では,先述した変換を実装し,広範に使用されているHOI検出ベンチマークの最先端性能を実現するための統合分解ネットワーク(IDN)を提案する。 コードはhttps://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/IDN-(Integrating-Decomposing-Network)で公開されている。

Human-Object Interaction (HOI) consists of human, object and implicit interaction/verb. Different from previous methods that directly map pixels to HOI semantics, we propose a novel perspective for HOI learning in an analytical manner. In analogy to Harmonic Analysis, whose goal is to study how to represent the signals with the superposition of basic waves, we propose the HOI Analysis. We argue that coherent HOI can be decomposed into isolated human and object. Meanwhile, isolated human and object can also be integrated into coherent HOI again. Moreover, transformations between human-object pairs with the same HOI can also be easier approached with integration and decomposition. As a result, the implicit verb will be represented in the transformation function space. In light of this, we propose an Integration-Decomposition Network (IDN) to implement the above transformations and achieve state-of-the-art performance on widely-used HOI detection benchmarks. Code is available at https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/IDN-(Integrating-Decomposing-Network).
翻訳日:2022-10-01 16:36:16 公開日:2020-11-07
# 動的シーンにおける教師なし単眼深度学習

Unsupervised Monocular Depth Learning in Dynamic Scenes ( http://arxiv.org/abs/2010.16404v2 )

ライセンス: Link先を確認
Hanhan Li, Ariel Gordon, Hang Zhao, Vincent Casser, Anelia Angelova(参考訳) 本稿では,シーンに対する被写体の深さ,エゴ運動,密接な3次元変換場を共同学習し,単眼光量一貫性を監督の唯一の源とする手法を提案する。 本研究は,3次元翻訳分野に関する先行知識を補足することで,この明らかに過小評価された問題を正規化できることを示し,シーンの大部分が静的であり,剛体移動物体に対して一定である傾向がある。 この正規化だけでは、動的シーンの前の作業で達成された精度を超える単眼深度予測モデルを訓練するのに十分であることを示す。 コードはhttps://github.com/google-research/google-research/tree/master/depth_and_motion_learningにある。

We present a method for jointly training the estimation of depth, ego-motion, and a dense 3D translation field of objects relative to the scene, with monocular photometric consistency being the sole source of supervision. We show that this apparently heavily underdetermined problem can be regularized by imposing the following prior knowledge about 3D translation fields: they are sparse, since most of the scene is static, and they tend to be constant for rigid moving objects. We show that this regularization alone is sufficient to train monocular depth prediction models that exceed the accuracy achieved in prior work for dynamic scenes, including methods that require semantic input. Code is at https://github.com/google-research/google-research/tree/master/depth_and_motion_learning .
翻訳日:2022-10-01 16:36:00 公開日:2020-11-07
# 映像人物再同定のための三重項損失の設定

Set Augmented Triplet Loss for Video Person Re-Identification ( http://arxiv.org/abs/2011.00774v2 )

ライセンス: Link先を確認
Pengfei Fang, Pan Ji, Lars Petersson, Mehrtash Harandi(参考訳) 現代のビデオパーソン再識別(re-id)マシンは、しばしば三重項損失によって監督されるメトリック学習アプローチを使って訓練される。 ビデオリIDで使用されるトリプルト損失は、通常、クリップ機能と呼ばれるいくつかのフレーム機能から集約されたクリップ機能に基づいている。 本稿では,ビデオクリップを集合としてモデル化し,それに対応する三重項損失における集合間の距離について検討する。 クリップ表現間の距離とは対照的に、クリップセット間の距離は2つのセット間の各要素(フレーム表現)の対の類似性を考える。 これにより、ネットワークはフレームレベルで機能表現を直接最適化できる。 普通距離やハウスドルフ距離など、一般的に使用される集合距離メトリクスとは別に、集合認識三重項損失用に調整されたハイブリッド距離メトリックも提案する。 また,学習したクラスプロトタイプをバッチで使用して,強正のセット構築戦略を提案する。 提案手法は,提案手法の利点を実証し,いくつかの標準ベンチマークにおける最先端結果を実現する。

Modern video person re-identification (re-ID) machines are often trained using a metric learning approach, supervised by a triplet loss. The triplet loss used in video re-ID is usually based on so-called clip features, each aggregated from a few frame features. In this paper, we propose to model the video clip as a set and instead study the distance between sets in the corresponding triplet loss. In contrast to the distance between clip representations, the distance between clip sets considers the pair-wise similarity of each element (i.e., frame representation) between two sets. This allows the network to directly optimize the feature representation at a frame level. Apart from the commonly-used set distance metrics (e.g., ordinary distance and Hausdorff distance), we further propose a hybrid distance metric, tailored for the set-aware triplet loss. Also, we propose a hard positive set construction strategy using the learned class prototypes in a batch. Our proposed method achieves state-of-the-art results across several standard benchmarks, demonstrating the advantages of the proposed method.
翻訳日:2022-09-30 12:16:22 公開日:2020-11-07
# 航空機械学習問題における自動符号化機能

Autoencoding Features for Aviation Machine Learning Problems ( http://arxiv.org/abs/2011.01464v2 )

ライセンス: Link先を確認
Liya Wang, Panta Lucic, Keith Campbell, Craig Wanke(参考訳) 高度で異種な航空データに対する手作業による特徴処理の現在の実践は、労働集約的であり、新しい問題に対してうまくスケールせず、情報損失を起こしやすく、機械学習(ml)手順の有効性と保守性に影響を及ぼす。 本研究では,航空用機械学習問題の効果的な特徴を抽出するための教師なし学習手法であるautoencoderについて検討した。 この研究は、入力の学習された表現を有用な特性を仮定させる目的で、オートエンコーダの変種を調査した。 飛行軌道異常検出オートエンコーダは、この技術の汎用性を示すために開発された。 研究結果から,オートエンコーダはフライトトラックデータに有効な特徴を自動的に抽出するだけでなく,効率的な深層データも抽出でき,データサイエンティストの作業量を削減できることがわかった。 さらに,複数空港のモデルを効率的に学習するためにトランスファー・ラーニングを利用した。 トランスファーラーニングは、モデルトレーニング時間を数日から数時間に短縮し、モデルパフォーマンスを改善する。 開発されたアプリケーションと技術は、現在および将来の機械学習研究の有効性を改善するために、航空コミュニティ全体と共有されている。

The current practice of manually processing features for high-dimensional and heterogeneous aviation data is labor-intensive, does not scale well to new problems, and is prone to information loss, affecting the effectiveness and maintainability of machine learning (ML) procedures. This research explored an unsupervised learning method, autoencoder, to extract effective features for aviation machine learning problems. The study explored variants of autoencoders with the aim of forcing the learned representations of the input to assume useful properties. A flight track anomaly detection autoencoder was developed to demonstrate the versatility of the technique. The research results show that the autoencoder can not only automatically extract effective features for the flight track data, but also efficiently deep clean data, thereby reducing the workload of data scientists. Moreover, the research leveraged transfer learning to efficiently train models for multiple airports. Transfer learning can reduce model training times from days to hours, as well as improving model performance. The developed applications and techniques are shared with the whole aviation community to improve effectiveness of ongoing and future machine learning studies.
翻訳日:2022-09-30 04:09:33 公開日:2020-11-07
# 敵対的攻撃における防御に優しい画像:データセットと摂動障害の指標

Defense-friendly Images in Adversarial Attacks: Dataset and Metrics for Perturbation Difficulty ( http://arxiv.org/abs/2011.02675v2 )

ライセンス: Link先を確認
Camilo Pestana, Wei Liu, David Glance, Ajmal Mian(参考訳) データセットバイアスは、特に防衛評価において、敵機械学習における問題である。 敵攻撃または防御アルゴリズムは、報告されたデータセットで他のデータセットで複製されるよりも、より良い結果を示すことができる。 2つのアルゴリズムを比較しても、相対的なパフォーマンスはデータセットによって異なります。 ディープラーニングは、画像認識のための最先端のソリューションを提供するが、深層モデルは、小さな摂動に対しても脆弱である。 この分野での研究は主に敵攻撃と防衛アルゴリズムに焦点を当てている。 本稿では,攻撃に対して弾力性のあるロバストな画像のクラスであり,単純な防御手法を用いて,攻撃時のランダム画像よりも回復性が高いことを初めて報告する。 したがって、ロバストな画像の割合の高いテストデータセットは、敵の攻撃や防御のパフォーマンスについて誤解を招く印象を与える。 データセット内のロバストな画像の割合を決定するための3つの指標を提案し、データセットのバイアスを決定するためのスコアを提供する。 また、15000以上のロバストな画像からなるImageNet-Rデータセットも提供し、攻撃時の画像強度の興味深い現象のさらなる研究を促進する。 提案する指標と組み合わせたデータセットは,敵の攻撃アルゴリズムや防御アルゴリズムの偏りのないベンチマークに有用である。

Dataset bias is a problem in adversarial machine learning, especially in the evaluation of defenses. An adversarial attack or defense algorithm may show better results on the reported dataset than can be replicated on other datasets. Even when two algorithms are compared, their relative performance can vary depending on the dataset. Deep learning offers state-of-the-art solutions for image recognition, but deep models are vulnerable even to small perturbations. Research in this area focuses primarily on adversarial attacks and defense algorithms. In this paper, we report for the first time, a class of robust images that are both resilient to attacks and that recover better than random images under adversarial attacks using simple defense techniques. Thus, a test dataset with a high proportion of robust images gives a misleading impression about the performance of an adversarial attack or defense. We propose three metrics to determine the proportion of robust images in a dataset and provide scoring to determine the dataset bias. We also provide an ImageNet-R dataset of 15000+ robust images to facilitate further research on this intriguing phenomenon of image strength under attack. Our dataset, combined with the proposed metrics, is valuable for unbiased benchmarking of adversarial attack and defense algorithms.
翻訳日:2022-09-29 11:29:48 公開日:2020-11-07
# 大規模・小型の天体画像データセットのためのオプション駆動学習によるデータ駆動画像復元

Data--driven Image Restoration with Option--driven Learning for Big and Small Astronomical Image Datasets ( http://arxiv.org/abs/2011.03696v1 )

ライセンス: Link先を確認
Peng Jia, Ruiyu Ning, Ruiqi Sun, Xiaoshan Yang and Dongmei Cai(参考訳) 画像復元法は一般に天文画像の品質向上に用いられている。 In recent years, developments of deep neural networks and increments of the number of astronomical images have evoked a lot of data--driven image restoration methods. However, most of these methods belong to supervised learning algorithms, which require paired images either from real observations or simulated data as training set. For some applications, it is hard to get enough paired images from real observations and simulated images are quite different from real observed ones. In this paper, we propose a new data--driven image restoration method based on generative adversarial networks with option--driven learning. 提案手法では,複数の高解像度画像を参照として使用し,参照画像の数が異なる場合に異なる学習戦略を適用する。 観測条件の異なるスカイサーベイでは,基準画像の数に関わらず,非常に安定した画像復元結果が得られる。

Image restoration methods are commonly used to improve the quality of astronomical images. In recent years, developments of deep neural networks and increments of the number of astronomical images have evoked a lot of data--driven image restoration methods. However, most of these methods belong to supervised learning algorithms, which require paired images either from real observations or simulated data as training set. For some applications, it is hard to get enough paired images from real observations and simulated images are quite different from real observed ones. In this paper, we propose a new data--driven image restoration method based on generative adversarial networks with option--driven learning. Our method uses several high resolution images as references and applies different learning strategies when the number of reference images is different. For sky surveys with variable observation conditions, our method can obtain very stable image restoration results, regardless of the number of reference images.
翻訳日:2022-09-28 22:58:22 公開日:2020-11-07
# 2D-LiDARセンサを備えたROS型マルチロボットシステムによる自律侵入者検出

Autonomous Intruder Detection Using a ROS-Based Multi-Robot System Equipped with 2D-LiDAR Sensors ( http://arxiv.org/abs/2011.03838v1 )

ライセンス: Link先を確認
Mashnoon Islam, Touhid Ahmed, Abu Tammam Bin Nuruddin, Mashuda Islam, Shahnewaz Siddique(参考訳) ロボットセキュリティプラットフォームにおける自律移動ロボットの応用は、幅広いセンサーを通じて認識される潜在的な障害に対応する適応能力によって、有望なイノベーション分野になりつつある。 研究者は単一の移動ロボットを利用するか、複数のロボットを連携させるシステムを提案する。 しかし、特にマルチロボットシステムの分野では、様々なタスクを達成するためにLiDARセンサーに完全に依存している研究はほとんどない。 これは、ロボット上の他のセンサーが、光のないカメラのような特定の条件でピーク性能を提供できない場合に必須である。 本稿では,ros(robot operating system)を用いてロボット1台あたりのセンサ検出を行うマルチロボットシステムを提案し,中央ボットmidnet (multiple intruder detection network) による全ロボットの検出を集中的に処理する。 この研究は、人間がいない倉庫に自律的なマルチロボットセキュリティソリューションを提供することを目的としている。

The application of autonomous mobile robots in robotic security platforms is becoming a promising field of innovation due to their adaptive capability of responding to potential disturbances perceived through a wide range of sensors. Researchers have proposed systems that either focus on utilizing a single mobile robot or a system of cooperative multiple robots. However, very few of the proposed works, particularly in the field of multi-robot systems, are completely dependent on LiDAR sensors for achieving various tasks. This is essential when other sensors on a robot fail to provide peak performance in particular conditions, such as a camera operating in the absence of light. This paper proposes a multi-robot system that is developed using ROS (Robot Operating System) for intruder detection in a single-range-sensor-per-robot scenario with centralized processing of detections from all robots by our central bot MIDNet (Multiple Intruder Detection Network). This work is aimed at providing an autonomous multi-robot security solution for a warehouse in the absence of human personnel.
翻訳日:2022-09-28 22:58:12 公開日:2020-11-07
# 変化点検出アルゴリズムを用いたコンピュータビジョンによる交通監視のためのマルチレジーム解析

Multi-regime analysis for computer vision-based traffic surveillance using a change-point detection algorithm ( http://arxiv.org/abs/2011.11758v1 )

ライセンス: Link先を確認
Seungyun Jeong and Keemin Sohn(参考訳) ディープラーニングの大幅な進歩の結果、コンピュータビジョン技術は交通監視の分野で広く採用されている。 それでも、日時、天気、影といった環境条件によらず、交通パラメータを計測できる普遍的なモデルを見つけることは困難である。 これらの条件は繰り返し変化するが、正確な変化点は矛盾しており予測不能である。 したがって、モデルパラメータの分離セットが事前に準備されている場合でも、マルチレジーム法の適用は問題となる。 本研究では,マルチレジーム解析を容易にする頑健な手法を考案した。 このアプローチでは、環境条件の変化点を決定するために、オンラインパラメトリックアルゴリズムを用いる。 オートエンコーダを使用して入力画像の寸法を削減し、オンラインチェンジポイントアルゴリズムを実装するために特徴ベクトルを削減した。 特定の日に7つの異なる期間を典型的にタグ付けした。 次に,各期間の交通密度を別々に測定できるようにマルチレジーム解析を行った。 車両計数モデルのトレーニングとテストのために、1,100枚の映像がランダムに選択され、交通計数でラベル付けされた。 マルチレジスタ解析の測定精度は,全データを用いた統合モデルの計測精度よりもはるかに高かった。

As a result of significant advances in deep learning, computer vision technology has been widely adopted in the field of traffic surveillance. Nonetheless, it is difficult to find a universal model that can measure traffic parameters irrespective of ambient conditions such as times of the day, weather, or shadows. These conditions vary recurrently, but the exact points of change are inconsistent and unpredictable. Thus, the application of a multi-regime method would be problematic, even when separate sets of model parameters are prepared in advance. In the present study we devised a robust approach that facilitates multi-regime analysis. This approach employs an online parametric algorithm to determine the change-points for ambient conditions. An autoencoder was used to reduce the dimensions of input images, and reduced feature vectors were used to implement the online change-point algorithm. Seven separate periods were tagged with typical times in a given day. Multi-regime analysis was then performed so that the traffic density could be separately measured for each period. To train and test models for vehicle counting, 1,100 video images were randomly chosen for each period and labeled with traffic counts. The measurement accuracy of multi-regime analysis was much higher than that of an integrated model trained on all data.
翻訳日:2022-09-28 22:57:55 公開日:2020-11-07
# google trendsによるcovid-19の分析

Google Trends Analysis of COVID-19 ( http://arxiv.org/abs/2011.03847v1 )

ライセンス: Link先を確認
Hoang Long Nguyen, Zhenhe Pan, Hashim Abu-gellban, Fang Jin, Yuanlin Zhang(参考訳) 世界保健機関(who)は、新型コロナウイルス(covid-19)が3月11日にパンデミック(パンデミック)の病であると発表した。 多くの研究者が、この事件が拡大すると予想して以来、確認済みの感染者数を予測することに取り組んでおり、各国のロックダウン命令の緩和に結び目のある決定を採用するのに役立っている。 これらの命令は、職を失い、重大な影響を受けたビジネスを支援する人々を助ける。 本研究の目的は、Googleの検索トレンドと新型コロナウイルス(COVID-19)の感染拡大との関係を世界各国で調査し、症例数を予測することである。 WHOが報告した確認症例数に応じて,関連するGoogle検索トレンドのキーワードの相関分析を行った。 その後,複数の機械学習手法(多重線形回帰,非負整数回帰,ディープニューラルネットワーク)を適用し,過去のデータとハイブリッドデータ(Google検索トレンド)に基づいて,世界規模で確認された症例数を予測した。 以上の結果から,Google 検索の傾向は,Deep Learning アプローチが他の予測手法より優れているという報告された症例数と強く関連していることが明らかとなった。 新型コロナウイルス(COVID-19)の感染者の予測だけでなく、関連するGoogleのトレンドに関連する同様の予測問題にも有望なアプローチだと考えています。

The World Health Organization (WHO) announced that COVID-19 was a pandemic disease on the 11th of March as there were 118K cases in several countries and territories. Numerous researchers worked on forecasting the number of confirmed cases since anticipating the growth of the cases helps governments adopting knotty decisions to ease the lockdowns orders for their countries. These orders help several people who have lost their jobs and support gravely impacted businesses. Our research aims to investigate the relation between Google search trends and the spreading of the novel coronavirus (COVID-19) over countries worldwide, to predict the number of cases. We perform a correlation analysis on the keywords of the related Google search trends according to the number of confirmed cases reported by the WHO. After that, we applied several machine learning techniques (Multiple Linear Regression, Non-negative Integer Regression, Deep Neural Network), to forecast the number of confirmed cases globally based on historical data as well as the hybrid data (Google search trends). Our results show that Google search trends are highly associated with the number of reported confirmed cases, where the Deep Learning approach outperforms other forecasting techniques. We believe that it is not only a promising approach for forecasting the confirmed cases of COVID-19, but also for similar forecasting problems that are associated with the related Google trends.
翻訳日:2022-09-28 22:57:16 公開日:2020-11-07
# マルチスケールポイントクラウド幾何圧縮

Multiscale Point Cloud Geometry Compression ( http://arxiv.org/abs/2011.03799v1 )

ライセンス: Link先を確認
Jianqiang Wang, Dandan Ding, Zhu Li, Zhan Ma(参考訳) 近年、ポイントクラウドベースのアプリケーションは、3Dオブジェクトやシーンの現実的できめ細かい表現のために成長している。 しかし、効率的な通信のためにスパース、非構造化、高精度な3Dポイントを圧縮することは難しい問題である。 本稿では,ポイントクラウドのスパーシティを活かし,プログレッシブな再サンプリングによって3dポイントクラウド幾何(pcg)を階層的に再構築する,マルチスケールのエンド・ツー・エンド学習フレームワークを提案する。 このフレームワークは、ポイントクラウド圧縮と再構成のためのスパース畳み込みベースのオートエンコーダの上に開発されている。 バイナリ占有属性のみを持つ入力PCGに対して、我々のフレームワークは、幾何学的特徴属性と関連する特徴属性の両方を持つボトルネック層のダウンスケールポイントクラウドに変換する。 次に、octreeコーデックを用いて幾何学的占有率をロスレス圧縮し、学習された確率的文脈モデルを用いて特徴属性を損失圧縮する。v-pccとmpegによって標準化された幾何学的pcc(g-pcc)方式と比較すると、それぞれ40%以上と70%のbdレート(bjontegaard delta rate)を低減できる。 エンコーディングランタイムは、V-PCCのわずか1.5%であるG-PCCに匹敵する。

Recent years have witnessed the growth of point cloud based applications because of its realistic and fine-grained representation of 3D objects and scenes. However, it is a challenging problem to compress sparse, unstructured, and high-precision 3D points for efficient communication. In this paper, leveraging the sparsity nature of point cloud, we propose a multiscale end-to-end learning framework which hierarchically reconstructs the 3D Point Cloud Geometry (PCG) via progressive re-sampling. The framework is developed on top of a sparse convolution based autoencoder for point cloud compression and reconstruction. For the input PCG which has only the binary occupancy attribute, our framework translates it to a downscaled point cloud at the bottleneck layer which possesses both geometry and associated feature attributes. Then, the geometric occupancy is losslessly compressed using an octree codec and the feature attributes are lossy compressed using a learned probabilistic context model.Compared to state-of-the-art Video-based Point Cloud Compression (V-PCC) and Geometry-based PCC (G-PCC) schemes standardized by the Moving Picture Experts Group (MPEG), our method achieves more than 40% and 70% BD-Rate (Bjontegaard Delta Rate) reduction, respectively. Its encoding runtime is comparable to that of G-PCC, which is only 1.5% of V-PCC.
翻訳日:2022-09-28 22:53:22 公開日:2020-11-07
# 複数のANFISアーキテクチャと時空間データを用いた犯罪予測

Crime Prediction Using Multiple-ANFIS Architecture and Spatiotemporal Data ( http://arxiv.org/abs/2011.05805v1 )

ライセンス: Link先を確認
Mashnoon Islam, Redwanul Karim, Kalyan Roy, Saif Mahmood, Sadat Hossain, M. Rashedur Rahman(参考訳) 統計値だけではダッカ市で起きた犯罪のシナリオ全体をもたらすことはできない。 これらの統計値を使って犯罪の発生を予測し、街をより安全な居住地にするより良い方法が必要です。 将来の適切な意思決定は、地域や都市における犯罪率を下げる上で鍵となる。 法執行機関が将来の資源を効率的に配分できれば、ダッカの犯罪率は最小限に抑えることができる。 本研究は,法執行機関の職員や刑事が犯罪発生を事前に予測し,迅速かつ迅速に判断できる効果的なツールを提供することを目的としている。 我々はいくつかのファジィ推論システム (FIS) と適応型ニューロファジィ推論システム (ANFIS) を用いて、特定の場所や時間に起こりやすい犯罪の種類を予測する。

Statistical values alone cannot bring the whole scenario of crime occurrences in the city of Dhaka. We need a better way to use these statistical values to predict crime occurrences and make the city a safer place to live. Proper decision-making for the future is key in reducing the rate of criminal offenses in an area or a city. If the law enforcement bodies can allocate their resources efficiently for the future, the rate of crime in Dhaka can be brought down to a minimum. In this work, we have made an initiative to provide an effective tool with which law enforcement officials and detectives can predict crime occurrences ahead of time and take better decisions easily and quickly. We have used several Fuzzy Inference Systems (FIS) and Adaptive Neuro-Fuzzy Inference Systems (ANFIS) to predict the type of crime that is highly likely to occur at a certain place and time.
翻訳日:2022-09-28 22:52:51 公開日:2020-11-07
# Quantum Combinatorial Games: 構造と計算複雑性

Quantum Combinatorial Games: Structures and Computational Complexity ( http://arxiv.org/abs/2011.03704v1 )

ライセンス: Link先を確認
Kyle Burke, Matthew Ferland, Shang-Hua Teng(参考訳) 近年,完全情報と偶然をもたない数理ゲームに量子インスパイアされた動きを導入するための標準化フレームワークが提案されている。 量子ゲームの美しさは、表現の簡潔さ、構造に富み、爆発的な複雑さ、可視化のためのダズリング、そして戦略的推論のために洗練されたものであり、我々は、微妙さに満ちた具体的なゲームをし、複雑さの結果に関係のある抽象的性質を特徴づけるようにしました。 個々のゲームを超えて、量子組合せゲーム全体のトラクタビリティを探求し、以下の基本的な問題に対処する。 複雑性の量子飛躍: 量子拡張が難解な多項式時間可解ゲームは存在するか? 複雑性における量子崩壊: 多項式時間階層の下位レベルに量子拡張が落ちるPSPACE完全ゲームはあるか? 量子性の問題: 結果のクラスと戦略は量子移動の下でどのように変化するか? 量子性はどんな条件で重要か? PSPACE Barrier for Quantum Leap: Can quantum move launch PSPACE games into outer polynomial space 我々は、量子移動がゲーム構造を豊かにするだけでなく、計算複雑性にも影響を及ぼすことを示した。 これらの基本的な問題のいくつかを定め、量子移動のパワーと制限と、それらが生成するゲーム構成の重ね合わせの両方を特徴づける。 我々の構成的証明は、具体的量子ニムと量子無向幾何学における複雑性の跳躍と、量子環境において、多項式時間階層の各レベルへの抽象PSPACE完全ゲームにおける複雑さの連続的な崩壊についてである。 我々はまた、量子組合せゲーム理論(QCGT)の基本となるいくつかのエレガントなオープンな質問を特定できる。

Recently, a standardized framework was proposed for introducing quantum-inspired moves in mathematical games with perfect information and no chance. The beauty of quantum games-succinct in representation, rich in structures, explosive in complexity, dazzling for visualization, and sophisticated for strategic reasoning-has drawn us to play concrete games full of subtleties and to characterize abstract properties pertinent to complexity consequence. Going beyond individual games, we explore the tractability of quantum combinatorial games as whole, and address fundamental questions including: Quantum Leap in Complexity: Are there polynomial-time solvable games whose quantum extensions are intractable? Quantum Collapses in Complexity: Are there PSPACE-complete games whose quantum extensions fall to the lower levels of the polynomial-time hierarchy? Quantumness Matters: How do outcome classes and strategies change under quantum moves? Under what conditions doesn't quantumness matter? PSPACE Barrier for Quantum Leap: Can quantum moves launch PSPACE games into outer polynomial space We show that quantum moves not only enrich the game structure, but also impact their computational complexity. In settling some of these basic questions, we characterize both the powers and limitations of quantum moves as well as the superposition of game configurations that they create. Our constructive proofs-both on the leap of complexity in concrete Quantum Nim and Quantum Undirected Geography and on the continuous collapses, in the quantum setting, of complexity in abstract PSPACE-complete games to each level of the polynomial-time hierarchy-illustrate the striking computational landscape over quantum games and highlight surprising turns with unexpected quantum impact. Our studies also enable us to identify several elegant open questions fundamental to quantum combinatorial game theory (QCGT).
翻訳日:2022-09-28 22:52:36 公開日:2020-11-07
# 学生のフィードバック処理における機械学習とNLPの可能性(短報)

The Potential of Machine Learning and NLP for Handling Students' Feedback (A Short Survey) ( http://arxiv.org/abs/2011.05806v1 )

ライセンス: Link先を確認
Maryam Edalati(参考訳) 本稿では,近年公表された学生のフィードバック論文の文献を,データマイニング技術を用いてレビューする。 特に焦点は、機械学習またはディープラーニングのアプローチを使用している論文を強調することである。 学生のフィードバックアセスメントはホットな話題であり、近年は多くの注目を集めている。 近年のパンデミックの影響で、多くの大学や大学が、eラーニングプラットフォームやmoocs(massive open online courses)などのツールを通じて、教育をオンキャンプの物理クラスからオンラインへと移行させた。 学生のフィードバックを評価することがさらに重要です。 そこで本研究では,自然言語処理領域における学生自動フィードバック評価の最近の動向について述べる。 この領域でよく使われる技法を提示し、今後の研究の方向性について論じる。

This article provides a review of the literature of students' feedback papers published in recent years employing data mining techniques. In particular, the focus is to highlight those papers which are using either machine learning or deep learning approaches. Student feedback assessment is a hot topic which has attracted a lot of attention in recent times. The importance has increased manyfold due to the recent pandemic outbreak which pushed many colleges and universities to shift teaching from on-campus physical classes to online via eLearning platforms and tools including massive open online courses (MOOCs). Assessing student feedback is even more important now. This short survey paper, therefore, highlights recent trends in the natural language processing domain on the topic of automatic student feedback assessment. It presents techniques commonly utilized in this domain and discusses some future research directions.
翻訳日:2022-09-28 22:51:34 公開日:2020-11-07
# オフラインメトリクスはレコメンダシステムのオンラインパフォーマンスを予測するか?

Do Offline Metrics Predict Online Performance in Recommender Systems? ( http://arxiv.org/abs/2011.07931v1 )

ライセンス: Link先を確認
Karl Krauth, Sarah Dean, Alex Zhao, Wenshuo Guo, Mihaela Curmei, Benjamin Recht, Michael I. Jordan(参考訳) レコメンダシステムは本質的に動的に動作します。 過去のレコメンデーションは、どのデータポイントが観察されるか、ユーザの好みがどう変わるかなど、将来の行動に影響を与える。 しかし、実際のユーザダイナミクスを用いた実運用システムでの実験は不可能であり、既存のシミュレーションベースのアプローチには限界がある。 その結果、教師付き学習問題を解決するために多くの最先端アルゴリズムが設計され、進捗はオフラインメトリクスによって判断される。 本研究では,6つのシミュレーション環境における11のレコメンダを評価することにより,オフラインメトリクスがオンラインパフォーマンスを予測できる程度を調査した。 オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。 しかし、オフラインメトリクスの改善は、オンラインパフォーマンスのリターンを低下させる。 さらに,リコメンダのランキングは,初期オフラインデータの量によって異なることも確認した。 本研究は,探索戦略の付加が与える影響について検討し,その効果は,欲望の推奨と比較して,推薦アルゴリズムに大きく依存していることを確認した。 Reclab: https://github.com/berkeley-reclab/RecLab.comで利用可能な拡張可能なシミュレーションフレームワーク。

Recommender systems operate in an inherently dynamical setting. Past recommendations influence future behavior, including which data points are observed and how user preferences change. However, experimenting in production systems with real user dynamics is often infeasible, and existing simulation-based approaches have limited scale. As a result, many state-of-the-art algorithms are designed to solve supervised learning problems, and progress is judged only by offline metrics. In this work we investigate the extent to which offline metrics predict online performance by evaluating eleven recommenders across six controlled simulated environments. We observe that offline metrics are correlated with online performance over a range of environments. However, improvements in offline metrics lead to diminishing returns in online performance. Furthermore, we observe that the ranking of recommenders varies depending on the amount of initial offline data available. We study the impact of adding exploration strategies, and observe that their effectiveness, when compared to greedy recommendation, is highly dependent on the recommendation algorithm. We provide the environments and recommenders described in this paper as Reclab: an extensible ready-to-use simulation framework at https://github.com/berkeley-reclab/RecLab.
翻訳日:2022-09-28 22:51:23 公開日:2020-11-07
# 異種マルチプロセッサプラットフォームを用いたイチゴ検出

Strawberry Detection Using a Heterogeneous Multi-Processor Platform ( http://arxiv.org/abs/2011.03651v1 )

ライセンス: Link先を確認
Samuel Brandenburg, Pedro Machado, Nikesh Lama, T.M. McGinnity(参考訳) 近年では、特に収穫ロボットにおいて精密農業事業の数が増加し、作物の特定から望まれる果物や野菜の把握に至るまで、多くの作業が続けられている。 精密農業プロジェクトで見られる最も一般的な問題の1つは、成功は果実の特定だけでなく、ローカライゼーションが正確なナビゲーションを可能にすることにも大きく依存していることである。 これらの問題は、ロボットが事前に配置された環境で動作していない場合や、植生が厚くなりすぎて作物を覆っている場合に重要な要因となる。 さらに、組込みプラットフォーム上で最先端のディープラーニングアルゴリズムを実行することも非常に難しいため、ほとんどの場合、フレームレートが低い。 本稿では,イチゴ検出をターゲットとした精密農業用ロボットの画像処理技術と併用して,異種マルチプロセッサプラットフォーム上での高速化を図った,You Only Look Once Version 3 (YOLOv3) Convolutional Neural Network (CNN) を提案する。 その結果,146画像からなるテストセットに対して78.3\%の精度で,プロセッサ側で実行する同じアルゴリズムと比較して,fpga(field-programmable gate array)上で5倍の性能向上が示された。

Over the last few years, the number of precision farming projects has increased specifically in harvesting robots and many of which have made continued progress from identifying crops to grasping the desired fruit or vegetable. One of the most common issues found in precision farming projects is that successful application is heavily dependent not just on identifying the fruit but also on ensuring that localisation allows for accurate navigation. These issues become significant factors when the robot is not operating in a prearranged environment, or when vegetation becomes too thick, thus covering crop. Moreover, running a state-of-the-art deep learning algorithm on an embedded platform is also very challenging, resulting most of the times in low frame rates. This paper proposes using the You Only Look Once version 3 (YOLOv3) Convolutional Neural Network (CNN) in combination with utilising image processing techniques for the application of precision farming robots targeting strawberry detection, accelerated on a heterogeneous multiprocessor platform. The results show a performance acceleration by five times when implemented on a Field-Programmable Gate Array (FPGA) when compared with the same algorithm running on the processor side with an accuracy of 78.3\% over the test set comprised of 146 images.
翻訳日:2022-09-28 22:50:42 公開日:2020-11-07
# 未知物体のスパース表現による素早いポーズラベル生成

Rapid Pose Label Generation through Sparse Representation of Unknown Objects ( http://arxiv.org/abs/2011.03790v1 )

ライセンス: Link先を確認
Rohan Pratap Singh, Mehdi Benallegue, Yusuke Yoshiyasu, Fumio Kanehiro(参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、6-DoFオブジェクトのポーズ推定を視覚的に行うロボットに成功している。 しかし、CNNの教師付きトレーニングに必要なスケールでラベル付きデータを取得することは難しい作業であり、オブジェクトが新規で3Dモデルが利用できない場合、さらに悪化する。 そこで本研究では,未知のオブジェクトに対する実世界,ポーズアノテートしたRGB-Dデータを高速に生成する手法を提案する。 本手法は,事前の3次元物体モデル(テキスト化やその他)の必要性を回避するだけでなく,fiducial markers,turntables,およびsensorsの複雑なセットアップをバイパスする。 人間の助けを借りて、まずRGB-Dビデオのセット上で任意に選択されたキーポイントのセットを最小限のラベル付けする。 そして、最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。 スパース表現は、シーンの集合内の各画像フレームに対する密集したモデルとポーズラベルの開発に繋がる。 スパースモデルは多数の新しいシーンへのスケーリングにも効果的に使用できることを示す。 本研究では,6自由度物体ポーズ推定のためのパイプラインと画素分割ネットワークを訓練し,生成されたラベル付きデータセットの実用性を示す。

Deep Convolutional Neural Networks (CNNs) have been successfully deployed on robots for 6-DoF object pose estimation through visual perception. However, obtaining labeled data on a scale required for the supervised training of CNNs is a difficult task - exacerbated if the object is novel and a 3D model is unavailable. To this end, this work presents an approach for rapidly generating real-world, pose-annotated RGB-D data for unknown objects. Our method not only circumvents the need for a prior 3D object model (textured or otherwise) but also bypasses complicated setups of fiducial markers, turntables, and sensors. With the help of a human user, we first source minimalistic labelings of an ordered set of arbitrarily chosen keypoints over a set of RGB-D videos. Then, by solving an optimization problem, we combine these labels under a world frame to recover a sparse, keypoint-based representation of the object. The sparse representation leads to the development of a dense model and the pose labels for each image frame in the set of scenes. We show that the sparse model can also be efficiently used for scaling to a large number of new scenes. We demonstrate the practicality of the generated labeled dataset by training a pipeline for 6-DoF object pose estimation and a pixel-wise segmentation network.
翻訳日:2022-09-28 22:44:32 公開日:2020-11-07
# 人間ライクなアクティブラーニング:人間の学習プロセスをシミュレートするマシン

Human-Like Active Learning: Machines Simulating the Human Learning Process ( http://arxiv.org/abs/2011.03733v1 )

ライセンス: Link先を確認
Jaeseo Lim, Hwiyeol Jo, Byoung-Tak Zhang, Jooyong Park(参考訳) 近年,学習者のエンゲージメントを高めるためのアクティブラーニングが様々な方法で導入されているが,実証実験は欠如している。 本研究では,(1)機械の仮説を立てるため,(2)アクティブラーニングが学習に与える影響を実証的に確認するために,2つの実験の整合を試みた。 実験1では,受動的学習の効果と能動的学習の効果を比較した。 その結果,能動的学習は受動的学習よりも学習結果が高かった。 人的結果に基づく機械実験では,人間の能動的学習を知識蒸留の一形態として模倣した。 能動的学習フレームワークは受動的学習フレームワークよりも優れていた。 最後に、人間の実験結果を通じてより優れた機械学習フレームワークを構築することができるだけでなく、模倣された機械実験によって人間実験の結果を実証的に確認できることを示した。

Although the use of active learning to increase learners' engagement has recently been introduced in a variety of methods, empirical experiments are lacking. In this study, we attempted to align two experiments in order to (1) make a hypothesis for machine and (2) empirically confirm the effect of active learning on learning. In Experiment 1, we compared the effect of a passive form of learning to active form of learning. The results showed that active learning had a greater learning outcomes than passive learning. In the machine experiment based on the human result, we imitated the human active learning as a form of knowledge distillation. The active learning framework performed better than the passive learning framework. In the end, we showed not only that we can make build better machine training framework through the human experiment result, but also empirically confirm the result of human experiment through imitated machine experiments; human-like active learning have crucial effect on learning performance.
翻訳日:2022-09-28 22:42:12 公開日:2020-11-07
# 人工知能と機械学習ソフトウェアのためのソフトウェア工学 : 体系的な文献レビュー

Software engineering for artificial intelligence and machine learning software: A systematic literature review ( http://arxiv.org/abs/2011.03751v1 )

ライセンス: Link先を確認
Elizamary Nascimento, Anh Nguyen-Duc, Ingrid Sundb{\o} and Tayana Conte(参考訳) 人工知能(AI)または機械学習(ML)システムは、提供するサービスや製品の作成や拡張のために、あらゆる産業の企業から価値提案として広く採用されている。 しかし、AI/MLシステムの開発は、AI/ML以外のソフトウェア開発と異なるいくつかの工学的な問題を提起している。 本研究の目的は,AI/MLシステムの開発においてソフトウェア工学(SE)がどのように適用されてきたかを調べ,適用可能な課題と実践を特定し,専門家のニーズを満たすかどうかを判断することである。 また、これらのSEプラクティスが異なるコンテキストに適用可能かどうか、どの領域に適用可能かを評価した。 1990年から2019年までの文献の体系的レビューを行った。 (i)この分野における美術の現況を理解し、まとめる (ii)今後の研究を進めるための限界と課題について分析する。 以上の結果から,これらのシステムは研究室や大企業で開発され,研究主導の開発プロセスに続くものと考えられる。 プロフェッショナルが直面する主な課題は、テスト、AIソフトウェアの品質、データ管理といった分野だ。 提案されたseプラクティスの大半のコントリビューションタイプは、ガイドライン、学習した教訓、ツールです。

Artificial Intelligence (AI) or Machine Learning (ML) systems have been widely adopted as value propositions by companies in all industries in order to create or extend the services and products they offer. However, developing AI/ML systems has presented several engineering problems that are different from those that arise in, non-AI/ML software development. This study aims to investigate how software engineering (SE) has been applied in the development of AI/ML systems and identify challenges and practices that are applicable and determine whether they meet the needs of professionals. Also, we assessed whether these SE practices apply to different contexts, and in which areas they may be applicable. We conducted a systematic review of literature from 1990 to 2019 to (i) understand and summarize the current state of the art in this field and (ii) analyze its limitations and open challenges that will drive future research. Our results show these systems are developed on a lab context or a large company and followed a research-driven development process. The main challenges faced by professionals are in areas of testing, AI software quality, and data management. The contribution types of most of the proposed SE practices are guidelines, lessons learned, and tools.
翻訳日:2022-09-28 22:41:59 公開日:2020-11-07
# パウス語とフィラー語の挿入によるテキストの自然化

Naturalization of Text by the Insertion of Pauses and Filler Words ( http://arxiv.org/abs/2011.03713v1 )

ライセンス: Link先を確認
Richa Sharma, Parth Vipul Shah, Ashwini M. Joshi(参考訳) 本稿では,自然言語に基づくテキストの自然化手法について紹介する。 音声による対話は、電子システムと対面する自然な方法を提供し、最近は広く適応している。 これらのコンピュータ音声は、停止語とフィラー語を適切な位置に挿入することである程度自然化することができる。 最初のテキスト変換法では、トレーニングデータ中のビッグラムの周波数を用いて入力文に適切な挿入を行う。 確率分布を用いて、可能な全ての挿入の集合から挿入を選択する。 この方法は高速で、Text-To-Speechモジュールの前に含めることができる。 第2の方法は、再帰ニューラルネットワークを使用して、挿入される次の単語を予測する。 これは Bigram メソッドによる挿入を確認します。 さらに、これらの方法でも自然化の程度を制御できる。 ブラインドサーベイの結果から,これらのテキスト変換手法の出力は自然発話に匹敵するものと結論づけた。

In this article, we introduce a set of methods to naturalize text based on natural human speech. Voice-based interactions provide a natural way of interfacing with electronic systems and are seeing a widespread adaptation of late. These computerized voices can be naturalized to some degree by inserting pauses and filler words at appropriate positions. The first proposed text transformation method uses the frequency of bigrams in the training data to make appropriate insertions in the input sentence. It uses a probability distribution to choose the insertions from a set of all possible insertions. This method is fast and can be included before a Text-To-Speech module. The second method uses a Recurrent Neural Network to predict the next word to be inserted. It confirms the insertions given by the bigram method. Additionally, the degree of naturalization can be controlled in both these methods. On the conduction of a blind survey, we conclude that the output of these text transformation methods is comparable to natural speech.
翻訳日:2022-09-28 22:35:05 公開日:2020-11-07
# 要らないものを知る:単ショットのメタ・プルーニング

Know What You Don't Need: Single-Shot Meta-Pruning for Attention Heads ( http://arxiv.org/abs/2011.03770v1 )

ライセンス: Link先を確認
Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Qun Liu, Maosong Sun(参考訳) ディープラーニングトランスフォーマーモデルは、さまざまな自然言語処理(NLP)タスクに対して最先端の結果を得た。 数百万のパラメータでリッチな言語知識を学習することで、これらのモデルは通常過度にパラメータ化され、アプリケーションの計算オーバーヘッドが大幅に増加する。 モデル圧縮によってこの問題に対処するのは直感的です。 本研究では,事前学習されたトランスフォーマーを微調整する前に圧縮する単発メタプルーニング法を提案する。 具体的には,異なる下流タスクに適応して,不要な注意ヘッドの刈り込みに注目する。 注視頭部の情報量を測定するため,単ショットメタプランナ(SMP)を,プルーニング後のテキスト表現の分布維持を目的としたメタラーニングパラダイムで訓練する。 事前学習したモデルに対する既存の圧縮手法と比較して、微調整と推論の両方のオーバーヘッドを低減することができる。 実験結果から,提案プルーナーはダウンストリームタスクの性能にほとんど影響を与えず,50%の注意を選択的に引き出すことができ,テキスト表現も改善できることがわかった。 ソースコードは将来的にリリースされる予定だ。

Deep pre-trained Transformer models have achieved state-of-the-art results over a variety of natural language processing (NLP) tasks. By learning rich language knowledge with millions of parameters, these models are usually overparameterized and significantly increase the computational overhead in applications. It is intuitive to address this issue by model compression. In this work, we propose a method, called Single-Shot Meta-Pruning, to compress deep pre-trained Transformers before fine-tuning. Specifically, we focus on pruning unnecessary attention heads adaptively for different downstream tasks. To measure the informativeness of attention heads, we train our Single-Shot Meta-Pruner (SMP) with a meta-learning paradigm aiming to maintain the distribution of text representations after pruning. Compared with existing compression methods for pre-trained models, our method can reduce the overhead of both fine-tuning and inference. Experimental results show that our pruner can selectively prune 50% of attention heads with little impact on the performance on downstream tasks and even provide better text representations. The source code will be released in the future.
翻訳日:2022-09-28 22:34:52 公開日:2020-11-07
# 変圧器部品の価値を再考する

Rethinking the Value of Transformer Components ( http://arxiv.org/abs/2011.03803v1 )

ライセンス: Link先を確認
Wenxuan Wang and Zhaopeng Tu(参考訳) トランスフォーマーは最先端の翻訳モデルとなるが、それぞれの中間コンポーネントがモデルの性能にどのように貢献するかはよく研究されていない。 本研究では、異なる視点からトレーニングされたTransformerモデルにおける個々のコンポーネント(サブレイヤ)の影響を評価することにより、このギャップを埋める。 言語ペア、トレーニング戦略、モデル能力に関する実験結果は、特定のコンポーネントが他のコンポーネントよりも一貫して重要であることを示している。 また,トランスフォーマーモデルの解析,理解,改善に役立つかもしれない興味深い知見を数多く報告した。 これらの結果に基づき, 学習中の重要でない要素を識別することにより, 翻訳性能を向上させる新しい学習戦略を提案する。

Transformer becomes the state-of-the-art translation model, while it is not well studied how each intermediate component contributes to the model performance, which poses significant challenges for designing optimal architectures. In this work, we bridge this gap by evaluating the impact of individual component (sub-layer) in trained Transformer models from different perspectives. Experimental results across language pairs, training strategies, and model capacities show that certain components are consistently more important than the others. We also report a number of interesting findings that might help humans better analyze, understand and improve Transformer models. Based on these observations, we further propose a new training strategy that can improves translation performance by distinguishing the unimportant components in training.
翻訳日:2022-09-28 22:34:34 公開日:2020-11-07
# 3値論理を用いた行動木の実装

Implementing Behavior Trees using Three-Valued Logic ( http://arxiv.org/abs/2011.03835v1 )

ライセンス: Link先を確認
Thibaud de Souza(参考訳) ゲーム開発における行動木とその計画と制御との関係を考慮し、ステートフルモデルとステートレスモデルとの区別について論じ、従来の制御フローに振る舞い木を組み込んだ3値論理を導入し、C#の実装について述べる。

With consideration to behavior trees and their relevance to planning and control, within and without game development, the distinction between stateful and stateless models is discussed; a three-valued logic bridging traditional control flow with behavior trees is introduced, and a C# implementation is presented.
翻訳日:2022-09-28 22:34:21 公開日:2020-11-07
# SeqGenSQL - 構造化クエリ言語のためのロバストシーケンス生成モデル

SeqGenSQL -- A Robust Sequence Generation Model for Structured Query Language ( http://arxiv.org/abs/2011.03836v1 )

ライセンス: Link先を確認
Ning Li, Bethany Keller, Mark Butler, Daniel Cer(参考訳) 我々は、自然言語の質問をsql文に直接翻訳するために、t5(raffel et al. (2019))を使用します。 データベースに格納された情報にインターフェースする汎用自然言語は、自然言語の質問をデータベースクエリに柔軟に翻訳する必要がある。 最高のテキスト対SQLシステムは、まず質問を中間論理形式(LF)に変換することでこの問題にアプローチする(Lyu et al. (2020))。 LFは便利な中間表現を提供し、クエリ生成を単純化する一方で、複雑さとアノテーションのさらなるレイヤを導入している。 しかし、質問を直接SQLステートメントに変換する弱い教師付きモデリングは、LF(Min et al. (2019))が提供する足場なしではより困難であることが判明した。 プリトレーニングされたテキストからテキストへの生成モデルであるt5 (raffel et al. (2019)) を使って、質問をsql文に直接変換し、ポインタ生成子形式のデコードをサポートするように修正する( et al. (2017) を参照)。 テーブルスキーマ情報を用いた質問拡張と,自動生成したシルバートレーニングデータの利用について検討する。 結果として得られたモデルはWikiSQL(Zhong et al. (2017))テストデータセット上で90.5%の実行精度を達成する。 性能改善は従来の最先端システム(Min et al. (2019))に対して6.6%絶対であり、LFを用いた最先端システムの性能にアプローチする。

We explore using T5 (Raffel et al. (2019)) to directly translate natural language questions into SQL statements. General purpose natural language that interfaces to information stored within databases requires flexibly translating natural language questions into database queries. The best performing text-to-SQL systems approach this task by first converting questions into an intermediate logical form (LF) (Lyu et al. (2020)). While LFs provide a convenient intermediate representation and simplify query generation, they introduce an additional layer of complexity and annotation requirements. However, weakly supervised modeling that directly converts questions to SQL statements has proven more difficult without the scaffolding provided by LFs (Min et al. (2019)). We approach direct conversion of questions to SQL statements using T5 (Raffel et al. (2019)), a pre-trained textto-text generation model, modified to support pointer-generator style decoding (See et al. (2017)). We explore using question augmentation with table schema information and the use of automatically generated silver training data. The resulting model achieves 90.5% execution accuracy on the WikiSQL (Zhong et al. (2017)) test data set, a new state-of-the-art on weakly supervised SQL generation. The performance improvement is 6.6% absolute over the prior state-of-the-art (Min et al. (2019)) and approaches the performance of state-ofthe-art systems making use of LFs.
翻訳日:2022-09-28 22:34:14 公開日:2020-11-07
# 航空画像復調のための領域認識型ハイパースペクトル再構成

Domain-Aware Unsupervised Hyperspectral Reconstruction for Aerial Image Dehazing ( http://arxiv.org/abs/2011.03677v1 )

ライセンス: Link先を確認
Aditya Mehta, Harsh Sinha, Murari Mandal, Pratik Narang(参考訳) 空中画像のヘイズ除去は、空間的詳細やコントラストの変化がかなり異なるため、難しい問題である。 粒子状物質密度の変化は、しばしば可視性の低下を引き起こす。 したがって,複数スペクトルデータを用いたヘズ除去補助情報の利用方法がいくつか提案されている。 本稿では,空中画像におけるヘイズ除去のためのSkyGANを提案する。 SkyGANは 1)ドメイン認識型hazy-to-hyperspectral(h2h)モジュール、及び 2)デハージングのための条件付きGAN(cGAN)ベースのマルチキュー画像-画像変換モジュール(I2I)。 提案するh2hモジュールは、rgb画像から複数の視覚帯域を教師なしの方法で再構成し、ヘージーな超スペクトル空中画像データセットの欠如を克服する。 このモジュールはタスクの監督とドメイン適応を利用して、画像デハージングのための"ハイパースペクトル触媒"を作成する。 I2Iモジュールは12チャンネルのマルチキュー入力とともにハイパースペクトル触媒を使用し、視覚スペクトル全体を利用して効果的な画像デハジングを行う。 さらに、hazy aerial-image (hai)データセットと呼ばれる新しいデータセットを導入し、65,000組以上のhazyとground truthの航空画像と、密度の異なる現実的な非均質なhazeを含む。 SkyGANのパフォーマンスは、最近のSateHaze1kデータセットとHAIデータセットで評価される。 また,PSNRおよびSSIMの観点から,最先端技術の代表セットを用いたHAIデータセットの総合評価を行った。

Haze removal in aerial images is a challenging problem due to considerable variation in spatial details and varying contrast. Changes in particulate matter density often lead to degradation in visibility. Therefore, several approaches utilize multi-spectral data as auxiliary information for haze removal. In this paper, we propose SkyGAN for haze removal in aerial images. SkyGAN consists of 1) a domain-aware hazy-to-hyperspectral (H2H) module, and 2) a conditional GAN (cGAN) based multi-cue image-to-image translation module (I2I) for dehazing. The proposed H2H module reconstructs several visual bands from RGB images in an unsupervised manner, which overcomes the lack of hazy hyperspectral aerial image datasets. The module utilizes task supervision and domain adaptation in order to create a "hyperspectral catalyst" for image dehazing. The I2I module uses the hyperspectral catalyst along with a 12-channel multi-cue input and performs effective image dehazing by utilizing the entire visual spectrum. In addition, this work introduces a new dataset, called Hazy Aerial-Image (HAI) dataset, that contains more than 65,000 pairs of hazy and ground truth aerial images with realistic, non-homogeneous haze of varying density. The performance of SkyGAN is evaluated on the recent SateHaze1k dataset as well as the HAI dataset. We also present a comprehensive evaluation of HAI dataset with a representative set of state-of-the-art techniques in terms of PSNR and SSIM.
翻訳日:2022-09-28 22:33:46 公開日:2020-11-07
# TB-Net:細粒度舗装疾患分離のための3ストリーム境界認識ネットワーク

TB-Net: A Three-Stream Boundary-Aware Network for Fine-Grained Pavement Disease Segmentation ( http://arxiv.org/abs/2011.03703v1 )

ライセンス: Link先を確認
Yujia Zhang, Qianzhong Li, Xiaoguang Zhao, Min Tan(参考訳) 通常の舗装検査は安全確保のための道路整備において重要な役割を果たしている。 既存の手法では, 細長いひび割れ病にのみ適応した亀裂検出とセグメント化の課題を主に扱っている。 しかし, 細粒度舗装検査の課題が増大するなど, 様々なサイズやパターンを有する他の疾患も多数存在する。 本研究の目的は, ひび割れを自動的に区分するだけでなく, 他の複雑な舗装疾患, 典型的なランドマーク(標識, 滑走路灯など)や水・油汚れを1つのモデルで分類することである。 そこで本研究では,3ストリーム境界対応ネットワーク(TB-Net)を提案する。 低レベルの空間と高レベルの文脈表現を融合させる3つのストリームと、詳細な境界情報で構成される。 具体的には、空間ストリームは豊富な空間的特徴をキャプチャする。 注意機構を利用するコンテキストストリームは、局所的な特徴に対するコンテキスト関係をモデル化する。 境界ストリームは、グローバルゲート畳み込みを用いて詳細境界を学習し、セグメンテーション出力をさらに洗練する。 ネットワークは両タスク損失をエンドツーエンドにトレーニングし,新たに収集した細粒度舗装病データセットを用いてTB-Netの有効性を示す。

Regular pavement inspection plays a significant role in road maintenance for safety assurance. Existing methods mainly address the tasks of crack detection and segmentation that are only tailored for long-thin crack disease. However, there are many other types of diseases with a wider variety of sizes and patterns that are also essential to segment in practice, bringing more challenges towards fine-grained pavement inspection. In this paper, our goal is not only to automatically segment cracks, but also to segment other complex pavement diseases as well as typical landmarks (markings, runway lights, etc.) and commonly seen water/oil stains in a single model. To this end, we propose a three-stream boundary-aware network (TB-Net). It consists of three streams fusing the low-level spatial and the high-level contextual representations as well as the detailed boundary information. Specifically, the spatial stream captures rich spatial features. The context stream, where an attention mechanism is utilized, models the contextual relationships over local features. The boundary stream learns detailed boundaries using a global-gated convolution to further refine the segmentation outputs. The network is trained using a dual-task loss in an end-to-end manner, and experiments on a newly collected fine-grained pavement disease dataset show the effectiveness of our TB-Net.
翻訳日:2022-09-28 22:33:24 公開日:2020-11-07
# SinGANアーキテクチャによるブラインドモーションの劣化

Blind Motion Deblurring through SinGAN Architecture ( http://arxiv.org/abs/2011.03705v1 )

ライセンス: Link先を確認
Harshil Jain, Rohit Patil, Indra Deep Mastan, and Shanmuganathan Raman(参考訳) ブラインドモーションのデブラリングは、ぼやけた観察からシャープなイメージを再構築することを伴う。 これは不適切な問題であり、画像復元の問題のカテゴリにある。 画像の劣化をトレーニングするデータベースの手法には、多くの時間を要するトレーニングモデルが含まれている。 これらのモデルは、十分な結果を得るために多くのトレーニングデータを必要とする。 近年,ディップ,ingan,singanなどの画像復元・画像合成の必要性を緩和する画像特徴学習手法が開発されている。 SinGANは無条件の生成モデルであり、単一の自然な画像から学習することができる。 このモデルは、主に画像に存在するパッチの内部分布を捉え、画像の視覚的内容を保持しながら多様な多様性のサンプルを生成することができる。 モデルから生成された画像は、本物の自然画像と非常に似ています。 本稿では,SinGANアーキテクチャによるブラインドモーションの劣化に着目した。

Blind motion deblurring involves reconstructing a sharp image from an observation that is blurry. It is a problem that is ill-posed and lies in the categories of image restoration problems. The training data-based methods for image deblurring mostly involve training models that take a lot of time. These models are data-hungry i.e., they require a lot of training data to generate satisfactory results. Recently, there are various image feature learning methods developed which relieve us of the need for training data and perform image restoration and image synthesis, e.g., DIP, InGAN, and SinGAN. SinGAN is a generative model that is unconditional and could be learned from a single natural image. This model primarily captures the internal distribution of the patches which are present in the image and is capable of generating samples of varied diversity while preserving the visual content of the image. Images generated from the model are very much like real natural images. In this paper, we focus on blind motion deblurring through SinGAN architecture.
翻訳日:2022-09-28 22:33:03 公開日:2020-11-07
# deepcfl: 単一のイメージから学習する深いコンテキスト機能

DeepCFL: Deep Contextual Features Learning from a Single Image ( http://arxiv.org/abs/2011.03712v1 )

ライセンス: Link先を確認
Indra Deep Mastan and Shanmuganathan Raman(参考訳) 近年,Deep Image Prior, InGAN, SinGAN, DCILなどのトレーニングデータに依存しない画像特徴学習手法の開発が注目されている。 これらの手法は教師なしで、画像復元、画像編集、画像合成などの低レベルの視覚タスクに使用される。 本研究では,入力画像のセマンティクスに基づいて画像合成と画像復元を行うための,deep context features learning(deepcfl)と呼ばれる新しい学習用データ独立フレームワークを提案する。 文脈的特徴は単に与えられた画像の意味を表す高次元ベクトルである。 DeepCFLは、入力画像からコンテキストベクトルの分布を学習する単一の画像GANフレームワークである。 本研究では,ランダムに除去された画素のアウトペイント,インペインティング,復元など,さまざまな難易度シナリオにおける文脈学習の性能を示す。 DeepCFLは、入力元画像と生成されたターゲット画像とが一致していない場合に適用される。 画像再構成のためのDeepCFLを用いた画像合成について説明する。

Recently, there is a vast interest in developing image feature learning methods that are independent of the training data, such as deep image prior, InGAN, SinGAN, and DCIL. These methods are unsupervised and are used to perform low-level vision tasks such as image restoration, image editing, and image synthesis. In this work, we proposed a new training data-independent framework, called Deep Contextual Features Learning (DeepCFL), to perform image synthesis and image restoration based on the semantics of the input image. The contextual features are simply the high dimensional vectors representing the semantics of the given image. DeepCFL is a single image GAN framework that learns the distribution of the context vectors from the input image. We show the performance of contextual learning in various challenging scenarios: outpainting, inpainting, and restoration of randomly removed pixels. DeepCFL is applicable when the input source image and the generated target image are not aligned. We illustrate image synthesis using DeepCFL for the task of image resizing.
翻訳日:2022-09-28 22:32:50 公開日:2020-11-07
# 群衆数と教師なし人定位のための強固なベースライン

A Strong Baseline for Crowd Counting and Unsupervised People Localization ( http://arxiv.org/abs/2011.03725v1 )

ライセンス: Link先を確認
Liangzi Rong, Chunping Li(参考訳) 本稿では,推定密度マップに基づいて,群衆数と教師なし人物定位アルゴリズムの強力なベースラインについて検討する。 まず、既存の手法は、異なるバックボーンと種類のトレーニングトリックに基づいて最先端のパフォーマンスを達成する。 異なるバックボーンとトレーニングトリックを収集し、変更の影響を評価し、複数のデータセット上でMAEとRMSEを著しく減少させるクラウドカウントのための効率的なパイプラインを開発する。 また,密度マップ内の頭部を同定するために,孤立kmeansというクラスタリングアルゴリズムを提案する。 本手法は,密度マップを部分領域に分割し,パラメータを訓練することなく局所カウント制約の下で中心を見つけることができ,既存の手法と容易に統合できる。

In this paper, we explore a strong baseline for crowd counting and an unsupervised people localization algorithm based on estimated density maps. Firstly, existing methods achieve state-of-the-art performance based on different backbones and kinds of training tricks. We collect different backbones and training tricks and evaluate the impact of changing them and develop an efficient pipeline for crowd counting, which decreases MAE and RMSE significantly on multiple datasets. We also propose a clustering algorithm named isolated KMeans to locate the heads in density maps. This method can divide the density maps into subregions and find the centers under local count constraints without training any parameter and can be integrated with existing methods easily.
翻訳日:2022-09-28 22:32:33 公開日:2020-11-07
# 網膜動静脈交叉パターンによる動脈硬化の重症度評価

Grading the Severity of Arteriolosclerosis from Retinal Arterio-venous Crossing Patterns ( http://arxiv.org/abs/2011.03772v1 )

ライセンス: Link先を確認
Liangzhi Li, Manisha Verma, Bowen Wang, Yuta Nakashima, Ryo Kawasaki, Hajime Nagahara(参考訳) 網膜動静脈交叉状態は動脈硬化症と全身高血圧の臨床的評価に非常に重要である。 眼科診断基準として、シェーの分類は動脈硬化の重症度を評価するために用いられている。 本稿では,医療画像化における最初期の試みの一つである診断プロセスを支援するための深層学習手法を提案する。 提案するパイプラインは3倍である。 まず,血管分類モデルを用いて網膜画像中の血管を対応する動脈/静脈ラベルで自動的に取得し,動脈の交差点候補を求める。 第二に、真の交差点を検証するために分類モデルを用いる。 最終的に、船舶横断の重大度は分類される。 ラベルあいまいさと不均衡なラベル分布の問題をよりよく解決するために、異なる構造や異なる損失関数を持つサブモデルが異なる決定を与える、MDTNet(Multi-diagnosis Team Network)と呼ばれる新しいモデルを提案する。 MDTNetはこれらの様々な理論を統一し、最終的な決定を高精度に行う。 重症度評価法では, それぞれ96.3%, 96.3%の精度で横断点の精度を検証できた。 正しく検出された交差点のうち、網膜専門医による評価値と推定スコアとの一致のカッパ値は0.85であり、精度は0.92である。 その結果, 動静脈横断検査と重症度評価の両面において, 良好な性能を得ることができた。 提案モデルでは,網膜スペシャリストの主観的評価を特徴抽出なしで再現するパイプラインを構築することができた。 コードは再現可能である。

The status of retinal arteriovenous crossing is of great significance for clinical evaluation of arteriolosclerosis and systemic hypertension. As an ophthalmology diagnostic criteria, Scheie's classification has been used to grade the severity of arteriolosclerosis. In this paper, we propose a deep learning approach to support the diagnosis process, which, to the best of our knowledge, is one of the earliest attempts in medical imaging. The proposed pipeline is three-fold. First, we adopt segmentation and classification models to automatically obtain vessels in a retinal image with the corresponding artery/vein labels and find candidate arteriovenous crossing points. Second, we use a classification model to validate the true crossing point. At last, the grade of severity for the vessel crossings is classified. To better address the problem of label ambiguity and imbalanced label distribution, we propose a new model, named multi-diagnosis team network (MDTNet), in which the sub-models with different structures or different loss functions provide different decisions. MDTNet unifies these diverse theories to give the final decision with high accuracy. Our severity grading method was able to validate crossing points with precision and recall of 96.3% and 96.3%, respectively. Among correctly detected crossing points, the kappa value for the agreement between the grading by a retina specialist and the estimated score was 0.85, with an accuracy of 0.92. The numerical results demonstrate that our method can achieve a good performance in both arteriovenous crossing validation and severity grading tasks. By the proposed models, we could build a pipeline reproducing retina specialist's subjective grading without feature extractions. The code is available for reproducibility.
翻訳日:2022-09-28 22:24:49 公開日:2020-11-07
# fgsmとpgdの対向訓練におけるパフォーマンスギャップの橋渡し

Bridging the Performance Gap between FGSM and PGD Adversarial Training ( http://arxiv.org/abs/2011.05157v1 )

ライセンス: Link先を確認
Tianjin Huang, Vlado Menkovski, Yulong Pei, Mykola Pechenizkiy(参考訳) ディープラーニングは多くのタスクで最先端のパフォーマンスを達成するが、敵の例に対して基盤となる脆弱性を露呈する。 既存の防御技術全体では、投射された緩やかな攻撃(adv.PGD)による敵の訓練は、適度な敵の堅牢性を達成するための最も効果的な方法の1つであると考えられている。 しかし、adv.pgdは、摂動を生成するのに複数のイテレーションを必要とするため、トレーニング時間が多すぎる。 一方、高速勾配符号法(adv.FGSM)による対向訓練は、高速勾配符号法(FGSM)が摂動を発生させる一方、対向ロバスト性の向上には失敗するため、訓練時間が大幅に短縮される。 本稿では,Adv.FGSMを拡張して,Adv.PGDの対角的堅牢性を実現する。 本稿では, FGSM の摂動方向に沿った大きな曲率によって, adv.FGSM と adv.PGD の対角ロバスト性に大きな差が生じることを実証し, それによって adv.FGSM と adv.PGD の演奏ギャップを埋めるために, adv.FGSM と曲率正規化(adv.FGSMR)を組み合わせることを提案する。 実験の結果, adv.FGSMR は adv.PGD よりも訓練効率が高いことがわかった。 さらに、ホワイトボックス攻撃下ではMNISTデータセットの対向ロバスト性を同等に発揮し、ホワイトボックス攻撃時のadv.PGDよりも優れたパフォーマンスを実現し、CIFAR-10データセットに対する転送可能な対向アタックを効果的に防御する。

Deep learning achieves state-of-the-art performance in many tasks but exposes to the underlying vulnerability against adversarial examples. Across existing defense techniques, adversarial training with the projected gradient decent attack (adv.PGD) is considered as one of the most effective ways to achieve moderate adversarial robustness. However, adv.PGD requires too much training time since the projected gradient attack (PGD) takes multiple iterations to generate perturbations. On the other hand, adversarial training with the fast gradient sign method (adv.FGSM) takes much less training time since the fast gradient sign method (FGSM) takes one step to generate perturbations but fails to increase adversarial robustness. In this work, we extend adv.FGSM to make it achieve the adversarial robustness of adv.PGD. We demonstrate that the large curvature along FGSM perturbed direction leads to a large difference in performance of adversarial robustness between adv.FGSM and adv.PGD, and therefore propose combining adv.FGSM with a curvature regularization (adv.FGSMR) in order to bridge the performance gap between adv.FGSM and adv.PGD. The experiments show that adv.FGSMR has higher training efficiency than adv.PGD. In addition, it achieves comparable performance of adversarial robustness on MNIST dataset under white-box attack, and it achieves better performance than adv.PGD under white-box attack and effectively defends the transferable adversarial attack on CIFAR-10 dataset.
翻訳日:2022-09-28 22:24:25 公開日:2020-11-07
# 説明可能な自動ファクトチェック:調査

Explainable Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2011.03870v1 )

ライセンス: Link先を確認
Neema Kotonya and Francesca Toni(参考訳) ますます大きなデータセットと強力なシステムのおかげで、ファクトチェックの自動化において多くのエキサイティングな進歩がなされ、正確なファクトチェックが可能なクレームの複雑さが向上した。 しかし、これらの進歩にもかかわらず、ファクトチェックパイプラインには望ましい機能がない。 本調査では,予測の理由を提供するファクトチェックシステムである説明機能に注目した。 我々は,ファクトチェックシステムの予測を説明する既存の手法を要約し,このトピックのトレンドを考察する。 さらに, 既存の事実チェック説明と望ましい特性の比較分析を行い, この領域における説明の良し悪しを考察する。 最後に、ファクトチェックの説明を生成するためのさらなる研究の方向性を提案し、研究領域の改善にどのようにつながるかを説明する。

A number of exciting advances have been made in automated fact-checking thanks to increasingly larger datasets and more powerful systems, leading to improvements in the complexity of claims which can be accurately fact-checked. However, despite these advances, there are still desirable functionalities missing from the fact-checking pipeline. In this survey, we focus on the explanation functionality -- that is fact-checking systems providing reasons for their predictions. We summarize existing methods for explaining the predictions of fact-checking systems and we explore trends in this topic. Further, we consider what makes for good explanations in this specific domain through a comparative analysis of existing fact-checking explanations against some desirable properties. Finally, we propose further research directions for generating fact-checking explanations, and describe how these may lead to improvements in the research area.
翻訳日:2022-09-28 22:17:17 公開日:2020-11-07
# 精度を犠牲にすることなくネットワークパラメータを低減するための奥行きマルチセプション畳み込み

Depthwise Multiception Convolution for Reducing Network Parameters without Sacrificing Accuracy ( http://arxiv.org/abs/2011.03701v1 )

ライセンス: Link先を確認
Guoqing Bao, Manuel B. Graeber and Xiuying Wang(参考訳) 深層畳み込みニューラルネットワークは近年、複数のベンチマーク課題で成功を収めている。 しかし、性能改善はますます複雑なネットワークアーキテクチャと大量のパラメータに大きく依存しており、ストレージとメモリ容量の増大を必要としている。 奥行き分離畳み込み(dsconv)は、標準畳み込みを空間的および横断的畳み込みステップに分離することにより、必要なパラメータの数を効果的に削減することができる。 しかし、この方法は精度を低下させる。 この問題に対処するため,各入力チャネルのマルチスケール表現を同時に学習するためにレイヤワイドなマルチスケールカーネルを導入するマルチセプション(Multiception)を提案する。 我々は,5つのCNNモデルを用いて,Cifar-10,Cifar-100,STL-10,ImageNet32x32の4つのベンチマークデータセットを用いて実験を行った。 一方、マルチセプションは標準畳み込みに基づくモデルのパラメータ数を平均32.48%削減し、精度を維持している。

Deep convolutional neural networks have been proven successful in multiple benchmark challenges in recent years. However, the performance improvements are heavily reliant on increasingly complex network architecture and a high number of parameters, which require ever increasing amounts of storage and memory capacity. Depthwise separable convolution (DSConv) can effectively reduce the number of required parameters through decoupling standard convolution into spatial and cross-channel convolution steps. However, the method causes a degradation of accuracy. To address this problem, we present depthwise multiception convolution, termed Multiception, which introduces layer-wise multiscale kernels to learn multiscale representations of all individual input channels simultaneously. We have carried out the experiment on four benchmark datasets, i.e. Cifar-10, Cifar-100, STL-10 and ImageNet32x32, using five popular CNN models, Multiception achieved accuracy promotion in all models and demonstrated higher accuracy performance compared to related works. Meanwhile, Multiception significantly reduces the number of parameters of standard convolution-based models by 32.48% on average while still preserving accuracy.
翻訳日:2022-09-28 22:17:04 公開日:2020-11-07
# 集団密度マップ推定のための背景認識損失を有する粗大・きめの注意ネットワーク

Coarse- and Fine-grained Attention Network with Background-aware Loss for Crowd Density Map Estimation ( http://arxiv.org/abs/2011.03721v1 )

ライセンス: Link先を確認
Liangzi Rong, Chunping Li(参考訳) 本稿では,高品質な群集密度マップを生成するためのCFANet(Coarse- and Fine-fine Attention Network)を提案する。 集団領域認識器 (CRR) と密度レベル推定器 (DLE) を一体化することにより, 集団密度レベルに応じて無関係な背景の影響を抑え, 注意重みを割り当てる, 正確な微粒な注意図を生成することが通常困難である。 また,グラデーションのバックプロパゲーションと過剰フィッティングの低減を支援するマルチレベル監視機構も採用している。 また, 地盤との構造的類似性を改善しつつ, 誤認識率を低減させる背景認識構造損失(bsl)を提案する。 一般用データセットに対する大規模な実験により,提案手法は従来手法よりも精度が向上するだけでなく,密度マップの画質向上や誤認識率の低減が図られている。

In this paper, we present a novel method Coarse- and Fine-grained Attention Network (CFANet) for generating high-quality crowd density maps and people count estimation by incorporating attention maps to better focus on the crowd area. We devise a from-coarse-to-fine progressive attention mechanism by integrating Crowd Region Recognizer (CRR) and Density Level Estimator (DLE) branch, which can suppress the influence of irrelevant background and assign attention weights according to the crowd density levels, because generating accurate fine-grained attention maps directly is normally difficult. We also employ a multi-level supervision mechanism to assist the backpropagation of gradient and reduce overfitting. Besides, we propose a Background-aware Structural Loss (BSL) to reduce the false recognition ratio while improving the structural similarity to groundtruth. Extensive experiments on commonly used datasets show that our method can not only outperform previous state-of-the-art methods in terms of count accuracy but also improve the image quality of density maps as well as reduce the false recognition ratio.
翻訳日:2022-09-28 22:16:42 公開日:2020-11-07
# 物体検出のためのuav画像におけるロングテール分布の課題解決に向けて

Towards Resolving the Challenge of Long-tail Distribution in UAV Images for Object Detection ( http://arxiv.org/abs/2011.03822v1 )

ライセンス: Link先を確認
Weiping Yu and Taojiannan Yang and Chen Chen(参考訳) UAV画像における既存のオブジェクト検出手法は、UAV画像における不均衡なクラス分布という重要な課題を無視した。 我々は,既存のロングテール問題の解法を体系的に検討し,自然画像データセットに有効な再バランス手法は,uavデータセットに自明に適用できないことを明らかにした。 この目的のために、UAV画像における長い尾の物体検出を再考し、UAV画像における長い尾の分布を解決することを目的とした最初の研究であるDual Sampler and Head Detection Network (DSHNet)を提案する。 dshnetの重要なコンポーネントは、クラスバイアス・サンプラー(cbs)とバイラテラル・ボックスヘッド(bbh)であり、テールクラスとヘッドクラスをデュアルパスで扱うために開発された。 ベルやホイッスルがなければ、dshnetは異なる検出フレームワークでテールクラスのパフォーマンスを大幅に向上させる。 さらに、DSHNetは、VisDroneとUAVDTデータセットのロングテール問題に対するベース検出器と一般的なアプローチを著しく上回っている。 画像トリミング法と組み合わせることで,新しい最先端性能を実現する。 コードはhttps://github.com/we1pingyu/DSHNetで入手できる。

Existing methods for object detection in UAV images ignored an important challenge - imbalanced class distribution in UAV images - which leads to poor performance on tail classes. We systematically investigate existing solutions to long-tail problems and unveil that re-balancing methods that are effective on natural image datasets cannot be trivially applied to UAV datasets. To this end, we rethink long-tailed object detection in UAV images and propose the Dual Sampler and Head detection Network (DSHNet), which is the first work that aims to resolve long-tail distribution in UAV images. The key components in DSHNet include Class-Biased Samplers (CBS) and Bilateral Box Heads (BBH), which are developed to cope with tail classes and head classes in a dual-path manner. Without bells and whistles, DSHNet significantly boosts the performance of tail classes on different detection frameworks. Moreover, DSHNet significantly outperforms base detectors and generic approaches for long-tail problems on VisDrone and UAVDT datasets. It achieves new state-of-the-art performance when combining with image cropping methods. Code is available at https://github.com/we1pingyu/DSHNet
翻訳日:2022-09-28 22:16:03 公開日:2020-11-07
# Enhash:コンセプトドリフト検出のための高速ストリーミングアルゴリズム

Enhash: A Fast Streaming Algorithm For Concept Drift Detection ( http://arxiv.org/abs/2011.03729v1 )

ライセンス: Link先を確認
Aashi Jindal, Prashant Gupta, Debarka Sengupta and Jayadeva(参考訳) データストリーム内で \textit{concept drift} を検出する高速アンサンブル学習器enhashを提案する。 ストリームは、突然、漸進的、仮想的、または繰り返されるイベント、または様々な種類のドリフトの混合から成る。 Enhashは、入力サンプルを挿入するためにプロジェクションハッシュを使用する。 本研究では,提案手法が既存のアンサンブル学習者に対してより少ない時間で競争力を発揮することを示す。 また、enhashには適度なリソース要件がある。 様々な種類のドリフトからなる6つの実データと4つの実データに対して性能比較実験を行った。

We propose Enhash, a fast ensemble learner that detects \textit{concept drift} in a data stream. A stream may consist of abrupt, gradual, virtual, or recurring events, or a mixture of various types of drift. Enhash employs projection hash to insert an incoming sample. We show empirically that the proposed method has competitive performance to existing ensemble learners in much lesser time. Also, Enhash has moderate resource requirements. Experiments relevant to performance comparison were performed on 6 artificial and 4 real data sets consisting of various types of drifts.
翻訳日:2022-09-28 22:15:27 公開日:2020-11-07
# ヴィジュアル・アンド・ランゲージナビゲーションのためのシミュレート・トゥ・リアルトランスファー

Sim-to-Real Transfer for Vision-and-Language Navigation ( http://arxiv.org/abs/2011.03807v1 )

ライセンス: Link先を確認
Peter Anderson, Ayush Shrivastava, Joanne Truong, Arjun Majumdar, Devi Parikh, Dhruv Batra, Stefan Lee(参考訳) 本研究では,従来は目に見えなかった環境下でロボットをリリースし,制約のない自然言語ナビゲーション指示に従うという課題について検討する。 視覚言語ナビゲーション(vln)タスクに関する最近の研究は、シミュレーションにおいて著しい進歩を遂げている。 ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。 VLNエージェントが学習する高レベル離散行動空間とロボットの低レベル連続行動空間とのギャップを埋めるため、近辺の経路点を識別し、領域ランダム化を用いて視覚領域の違いを緩和するサブゴールモデルを提案する。 並列環境での正確なシミュレートと実比較のために、325m2のオフィススペースに1.3kmのナビゲーション命令をアノテートし、シミュレーションでデジタル化されたレプリカを作成する。 訓練中に見えない環境へのsim-to-real転送は、占有率マップとナビゲーショングラフを事前に収集して注釈付けできる(simでは46.8%、simでは55.9%)が、事前マッピングのない最も難しい環境ではずっと難しい(成功率22.5%)。

We study the challenging problem of releasing a robot in a previously unseen environment, and having it follow unconstrained natural language navigation instructions. Recent work on the task of Vision-and-Language Navigation (VLN) has achieved significant progress in simulation. To assess the implications of this work for robotics, we transfer a VLN agent trained in simulation to a physical robot. To bridge the gap between the high-level discrete action space learned by the VLN agent, and the robot's low-level continuous action space, we propose a subgoal model to identify nearby waypoints, and use domain randomization to mitigate visual domain differences. For accurate sim and real comparisons in parallel environments, we annotate a 325m2 office space with 1.3km of navigation instructions, and create a digitized replica in simulation. We find that sim-to-real transfer to an environment not seen in training is successful if an occupancy map and navigation graph can be collected and annotated in advance (success rate of 46.8% vs. 55.9% in sim), but much more challenging in the hardest setting with no prior mapping at all (success rate of 22.5%).
翻訳日:2022-09-28 22:15:08 公開日:2020-11-07
# テンプレート制御可能なキーワード-テキスト生成

Template Controllable keywords-to-text Generation ( http://arxiv.org/abs/2011.03722v1 )

ライセンス: Link先を確認
Abhijit Mishra, Md Faisal Mahbub Chowdhury, Sagar Manohar, Dan Gutfreund and Karthik Sankaranarayanan(参考訳) 本稿では,キーワードからテキストを生成するための新しいニューラルモデルを提案する。 このモデルは、順序のないキーワードのセットと、POS(Part-of-speech)ベースのテンプレート命令を入力として取ります。 これにより、任意の NLG セットアップにおける曲面実現に最適である。 このフレームワークはEncode-attend-decodeパラダイムに基づいており、まずキーワードとテンプレートをエンコードし、デコーダはエンコードされたキーワードとテンプレートから派生したコンテキストを巧みに参加して文を生成する。 モデルが大量のラベル付きデータをトレーニングし、キーワードとposベースのテンプレートが完全に自動的な手段で準備されるため、トレーニングは弱い監督を生かす。 各種ドメインで公開されているテストデータの質的および定量的なパフォーマンス分析により、最先端のニューラルマシン翻訳と制御可能な転送技術を用いて構築されたベースラインよりも、システムの優位性を明らかにする。 我々のアプローチは入力キーワードの順序に無関係である。

This paper proposes a novel neural model for the understudied task of generating text from keywords. The model takes as input a set of un-ordered keywords, and part-of-speech (POS) based template instructions. This makes it ideal for surface realization in any NLG setup. The framework is based on the encode-attend-decode paradigm, where keywords and templates are encoded first, and the decoder judiciously attends over the contexts derived from the encoded keywords and templates to generate the sentences. Training exploits weak supervision, as the model trains on a large amount of labeled data with keywords and POS based templates prepared through completely automatic means. Qualitative and quantitative performance analyses on publicly available test-data in various domains reveal our system's superiority over baselines, built using state-of-the-art neural machine translation and controllable transfer techniques. Our approach is indifferent to the order of input keywords.
翻訳日:2022-09-28 22:08:49 公開日:2020-11-07
# 機械学習のためのユニバーサルアクティベーション関数

Universal Activation Function For Machine Learning ( http://arxiv.org/abs/2011.03842v1 )

ライセンス: Link先を確認
Brosnan Yuen, Minh Tu Hoang, Xiaodai Dong, and Tao Lu(参考訳) 本稿では、量子化、分類、強化学習(RL)問題において、ほぼ最適な性能を達成するユニバーサルアクティベーション関数(UAF)を提案する。 任意の問題に対して、最適化アルゴリズムは、UAFのパラメータをチューニングすることで、UAFを適切なアクティベーション関数に進化させることができる。 CIFAR-10分類とVGG-8では、UAFはMishと同様のアクティベーション関数に収束し、他のアクティベーション関数と比較すると、F_{1} = 0.9017\pm0.0040$である。 30dBの信号-雑音比(SNR)環境における9-ガス混合シミュレーションの定量化のために、UAFは恒等関数に収束し、最大根平均二乗誤差は0.4888 \pm 0.0032$$\mu M$である。 BipedalWalker-v2 RLデータセットでは、UAFは961 \pm 193$ epochsで250の報酬を達成した。 さらに、UAFはBipedalWalker-v2 RLデータセットの新たなアクティベーション関数に収束する。

This article proposes a Universal Activation Function (UAF) that achieves near optimal performance in quantification, classification, and reinforcement learning (RL) problems. For any given problem, the optimization algorithms are able to evolve the UAF to a suitable activation function by tuning the UAF's parameters. For the CIFAR-10 classification and VGG-8, the UAF converges to the Mish like activation function, which has near optimal performance $F_{1} = 0.9017\pm0.0040$ when compared to other activation functions. For the quantification of simulated 9-gas mixtures in 30 dB signal-to-noise ratio (SNR) environments, the UAF converges to the identity function, which has near optimal root mean square error of $0.4888 \pm 0.0032$ $\mu M$. In the BipedalWalker-v2 RL dataset, the UAF achieves the 250 reward in $961 \pm 193$ epochs, which proves that the UAF converges in the lowest number of epochs. Furthermore, the UAF converges to a new activation function in the BipedalWalker-v2 RL dataset.
翻訳日:2022-09-28 22:08:34 公開日:2020-11-07
# 混合容量アンサンブルを用いたデータセットバイアスのモデル化と識別の学習

Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles ( http://arxiv.org/abs/2011.03856v1 )

ライセンス: Link先を確認
Christopher Clark, Mark Yatskar, and Luke Zettlemoyer(参考訳) 多くのデータセットは、データ収集プロセスにおいて慣用性によって生成された偶発的相関を含むことが示されている。 例えば、文の補足データセットは、ほぼ全ての矛盾文が"not"という単語を含む場合、散発的な単語-クラス相関を持つことができ、画像認識データセットは、犬が常に屋内にいる場合、対物-背景相関を持つことができる。 本稿では,このようなデータセット固有のパターンを自動的に検出し,無視する手法を提案する。 提案手法は,高容量モデルを用いたアンサンブルで低容量モデルを訓練する。 トレーニング中、低いキャパシティモデルは比較的浅い相関を捉えることを学習し、それがデータセットバイアスを反映する可能性が高いと仮定する。 これにより、より高いキャパシティモデルが、より一般化すべきパターンに集中できるようになる。 モデルに条件付き独立性を持たせる新しい手法を導入することで、重複しないアプローチを確実に学習する。 重要なことは、私たちのアプローチは事前にバイアスを知る必要はないということです。 合成データセットの性能評価と,テキストエンタテインメントや視覚的質問応答,画像認識タスクの既知バイアスを利用したモデル解析のための4つのデータセットを構築した。 視覚的質問応答データセットの10ポイント向上を含む,すべての設定の改善を示す。

Many datasets have been shown to contain incidental correlations created by idiosyncrasies in the data collection process. For example, sentence entailment datasets can have spurious word-class correlations if nearly all contradiction sentences contain the word "not", and image recognition datasets can have tell-tale object-background correlations if dogs are always indoors. In this paper, we propose a method that can automatically detect and ignore these kinds of dataset-specific patterns, which we call dataset biases. Our method trains a lower capacity model in an ensemble with a higher capacity model. During training, the lower capacity model learns to capture relatively shallow correlations, which we hypothesize are likely to reflect dataset bias. This frees the higher capacity model to focus on patterns that should generalize better. We ensure the models learn non-overlapping approaches by introducing a novel method to make them conditionally independent. Importantly, our approach does not require the bias to be known in advance. We evaluate performance on synthetic datasets, and four datasets built to penalize models that exploit known biases on textual entailment, visual question answering, and image recognition tasks. We show improvement in all settings, including a 10 point gain on the visual question answering dataset.
翻訳日:2022-09-28 22:07:55 公開日:2020-11-07
# 介入領域適応

Interventional Domain Adaptation ( http://arxiv.org/abs/2011.03737v1 )

ライセンス: Link先を確認
Jun Wen, Changjian Shui, Kun Kuang, Junsong Yuan, Zenan Huang, Zhefeng Gong, Nenggan Zheng(参考訳) ドメイン適応(DA)は、ソースドメインからターゲットドメインに学習した差別的特徴を転送することを目的としている。 DA手法の多くは、ドメイン不変学習による特徴伝達可能性の向上に重点を置いている。 しかしながら、ソース固有の特徴の一部がカテゴリラベルと相関する散発的な相関によって、ソース主導の識別可能性自体が偏り、安全に転送できないように調整される可能性がある。 標準領域不変学習はそのような相関に悩まされ、ソース固有性を誤って転送する。 この問題に対処するために,ラベルなしのターゲットデータを用いた特徴判別の学習に介入し,ドメイン固有の部分を取り除き,安全に転送できるようにする。 具体的には,ドメイン固有部分とドメイン共有部分とを識別する対物的特徴を,新たな機能介入戦略によって生成する。 ドメイン特化の出現を防ぐため、特徴識別性は、ドメイン特化の反事実的特徴の変異に不変であるように訓練される。 典型的な \emph{one-to-one} 非教師なしのドメイン適応とドメイン非依存な適応タスクの実験では、最先端のアプローチよりも一貫した性能改善が行われ、学習された識別機能はより安全に転送可能であり、新しいドメインにうまく一般化できることが確認された。

Domain adaptation (DA) aims to transfer discriminative features learned from source domain to target domain. Most of DA methods focus on enhancing feature transferability through domain-invariance learning. However, source-learned discriminability itself might be tailored to be biased and unsafely transferable by spurious correlations, \emph{i.e.}, part of source-specific features are correlated with category labels. We find that standard domain-invariance learning suffers from such correlations and incorrectly transfers the source-specifics. To address this issue, we intervene in the learning of feature discriminability using unlabeled target data to guide it to get rid of the domain-specific part and be safely transferable. Concretely, we generate counterfactual features that distinguish the domain-specifics from domain-sharable part through a novel feature intervention strategy. To prevent the residence of domain-specifics, the feature discriminability is trained to be invariant to the mutations in the domain-specifics of counterfactual features. Experimenting on typical \emph{one-to-one} unsupervised domain adaptation and challenging domain-agnostic adaptation tasks, the consistent performance improvements of our method over state-of-the-art approaches validate that the learned discriminative features are more safely transferable and generalize well to novel domains.
翻訳日:2022-09-28 22:07:34 公開日:2020-11-07
# NLP-CIC @ DIACR-Ita: POSと近傍分布モデルによるダイアクロニックイタリアコーパスの語彙的意味変化

NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for Lexical Semantic Change in Diachronic Italian Corpora ( http://arxiv.org/abs/2011.03755v1 )

ライセンス: Link先を確認
Jason Angel, Carlos A. Rodriguez-Diaz, Alexander Gelbukh, Sergio Jimenez(参考訳) EVALITA 2020において,DIACR-Ita共有タスクにおけるイタリア語の語彙的意味変化に関するシステムと知見を述べる。 そのタスクは、目的語が時間とともにその意味を進化させたかどうかを判断することであり、2つの時間固有のデータセットからの生文のみに依存する。 本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。 私たちの最初のモデルは、一部使用と距離測定のアンサンブルのみに依存しています。 第2のモデルは単語埋め込み表現を用いて、空間をまたいだ隣人の相対距離を抽出し、語彙的意味変化を推定するために「絶対差の平均」を提案する。 我々のモデルは、DIACR-Itaコンペで3位にランクインした。 さらに、第2モデルのk_neighborパラメータを用いて、「絶対差の平均」を用いることによる影響と、ハミルトンらによるコサイン距離(2016年)を比較検討した。

We present our systems and findings on unsupervised lexical semantic change for the Italian language in the DIACR-Ita shared-task at EVALITA 2020. The task is to determine whether a target word has evolved its meaning with time, only relying on raw-text from two time-specific datasets. We propose two models representing the target words across the periods to predict the changing words using threshold and voting schemes. Our first model solely relies on part-of-speech usage and an ensemble of distance measures. The second model uses word embedding representation to extract the neighbor's relative distances across spaces and propose "the average of absolute differences" to estimate lexical semantic change. Our models achieved competent results, ranking third in the DIACR-Ita competition. Furthermore, we experiment with the k_neighbor parameter of our second model to compare the impact of using "the average of absolute differences" versus the cosine distance used in Hamilton et al. (2016).
翻訳日:2022-09-28 22:06:52 公開日:2020-11-07
# NLP-CIC @ PreLEARN: 手作り機能から埋め込みまで、前提条件関係をマスターする

NLP-CIC @ PRELEARN: Mastering prerequisites relations, from handcrafted features to embeddings ( http://arxiv.org/abs/2011.03760v1 )

ライセンス: Link先を確認
Jason Angel, Segun Taofeek Aroyehun, Alexander Gelbukh(参考訳) EVALITA 2020において,前提条件付き関係学習タスク(PRELEARN)のシステムと成果を報告した。 このタスクは、概念のペアが前提条件を持つかどうかを分類することを目的としている。 我々は、手作りの機能とドメイン内およびドメイン間シナリオの埋め込み表現を用いて問題をモデル化する。 F1スコアが0.887点、0.690点の2つのシナリオでそれぞれ1位にランクインした。 コードを自由に利用できるようにしました。

We present our systems and findings for the prerequisite relation learning task (PRELEARN) at EVALITA 2020. The task aims to classify whether a pair of concepts hold a prerequisite relation or not. We model the problem using handcrafted features and embedding representations for in-domain and cross-domain scenarios. Our submissions ranked first place in both scenarios with average F1 score of 0.887 and 0.690 respectively across domains on the test sets. We made our code is freely available.
翻訳日:2022-09-28 22:06:35 公開日:2020-11-07
# AlphaMWE:MWEアノテーションを用いた多言語並列コーパスの構築

AlphaMWE: Construction of Multilingual Parallel Corpora with MWE Annotations ( http://arxiv.org/abs/2011.03783v1 )

ライセンス: Link先を確認
Lifeng Han, Gareth Jones, Alan Smeaton(参考訳) 本稿では,マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。 MWEには、PPARSEME共有タスクで定義された動詞MWE(vMWEs)が含まれ、研究された用語の先頭に動詞を持つ。 注釈付き vMWE もバイリンガルかつ多言語対応である。 対象言語は英語、中国語、ポーランド語、ドイツ語である。 私たちのオリジナルの英語コーパスは2018年のparseme共有タスクから取り出されています。 このソースコーパスの機械翻訳を行い,人間のポスト編集とターゲットmweのアノテーションを行った。 エラー制限には厳密な品質管理が適用され、各mt出力文は第1の手動ポスト編集とアノテーションと第2の手動品質再チェックを受けた。 コーポラ準備中の知見の1つは、mwesの正確な翻訳がmtシステムに困難をもたらすことである。 MTのさらなる研究を容易にするため,MT系がMWE関連翻訳を行う際に遭遇する誤りの分類について述べる。 MT問題を広く把握するために、我々は、Microsoft Bing Translator、GoogleMT、Baidu Fanyi、DeepL MTの4つの一般的な最先端MTモデルを選択した。ノイズ除去、翻訳ポスト編集、MWEアノテーションにより、我々のAlphaMWEデータセットはMTや情報抽出のような言語横断的・多言語的な研究のための資産となると信じている。 我々の多言語コーパスはgithub.com/poethan/AlphaMWEでオープンアクセス可能である。

In this work, we present the construction of multilingual parallel corpora with annotation of multiword expressions (MWEs). MWEs include verbal MWEs (vMWEs) defined in the PARSEME shared task that have a verb as the head of the studied terms. The annotated vMWEs are also bilingually and multilingually aligned manually. The languages covered include English, Chinese, Polish, and German. Our original English corpus is taken from the PARSEME shared task in 2018. We performed machine translation of this source corpus followed by human post editing and annotation of target MWEs. Strict quality control was applied for error limitation, i.e., each MT output sentence received first manual post editing and annotation plus second manual quality rechecking. One of our findings during corpora preparation is that accurate translation of MWEs presents challenges to MT systems. To facilitate further MT research, we present a categorisation of the error types encountered by MT systems in performing MWE related translation. To acquire a broader view of MT issues, we selected four popular state-of-the-art MT models for comparisons namely: Microsoft Bing Translator, GoogleMT, Baidu Fanyi and DeepL MT. Because of the noise removal, translation post editing and MWE annotation by human professionals, we believe our AlphaMWE dataset will be an asset for cross-lingual and multilingual research, such as MT and information extraction. Our multilingual corpora are available as open access at github.com/poethan/AlphaMWE.
翻訳日:2022-09-28 22:06:26 公開日:2020-11-07